Отправьте статью сегодня! Журнал выйдет ..., печатный экземпляр отправим ...
Опубликовать статью

Молодой учёный

Система идентификации диктора по голосу на основе GMM-UBM подхода

Информационные технологии
22.06.2019
549
Поделиться
Библиографическое описание
Система идентификации диктора по голосу на основе GMM-UBM подхода / В. С. Костыренко, А. В. Мазова, И. А. Власов [и др.]. — Текст : непосредственный // Молодой ученый. — 2019. — № 25 (263). — С. 27-31. — URL: https://moluch.ru/archive/263/61028/.


Статья посвящена задаче текстонезависимой идентификации диктора по голосу. Рассматривается наиболее подходящий алгоритм, основанный на GMM-UBM системе, применимый к малым объемам голосовых данных, что наиболее часто встречается на практике. Проводится тестирование и оценка системы.

Ключевые слова: GMM, UBM, MFCC, идентификация по голосу.

Задача идентификации по голосу изучается уже больше 40 лет. Поиск наиболее эффективного решения этой задачи имеет большую важность для таких сфер деятельности, как, например, банковское дело и криминалистика. В первом случае технология распознавания по голосу позволит отойти от таких старых методов, как кодовые слова, и не заставит прерывать беседу между клиентом и работником банка. Во втором случае эта технология может применяться для идентификации подозреваемых по записи.

Обычно нет возможности получить достаточно много голосовых данных для одного человека, чтобы использовать системы с высокой точностью, такие как нейронные сети, поскольку приходилось бы растягивать разговор, что было бы неудобно, например, для клиента банка. Поэтому делается акцент на разработке системы, применимой к малому объему исходных данных.

Процесс идентификации можно разделить на три этапа:

  1. Предварительная обработка данных;
  2. Вычисление голосовых признаков;
  3. Применение алгоритма идентификации и верификации.

Каждый этап играет большую роль во всей системе идентификации.

При предварительной обработке данных с записи необходимо удалить те участки, на которых отсутствует голос диктора, что позволить сократить влияние шума на результат идентификации (рисунок 1).

Рис. 1. Сигнал до и после удаления шумов и пауз

Наиболее эффективными являются методы, основанные на энергии или на статистических данных шума. Все эти методы основаны на том, что в начале записи, когда человек еще не успел ничего сказать, присутствует только шум, который можно проанализировать.

Весь сигнал делится на отдельные равные участки, называемые фреймами. Затем, в случае с энергией, высчитывается энергия Ei каждого фрейма и среднее значение энергии для всей записи E. Если Ei < k * E, где k < 1, то на этом фрейме тишина. Значение k подбирается экспериментально [1].

Следующий этап — это превратить обработанную запись голоса в вектора признаков, которые будут в дальнейшем использоваться для обучения или идентификации.

Наиболее популярным выбором при работе со звуком являются мел-частотные кепстральные коэффициенты MFCC (Mel-Frequency Cepstral Coefficients) [2]. Особенностью данного подхода является полученного вектора характеристик от длины исходного сигнала и учет в нем разброса индивидуальных особенностей, говорящего. Схема расчета коэффициентов MFCC представлен на рисунке 2.

Рис. 2. Вычисление коэффициентов MFCC

  1. разбиваем на пересекающиеся фреймы;
  2. получаем спектр сигнала, применив к нему преобразование Фурье;
  3. раскладываем спектр по мел-шкале с помощью треугольных фильтров;
  4. возводим полученные значения в квадрат и логарифмируем — таким образом спектр будет больше соответствовать тому, как человек воспринимает звук;
  5. применяем к полученному набору коэффициентов дискретное косинусное преобразование, в результате чего получаем вектор MFСС.
  6. к вектору MFCC дополнительно высчитываем энергию, дельта и двойные дельта значения для каждого фрейма

После получения векторов признаков необходимо применить алгоритм идентификации и верификации. При идентификации мы находим диктора, наиболее близкого к тестовой записи, а при верификации принимаем решение, принадлежит ли тестовая запись группе дикторов, участвующих в обучении. Практическая интерпретация верификации заключается, например, в определении, зарегистрирован пользователь или нет.

Для реализации алгоритма идентификации используется GMM-UBM система. GMM (Gaussian Mixture Model) — это модель гауссовых смесей, которая будет представлять собой модель диктора. При таком подходе исходные данные представляются в виде кластеров, описываемых гауссианами (рисунок 3).

https://hsto.org/webt/ni/je/-m/nije-mrfqiykrrfykphnafbyr5w.png

Рис. 3. Модель гауссовых смесей

Модель гауссовых смесей определяется векторами математического ожидания , ковариационной матрицей ∑, векторами весов и количеством компонент смеси M. Для определения первых трех значений используется обучение с помощью алгоритмов k-средних и EM (Expectation Maximization) методом максимального правдоподобия [3].

UBM (Universal Background Model) — это GMM, обученная на относительно большом количестве голосовых данных. При GMM-UBM подходе модели отдельных дикторов обучаются с помощью MAP адаптации (Maximum A-Posteriori Adaptation) [4]. При таком подходе смещаются математические ожидания в сторону новых данных. Преимуществом UBM является быстрая адаптация новых дикторов и требования небольшого количества данных для этого.

Для идентификации диктора сначала необходимо найти модель, наиболее близкую к тесовой записи.

Здесь — соответственно значения весов, математических ожиданий и ковариационных матриц модели, а в качестве обозначается модель, — вектор признаков. М — количество компонент гауссовой смеси, D — размерность вектора признаков.

После нахождения наиболее близкой модели необходимо отнести запись к зарегистрированному или незарегистрированному пользователю. Для этого рассчитывается следующий показатель:

На основе сравнения этого значения с порогом и принимается решение о тестируемом дикторе.

Для тестирования построенной системы идентификации был собран набор из 100 дикторов. С помощью метода скользящего контроля были получены следующие метрики оценки качества системы.

Для этого определим следующую матрицу ошибок (таблица 1):

Таблица 1

Матрица ошибок

Зарегистрированные

Незарегистрированные

Приняты системой

TP (true positives) = 95

FN (false negatives) = 44

Не приняты системой

FP (false positives) = 5

TN (true negative) = 356

Пусть P = TP + FN, N = TN + FP, P' = TP + FP, N' = FN + TN. Тогда, на основе этих значений можно получить значения следующих мер качества:

− Точность (accuracy)

− Полнота (recall)

− Точность (precision)

− F — мера

Построенная система позволяет достаточно точно идентифицировать зарегистрированного диктора, однако допускает ошибки при принятии решения о незарегистрированном. Для дальнейшего улучшения системы необходимо рассмотреть и другие методы предобработки, вычисления голосовых признаков и построения модели дикторов, применимых к малому объему данных.

Литература:

  1. Verteletskaya, E., and Sakhnov, K. Voice activity detection for speech enhancement applications // Acta Polytechnica. 2010. № 50, 4.
  2. S. Davis, P. Mermelstein Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. // IEEE transactions on acoustics, speech, and signal processing. 1980. № 28, 4. С. 357–366.
  3. Jeff A. Bilmes A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models // International Computer Science Institute Berkeley CA. 1998. С. 7–13.
  4. Reynolds, D. A., Quatieri, T. F., Dunn, R. B. Speaker verification using adapted gaussian mixture models // Digital signal processing. 2000. № 10, 1. С. 19–41.
Можно быстро и просто опубликовать свою научную статью в журнале «Молодой Ученый». Сразу предоставляем препринт и справку о публикации.
Опубликовать статью
Ключевые слова
GMM
UBM
MFCC
идентификация по голосу
Молодой учёный №25 (263) июнь 2019 г.
Скачать часть журнала с этой статьей(стр. 27-31):
Часть 1 (стр. 1-89)
Расположение в файле:
стр. 1стр. 27-31стр. 89

Молодой учёный