WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 |

Подход, основанный на формировании отношения правдоподобия, предлагает рассматривать задачу оценки достоверности результата распознавания с точки зрения проблемы проверки гипотез. Пусть имеются распознанное слово и соответствующая ему последовательность векторов признаков, тогда рассмотрим 2 гипотезы:

: последовательность векторов признаков является реализацией слова.

: последовательность векторов признаков не является реализацией слова и была некорректно распознана как слово.

и соответствующее отношение правдоподобия:

Если значение больше значения порога, то принимается гипотеза, в противном случае принимается гипотеза. Таким образом, при известных вероятностях и можно определить, является ли слово на выходе из распознавателя корректно распознанным. Чтобы использовать решение на основе отношения правдоподобия, для каждого слова из словаря системы строятся 2 акустические модели: (целевая модель) и (альтернативная модель) такие, что и для любого сегмента сигнала. Основная проблема методов, основанных на использовании отношении правдоподобия, заключается в удачном выборе и моделировании альтернативных моделей. Это объясняется тем, что множество акустических событий, которые должны моделироваться альтернативными моделями обычно очень большое.

Подход, основанный на построении отношения правдоподобия, представляется наиболее перспективным для решения проблемы построения оценок достоверности.

Во второй главе представлены предложенные в диссертации методы формирования оценок достоверности для систем распознавания речи, которые относятся к классу методов на основе построения отношения правдоподобия. В отличие от существующих методов данного класса, где отношения правдоподобия вычисляются для каждого слова или части слова, в работе предлагается использовать значения отношения правдоподобия на уровне отдельных векторов признаков.

Пусть дана система распознавания речи, основанная на вероятностном подходе с использованием скрытых Марковских моделей (СММ). Тогда для последовательности векторов признаков, распознанной как слово, можно однозначно найти оптимальную последовательность состояний СММ в соответствии с соотношением

где - параметры СММ для слова, - вероятность начального состояния, вероятность появления вектора признаков в состоянии, - вероятность перехода от состояния к состоянию. Таким образом, каждый вектор признаков ассоциируется с некоторым состоянием.

Предлагается определить целевую и альтернативную модели и, соответственно, для состояния следующим образом:

где и - распределения, являющиеся смесями нормальных распределений

здесь и - веса нормальных распределений, которые удовлетворяют условиям ; - нормальное распределение со средним и дисперсией.

Согласно правилу принятия решения по максимуму апостериорной вероятности, принимается гипотеза о корректном распознавании последовательности векторов признаков, если

В противном случае, последовательность векторов признаков считается некорректно распознанной.

Введено определение элементарной функции достоверности на уровне вектора признаков

Предлагается следующий метод формирования оценки достоверности, названный одноуровневым методом, на основе средних значений элементарных функций достоверности:

где - весовые коэффициенты, удовлетворяющие условию.

Для системы распознавания речи с большим объемом словаря акустические модели, как правило, строятся для контексто-зависимых реализаций фонем или фонов. Поэтому, кроме распознанного слова, на выходе из декодера также определена соответствующая ему последовательность образующих фонов. Тогда для слова, состоящего из фонов (), оценка достоверности формируется как арифметическое или геометрическое среднее оценок достоверности для составляющих его фонов:

где - оценка достоверности для фона и соответствующей последовательности векторов признаков, которая вычисляется с помощью предложенного одноуровневого метода. Предложенный, таким образом, метод формирования оценок достоверности для слова называется двухуровневым методом.

Различия между одноуровневым и двухуровневым методами формирования оценок достоверности для слов наглядно представлены на следующем рисунке.

Рисунок 1. Схемы формирования одноуровневых и

двухуровневых оценок достоверности.

Для каждой пары моделей и определена дискриминационная величина

где и - среднее и дисперсия значений элементарной функции векторов признаков выборки ; и - выборки векторов признаков, которые определяются следующим образом: пусть имеется выборка из последовательностей векторов признаков, где, и каждая из последовательностей векторов признаков распознана декодером как слово с соответствующей оптимальной последовательностью состояний. Выборка считается большой и содержит достаточное количество как корректно распознанных, так и некорректно распознанных последовательностей векторов признаков для каждого слова словаря системы распознавания речи. Для каждой пары определим функцию

Тогда

Предлагается использовать следующий способ задания значений весовых коэффициентов:

(1)

где - числовой параметр.

Обучение целевых и альтернативных моделей состоит в нахождении значений их параметров согласно критерию обучения. К числу параметров каждой целевой или альтернативной модели, которые подлежат нахождению, относятся размерность модели (т.е. количество смесей нормальных распределений), веса, средние и дисперсии смесей. Обучение проводится на выборках векторов признаков и. Для каждого вектора признаков выборки считается, что имеет место ошибка, если. Аналогично для каждого вектора признаков выборки имеет место ошибка, если. Обучение целевых и альтернативных моделей предлагается проводить отдельно для каждой пары таким образом, чтобы сумма частот ошибок была минимальной, т.е.

где

, - числовые параметры, выбираемые в зависимости от значения.

Показано, что обучение моделей согласно выбранному критерию можно осуществлять с помощью метода градиентного спуска. Однако данный метод обладает некоторыми недостатками. Первым недостатком, свойственным алгоритму градиентного спуска, является зависимость вычисленных значений параметров от начального приближения. Второй недостаток заключается в том, что необходимо заранее выбрать число компонентов смесей нормальных распределений, которые будут использованы для описания распределений и.

В диссертационной работе предложен улучшенный алгоритм оценки параметров моделей, который позволяет решить проблемы выбора размерности моделей и начального приближения. Идея алгоритма заключается в следующем. Имея целевую и альтернативную модели, распределения и которых являются смесями нормальных распределений из и компонентов, попытаться увеличить или на единицу с целью уменьшения значения функционала. На начальном шаге алгоритма распределения и описываются однокомпонентными смесями, т.е..

Для реализации алгоритма предложен способ генерирования новой модели из имеющейся модели, где распределения и являются смесями из и компонентов, соответственно:

Генератор новой модели зависит от выборки векторов признаков и параметра, т.е..

Обозначим через множество векторов признаков, где

С помощью метода k-средних находим значения векторов и, которые минимизируют сумму

где. Начальные значения векторов и задаются следующим образом

где - вектор, элементы которого являются достаточно малыми числами.

В качестве начальных значений параметров модели берутся

Окончательные значения параметров модели получаются в результате применения алгоритма EM (expectation maximization) для того, чтобы максимизировать функцию правдоподобия

Ниже приводится пошаговое описание предлагаемого алгоритма обучения целевой и альтернативной моделей для некоторого состояния СММ.

Алгоритм обучения целевой и альтернативной моделей.

1. Инициализировать модели и, где

и установить

2. Для всех выполнять

3. Установить

4. Если, то установить

5. Если и, то закончить алгоритм с моделями и для целевой и альтернативной модели соответственно. Иначе перейти к шагу 2.

В третьей главе приведены результаты практического применения предложенных в работе методов и алгоритмов.

Приведено описание корпуса речевых данных FaVoR, на котором выполнялись практические применения. FaVoR содержит записи слитной речи 1673 дикторов. Все записи корпуса оцифрованы с частотой дискретизации 22,050 кГц и хранятся в файлах формата Microsoft Wave. Словарь корпуса состоит из 14 слов и содержит цифры от 0 до 9, и служебные слова «да», «нет», «старт» и «стоп». Корпус FaVoR записан в естественной, достаточно шумной акустико-фоновой обстановке (среднее отношение сигнал/шум равно 15 дБ), с присутствием значительного количества различных незнакомых слов и экстралингвистических событий (кашель, заполненные паузы, смех и т.п.).

Описаны модули базовой системы распознавания речи, основанной на вероятностном подходе. Модуль извлечения признаков преобразует входной речевой сигнал в последовательность векторов признаков, состоящих из 13 мелкепстральных коэффициентов, логарифма энергии, их первых и вторых производных. Для акустического моделирования речевого потока был выбран подход на основе построения т.н. контекстно-зависимых моделей звуков речи, которые моделировались с помощью СММ. Приведены результаты работы базовой системы распознавания на настроечной и тестовой выборках.

Проведено обучение целевых и альтернативных моделей предложенным методом обучения со значением минимальной суммы компонентов смесей и значением. Для вычисления значения функции ошибки параметры и установлены равными 1 и 0, соответственно. При анализе результатов обучения целевых и альтернативных моделей установлено, что значения дискриминационных величин для каждого отдельного слова имеют тенденцию к убыванию на краях реализации слова, что подтверждает известный эмпирический подход к взвешиванию оценок правдоподобия данных для отдельных кадров анализа. На следующем рисунке представлен график зависимости значения дискриминационных величин от состояния для слов «Два», «Три» и «Семь».

Рисунок 2. График зависимости значения дискриминационной

величины от состояния.

Проведено сравнение эффективности предложенного в работе алгоритма обучения целевых и альтернативных моделей с алгоритмом градиентного спуска. Результаты показали, что предложенный алгоритм обучения обеспечивает лучший выбор количества смесей целевых и альтернативных моделей. Типичные результаты обучения на примере одного из состояний СММ представлены в следующей таблице.

Алгоритм

обучения

Минимум

Максимум

Среднее

Градиентный

спуск

4

4

0.095566

0.156027

0.111625

4

8

0.022771

0.088676

0.050130

6

6

0.028989

0.116700

0.067049

8

8

0.023937

0.095824

0.053019

Предлагаемый

алгоритм

4

8

0.01556

Проведены исследования эффективности предложенных методов формирования оценок достоверности. Для случаев, когда весовые коэффициенты вычислялись при (1), получены следующие показатели эффективности: равная частота ошибок первого и второго EER составляла 12.045, общая частота ошибок CER=2.746. Проведены эксперименты по нахождению значения числового параметра, при котором показатель равной частоты ошибок является наименьшим. Получен показатель EER=11.911. Аналогичные эксперименты проведены для показателя CER, которые позволили получить значение CER=2.533. Анализ результатов применения показал, что двухуровневый метод формирования оценок достоверности превосходит одноуровневый метод. В следующей таблице представлены сравнительные результаты применения предложенной в работе оценки достоверности и известных современных оценок достоверности.

Оценка достоверности

Относительное улучшение показателя CER (%)

Элементарная

0.9%

На основе апостериорных вероятностей

21.7%

На основе отношения правдоподобия

9.0%

Предлагаемая

31.0%

Результаты показывают, что по сравнению с известными оценками достоверности, предложенные в работе оценки достоверности обладают более высокой эффективностью.

Pages:     | 1 || 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»