WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     || 2 | 3 |

На правах рукописи

Нгуен Минь Туан

РАЗРАБОТКА АЛГОРИТМОВ ПОСТРОЕНИЯ ОЦЕНОК ДОСТОВЕРНОСТИ ДЛЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ

Специальность 05.13.11 – Математическое

и программное обеспечение вычислительных машин,

комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертация на соискание ученой степени

кандидата технических наук

Москва – 2008

Работа выполнена в Вычислительном центре им. А. А. Дородницына Российской академии наук

Научный руководитель:

кандидат физико-математических наук, в.н.с.

Чучупал Владимир Яковлевич

Официальные оппоненты:

доктор технических наук, с.н.с.

Бондарос Юлия Григорьевна

кандидат технических наук

Кринов Сергей Николаевич

Ведущая организация:

Институт проблем передачи информации РАН

Защита состоится « 18 »  декабря  2008г. в  15  часов на заседании диссертационного совета Д002.017.02 в Вычислительном центре им. А. А. Дородницына Российской академии наук по адресу: 119333, г. Москва, ул. Вавилова, 40, конференцзал.

С диссертацией можно ознакомиться в библиотеке ВЦ РАН.

Автореферат разослан «____» __________ 2008г.

Учёный секретарь

диссертационного совета

доктор физико-математических наук,

профессор

В. В. Рязанов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы.

Прогресс современного общества в значительной мере обусловлен развитием автоматических и роботизированных систем. Компьютеры и микропроцессоры стали неотъемлемым атрибутом жизни людей в индустриально развитых странах. Научно-техническая проблема создания адекватных средств для взаимодействия человека с компьютерными системами приобрела в последние десятилетия важный социальный статус.

Одним из наиболее очевидных и перспективных путей организации взаимодействия человека с компьютером является использование человеческой речи, в частности, автоматическое распознавание речевых сообщений. Исследования по автоматическому распознаванию речи начались более пятидесяти лет назад, в середине прошлого века и интенсивно продолжаются в настоящее время.

Несмотря на достигнутые успехи в создании методов и технологий, показатели эффективности систем распознавания речи (например, вероятность пословной ошибки распознавания) при применении в естественных условиях эксплуатации пока далеки от желаемых. Основная причина кроется в вариативности речевого сигнала, которая обуславливается, например, индивидуальными особенностями дикторов, характеристиками каналов связи, а также влиянием окружающей обстановки. На эффективность распознавания речи также оказывают существенное влияние условия прикладной области, в частности, состав и размер словаря. Обычно словарь системы распознавания является замкнутым, то есть содержит все слова, которые в принципе могут быть произнесены. Увеличение размера словаря, вообще говоря, снижает вероятность правильного распознавания.

Потребность распознавания естественной, неограниченной, по словарному составу, речи, приводит к тому, что требование правильного распознавания всего высказывания вряд ли осуществимо и обычно не требуется. Поскольку в данном случае словарь системы является открытым, необходимо предусмотреть возможность отказа от распознавания частей речевого высказывания, которые содержат новые, не входящие в словарь, выражения и слова. Таким образом, развитие речевой технологии в направлении анализа и распознавания естественной речи приводит к необходимости решения проблемы идентификации в речевом потоке новых, так называемых, не-словарных (OOV, «out of vocabulary») слов или иных акустических событий. Естественным способом решения этой проблемы является синтез оценок достоверности результатов распознавания, на основе значений которых можно, в частности, идентифицировать OOV.

Под оценкой достоверности («confidence measure») для некоторого результата распознавания речи, под которым может подразумеваться отдельное слово, звук или предложение, далее будет пониматься число, в интервале от 0 до 1, которое характеризует степень доверия или уверенности в правильности этого результата. При анализе результата распознавания оценка достоверности сравнивается с некоторым пороговым значением. Если её значение больше порога, то слово считается правильно распознанным. В противном случае соответствующая результату последовательность признаков считается незнакомым словом.

Применение оценок достоверности также повышает эффективность использования традиционных систем распознавания речи, которые оперируют с замкнутыми словарями. Часто эти системы используются как составная часть более крупных автоматических систем, например, управления робототехническими комплексами, доступа к информационным ресурсам и т.п. В этом случае существует возможность коррекции ошибок автоматического распознавания на основе дополнительной информации, которой располагает «большая» система. Такая коррекция возможна, если система распознавания речи предоставит расширенную информацию о результате распознавания, включающую не только предполагаемые слова, но и примерную оценку достоверности их распознавания.

Важность решения проблемы построения эффективных оценок достоверности для систем распознавания речи увеличивается по мере дальнейшего прогресса в области речевых технологий. Это обстоятельство определяет актуальность исследований в этом направлении.

Цель диссертационной работы.

Основная цель диссертационной работы заключалась в исследовании и разработке эффективных алгоритмов построения оценок достоверности для систем автоматического распознавания речи.

Для достижения этой цели в ходе выполнения диссертационной работы решались следующие основные задачи:

  1. Исследование существующих методов моделирования и автоматического распознавания речи, а также известных методов построения оценок достоверности для систем распознавания речи.
  2. Разработка новых методов и алгоритмов построения оценок достоверности результатов работы систем распознавания речи.
  3. Программная реализация предлагаемых алгоритмов и проведение экспериментальных исследований их эффективности.

Методы исследований.

В работе использовались методы математического анализа, методы цифровой обработки сигналов, теории распознавания образов, теории вероятностей, теории оптимизации и теории формальных языков.

Научная новизна.

Научная новизна диссертационной работы заключается в том, что предложен новый метод построения оценок достоверности для систем распознавания речи, который основан на построении дополнительных моделей для распределения признаков речевого сигнала. Разработаны алгоритмы оценивания значений параметров дополнительных моделей, а также выбора оптимального количества их параметров. Проведены экспериментальные исследования и получены численные значения показателей эффективности для предложенных оценок.

Практическая ценность диссертации.

Предложенный метод формирования оценок достоверности показал высокую эффективность при верификации результатов распознавания речи. Исследования были выполнены в рамках работ по проектам «Разработка и тестирование системы распознавания речевых команд управления в акустико-фоновой обстановке кабины пилота» и «Разработка и исследование методов распознавания речи на основе комбинированных моделей звуков» (гранты РФФИ № 06-08-1534 и № 07-01-00657).

Апробация работы.

Полученные в работе научные и практические результаты докладывались и обсуждались на XII Международной конференции «Речь и Компьютер» SPECOM’2007 (г. Москва, 2007 г.), на XIX сессии Российского Акустического Общества (г. Нижний Новгород, 2007 г.), на XIII Всероссийской конференции «Математические методы распознавания образов» (г. Санкт-Петербург, 2007 г.), на VII Открытом немецко-российском семинаре «Распознавание образов и понимание изображений» (г. Эттлинген, 2007 г.), а также на семинаре отдела математических проблем распознавания и методов комбинаторного анализа ВЦ РАН (г. Москва, 2008 г.).

Публикации.

По материалам диссертации опубликовано 6 печатных работ, в том числе одна в журнале, входящем в список изданий, рекомендованных ВАК РФ. Список опубликованных работ приведён в конце автореферата.

Структура и объём работы.

Диссертация состоит из введения, трёх глав, заключения, двух приложений и библиографического списка использованных источников из 85 наименований. Общий объём работы составляет 102 страницы, в том числе 13 рисунков и 20 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во Введении обоснована актуальность диссертационной работы, сформулированы цель и задачи исследования, аргументирована научная новизна исследований и показана практическая значимых полученных результатов. Дана краткая характеристика основных разделов диссертационной работы.

Первая глава является обзорной. В ней рассмотрены современные методы распознавания речи и оценивания достоверности результатов распознавания.

Проведен обзор вероятностного подхода к моделированию и распознаванию речи. Задача автоматического распознавания речи, на основе вероятностного подхода, сформулирована так: найти самое вероятное предложение (цепочку слов) языка, которое соответствует последовательности векторов признаков речевого высказывания, т.е.

Выделены основные компоненты (модули) систем распознавания речи: извлечения векторов признаков сигнала, акустико-фонетического моделирования, моделирования языка и декодирования. Извлечение векторов признаков речевого сигнала является первым этапом при распознавании речи. На этом этапе входной речевой сигнал преобразуется в набор векторов признаков, пригодных для дальнейшего анализа и обработки. В качестве системы признаков, используемой в численных экспериментах диссертационной работы, выбраны мел-кепстральные коэффициенты. Приведены обоснование выбора этой системы признаков и описание алгоритма формирования векторов признаков. Целью акустико-фонетического моделирования является оценка вероятности появления последовательности векторов признаков при заданной цепочке слов. Описана скрытая Марковская модель (СММ), которая является на сегодняшний день наиболее широко применяемым и эффективным подходом к проблеме построения акустической модели. Приведены критерии обучения СММ. Модель языка служит для описания пространства всех допустимых гипотетических предложений и оценки вероятности каждого предложения языка L. Рассмотрены методы построения модели языка с помощью формальных грамматик и статистических nграмм. Декодирование речевого сигнала заключается в поиске цепочки слов из множества допустимых цепочек слов языка. Приведено описание метода поиска, основанного на использовании алгоритма Витерби.

Рассмотрены способы измерения эффективности оценок достоверности. Эффективность оценок достоверности результатов распознавания часто оценивается в терминах ошибок первого и второго вида. Графический способ представления эффективности оценок достоверности состоит в построении характеристик DET («detection error trade-off») или ROC («receiver operating characteristic»). Также описаны скалярные показатели эффективности оценок достоверности, такие как равная частота ошибок первого и второго рода (EER, «equal error rate»), минимум сумы частот ошибок первого и второго рода (MTER, «minimum total error rate»), общая частота ошибок (CER, «classification error rate»).

Проведено исследование существующих алгоритмов построения оценок достоверности для систем распознавания речи. Оценки достоверности предложено условно разделить на три группы: элементарные оценки, оценки на основе апостериорных вероятностей и оценки на основе отношения правдоподобия.

К элементарным оценкам достоверности слова относится любая числовая характеристика, получаемая в процессе декодирования. Эти характеристики могут иметь акустическую или грамматическую природу. В качестве оценок достоверности берутся такие характеристики, у которых функция распределения вероятности для правильно распознанных слов существенно отличается от функции распределения вероятности для неправильно распознанных слов. Более хорошего результата можно достичь путем комбинирования нескольких, взаимно независимых характеристик. В то же время, экспериментально показано, что простые характеристики обладают высокой корреляционной зависимостью. Поэтому комбинирование простых характеристик часто не приводит к заметному повышению эффективности, по сравнению с использованием характеристик по отдельности. Методы, основанные на вычислении простых характеристик, просты и не требуют больших вычислительных ресурсов.

Методы формирования оценок достоверности второй группы заключаются в вычислении вероятности наблюдения последовательности векторов признаков. В этом случае в качестве оценки достоверности для слова используется апостериорная вероятность, которая вычисляется согласно формуле Байеса

где - соответствующая последовательность векторов признаков слова. На практике невозможно оценить точно значение. Имеются несколько алгоритмов, которые аппроксимируют значения с помощью списка из N лучших гипотез («N-best list») или словного графа («Word graph»). Таким образом, для применения методов, которые используют в качестве оценок правдоподобия апостериорные вероятности необходимо выполнить построение словного графа или списка N лучших гипотез. Построение словного графа или списка N лучших гипотез обычно приводит к большому объему вычислений.

Pages:     || 2 | 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»