WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


 

На правах рукописи

Марьев Александр Александрович

МЕТОДЫ И АЛГОРИТМЫ ПОВЫШЕНИЯ

ЭФФЕКТИВНОСТИ АВТОМАТИЧЕСКОГО ИНТОНАЦИОННОГО АНАЛИЗА РЕЧЕВЫХ СИГНАЛОВ

Специальности:

05.12.04 – Радиотехника, в том числе системы и устройства телевидения,

01.04.06 – Акустика

ДИССЕРТАЦИЯ

на соискание ученой степени кандидата технических наук

Таганрог – 2012

Работа выполнена на кафедре теоретических основ радиотехники Технологического института Южного федерального университета

в г. Таганроге

Научный руководитель:

доктор физико-математических наук, профессор В.П. Рыжов

Официальные оппоненты:

Ведущая организация:

       

Защита состоится «____» _____________ 2012 г. в ___:___ на заседании диссертационного совета Д 212.208.20 при Федеральном государственном автономном образовательном учреждении высшего профессионального образования «Южный федеральный университет» в Технологическом институте ЮФУ по адресу: пер. Некрасовский, 44, г. Таганрог, 347928

С диссертацией можно ознакомиться в Зональной научной библиотеке Южного федерального университета по адресу:

ул. Пушкинская, 148, г. Ростов-на-Дону, 344065.

Отзыв на автореферат, заверенный гербовой печатью организации, просим направлять по адресу:

пер. Некрасовский, 44, г. Таганрог, Ростовская область, ГСП-17А, 347928,

ТТИ ЮФУ, ученому секретарю диссертационного совета Д212.208.20.

Автореферат разослан «____» _____________ 2012 г.

Ученый секретарь

диссертационного совета к.т.н., доцент                        В.В. Савельев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ



Актуальность работы

Автоматический интонационный анализ речевых сигналов в настоящее время представляет собой обширную область научных исследований и инженерных разработок на стыке таких направлений, как радиотехника, акустика и психоакустика, системы искусственного интеллекта и распознавание образов, прикладная статистика, фонетика, лингвистика, психология, физиология.

Традиционно в задачах распознавания речи ставилась задача выделения и интерпретации семантической информации, т.е. смысла сказанного. В то же время, за несколько последних десятилетий существенно возрос интерес к интонационному анализу речи. Интонация является носителем просодической информации, сообщающей о том, в какой манере и с какими эмоциями речь была произнесена.

Среди приложений автоматического интонационного анализа стоит отметить такие, как:

  • разработка усовершенствованных методов взаимодействия (интерфейсов) человека с компьютером, использующих интонацию как один из способов передачи информации;
  • повышение надежности распознавания речи;
  • диагностика психоэмоционального состояния человека по голосу;
  • совершенствование профессиональных речевых навыков дикторов, работников контакт-центров и представителей иных профессий, в которых особую роль играет общение по речевым каналам связи;
  • разработка систем, обучающих правильному интонированию при обучении иностранных языков;
  • коррекционная педагогика, обучение детей правильному выражению эмоций с помощью голоса;
  • идентификация человека по голосу: установление личности говорящего, либо распознавание его пола, возраста, акцента и т.п.

В нашей стране интонационным анализом занимались и занимаются такие известные ученые, как Л.А. Чистович, В.П. Морозов, И.А. Алдошина, И.Б. Старченко и другие. Среди зарубежных ученых можно отметить имена Г. Фанта, У. Ли. Одной из крупнейших в мире научных школ, разрабатывающих в настоящее время вопросы автоматического интонационного анализа, является немецкая (Felix Burkhardt, Bjorn Schuller, Anton Batliner, Marc Schroeder и др.).

Решение задачи автоматического интонационного анализа сопряжено с существенными трудностями, многие из которых до сих пор в полной мере не преодолены. Первой из таких трудностей является субъективность интонационных характеристик, таких например, как состояние человека, эмоции, тип произношения. Под субъективностью понимается как изменчивость произношения у различных дикторов и у одного и того же диктора с течением времени, так и трудности формализации интонационных параметров и их объективного измерения.

Указанные сложности являются причиной того, что ни в одном из направлений интонационного анализа речи в настоящий момент не существует общепринятых моделей сигналов и интонаций, не стандартизованы способы измерений и алгоритмы обработки сигналов. И, хотя в ряде приложений достигнуты значительные успехи, получены важные результаты (например, в распознавании двух состояний оператора, идентификации пола диктора и др.), они в большинстве своем не носят фундаментального характера. В результате исследователи и разработчики систем автоматического интонационного анализа часто вынуждены в своей работе исходить из эвристических соображений, не имея достаточного количества априорной информации.

Существенным недостатком многих существующих методов обработки речевых сигналов, используемых в интонационном анализе, является формальность их подхода к задаче, недостаточный учет особенностей восприятия и обработки информации человеком. Таковы, к примеру, методы выделения частоты основного тона, основанные на полигармонической модели речевого сигнала, или методы распознавания, предполагающие линейную статистическую связь между интонацией и объективными характеристиками речевого сигнала.

В сложившейся ситуации возрастающего спроса на системы автоматического интонационного анализа для разнообразных приложений существует необходимость поиска новых подходов к решению данной задачи, которые бы обладали достаточной надежностью и универсальностью. Очевидно, для построения подобных систем необходимо более полно учитывать научные знания о человеке.

Объектом исследования являются речевые сигналы, содержащие интонационную (просодическую) информацию.

Предметом исследования являются методы обработки речевых сигналов, позволяющие извлекать просодическую информацию из речевого сигнала и интерпретировать ее.

Целью диссертационной работы является повышение эффективности выделения и интерпретации интонационной информации, содержащейся в речевом сигнале.

Основными задачами, которые требуется решить для достижения поставленной цели, являются:

  1. разработка метода определения минимального набора информативных признаков (характеристик) речевого сигнала, при котором возможно достижение приемлемого качества интонационного анализа;
  2. разработка методов измерения набора информативных характеристик речевого сигнала;
  3. разработка метода классификации интонаций, учитывающего особенности восприятия и обработки информации человеком;
  4. построение структуры и алгоритмов функционирования системы автоматического интонационного анализа, исследование эффективности автоматического интонационного анализа.

Научная новизна

В рамках диссертационной работы получены следующие новые научные результаты:

1.        Предложен метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования.

2.        Разработан метод адаптивного квантования значений признаков, представляющий собой кусочно-постоянное отображение области значений признаков, использующее оценки их статистических характеристик, полученные по обучающей выборке.

3.        Предложен трехэтапный метод снижения размерности пространства признаков речевого сигнала (отбора наиболее информативных признаков), основанный на информационной мере близости признаков, с выделением главных компонент на заключительном этапе.

4.        Разработан метод классификации интонаций, основанный на информационном подходе к задаче распознавания, оптимальный в смысле принципа максимума информации.

5.        Разработана структура системы автоматического интонационного анализа и алгоритмы ее функционирования, в том числе:

1)        алгоритм одновременного измерения параметров речевого сигнала в трех масштабах времени (фрагменты длительностью в десятки мс, отдельные вокализованные звуки, участки длительностью в единицы секунд);

2)        алгоритм адаптивного квантования значений признаков, позволяющий минимизировать потерю информативности признаков при их дискретизации;

3)        алгоритм выделения полносвязных групп признаков максимального размера по критерию средней взаимной информации между ними;

4)        алгоритм обучения классификатора, оптимального в смысле принципа максимума информации.

Практическая значимость работы

1.        Разработано программное обеспечение, в котором реализован метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования. Показано, что применение данного метода позволяет снизить вероятность появления на оценке траектории ЧОТ грубых случайных ошибок величиной более 20% в 2–40 раз, ошибок более 50% – в 3–300 раз по сравнению с семью популярными методами оценки траектории ЧОТ.

2.        Разработано программное обеспечение для автоматизированного решения задачи снижения размерности пространства признаков речевых сигналов в три этапа:

1)        отбор из первоначального множества признаков подмножества по критерию средней взаимной информации с вектором номеров классов (на основе заданного порога);

2)        объединение признаков из выбранного на первом этапе подмножества в группы максимального размера по критерию, в каждой из которых количество средней взаимной информации между каждыми двумя признаками превышает заданный порог; отбор одного признака из каждой группы;

3)        преобразование отобранных на втором этапе признаков по методу главных компонент, отбор N первых главных компонент по критерию совокупной дисперсии.

Для выполнения первых двух этапов выполнялось адаптивное квантование значений признаков по разработанному методу. Показана высокая эффективность разработанного программного обеспечения при решении задачи снижения размерности признакового пространства в задаче автоматического распознавания семи эмоциональных состояний по речевому сигналу: наибольшая средняя вероятность правильного распознавания 0,82 была достигнута при использовании 60-ти признаков из первоначального множества 878-ми признаков. В эксперименте с использованием только метода главных компонент для отбора признаков наибольшая средняя вероятность верного распознавания 0,55 была достигнута при использовании 760 признаков из того же первоначального множества.

Создана программная реализация системы автоматического интонационного анализа, использующей 16 признаков речевого сигнала классификатор, оптимальный в смысле принципа максимума информации либо классификатор типа kNN (распознавание по методу k ближайших соседей). Экспериментально показано, что относительно невысокая вычислительная сложность разработанных алгоритмов допускает распознавание интонаций в режиме реального времени при вычислениях на настольном ПК.

Установлено, что средняя вероятность правильного распознавания семи эмоциональных состояний диктора по речи составила 0,71 при отсутствии зависимости от диктора. В эксперименте использовалась Берлинская база записей эмоциональной речи. Ряд известных систем-аналогов при сопоставимых результатах различали меньшее число эмоциональных состояний (шесть). Средняя вероятность верного распознавания семи состояний в аналогичном исследовании составила 0,55 при использовании другого типа классификатора.





Методы исследования основаны на использовании аппарата математической статистики, теории информации, элементов теории графов и теории множеств. Использовались методы статистической радиотехники, акустики, цифровой обработки сигналов, прикладной статистики, теории эвристических решений, а также некоторые результаты из области психоакустики и физиологии. Проверка теоретических выводов производилась путем постановки и проведения эксперимента по распознаванию семи эмоциональных состояний на материале Берлинской базы записей эмоциональной речи.

Апробация работы

Основные результаты диссертационной работы докладывались и обсуждались на следующих научных конференциях и научных школах: международной научной конференции «Системы и модели в информационном мире», г. Таганрог, 2009; международной научной конференции «Методы и алгоритмы принятия эффективных решений», г. Таганрог, 2009; научной школе для молодежи «Нейробиология и новые подходы к искусственному интеллекту и науке о мозге», г. Таганрог, 2010; Всероссийской научной конференции «Современные исследовательские и образовательные технологии», г. Таганрог, 2010; Всероссийской научной конференции «Актуальные вопросы исследования общественных и технических систем», г. Таганрог, 2011; VII Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, г. Ростов-на-Дону, 2011; Всероссийской научной школе для молодежи «Фундаментальные, клинические и гигиенические основы и аппаратно-методическое обеспечение системы медико-психологической реабилитации пациентов, подверженных высокому уровню напряженности труда и профессионального стресса», г. Ростов-на-Дону, 2011; Всероссийской научной конференции «Перспективы развития гуманитарных и технических систем», г. Таганрог, 2011; VIII Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, г. Ростов-на-Дону, 2012; Всероссийской научной конференции «Актуальные проблемы современности: человек, общество, техника» г. Таганрог, 2012.

Внедрение результатов работы

Результаты диссертационной работы внедрены в госбюджетной работе № 11056/1 и учебном процессе кафедры теоретических основ радиотехники, а также при выполнении НИР по гранту Российского фонда фундаментальных исследований (проект №10-06-00110а).

Публикации

По результатам выполненных исследований опубликовано 12 работ, в том числе 2 статьи в рецензируемых журналах из списка ВАК РФ, 10 статей и тезисов докладов в материалах Всероссийских и международных научных конференций и научных школ.

Основные положения, выносимые на защиту

  1. В качестве объективных характеристик речевых сигналов предложено использовать временные, спектральные, статистические характеристики, параметры модели линейного предсказания и мел-частотные кепстральные коэффициенты а также производные от них статистические характеристики.
  2. Для отбора признаков целесообразно использование методов, основанных на средней взаимной информации как мере статистической связи между признаками и номерами классов, а также между различными признаками.
  3. Адекватным поставленной задаче автоматического интонационного анализа является критерий максимума средней взаимной информации, который использовался в качестве целевой функции при обучении классификатора.
  4. Для верификации разработанных методов и алгоритмов предложеноа методика эксперимента по распознаванию эмоционального состояния человека по речи с применением одной из общедоступных баз записей эмоциональной речи.

Структура и объем работы.

Диссертационная работа состоит из введения, четырех глав, заключения и списка использованных литературных источников, содержащего 100 наименований. Общий объем работы составляет 127 страниц машинописного текста, включая 15 рисунков и 8 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, обозначено современное состояние исследований в области автоматического интонационного анализа, сформулированы цели исследования, отражены научная новизна и практическая значимость полученных результатов, сформулированы основные положения, выносимые на защиту.

В первой главе произведена формальная постановка задачи автоматического интонационного анализа речи в классификационной форме. Приведены широко используемые математические модели речевых сигналов, обсуждена сущность процедуры отображения речевого сигнала в многомерное пространство параметров в виде точки или множества точек. Параметры в этом случае играют роль признаков речевого сигнала, на основании которых производится классификация.

Отмечено, что одним из главных факторов, сдерживающих в настоящее время развитие систем автоматического интонационного анализа, является существенный недостаток априорной информации о характере связи субъективных интонационных характеристик с объективными характеристиками речевых сигналов.

Приведена наиболее употребимая на сегодня методика разработки систем автоматического интонационного анализа, в которой используется метод последовательных приближений и которая позволяет при помощи эвристических предположений и специальных процедур свести задачу автоматического интонационного анализа к задаче обучения с учителем, несмотря на существенный недостаток априорной информации.

Эвристические предположения используются на этапе определения множества признаков речевого сигнала, содержащего подмножество признаков, информативных в конкретной задаче интонационного анализа. После определения первоначального множества параметров производится выбор или разработка методов их измерения с точностью, достаточной в рамках конкретной задачи.

Специальные процедуры снижения размерности пространства признаков используются для выделения минимального и достаточного набора информативных признаков из первоначально определенного множества.

После решения задачи отбора минимального и достаточного набора признаков производится обучение классификатора на заранее сформированной обучающей выборке, содержащей множество речевых сигналов, в которых представлены типы интонаций, которые требуется различать.

Для проверки качества работы системы с данным набором признаков производится эксперимент по оценке качества  распознавания интонаций обученным классификатором. Критерий качества определяется спецификой задачи (средняя вероятность верного распознавания, максимальная вероятность неправильного распознавания и т.д.).

В случае достижения приемлемых результатов задача разработки метода интонационного анализа считается решенной, в случае неудовлетворительных результатов возвращаются к этапу отбора признаков из первоначального множества.

Отмечено, что на каждом из перечисленных этапов существуют проблемы требующие решения. На этапе измерения параметров это сложность оценки одного из важных параметров речевого сигнала – частоты основного тона – вследствие отсутствия достаточно надежных и быстрых методов. Среди методов снижения размерности пространства признаков также сложно в общем случае найти адекватный поставленной задаче. Наконец, популярные сегодня методы классификации не учитывают особенностей восприятия и обработки информации человеком, что сказывается качестве распознавания интонаций.

На основании приведенных рассуждений сделан вывод о необходимости поиска новых подходов, разработки новых методов и алгоритмов для повышения эффективности автоматического интонационного анализа речевых сигналов.

Во второй главе предложен информационный подход к задаче классификации, основанный на работах Г.А. Голицына,  который предложил информационную модель живого организма и принцип максимума  (средней взаимной)  информации. В соответствии с этим принципом универсальным мотивом при адаптации биологических систем к условиям среды является стремление к максимизации количества средней взаимной информации между разнообразием стимулов среды и разнообразием реакций организма :

max.

В данном подходе используется расширенная трактовка понятия вероятности, предложенная А.Н. Колмогоровым (вероятность как относительная частота, доля, концентрация и т.п.). Приведенное выражение может быть непосредственно использовано в качестве целевой функции обучения классификатора в случае распознавания по одному признаку. Вероятности значений признакa p(xi) рассчитываются на основе результатов измерений, вероятности принадлежности к классам p(yj) задаются учителем.  Суть обучения заключается в подстройке совместных вероятностей p(xi,yj), хранящихся в памяти классификатора таким образом, чтобы максимизировалось количество средней взаимной информации I(X,Y). В случае N признаков память классификатора представляет собой (N+1)-мерную таблицу совместных вероятностей.

Таким образом, целевая функция обучения в случае многих признаков может быть записана в виде:

.

Понятие средней взаимной информации, строго говоря, применимо лишь к случаю двух случайных величин. Р. Фано предложил способ обобщения на многомерный случай, но полученная величина не обладает всеми свойствами средней взаимной информации, а предложенные выражения обладают неприемлемой вычислительной сложностью. Поэтому была использована аппроксимация:

Была предложена модель обучения для случая предъявления векторов вероятностей признаков c одним ненулевым (а значит, единичным) значением – т.е. для случая, когда каждый параметр каждого объекта в обучающей выборке принимает одно фиксированное значение. Модель описывается дифференциальным уравнением:

,

где p(xj1,…, xj1­,yj0) – совместная вероятность (ячейка памяти), соответствующая ненулевым значениям в векторах вероятностей признаков;

a(t) – «внимание» системы, изменяющееся по закону:

Полученная оптимизационная задача решалась численным методом. При этом остальные вероятности изменялись в направлении градиента целевой функции с нормировкой вероятностей после каждого шага алгоритма.

Задача классификации в рамках данного подхода также может быть представлена в виде оптимизационной задачи, однако к классификации, как правило, предъявляются более строгие требования в плане быстродействия. В связи с этим было решено заменить решение оптимизационной задачи процедурой расчетов вероятностей принадлежности к каждому классу методом максимального правдоподобия:

.

Приведенное выражение можно рассматривать как обобщение формулы Байеса на случай, когда несколько событий одновременно происходят с некоторыми, не обязательно единичными вероятностями.

Для преобразования вероятностей принадлежности к классам в гипотезу о принадлежности единственному классу возможно использование методов проверки статистических гипотез, применяемых в статистической радиотехнике.

В третьей главе представлены результаты разработки архитектуры системы автоматического интонационного анализа и алгоритмов ее функционирования. В данном случае решалась задача распознавания эмоционального состояния человека по его речи, однако полученные выводы применимы и для других приложений интонационного анализа. Предложенная структурная схема системы приведена на рис. 1.

Рис. 1 – Структурная схема системы интонационного анализа, использующей классификатор, оптимальный в смысле ПМИ. Обозначения: ИС – источник сигнала; БИ – блок измерителей; ПП – преобразователь параметров; К – классификатор; УВ – устройство вывода

Под источником сигнала (ИС) понимается источник отсчетов оцифрованного речевого сигнала, получаемого в режиме «реального времени», либо воспроизводимого из ранее записанного файла.

Блок измерений (БИ) является устройством, отображающим сигнал в точку в пространстве признаков. Измерения производятся одновременно в трех масштабах времени:

– окна длиной 50 мс которые для краткости названы в работе фреймами;

– отдельные вокализованные звуки;

– окна длиной 1 с, содержащие только вокализованные звуки (такие окна для краткости названы в работе блоками).

Объектом для классификации является блок (окно длиной 1 с).

На выходе БИ получается вектор-столбец оценок параметров для данного блока (окна длиной 1 с):

.

Преобразователь параметров (ПП) на основе вектора-столбца параметров с выхода БИ получает совокупность векторов вероятностей вида

,

где фигурные скобки означают совокупность векторов, длины которых в общем случае различны.

Для осуществления подобного преобразования необходимо, чтобы все параметры представляли собой дискретные случайные величины, что в общем случае не так. Поэтому ПП использует адаптивное квантование значений каждого признака, представляющее собой кусочно-линейное отображение области его значений.

При преобразовании параметров необходимо добиться минимальной потери информативности при переходе от непрерывной области значений признаков к дискретной. Суть адаптивного квантования поясняют рис. 2,3. По оценкам условных плотностей вероятности для каждого класса определяются пороговые уровни (на рис. 2 порог h – центральная вертикальная линия), соответствующие границам областей принятия различных гипотез о принадлежности тому или иному классу. Области выделяются с использованием одного из критериев проверки статистических гипотез.

Рис. 2 – Пояснения к процедуре адаптивного квантования значений признаков: оценки условных плотностей вероятностей (слева), (справа), полученные при исследовании обучающей выборки. Центральная вертикальная линия – порог – граница областей принятия гипотез при использовании критерия минимума полного риска. Крайние вертикальные линии – медианы распределений значений признаков слева и справа от порога

В качестве дискретных значений, в которые отображается область значений признака, были использованы медианы частичных распределений: M1 – медиана значений признака, соответствующих плотности , M2 – медиана значений признака, соответствующих- плотности .

В результате был разработан преобразователь параметров в виде нелинейного элемента с кусочно-постоянной проходной характеристикой (рис. 3).

Оценки условных плотностей вероятностей получались на этапе предварительного исследования обучающей выборки. Эмпирические плотности вероятностей аппроксимировались кривыми Джонсона. В каждом случае проводилась проверка гипотезы о согласии теоретического распределения с практическим по критерию Крамера-Мизеса-Смирнова для сложных гипотез (гипотеза о согласии с параметрическим распределением, параметры которого оцениваются по той же выборке, является сложной).

Под классификатором (К) понимается классификатор, оптимальный в смысле максимума информации.

Устройством вывода (УВ) может быть индикатор или устройство хранения информации.

Рис. 3 – Пояснения к процедуре адаптивного квантования значений признаков: кусочно-линейная передаточная характеристика устройства адаптивного квантования для k-го признака

После обсуждения архитектуры системы автоматического интонационного анализа обсуждались вопросы выбора первоначального множества параметров и разработки методов измерений параметров.

Первоначально для каждого блока (окна длительностью 1 с) измерялись параметры, соответствующие этому масштабу времени (динамический диапазон, коэффициент пиковости, средняя частота следования вокализованных звуков, относительная длительность вокализованных звуков). Также вычислялись статистические характеристики параметров, измеренных в масштабе вокализованных звуков (параметры траектории частоты основного тона и огибающих вокализованных звуков) и в масштабе фреймов (параметры мгновенного спектра, параметры модели линейного предсказания, мел-частотные кепстральные коэффициенты, логарифмические частотные коэффициенты мощности). В качестве статистических параметров были выбраны: среднее значение, относительный размах вариации, коэффиент вариации, коэффициент асимметрии, коэффициент эксцесса. Всего для каждого блока первоначально измерялись 878 признаков.

Особую сложность представляло получение траектории частоты основного тона, свободной от грубых случайных ошибок. Для решения этой задачи был разработан метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования с последующим дополнительным сглаживанием оценок.

На первом этапе работы алгоритма, реализующего разработанный метод оценки траектории ЧОТ в масштабе фреймов (окон длиной 50 мс) одновременно получались оценки ЧОТ семью методами:

  1. Автокорреляционный метод – период основного тона оценивается по положению первого от нуля локального максимума дискретной автокорреляционной функции:

.

  1. Метод разностной сдвиговой функции (РСФ) – период основного тона оценивается по положению первого от нуля локального минимума РСФ:

.

  1. Кепстральный метод – период основного тона оценивается по положению первого от нуля пика в кепстре сигнала:

.

  1. Метод FT2 – частота основного тона оценивается по положению первого от нуля пика в амплитудном спектре амплитудного спектра сигнала.
  2. Метод гармонического произведения спектра – частота основного тона оценивается по положению пика функции произведения амплитудного спектра :

,

где – целое число,

N – количество отсчетов во фрейме (окне длиной 50 мс).

  1. Метод «Инь» – период основного тона оценивается по положению первого от нуля минимума функции:

,

где .

Оценки, полученные для текущего вокализованного звука, объединялись при обработке речевого сигнала в масштабе вокализованных звуков в двумерный массив чисел, который для первоначального уменьшения числа грубых ошибок обрабатывался двумерным медианным фильтром. Было показано существенное преимущество двумерной медианной фильтрации в сравнении с одномерной.

Через точки, соответствующие семи оценкам ЧОТ для каждого фрейма, можно провести множество траекторий частоты основного тона. Для определения наилучшей траектории, т.е. для отбрасывания грубых ошибок, применялась процедура постобработки на основе метода динамического программирования.

Алгоритм, реализующий метод динамического программирования, оценивал траектории, руководствуясь эвристическими правилами:

  1. наилучшей траекторией считается та, которая проходит через средние значения групп, содержащих наибольшее количество оценок;
  2. наилучшей траекторией считается та, которая проходит через средние значения групп, в пределах которых среднеквадратическое отклонение (СКО) оценок минимально;
  3. наилучшей траекторией считается та, для которой сумма требуемых приращений частоты (по модулю) при переходах от фрейма к фрейму минимальна;
  4. наилучшей траекторией считается та, в пределах которой максимальный модуль приращения частоты между соседними окнами минимален.

Первые два правила согласуются с теорией обработки результатов неравноточных измерений, последние два следуют из известных свойств траектории ЧОТ голоса человека.

На этапе выполнения процедуры динамического программирования из каждых семи оценок выбиралась одна. Перед этим, для повышения точности и снижения вычислительных затрат группы оценок, максимальная разница между которыми не превышала 20 Гц, заменялись их средним значением.

Окончательным этапом выделения траектории частоты основного тона было их сглаживание при помощи безматричной аппроксимации/интерполяции линейной комбинацией многочленов вида , скользящим методом наименьших квадратов с весовыми функциями в виде радиальных локально определенных функций Вендланда. Этот метод сглаживания показал эффективное подавление остаточных грубых случайных ошибок при достаточно малом искажении резких изменений ЧОТ, объективно присутствовавших в речевом сигнале.

Эксперименты по оценке точности разработанного метода выделения траектории ЧОТ показали снижение вероятности грубых случайных ошибок величиной более 20% в 2–40 раз, ошибок более 50% – в 3–300 раз по сравнению с семью методами оценки ЧОТ, использованными для получения первичных оценок.

Поскольку полное число первоначально отобранных признаков составило 878, проблема снижения размерности пространства признаков стояла весьма остро. Попытка применения метода главных компонент для решения этой задачи не дала положительных результатов (лучшая средняя вероятность верного распознавания 55% при 760 признаках). Поэтому, учитывая применение информационного подхода в задаче классификации, было решено использовать среднюю взаимную информацию в качестве меры статистической взаимосвязи признаков и вектора номеров классов (т.е. вектора, составленного из классов, к которым принадлежат объекты из обучающей выборки).

Отобранные таким образом признаки было решено объединить в группы сильно взаимосвязанных признаков, выделяемые по критерию средней взаимной информации между признаками в каждой группе. Впоследствии из каждой группы отбиралось по одному признаку.

Для вычисления средней взаимной информации использовалось адаптивное квантование значений признаков, описанное выше.

Полученный набор признаков преобразовывался методом главных компонент для того, чтобы дополнительно уменьшить количество признаков.

Выбор набора признаков, оптимального с точки зрения его размера и средней вероятности верного распознавания классов по этим признаком проводился при использовании классификатора типа kNN (классификация методом k ближайших соседей). При распознавании отдельных блоков (окон длиной 1с) наилучшие результаты (средняя вероятность верного распознавания при семи классах 82%) были получены при использовании 60-ти признаков. Оптимальным был признан набор из 16-ти признаков (средняя вероятность верного распознавания при семи классах 69%).

При использовании набора из 16-ти признаков остро встает проблема быстродействия классификатора, оптимального в смысле принципа максимума информации. Как следует из выражений, описывающих его работу, для сокращения числа вычислений при работе этого классификатора необходимо сокращать число совместных вероятностей, хранимых в его памяти. Поскольку дальнейшее сокращение числа признаков существенно снижало качество распознавания, встал вопрос о сокращении числа уровней адаптивного квантования.

Для решения поставленной задачи использовалась процедура укрупнения гипотез, при которой практически совпадающие условные распределения признаков для гипотез Hi, , Hk, … заменялись одним распределением для укрупненной гипотезы Hi ИЛИ Hj ИЛИ Hk ИЛИ…

Дополнительно был реализована процедура сокращения числа областей принятия укрупненных гипотез за счет уменьшения числа порогов. Области, где вероятность ошибки практически равнялась вероятности правильного распознавания объединялись с соседними областями.

В результате произведенных действий среднее геометрическое число областей принятия укрупненных гипотез составило 2,35. Таким образом, необходимое число ячеек в памяти классификатора составило около 8⋅105.

Было выяснено, что результат обучения классификатора существенно зависит от стратегии обучения. Наилучшие результаты продемонстрировал параллельный перебор представителей классов с минимальной вариацией признаков между классами. Классификатору предъявляется объект i1, ближайший к центру класса i, представленного наименьшим числом объектов. Затем предъявляется объект j1, ближайший к центру класса j, ближайшего к i. После этого предъявляется объект k1, ближайший к центру класса k, ближайшего к j, не считая i, и т. д.  После предъявления одного представителя от каждого класса классификатору предъявляется объект i2, ближайший к центру класса i, не считая i1 и т.д.

Таким образом, в третьей главе был использован предложенный во второй главе подход к решению задачи классификации, а также предложены новые методы оценки параметров сигнала и снижения размерности пространства признаков. Названные методы в совокупности названные методы были использованы при разработке архитектуры системы автоматического интонационного анализа и алгоритмов ее функционирования.

В четвертой главе представлены результаты эксперимента по оценке эффективности автоматического интонационного анализа при помощи разработанной системы.

Для оценки эффективности был проведен эксперимент по распознаванию семи эмоциональных состояний по речи. Для экперимента использовась Берлинская база записей эмоциональной речи, содержащая 495 записей речи нескольких дикторов (мужчин и женщин), демонстрировавших семь эмоциональных состояний: злость, отвращение, cкуку, cтрах, радость, нейтральное состояние, огорчение.

Методика эксперимента заключалась в последовательном исключении одной записи из базы, обучении классификатора на 494-х речевых фрагментах и классификации исключенного фрагмента. Затем исключался следующий фрагмент и т.п.

Поскольку в общем случае фрагменты содержали более одной секунды вокализованной речи, и на каждом фрагменте могли быть получены различные оценки, для выбора наилучшей гипотезы использовался метод максимального правдоподобия.

В результате эксперимента была получена матрица перепутывания, приведенная в таблице 1.

Таблица 1 – Матрица перепутывания эмоциональных состояний

при использовании классификатора, оптимального в смысле

принципа максимума информации

A\H

1

2

3

4

5

6

7

P01%

1

75

12

1

3

4

1

0

22

2

2

55

1

2

1

5

1

18

3

4

2

43

2

0

25

5

47

4

1

3

1

36

1

4

0

22

5

12

10

2

6

29

5

0

54

6

0

3

10

3

0

62

1

21

7

0

0

3

1

1

7

50

19

P10%

20

35

29

32

19

43

12

P11=71%

Полученный результат был сопоставлен с результатами аналогичных исследований, где была использована Берлинская база записей эмоциональной речи. По средней вероятности верного распознавания разработанная система превосходит аналогичную систему, распознающую семь эмоций, на 16%. В одном из недавних исследований при распознавании семи эмоций была достигнута средняя вероятность верного распознавания в 82%, однако в них использовалось 1430 признаков сигнала, что не может не сказаться на быстродействии системы. Также известны системы, распознающие меньшее число (шесть) эмоциональных состояний, близкие и превосходящие по эффективности данную на 4%.

В заключении сформулированы основные выводы по диссертационной работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

  1. Для определения минимального набора информативных признаков речевого сигнала разработан трехэтапный метод снижения размерности признакового пространства, использующий критерий средней взаимной информации для определения степени статистической связи между признаками. Экспериментально установлено, что при отборе из первоначального множества 878-ми признаков речевого сигнала наибольшая средняя вероятность верного распознавания семи эмоций методом kNN 0,82 достигается при использовании 60-ти отобранных предложенным методом признаков. В то же время, при отборе признаков методом главных компонент наибольшая средняя вероятность верного распознавания семи эмоций составила 0,55 при отборе 760-ти признаков. Таким образом, было достигнуто существенное повышение надежности распознавания при существенном снижении количества используемых признаков. Последнее означает значительное снижение вычислительных затрат на обработку сигналов.
  2. Разработан метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования. Показано снижение количества грубых ошибок, величиной более 20% в 2 и более раз, ошибок более 50% – в 3 и более раз по сравнению с семью методами оценки ЧОТ, использованными для получения первичных оценок
  3. Разработан классификатор, оптимальный в смысле принципа максимума информации, обучение которого имитирует адаптацию биологического организма к условиям среды обитания. При использовании этого классификатора средняя вероятность верного распознавания семи эмоций по 16-ти признакам составила 71% против 69% у классификатора типа kNN.
  4. Разработана структура системы автоматического интонационного анализа, и алгоритмы ее функционирования.
  5. Проведен эксперимент, доказавший эффективность разработанной системы, алгоритмов и подходов, лежащих в ее основе.

ПУБЛИКАЦИИ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в центральных изданиях, рекомендованных ВАК РФ

  1. Марьев А.А. Метод интерпретации результатов измерений параметров речевого сигнала в задачах диагностики психоэмоционального состояния человека по его речи // Инженерный Вестник Дона, №4 2011 г. http://ivdon.ru/magazine/archive/n4y2011/538/ 6с.
  2. Марьев А.А. Метод оценки частоты основного тона речи. Технологический институт Южного федерального университета, Таганрог, 2012. — 36 с.—:12 ил. — Деп. в ВИНИТИ 18.04.12, №159 — В2012
  3. Марьев А.А. О возможности повышения эффективности автоматического интонационного анализа речи // Инженерный Вестник Дона, №3 2012 г. http://ivdon.ru/magazine/latest/n3y2012/892/

Публикации в других изданиях

1.        Марьев А.А. Исследование процессов обнаружения и распознавания человеком сложных акустических сигналов в шумах // Материалы международной научной конференции "Системы и модели в информационном мире", часть 2, 2009. - С. 30-36 Таганрог, изд-во ТТИ ЮФУ

2.        Марьев А.А. Методы многокритериальной оценки в диалоге оператор-компьютер при выработке оптимальных решений // Материалы Всероссийской научной конференции «Современные исследовательские и образовательные технологии» — часть 2 — Таганрог: Изд-во ТТИ ЮФУ, 2010. — С. 22—28

3.        Марьев А.А. Информационная модель эстетического восприятия // Материалы Всероссийской научной конференции «Актуальные вопросы исследования общественных и технических систем» — часть 1 — Таганрог: Изд-во ТТИ ЮФУ, 2011. С. 51—55

4.        Марьев А.А. Модель информационных взаимодействий в искусстве // VII Ежегодная научная конференция студентов и аспирантов базовых кафедр Южного научного центра РАН: Тезисы докладов (11—25 апреля 2011 г., г. Ростов-на-Дону). Ростов н/Д: Изд-во ЮНЦ РАН, 2011. — С. 132—133

5.        Марьев А.А. Метод интерпретации результатов измерений в задачах диагностики психофизиологического состояния человека-оператора по его речи // Фундаментальные, клинические и гигиенические основы и аппаратно-методическое обеспечение системы медико-психологической реабилитации пациентов, подверженных высокому уровню напряженности труда и профессионального стресса. Тезисы трудов Всероссийской научной школы для молодежи. — Ростов н/Д: Изд-во ЮФУ, 2011. — С. 93—97

6.        Марьев А.А. Комбинированный метод выделения контура частоты основного тона речи // Материалы Всероссийской научной конференции «Перспективы развития гуманитарных и технических систем» — часть 2 — Таганрог: Изд-во ТТИ ЮФУ, 2011. — С. 46—52

7.        Марьев А.А. Классификатор состояния оператора на основе признаков его речи, оптимальный в смысле принципа максимума информации // VIII Ежегодная научная конференция студентов и аспирантов базовых кафедр Южного научного центра РАН: Тезисы докладов (11—26 апреля 2012 г., г. Ростов-на-Дону). Ростов н/Д: Изд-во ЮНЦ РАН, 2012. — С. 166—168

8.        А.А. Марьев, В.П. Рыжов, Выбор признаков в задачах распознавания эмоциональных состояний оператора по речевым сигналам //Материалы Всероссийской научной конференции "Актуальные проблемы современности: человек, общество, техника" - часть 2 - Таганрог: Изд-во ТТИ ЮФУ, 2012 С. 31-36

9.        А.А. Марьев, О возможности применения метода эмпирической модовой декомпозиции для анализа речевых сигналов //Материалы всероссийской научной конференции "Актуальные проблемы современности: человек, общество, техника" - часть 3 - Таганрог: Изд-во ТТИ ЮФУ, 2012 С. 35-41

 





© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.