WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

Таким образом, коррекция длительности и высоты нативных сегментов заключается в умножении текущего значения параметра на коэффициент, равный отношению нового (эталонного, загружаемого) и старого (вычисляемого) значений параметра шаблонного сегмента, к которому принадлежит данный нативный сегмент. Значения коэффициентов формы k не корректируются. Это позволяет сохранять индивидуальные особенности, такие, как тембр, характерный для данного диктора, и одновременно изменять просодические характеристики, в т.ч. эмоциональный окрас воспроизводимого звука.

Экспериментально определены наилучшие для выполнения MSHкоррекции размеры шаблонов большинства гласных фонем: для фонем [и], [о], [у] это 8 сегментов, для фонем [а], [е] – 10.

Выполнена коррекция нескольких фраз, синтезированных TTSмодулем "Digalo" (диктор Nicolai), позволившая улучшить естественность их звучания с 3,0 до 4,2 баллов по пятибалльной шкале (по оценке экспертов).

Проведн кластерный анализ выборки ОВ2, сформированной аналогично ОВ1, из 16 исходных (синтезированных нейтральных), 28 скорректированных (синтезированных) и 41 эталонных (записанных эмоциональных) объектов. Разбиение ОВ2 на 2 кластера по методу Варда показало, что скорректированные по MSH-алгоритму фонемы по длинам шаблонных сегментов объединяются в один кластер с эмоциональными, а нейтральные образуют отдельный от них кластер. Это позволяет сделать вывод о том, что синтезированные фонемы, параметры которых скорректированы MSH-алгоритмом, по своим характеристикам близки к фонемам естественного эмоционального РС.

В четвертой главе диссертации рассмотрены вопросы реализации разработанных моделей и алгоритмов в ТСР незрячих и слабовидящих.

Предложена архитектура программной системы реабилитации (рисунок 2), включающая следующие компоненты:

1. Активные приложения – программы, запускаемые пользователем, и предназначенные для решения различных задач (просмотр веб-страниц, работа с электронной почтой, редактирование документов, и т.д.) 2. Программа «Голосовой менеджер», предназначенная для отслеживания действий пользователя и инициируемых ими событий в активных приложениях, подготовка сообщений, содержащих информацию о действиях и событиях, а также сообщений, повторяющих содержание открытых документов, и передача этих сообщений речевому движку для их озвучивания.

3. Речевой движок, преобразующий получаемые в виде простого или содержащего SSML-разметку текста сообщения в речевой сигнал.

Пользователь Речевой сигнал Активные Голосовой Речевой приложения менеджер движок Текст Активные ( + разметка SSML ) приложения БД единиц Грамматическая БД компиляции Модуль Модуль Модуль грамматического фонетической акустического анализа транскрипции синтеза Текст Речевой (+ разметка сигнал SSML ) Модуль Модуль Модуль семантического эмоциональной просодической анализа обработки параметризации БД параметров MSH Семантическая БД Рис. 2. Система реабилитации на основе модуля «Голосовой менеджер» и речевого движка, реализующего синтез эмоционально окрашенной речи.

Структура «Голосового менеджера» включает следующие модули:

1. Модуль обработки событий приложений – содержит функцииобработчики событий, происходящих в активных приложениях; нужен для отслеживания процессов в системе и действий пользователя. В процессе обработки любого события приложения проверяется: а) требует ли событие генерации речевого сообщения пользователю; б) требует ли события выполнения пользователем какого-либо действия. Если событие требует сообщения, то происходит его генерация в соответствующем блоке и передача речевому движку. При этом необходимость генерации сообщения оценивается исходя из данных о квалификации пользователя и степени его патологии, содержащихся в настройках его профиля.

2. Модуль генерации событий для приложений – является «исполнительным механизмом» системы реабилитации. В ответ на определнные действия пользователя в эмулирует «работу нормального пользователя».

3. Модуль генерации сообщений для пользователя – выполняет подготовку текстовых сообщений, подлежащих чтению вслух речевым движком.

Материалом для сообщений служит содержимое текстовых документов, а также текстовое содержимое окон и элементов управления.

4. База данных профилей настроек содержит сведения о том, какую информацию и в каком объме следует озвучивать при работе конкретного пользователя. Настройки задаются исходя из степени патологии, уровня квалификации и психологических особенностей пользователя.

5. Модуль управления – координирует функционирование всех модулей в процессе работы приложения «Голосовой менеджер».

Разработана структура речевого движка, позволяющая синтезировать естественно звучащую речь, используя модель эмоционального настроя диктора и алгоритм MSH-коррекции просодических характеристик РС.

Основным отличием предложенной структуры речевого движка от традиционной является наличие модуля эмоциональной обработки (МЭО).

Задача МЭО – эмоциональная разметка высказывания, которая может формироваться следующим образом. В модуле можно реализовать некий «эмулятор настроения», задача которого – моделирование и постоянная индикация эмоционального состояния виртуального диктора. Последнее может фиксироваться в наборе переменных, каждая из которых хранит степень проявления определнной эмоции. При первом запуске TTS-движка происходит инициализация переменных некоторыми значениями по умолчанию.

Настроение диктора, используемого движком, отражает индекс текущего настроения. Изменение индекса происходит на величину, рассчитываемой на основе множества факторов. Эта величина используется для аддитивной коррекции текущего настроения, или эмоционального статуса диктора.

В соответствии с текущим эмоциональным состоянием диктора выполняется пофонемная эмоциональная SSML-разметка текста. Она заключается в маркировке гласных фонем во фразах озвучиваемого текста специальными дополнительными SSML-тэгами. Предлагается ввести тэг с атрибутами type – вид эмоции и volume – сила эмоции.

Разработаны форматы файлов для хранения результатов сегментации, параметров шаблонов и их приращений. Метод анализа и коррекции эмоционального окраса РС на основе разработанной сегментарной модели гласных и вокализованных звуков реализован программно в виде набора классов функций, позволяющих работать со следующими представлениями сигнала: WAV – стандартный формат звуковых файлов в ОС Windows (в данной работе использовался режим моно, 22050 Гц,16 бит); SEG – формат для сохранения результатов сегментации WAV-данных; SHA – формат для сохранения параметров сегментов шаблонов; SSH – формат для сохранения средних значений параметров шаблонных сегментов; MSH – формат для сохранения отношений параметров шаблонных сегментов, рассчитанных по формулам (12) и (13).

Создано программное обеспечение, позволяющее анализировать и модифицировать РС путм вычисления и редактирования параметров сегментов.

Разработка защищена свидетельством Роспатента на программу для ЭВМ.

SSML-разметка текста используется при формировании просодических характеристик высказывания. Просодию гласных фонем вместо традиционных параметров (амплитуда A, длительность фонемы, ЧОТ F0) предлагается описывать шаблонными приращениями (dL, dH, dK).

Соответственно, БД единиц компиляции должна содержать не WAVпредставление гласных звуков, а параметры сегментов (матрицы длительностей L=[lps], высот H=[hps] и коэффициентов формы K=[kps]). Также необходима БД MSH-параметров гласных фонем, соответствующих различным по типу и силе эмоциям.

ЗАКЛЮЧЕНИЕ 1. Выполнен анализ ТСР незрячих и слабовидящих, определена роль речевого синтеза. Установлено, что применение синтеза речи в ТСР сдерживается недостаточным качеством получаемого сигнала. Синтезированный сигнал, имея хорошую разборчивость, звучит недостаточно естественно, что обусловлено его неадекватной просодией.

2. Разработана информационная модель просодии РС, включающая факторы, характеристики, параметры и связи между ними. Основными факторами просодии являются смысл, вкладываемый в высказывание говорящим, его дикция и эмоциональное состояние. Установлено, что в большинстве систем синтеза речи по тексту при формировании просодических параметров в той или иной мере учитываются факторы дикции и смысла, а эмоциональный фактор игнорируется ввиду сложности и малой изученности. Поэтому для повышения качества синтезируемой речи путм улучшения е естественности требуется исследование влияния эмоций на характеристики речи и разработка модели, описывающей эмоциональные проявления в РС.

3. Проведены исследования эмоциональных проявлений в РС. Разработана и реализована методики получения и экспертной оценки образцов РС, обладающих различной эмоциональной характеристикой. Выдвинута и экспериментально подтверждена гипотеза о локализации эмоциональной компоненты на гласных и отчасти на вокализованных звуках РС. Разработана методика пофонемной оценки образцов РС.

4. Разработана сегментарная модель представления вокализованных участков РС, позволяющая компактно и адекватно описывать гласные и вокализованные согласные во временной области. Параметры сегментарной модели интегрированы в модель просодии, что позволяет, изменяя параметры сегментов, управлять просодией РС, в том числе его эмоциональным окрасом.

5. Предложен способ шаблонного представления, позволяющий описывать динамику параметров сегментов в последовательности периодов основного тона, составляющих гласный или вокализованный участок РС. Установлена зависимость между средними значениями параметров шаблонных сегментов и эмоциональным состоянием диктора, позволяющая использовать средние значения в качестве признака эмоциональности РС.

6. Разработан и опробован алгоритм коррекции просодических характеристик РС (прежде всего, эмоционального окраса и интонации) на основе изменения отношений параметров шаблонных сегментов (MSH-коррекция).

Найдены наилучшие для выполнения MSH-коррекции размеры шаблонов большинства гласных фонем. Достоверность алгоритма MSH-коррекции подтверждена результатами кластерного анализа выборки, включающей исходные (нейтральные), эталонные (эмоциональные) скорректированные (с возросшей в результате эмоциональностью) образцы речевого сигнала.

7. Создано ПО для анализа и модификации РС путм вычисления и редактирования параметров сегментов. Разработаны форматы файлов для хранения результатов сегментации, параметров шаблонов, их приращений и отношений. Созданы свободно распространяемые классы функций для преобразования РС из WAV-формата в форматы SEG, SHA, ASH, MSH и обратно.

8. Разработана архитектура программной системы реабилитации слабовидящих, включающая модуль «Голосовой менеджер» и речевой движок, позволяющий синтезировать естественно звучащую речь, используя модель эмоционального настроя диктора и алгоритм MSH-коррекции просодических характеристик РС. Система позволяет незрячим и слабовидящим пользователям работать на персональном компьютере с любыми приложениями, имеющими стандартный программный интерфейс, не требуя специальных дорогостоящих устройств. Это делает работу с компьютером доступной для широкого круга пользователей с различными патологиями зрения.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Публикации в изданиях, рекомендованных ВАК России:

1. Калюжный, М.В. Коррекция просодических характеристик речевого сигнала в средствах реабилитации незрячих и слабовидящих [Текст] / М.В.

Калюжный, Н.Н. Филатова // Информационно-управляющие системы. – 2008.

№1. – СПб.: РИЦ ГУАП, 2008. – С. 54–57.

Другие статьи и материалы конференций:

2. Калюжный, М.В. Программа для расчта параметров сегментарной модели речевого сигнала [Текст] / М.В. Калюжный, Н.Н. Филатова // НАУЧНАЯ СЕССИЯ МИФИ-2008. Сборник научных трудов. В 15 томах. Т. 12. Информатика и процессы управления. Компьютерные системы и технологии. – М.:МИФИ, 2008. – С. 50–51.

3. Калюжный, М.В. Анализ параметров сегментарной модели речевого сигнала [Текст] / М.В. Калюжный // Математические методы в технике и технологиях – ММТТ-21. Сборник трудов. XXI Международной научной конференции в 10 томах. Т. 9. – Саратов: СГТУ, 2008. – С. 65–66.

4. Калюжный М.В. Моделирование эмоциональных проявлений в речевом сигнале //Свидетельство об официальной регистрации программы для ЭВМ № 2007614294. – М.: Роспатент, 2007.

5. Калюжный, М.В. Параметрическое описание речевого сигнала в модели эмоционально окрашенной речи [Текст] / М.В. Калюжный, Н.Н. Филатова // Электроника и информатика – 2005. V Международная научно-техническая конференция: Материалы конференции: в 2 ч. – М.: МИЭТ, 2005. – С. 11–12.

6. Калюжный, М.В. Исследование проявлений эмоций в речевом сигнале [Текст] / М.В. Калюжный // Вестник Тверского государственного технического университета: Научный журнал – Тверь, 2005. – Вып. 7. – С. 102–106.

7. Калюжный, М.В. Синтез естественно звучащей речи на основе модели ЭОР [Текст] / М.В. Калюжный, Н.Н. Филатова // Компьютерные технологии в управлении и диагностике: сб. научн. тр. / Тверской гос. тех. ун-т. – Тверь, 2004. – С. 101-104.

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.