WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

Разработана информационная модель просодии, включающая: факторы, характеристики и параметры просодии, а также связи между ними.

Установлено, что в большинстве систем синтеза речи по тексту при формировании просодических параметров в той или иной мере учитываются факторы дикции и смысла, а эмоциональный фактор игнорируется ввиду сложности и малой изученности. Следовательно, для повышения качества синтезируемой речи необходимы исследования влияния эмоций на характеристики речи и разработка модели, описывающей проявление эмоций в РС.

В результате анализа различных психологических теорий, описывающих эмоции, установлено:

1. Эмоционально окрашенная речь (ЭОР) является результатом реализации экспрессивной функции эмоций.

2. В психологии эмоций большое распространение получила многомерная дискретная модель.

3. Классификация эмоций выполняется либо на основе набора признаков, либо по базовым эмоциям.

4. Параметром, присущим каждой эмоции, является сила е действия, определяемая на основе субъективных оценок.

Определены параметры для описания эмоций при построении модели их проявления в речевом сигнале, в том числе: вид, сила, время возникновения и длительность проявления эмоции.

Разработана методика формирования экспериментальной выборки образцов РС, создано множество «эмоциональных» образцов, включающее фраз с выраженным эмоциональным окрасом, и множество «нейтральных» образцов, включающее 70 записей фраз без эмоционального окраса.

В качестве исследуемой эмоции выбрана эмоция радости.

Предложена методика пофонемной оценки образцов. Установлено, что эмоциональная характеристика слов и фраз является неравномерной и в большей мере определяется характеристикой фонем, находящихся ближе к концу слова, фразы или предложения.

Выдвинута гипотеза о локализации эмоциональной компоненты на тональных участках РС, т.е. на гласных и вокализованных согласных звуках. С целью проверки данной гипотезы проведн следующий эксперимент. Из полученного множества отобрано 20 образцов фраз и сформировано 10 пар, содержащих один эмоциональный (с баллом более 3,5) и один нейтральный образец. Образцы каждой пары содержали одинаковые фразы, произнеснные одним и тем же диктором, т.е. различались только эмоционально. Затем в нейтральных образцах была произведена замена сначала гласных, а затем и вокализованных согласных участков аналогичными, взятыми из эмоциональных образцов. Также проведн эксперимент по замене фрагментов эмоциональных образцов аналогичными, взятыми из нейтральных образцов. Полученные на каждом этапе образцы были сохранены и затем предъявлены экспертам. Оценки образцов, полученных заменой нейтральных фонем эмоциональными, представлены в таблице 1.

Замена эмоциональных фонем нейтральными имела обратный эффект:

например, подстановка в эмоциональный образец с оценкой 5,0 гласных фонем из нейтрального образца с оценкой 1,4 понизила оценку первого образца до 2,4, а последующая замена вокализованных – до 1,8.

Таблица 1.

Средняя оценка уровня эмоций Пара После После замены образов «Нейтральный» «Эмоциональный» замены гласных и (диктор) образец образец гласных вокализованных 1. (ж) 1,2 4,8 3,8 4,2. (ж) 1,4 5,0 4,4 4,3. (м) 1,0 3,8 3,6 3,4. (м) 1,0 4,8 4,0 4,5. (м) 1,2 4,6 3,8 4,Полученный результат позволил в дальнейшем ограничиться рассмотрением гласных участков РС, поскольку параметры именно этих участков в основном определяют эмоциональный окрас речи.

Поскольку время действия эмоции значительно превосходит длительность фонемы, то для придания эмоционального окраса отдельной фонеме достаточно таких параметров, как вид эмоции и сила эмоции. При этом значение силы для данной фонемы должно быть рассчитано исходя из начального значения силы, интервала между моментом возникновения эмоции и началом звучания фонемы, а также заданной длительности проявления эмоции.

Для реализации синтеза ЭОР необходима модификация типовой схемы синтезатора таким образом, чтобы при формировании просодических характеристик РС учитывался и эмоциональный фактор.

Проведена оценка эмоциональной разборчивости зашумлнного РС.

Сформировано множество образцов, содержащих по 5 фраз различной эмоциональности, при этом на каждый образец наложен белый шум определнной интенсивности. Образцы прослушаны 5 экспертами, ответившими затем на ряд вопросов.

Установлено, что благодаря особенностям слуховой системы человека, эмоциональная разборчивость речи значительно превышает разборчивость вербальную: эмоциональные различия между фразами фиксировались большинством экспертов при соотношении сигнал/шум, равном -10 дБ.

В третьей главе диссертации рассмотрены вопросы создания математического и алгоритмического обеспечения задачи автоматического анализа и коррекции эмоционального окраса РС.

Разработана сегментарная модель, позволяющая компактно и адекватно описывать вокализованные участки РС.

Локализация эмоциональной компоненты на гласных звуках, их небольшая длительность и квазипериодичность сделали перспективным использование разработку методов и алгоритмов анализа и модификации этих участков РС, основанных на работе с сигналом во временной области. Исходя из характерной формы РС на гласных и вокализованных участках, реализован следующий подход к построению модели:

1. Разбиение вокализованного участка на периоды основного тона (ОТ) с их последовательной нумерацией. Разработан и реализован алгоритм автоматической разметки, включающий следующие шаги:

1.1. На осциллограмме образца выделяется вокализованный участок, границами которого выбираются точки локальных максимумов сигнала. Левая граница выделенного участка совпадает с левой границей p0 начального периода ОТ, а правая граница участка – с правой границей pn последнего периода ОТ.

1.2. Для временного ряда, представляющего собой значения оцифрованного речевого сигнала на выделенном участке, вычисляются оценки автокорреляционной функции (АКФ) при различных значениях лага:

N (1) [ ; ] R( ) x(i) x(i ) 1,.

N i где: R( ) – оценка АКФ, вычисленная для значения лага ;

x(i) – значение отсчта i выделенного участка речевого сигнала;

x(i+ ) – значение отсчта, сдвинутого относительно отсчта i на лаг ;

N – длина выделенного участка в отсчтах.

Значения и задаются исходя из отношения граничных значений 1 периода ОТ к периоду квантования, или из обратного отношения соответствующих частот. Так, для мужского голоса, со значением частоты ОТ, лежащим в интервале 100-200 Гц, записанного с частотой квантования 22 050 Гц, граничными значениями будут: =22050/200110 ; =22050/100221.

1 1.3. При вычислении оценок АКФ фиксируется значение лага *, при котором значение оценки R() максимально:

(2) R( *) max{R( ), R( 1),...,R( )} min min max Правая граница периода ОТ устанавливается в точке локального максимума сигнала, принадлежащей окрестности, центр которой отстоит от левой границы периода на лаг *. Таким образом, для правой границы периода ОТ справедливо условие:

(3) x( pb 1) max{x( pb * ),...,x( pb * )}.

2 где: x(pb+1) – значение сигнала в точке pb+1 ;

pb – левая, а pb+1 – правая границы периода ОТ с номером b ;

* – лаг, соответствующий максимальному значению оценки АКФ R();

– размер окрестности для поиска локального максимума сигнала.

1.5. Операции по п.п. 1.2-1.4 выполняются для следующего периода.

2. Разметка каждого периода ОТ на сегменты – участки с одинаковым знаком приращения значения сигнала. Соответственно, границами сегментов являются точки изменения знака приращения: в дискретной последовательности отсчт i со значением xi является граничным, если (4) (xi 1 xi xi 1) (xi 1 xi xi 1).

Сегменты каждого периода ОТ последовательно нумеруются от 0 до S-1.

3. Вычисление параметров сегментов. Если временной ряд, представляющий собой дискретную реализацию РС, соответствующего гласному звуку, разбить граничными точками по условию (4), то в полученных в результате сегментах можно выделить общие признаки формы. Исходя из характерной формы большинства сегментов, для аппроксимации предложена функция (5) i m xi xm h sink, 2 l где (6) h xn xm – высота сегмента, (7) l n m – его длительность.

В формулах (5)-(7) xi – значение произвольного отсчта i в сегменте, ограниченном отсчтами m и n со значениями xm и xn соответственно.

Таким образом, каждый сегмент характеризуется следующими параметрами: номером m и значением xm начального отсчта, длительностью l, высотой h и коэффициентом формы k.

Тогда задача аппроксимации сводится к нахождению по известным значениям отсчтов РС параметров сегментов, позволяющих с заданной точностью представить сигнал.

Аппроксимирующая функция (5) позволяет кодировать вокализованные участки РС набором параметров сегментов, которые вычисляются исходя из имеющихся значений отсчтов сигнала, а также декодировать сигнал, вычислив значения отсчтов по заданным параметрам сегментов.

Информационная модель просодии РС, предложенная во 2-й главе, расширена параметрами сегментарной модели. На рисунке 1 показана взаимосвязь сегментарной модели РС и информационной модели его просодии.

Разработан алгоритм расчта параметров сегментарной модели.

Предложен способ шаблонного представления, позволивший решить проблему непостоянного количества сегментов и описывать динамику параметров конкретного сегмента в последовательности периодов основного тона, составляющих вокализованный участок РС.

Шаблон – аппроксимация сигнала, при которой количество сегментов в каждом периоде ОТ постоянно и равно заданному размеру шаблона S’.

Построение шаблона состоит в уменьшении количества границ сегментов в каждом периоде ОТ до значения, равного заданному размеру шаблона S’, путм поиска сегментов с минимальной высотой и объединения их с соседними. Целью этой операции – получение карты принадлежности – таблицы, отражающей, в состав какого шаблонного сегмента входит данный нативный сегмент данного периода ОТ.

Установлена зависимость между средними значениями параметров шаблонных сегментов и эмоциональным состоянием диктора, позволяющая использовать средние значения в качестве признака эмоциональности РС.

Выполнен кластерный анализ параметров шаблонных сегментов, вычисленных для фонем различной эмоциональности. Для анализа были отобраны фонемы с различными оценками эмоциональности: для нейтральных фонем средние (по экспертам) значения оценок лежали в интервале [1,0; 2,0], а для эмоциональных - в интервале [4,0; 5,0], дисперсия оценок не более 0,2.

В фонемах рассматривались 5 начальных периодов ОТ, для которых были вычислены 8-сегментные шаблоны, то есть каждая фонема описывалась параметрами 40 шаблонных сегментов (ШС). Установлено, что наибольшая нестационарность характерна для длительности ШС l. В данном случае анализ проводился по длинам первых трх ШС каждого периода ОТ, таким образом, каждая фонема как объект анализа описывалась 15 признаками. После выделения из этих 15-и 4-х наиболее значимых признаков сформирована обучающая выборка ОВ1, состоящая из 20 нейтральных и 37 эмоциональных объектов. Выполнена кластеризация выборки ОВ1 методом Варда. При разделении на 5 кластеров допущена 1 ошибка. При разделении на 2 кластера допущено ошибки. Удаление неверно классифицированных объектов из выборки и е повторное разделение на 2 кластера выполнено без ошибок.

l xn xi h k xm m i n Факторы Характеристики Параметры Параметры просодии просодии просодии сегментарной модели Смысл hp,s – высота сегмента s Громкость А – амплитуда (интенция) в периоде основного тона p kp,s – форма сегмента s в периоде основного тона p Эмоциональное Т0 – период lp,s–длительность сегмента s Интонация состояние основного тона в периоде основного тона p зв – длительность Sp – число сегментов звуков в периоде основного тона p п – длительность P – число Дикция Ритм пауз периодов основного тона Рис. 1. Интеграция параметров сегментов в информационную модель просодии РС.

Кластеризация показала, что имеет место корреляция между объективной (измеряемой длиной сегментов шаблона) и субъективной (воспринимаемой на слух эмоциональностью) характеристиками речевого сигнала. Это указывает на принципиальную возможность автоматического анализа и коррекции эмоционального окраса РС в модуле синтеза речи по тексту системы реабилитации слабовидящих.

Разработан и опробован алгоритм MSH-коррекции, т.е. коррекции просодических характеристик РС (прежде всего, эмоционального окраса и интонации) на основе изменения отношений параметров в текущем периоде ОТ к значениям в предыдущем периоде ОТ:

(12) l p,s dlp,s, l p 1,s (13) hp,s dhp,s hp 1,s, В формулах (12)-(13) индекс p=[1; P-1] указывает на номер периода ОТ, а индекс s=[0; S'-1] на номер сегмента в шаблоне (здесь P – количество сегментируемых периодов ОТ, а S' – размер шаблона).

Алгоритм MSH-коррекции. Пусть имеется два образца фонемы, обладающих различной степенью эмоционального окраса. Если образец A имеет оценку эмоциональности eA, а оценка образца B равна eB, и требуется скорректировать значение eB так, чтобы сделать его равным или максимально близким значению eA, то выполняются следующие операции:

1. Открытие wav-файла «эталонного» образца A.

2. Сегментация образца A.

3. Вычисление шаблона размером S' сегментированного образца A.

4. Вычисление матриц отношений ШС образца A.

5. Сохранение матриц отношений ШС образца A в msh-файл.

5. Открытие wav-файла корректируемого образца B.

6. Сегментация образца B.

7. Вычисление шаблона размером S' сегментированного образца B.

8. Вычисление матриц отношений ШС образца B.

9. Загрузка матриц отношений ШС образца A из msh-файла.

10. Коррекция параметров нативных сегментов образца B исходя из соотношения загруженных («эталонных») и вычисленных значений отношений шаблонных сегментов. Если при построении шаблона в периоде основного тона p нативный сегмент x вошл в состав шаблонного сегмента z, то скорректированные значения параметров сегмента вычисляются по формулам:

(14) A B B lC,z lС 1,z dlp,z dlp,z, lC 0,z lp 0,z, p p p (15) A B B hC,z hC 1,z dhp,z dhp,z, p 0,z hC hp 0,z, p p где: lAp,x – длительность нативного сегмента x в периоде основного тона p образца A; hBp,z – высота шаблонного сегмента z в периоде основного тона p образца B.

11. Коррекция значений отсчтов wav-файла образца B в соответствии с формулой (5) и новыми значениями нативных сегментов.

12. Сохранение wav-файла образца B.

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.