WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 |

Производится анализ разработок ведущих компаний в области идентификации голоса (Центр речевых технологий, компания «Речевые технологии», компания «Voice Security Systems Inc.», компания «Nuance» и компания «Agnitio»). Существующие разработки обладают вероятностью ошибки 1 – 3%. Однако разработчики не указывают, при каких условиях проводилась оценка качества идентификации (характеристики микрофона, объём выборки голосовых сообщений и т.д.). Кроме того, часть разработчиков вообще не указывают вероятность ошибки. Время идентификации при длительности фразы 3 секунды составляет 3 – 5 секунд на ЭВМ с частотой процессора 1,60 ГГц и объёмом оперативной памяти 896 МБ. Данный показатель определялся на одной и той же ЭВМ с помощью демонстрационных версий программ. Однако часть разработчиков не предоставляют демонстрационных версий. Данные характеристики будут использованы в дальнейшем для сравнения этих систем с разработанной моделью идентификации. Ни одна компания не предоставляет средства тестирования её системы. Кроме того, ни одна система не обладает возможностью настройки под различные условия применения.

Вторая глава посвящена разработке структурной схемы модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса. Анализируется образование фонем всех звуков русского языка, а также проявление индивидуальных характеристик голоса с точки зрения теории речеобразования. В соответствии с последней, речь человека образуется в результате функционирования артикуляторного аппарата (состоит из голосовых связок, языка, губ и т.д.). Если бы этот аппарат работал всегда одинаково, то голосовые сообщения, имеющие одинаковое текстовое содержание, были бы равны. Таким образом, задача идентификации голосового сообщения решалась бы довольно просто – путём прямого сравнения двух цифровых сигналов, соответствующих голосовым сообщениям. Однако опыт показывает, что не существует двух абсолютно одинаковых голосовых сообщений, даже если человек старается их произнести абсолютно идентично. Основная причина данного факта – неспособность артикуляторного аппарата работать во всех случаях одинаково.

Рис. 1. Структурная схема модели идентификации голосового сообщения.

Модель идентификации голосового сообщения состоит из четырёх этапов. Сначала голосовые сообщения делятся на фонемы. Данный этап необходим для идентификации по фонемной составляющей, а так же для того, чтобы исключить влияние соседних фонем друг на друга при выделении из них индивидуальных характеристик голоса. На втором этапе строится образ каждой фонемы. На третьем этапе попарно сравниваются образы фонем первого голосового сообщения с образами фонем второго голосового сообщения. На последнем этапе с помощью матричного метода происходит анализ результатов данных сравнений с целью принятия решения о равенстве или неравенстве голосовых сообщений в соответствие с троичной или двоичной логикой.

В результате получим следующую структурную схему модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса (рис. 1).

Решение о равенстве голосовых сообщений принимается на основе сравнения двух переменных, обозначим их z и z'. Значение переменной z определяется в результате сравнения сигналов по модели, а значение переменной z' определяется из набора параметров сигналов. В случае двоичной логики сигналы будут считаться равными при z z’, и неравными в противном случае. При использовании троичной логики вводится третий вариант, когда переменные z и z' достаточно близки по своему значению: z z’ (то есть ситуация неопределённости). В данном варианте возможны три случая: z[0; z'–) – сигналы неравны, z(z'+;+) – сигналы равны и z[z'–; z'+] – случай неопределённости, где – переменная, определяющая ширину интервала неопределённости. Двоичная логика является частным случаем троичной при =0. Выбор одного из методов принятия решения зависит от области применения реализованной модели идентификации голоса.

Третья глава посвящена разработке математических методов модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса, а также реализации предложенной модели в виде комплекса программ.

В результате анализа образования звуков русского языка был сделан вывод, что для выделения индивидуальных характеристик голоса целесообразно использовать только гласные и сонорные согласные звуки. Для выделения участков голосового сообщения, соответствующих этим звукам, а также исключения переходных процессов и пауз между фонемами используются амплитудно-временные характеристики сигналов.

Фонема представляет собой периодический сигнал. Пусть минимальная длина периода фонемы будет равна Nmin =20 отсчётов, а максимальная длина – Nmax =400 отсчётов при частоте дискретизации 8 кГц. Введём переменную k, изменяющуюся в интервале [Nmin; Nmax] с шагом 1. Корреляция rk двух соседних частей сигнала для конкретного значения k будет определяться следующим выражением:

, (1)

где k[Nmin ; Nmax], xj – j-й отсчёт голосового сообщения, m – номер отсчёта, с которого начинается текущий интервал сигнала. Введём пороговое значение корреляции двух интервалов, при котором они (интервалы) будут принадлежать одной фонеме – rп =0,96 (варьируемый параметр). Будем рассчитывать значение rk, изменяя k от Nmin до Nmax с шагом 1. В результате получим некоторую зависимость rk от k. Пример такой зависимости приведён на рис. 2.

Рис. 2. Пример зависимости rk от k.

Пики на графике при k=k1 и k=k2 объясняются тем, что k1 равно одинарному, а k2 удвоенному периоду фонемы, поэтому значение коэффициента корреляции резко возрастает. Будем считать, что начало m фонемы найдено, если при расчёте rk найдены два пика:

> rп, (2)

> rп (3)

и выполнено условие:

|2k1 – k2| < k, (4)

где: k =4 отсчёта (варьируемый параметр).

Условие (4) необходимо, чтобы исключить случайные пики корреляции. В случае невыполнения одного из условий (2)-(4) будем считать, что участок сигнала [m+Nmin ; m +Nmax] соответствует паузе между фонемами или шумному согласному звуку. Далее m увеличивается на Nmin, и процесс повторяется, пока не будет пройден весь сигнал.

В случае выполнения условий (2)-(4) m-й отсчёт будем считать началом фонемы, соответствующей гласному или сонорному согласному звуку. Далее m увеличивается на Nmin, и весь процесс повторяется. Как только будет не выполнено одно из условий (2)-(4) будем считать, что конец текущей фонемы найден и равен текущему значению m.

В структурной схеме модели блок «Построение образа» включает в себя два блока: блок «Построение спектра» и блок «Построение образа по спектру». В первом блоке строится спектр каждого выделенного участка, во втором блоке – его образ. Спектр строится для частот [1; 400] Гц. Образ будут составлять амплитуды и частоты максимумов спектра, удовлетворяющих выражению:

, (5)

где – частота отсчёта спектра, N – количество отсчётов выделенного участка, xn – отсчёты участка, Nсп – количество отсчётов спектра, kоб =0,1 – коэффициент пропорциональности (варьируемый параметр).

Для сравнения образов строится сигнал:

, (6)

где y=1, 2, …, L, L=400 отсчётов – размер сигнала, восстановленного по образу, Ai – амплитуда i-го максимума образа, i – частота i-го максимума образа. Образы двух фонем будут считаться равными, если сигналы, полученные из этих образов с помощью выражения (6), будут удовлетворять условию:

, (7)

где yi – i-й отсчёт первого сигнала, yi – i-й отсчёт второго сигнала, p – пороговое значение для равенства сигналов (варьируемый параметр).

Представленным выше способом сравниваются все фонемы первого сигнала со всеми фонемами второго сигнала. Введём матрицу V размером nm, где: n – количество выделенных фонем первого голосового сообщения, а m – количество выделенных фонем второго голосового сообщения. Элемент матрицы vij определяется следующим образом: vij = 1, если i-й участок первого голосового сообщения равен j-му участку второго голосового сообщения, vij = 0 в противном случае.

Далее введём квадратную матрицу W, размер которой равен nn, если n m, и mm, если n < m. Она получается из матрицы V следующим образом: если n = m, то W = V, если n > m, то к матрице V добавляются справа (n – m) нулевых столбцов, если n < m, то к матрице V добавляются снизу (m – n) нулевых строк. Обозначим размер матрицы W как kk. Таким образом, получена матрица W, по которой можно охарактеризовать степень равенства голосовых сообщений.

Введем переменную pmin следующим образом: pmin=k. Так как размер матрицы W характеризует количество выделенных фонем в голосовых сообщениях, то переменную pmin можно рассматривать как параметр, характеризующий степень совпадения двух голосовых сообщений, при которой они считаются равными. Далее необходимо определить параметр, характеризующий совпадение голосовых сообщений на основе конкретной матрицы. Обозначим его p. Получена следующая формула для p:

, (8)

где k – размер матрицы W, wij – элемент матрицы W, q и q – коэффициенты пропорциональности (варьируемые параметры).

Для принятия решения о равенстве голосовых сообщений необходимо сравнить значения параметров p и pmin. При использовании троичной логики выберем -окрестность значения pmin, соответствующую случаю неопределённости (при использовании двоичной логики =0). Сигналы будут считаться неравными, если p[0; pmin), и равными, если p(pmin+; +). Случаю неопределённости будет соответствовать ситуация p[pmin; pmin+]. В четвёртой главе будет исследовано влияние значений параметров p, q и q на качество идентификации. Таким образом, выделены варьируемые параметры модели, позволяющие производить её настройку.

Разработан комплекс программ, реализующий предложенную модель. Тексты программ представлены в диссертации. Время идентификации на данном комплексе составляет менее 1 секунды при длительности фразы 3 секунды на ЭВМ с частотой процессора 1,60 ГГц и объёмом оперативной памяти 896 МБ.

Четвёртая глава посвящена статистической оценке качества работы представленной модели идентификации голосового сообщения. Такая оценка производится следующим образом. Сначала необходимо собрать базу данных записанных голосовых сообщений. Для формирования такой базы данных необходимо выбрать голосовые сообщения, а затем записать произношение этих голосовых сообщений различными людьми. Таким образом, структура такой базы данных будет выглядеть следующим образом (рис. 3).

Затем необходимо выбрать интересующие нас параметры, которые влияют на качество работы метода идентификации голосового сообщения. Далее необходимо произвести сравнения голосовых сообщений по представленному методу, изменяя эти параметры.

Рис. 3. Структура базы данных.

Таким образом, будет экспериментально получена зависимость R=R(P), где R – функция зависимости количества ошибок от значения параметра P. Для получения этой зависимости из базы данных выбираются L записей произнесённых голосовых сообщений. Далее формируется матрица MLL следующим образом: mij =1, если записи с номерами i и j имеют одинаковые голоса и фразы, mij = 0 в противном случае, где mij – элемент матрицы MLL. После этого формируется ещё одна матрица M LL следующим образом: mij =1, если записи с номерами i и j совпали по методу идентификации голосовых сообщений, mij =0 в противном случае, где mij – элемент матрицы M LL. Далее определяется матрица SLL, которая характеризует количество ошибок первого рода (расценивание сообщений с одинаковым текстовым содержанием и сказанных одним человеком, как неравных) и количество ошибок второго рода (расценивание сообщений с разным текстовым содержанием или (и) сказанных разными людьми, как равных). Матрица SLL получается следующим образом: sij =1, если mij =mij, в противном случае sij =0, где sij – элемент матрицы SLL. Для вероятности ошибки первого рода 1 получена следующая формула:

(9)

Для вероятности ошибки второго рода 2 получена следующая формула:

, (10)

В диссертации исследуется влияние на качество работы модели идентификации голосового сообщения параметров p, q и q (см. главу 3), а также следующих параметров голосового сообщения: a (отношение количества гласных звуков в сообщении к общему числу звуков), b (отношение количества шумных звуков в сообщении к общему числу звуков), c (количество звуков в сообщении). Экспериментально получены следующие зависимости: R1=R1(P), R2=R2(P), где R1 – функция зависимости количества ошибок первого рода, R2 – функция зависимости количества ошибок второго рода, P – параметр, влияние которого исследуется (p, q, q, a, b, c).

Для реализации предложенного метода оценки качества работы модели был разработан программный комплекс (текст программы представлен в диссертации).

В результате исследований получены следующие зависимости. При увеличении значения параметра p от 0,86 до 0,98 вероятность ошибки первого рода повышается от 1,40% до 56,64%, в то время как вероятность ошибки второго рода уменьшается от 25,71% до 0,04% (рис. 4а), таким образом, значение данного параметра подбирается в зависимости от того, ошибки какого рода являются более критичными. При увеличении значения параметра q от 0,02 до 0,14 вероятность ошибки первого рода уменьшается от 21,68% до 1,40%, в то время как вероятность ошибки второго рода повышается от 0,04% до 31,08% (рис. 4б), таким образом, значение данного параметра подбирается в зависимости от того, ошибки какого рода являются более критичными. При увеличении значения параметра q от 1,4 до 2,0 вероятность ошибки первого рода повышается от 1,40% до 28,67%, в то время как вероятность ошибки второго рода уменьшается от 39,50% до 0,04% (рис. 4в), таким образом, значение данного параметра подбирается в зависимости от того, ошибки какого рода являются более критичными.

а) б)

в)

Рис. 4. Влияние варьируемых параметров модели на качество идентификации.

При увеличении относительного содержания гласных во фразе уменьшается вероятность ошибок, как первого, так и второго рода (рис. 5а). При увеличении относительного содержания шумных звуков во фразе вероятность ошибки первого и второго рода увеличивается (рис. 5б). При увеличении длины фразы уменьшается вероятность ошибок как первого, так и второго рода (рис. 5в). Наиболее высокое качество идентификации соответствует длинным фразам с большим содержанием гласных звуков и меньшим содержанием шумных звуков.

а) б)

в)

Рис. 5. Влияние параметров фраз на качество идентификации.

Pages:     | 1 || 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»