WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


На правах рукописи

РУЧАЙ АЛЕКСЕЙ НИКОЛАЕВИЧ

ТЕКСТОЗАВИСИМАЯ ВЕРИФИКАЦИЯ ДИКТОРА: МОДЕЛЬ, СТАТИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ, КОМПЛЕКС ПРОГРАММ

05.13.18 — математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико–математических наук

Челябинск — 2012

Работа выполнена на кафедре компьютерной безопасности и прикладной алгебры ФГБОУ ВПО «Челябинский государственный университет».

Научный консультант: доктор физико-математических наук, профессор Соловьев Александр Артемович

Официальные оппоненты: доктор технических наук, профессор Лабунец Валерий Григорьевич кандидат физико-математических наук, доцент Репалов Сергей Анатольевич

Ведущая организация: Учреждение Российской академии наук Институт проблем передачи информации им. А.А. Харкевича

Защита состоится 19 апреля 2012 г. в 10 часов на заседании диссертационного совета Д 212.296.02 при Челябинском государственном университете по адресу: 454001, Челябинск, ул. Бр. Кашириных, 129.

С диссертацией можно ознакомиться в библиотеке Челябинского государственного университета.

Отзывы в одном экземпляре, с заверенной подписью, просим направлять по адресу: 454001, Челябинск, ул. Братьев Кашириных, 129, Челябинский государственный университет, в диссертационный совет.

Автореферат разослан 15 марта 2012 г.

Ученый секретарь диссертационного совета, С.Ф. Долбеева кандидат физ.-мат. наук

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В настоящее время актуальной является разработка систем, предназначенных для распознавания диктора. Такие системы активно развиваются в течение последних 60 лет. На данный момент задачу нельзя считать решенной, так как существующие системы распознавания диктора не отличаются высокой надежностью, по этой причине продолжается разработка и реализация новых методов и подходов.

Преимущества биометрических систем в сравнении с парольными системами очевидны, они имеют большую практическую значимость, что обосновывает важность как теоретических исследований, так и практических разработок.

Цель работы. Целью данной диссертационной работы является разработка модели текстозависимой верификации диктора и реализация на ее основе системы разграничения прав доступа в операционной системе (ОС) Windows XP. В соответствии с поставленной целью необходимо решить следующие задачи:

• обзор существующих методов и подходов решения задачи распознавания диктора;

• разработка модели текстозависимой верификации диктора;

• исследование и оценка точности и устойчивости предложенных характеристик речи;

• разработка и тестирование нового метода сегментации речевого сигнала для увеличения надежности распознавания диктора;

• оценка надежности текстозависимой верификации диктора и исследование методов увеличения ее надежности;

• разработка и реализация системы разграничения прав доступа в ОС Windows на основе модели текстозависимой верификации диктора.

Методы исследования. В процессе теоретических исследований применялись методы обработки речевого сигнала, теории вейвлет преобразования, распознавания образов, теории вероятностей и математической статистики. Для численных экспериментов использовалось тестирование на голосовых базах с реальными речевыми фразами.

Материал исследования. В ходе численных экспериментов использовались четыре голосовые базы, которые были собраны в Челябинском государственном университете и содержали речевые фразы различных дикторов. Запись фраз велась в естественных условиях на микрофоны различных типов.

Область исследования. Областью исследования является разработка и реализация новых методов обработки речевого сигнала для решения задачи текстозависимой верификации диктора.

Предмет исследования. Предметом исследования диссертационной работы являются методы и модели текстозависимой верификации диктора, методы обработки речевых сигналов.

Научная новизна. Научная новизна диссертационной работы состоит в разработке и тестировании нового метода сегментации речевого сигнала для уменьшения ошибок текстозависимой верификации диктора.

Практическая значимость работы. Результаты, полученные в ходе исследования, нашли применение при создании системы разграничения прав доступа в ОС Windows XP, которая была успешно протестирована на кафедре компьютерной безопасности и прикладной алгебры Челябинского государственного университета. Реализованные модули могут быть использованы при построении любых биометрических систем с целью разграничения прав доступа в ОС Windows XP. Голосовые базы, собранные для численных экспериментов, могут также быть использованы для других исследований в области обработки речевых сигналов.

Основные научные результаты. В процессе выполнения диссертационной работы были получены следующие научные результаты:

1. Получены оценки точности и устойчивости модифицированного метода вычисления формант на основе линейного предсказания.

2. Разработан новый метод сегментации речевого сигнала для увеличения надежности текстозависимой верификации диктора. Новый метод основан на вычислении оценки показателя Гёльдера с помощью непрерывного вейвлет преобразования. Получены оценки точности и устойчивости предложенного метода сегментации.

3. Разработан и улучшен формантный метод текстозависимой верификации диктора, получены оценки его надежности.

4. Разработана система разграничения прав доступа в ОС Windows XP на основе улучшенного формантного метода текстозависимой верификации диктора, которая успешно прошла тестирование на кафедре компьютерной безопасности и прикладной алгебры Челябинского государственного университета.

На защиту выносятся следующие положения 1. Оценки точности и устойчивости модифицированного метода вычисления формант на основе линейного предсказания.

2. Новый метод сегментации речевого сигнала на основе оценки показателя Гельдера.

3. Улучшенный формантный метод текстозависимой верификации диктора и оценки его надежности.

4. Реализованная система разграничения прав доступа в ОС Windows XP на основе улучшенного формантного метода текстозависимой верификации диктора.

Апробация работы. Основные положения диссертационной работы были апробированы на следующих конференциях и семинарах:

1. «Безопасность информационного пространства», V–VIII международная научно-практическая конференция, 2006–2009.

2. «Студент и научно-технический прогресс», XXXI–XXXII студ. научная и межвузовская научно-практическая конференция, 2007–2008.

3. «SIBINFO», 9–10 Всероссийский конкурс-конференция по информационной безопасности, 2009–2010.

4. «Проблемы теоретической и практической математики», 40–41 Молодежная школа-конференция, 2009–2010.

5. «Современные проблемы математики», 42 молодежная школа-конференция, 2011.

6. «Будущее образование и науки — в руках молодых», молодежная научная конференция, 2009.

7. Семинар кафедры Компьютерной безопасности и прикладной алгебры Челябинского государственного университета, 2007–2012.

Публикации. Основные результаты опубликованы в 16 печатных работах [1]–[16], среди которых 2 работы [15, 16] размещены в журналах, включенных в перечень высшей аттестационной комиссией.

Структура и объем работы. Работа состоит из введения, шести глав, заключения, списка литературы, включающего 168 наименований.

Объем диссертации составляет 104 страницы.

ОСНОВНОЕ СОДЕРЖАНИЕ Во введении обосновывается актуальность темы диссертации, ее научная новизна, теоретическая значимость и практическая ценность, указывается предмет и область исследования, определяется цель работы, раскрываются задачи и методы исследования, приводится краткое изложение работы по главам.

Глава 1 посвящена обзору голосовой биометрики, в начале которой вводятся необходимые понятия, даются различные классификации. Обосновывается уникальность и стабильность речи. Далее целый раздел посвящен истории развития распознавания диктора. Описываются основные достижения и исследуются важные вехи в истории развития этой области от самого раннего этапа до современных исследований. Затем рассматривается современное состояние области распознавания диктора и обозначаются перспективы ее дальнейшего развития. Дается описание собранных голосовых баз для проведения различных экспериментов.

Задача распознавания диктора возникла в середине XX века, однако только в 90-е годы XX века и в начале XXI века можно наблюдать повышение интереса к этой области и ее глобальное развитие. Это связано как с развитием компьютерных технологии, так и с существованием нерешенных проблем. Одной из главных проблем является недостаточная надежность распознавания диктора. Этим обосновывается важность и актуальность разработки и реализации новых методов и подходов к распознаванию диктора.

Биометрические системы разграничения доступа имеют большую практическую значимость и развиваются достаточно бурно, что делает эту область перспективной и важной для современного общества.

Обоснование стабильности и уникальности речи достаточно важно для задачи распознавания диктора. Из продемонстрированного анатомического и артикуляционного обоснования следует, что речь человека является стабильной и уникальной. Это дает право говорить о возможности успешного распознавания диктора, хотя эта задача окончательно не решена.

Для проведения численных экспериментов целесообразным было создание собственных специализированных голосовых баз. В первой голосовой базе (ГБ1) собрано 20 дикторов, каждый из которых произносит раз фразу из 3 слов. Вторая голосовая база (ГБ2) содержит 100 дикторов, каждый из которых произносит 13-15 раз фразу длиной в 10 секунд.

Третья голосовая база (ГБ3) содержит 100 дикторов, каждый из которых произносит 13 раз одно слово. Четвертая голосовая база (ГБ4) содержит 12 дикторов, каждый из которых произносит 50 раз гласный звук.

Глава 2 содержит математическую модель текстозависимой верификации диктора. Сначала дается общая модель распознавания диктора, а затем формантный метод текстозависимой верификации диктора. Описываются необходимые этапы обработки речевого сигнала. Определяются векторы признаков речевого сигнала, на основе которых строится решающее правило.

Опуская технические подробности, будем считать, что речевой сигнал представлен дискретными отсчетами функции. Для успешного решения задачи распознавания диктора предварительно необходимо обработать речевой сигнал. Для этого осуществляются следующие процедуры: шумоочистка, удаление начальных и конечных пауз, нормализация уровня сигнала.

Гипотетическим множеством будем называть множество объектов распознавания , где, соответственно, элемент является речевой фразой, принадлежащей диктору.

Индикаторной функцией будем называть функцию g(): M, разбивающую множество на m непересекающихся классов 1,..., m, где разные классы соответствуют различным дикторам, а M = {1,..., m} — множество дикторов. Индикаторная функция строится в процессе обучения.

Пусть x(): X — функция, которая ставит в соответствие каждому объекту его образ x() X, непосредственно воспринимаемый наблюдателем. Тогда множество X будем называть пространством наблюдения.

Решающее правило (x(), q) : X M {0, 1} позволяет наблюдателю распознать класс g() объекта , опираясь на его образ x() в пространстве наблюдений X.

По заранее известному классу l и по образу x() объекта , предъявленного фрагмента речи, решающее правило будет состоять из решений:

объект распознавания принадлежит классу l или противное.

Элементами пространства наблюдений X являются векторы признаков, вычисленные на основе речевого сигнала.

На основании данных, полученных с помощью опытов, основные физические проявления индивидуальности речевого сигнала следует искать в формантных признаках. В качестве векторов признаков положим формантные наборы.

Опуская физические подробности, под формантой будем понимать локальный максимум амплитуды сглаженного спектра, называемый амплитудой форманты, и соответсвующую ему точку экстремума, называемую частотой форманты. Традиционно форманты нумеруются в порядке возрастания их частоты F1, F2, F3 и т.д.

Форманту будем формально обозначать как f = (w, a), w > 0, a > 0, где w — частота форманты, a — амплитуда форманты. Под формантным набором будем понимать набор формант F = {fi}v = {(wi, ai)}v, где i=1 i=v N и wi = wj, если i = j, и wi < wj, если i < j.

Методы извлечения формант и оценка их точности и устойчивости описаны в Главе 3.

В формантном методе текстозависимой верификации диктора векторы признаков должны вычисляться на определенных сегментах речевого сигнала. В большинстве существующих систем распознавания диктора используется метод покадровой обработки речевого сигнала, в рамках которого сигнал разбивается на пересекающиеся кадры с определенной длиной и шагом смещения.

Метод покадровой обработки речевого сигнала может приводить к появлению провалов спектра сигнала, которые называют антиформантами, а также сплошного спектра. Данные недостатки влияют на точность значений формант, что сказывается на надежности распознавания диктора.

Идеальным было бы вычисление векторов признаков на тех сегментах речевого сигнала, которые соответствуют слогам, входящим в состав слова. Для этого был предложен новый метод сегментации речевого сигнала.

В предложенном методе речевой сигнал сегментируется на непересекающиеся вокализованные сегменты, которые соответствуют слогам. Предлагаемый метод заключается в оценке показателя Гёльдера и описан в Главе 4.

Признаки объектов обозначим через xi V при i = 1,..., n, где n — это число сегментов фразы.

Пусть в результате обучения дикторов все множество объектов распознавания было разбито на непересекающиеся подмножества 1,..., m, каждое из которых отвечает соответствующему диктору.

Для построения решающего правила сначала определим меру близости r(f1, f2) двух формант f1 = (w1, a1) и f2 = (w1, a2) r(f1, f2) = cw |w1 - w2| + ca |a1 - a2|, где cw и ca — весовые коэффициенты, которые определяются из условий нормировки частоты и амплитуды формант. Удобно положить cw равной 1, а ca — 1000.

Определим меру близости h(F1, F2) между двумя формантными наборами v h(F1, F2) = r(f1i, f2i), v i=где F1 = {f1i}v и F2 = {f2i}v — формантные наборы, v — число i=1 i=формант в формантном наборе.

Близость двух речевых образцов будем оценивать следующим образом n j j d(1, 2) = h(F1, F2 ), n j=где 1 и 2 — объекты распознавания, которым соответствует последоваj j тельность формантных наборов {F1 }n и {F2 }n.

j=1 j=Определим S(, q) как меру близости между распознаваемым объектом и классом q, q = 1, 2,..., m, заданным своими объектами { } q :

1 S(, q) = d(, ).

|q| q Решающее правило для верификации диктора вводится соотношением { 1, если S(, q) < ;

(x(), q) = (1) 0, иначе, где — пороговое значение, которое определяется в зависимости от требуемых ошибок первого и второго рода.

Под ошибкой первого рода будем понимать число ошибок того, что результат решающего правила (1) будет равен значению 0, хотя должно быть 1. То есть ошибкой первого рода является число несовпадения векторов признаков речевых сигналов, принадлежащих одному и тому же диктору.

Под ошибкой второго рода будем понимать число ошибок того, что результат решающего правила (1) будет равен значению 1, хотя должно быть 0. То есть ошибкой второго рода является число совпадения векторов признаков речевых сигналов, принадлежащих разным дикторам.

Под надежностью распознавания диктора будем понимать уровень ошибок первого и второго рода: чем меньше число ошибок, тем надежней система.

Глава 3 посвящена такой индивидуальной характеристике речи как форманта. Вначале делается обзор результатов исследований формант и методов их выделения. Далее описывается один из методов выделения формант — модифицированный метод на основе линейного предсказания.

Затем оценивается точность и устойчивость модифицированного метода выделения формант на основе линейного предсказания.

Для модифицированного метода вычисления форманты на основе линейного предсказания были получены оценки точности и устойчивости в экспериментах на голосовой базе ГБ4. На основании результатов экспериментов было установлено, что относительная ошибка значений амплитуд формант может достигать 36%, частот 3 формант — 5% и частот 5 формант — 8%. Поэтому амплитуда форманты неустойчива, значения зависят от типа микрофона, уровня громкости, расстояния до микрофона и других факторов. Следовательно можно сделать вывод, что для построения решающего правила не следует учитывать амплитуды формант.

Также проводились эксперименты по оценке устойчивости значений частоты формант к шумам. На речевые сигналы накладывался аддитивный белый гауссовский шум при отношении сигнала к шуму SNR, равного 15 и 20 Дб, и затем оценивалась относительная ошибка значений частот формант. Эксперимент проводился 100 раз, значения относительных ошибок усреднялись. Результаты экспериментов подтверждают установленное другими исследователями свойство неустойчивости к высоким шумам оценок формантных частот модифицированным методом линейного предсказания. Оценка для частот 5 формант менее устойчива, чем оценка для частот 3 формант.

В главе 4 описан новый метод разбиения речевого сигнала на непересекающиеся вокализованные сегменты. Данный метод основан на оценке показателя сингулярности речевого сигнала через показатель Гёльдера.

Оценивается точность и устойчивость предложенного метода сегментации сигнала для выделения формант. Предложенный метод сегментации сигнала сравнивается со стандартными методами.

Основная идея использования оценки показателя сингулярности речевого сигнала заключается в выделении участков, на которых наблюдаются усложнения сигнала. Эта идея позволяет выделить из речевого сигнала вокализованные участки, которые соответствуют гласным звукам.

В качестве параметра, характеризующего сингулярность функции, был предложен показатель Гёльдера, описывающий гладкость функции.

Опишем основную идею применения непрерывного вейвлет преобразования для получения оценки показателя Гёльдера.

Убывание амплитуды вейвлет преобразования в зависимости от масштаба связано с равномерной и точечной гладкостью Гёльдера сигнала.

Гладкость функции f в точке v при некоторых предположениях характеризуется теоремой Джаффара.

Показатель гладкости функции f в точке v является угловым коэффициентом опорной прямой к графику функции s |W f(v, s)| в логарифмической шкале, где W f(v, s) — вейвлет преобразование функции f.

Опираясь на данную идею, опишем алгоритм сегментации речевого сигнала с помощью оценки показателя Гёльдера.

1. Дискретизируем речевой сигнал f(t).

2. Выполним вещественное вейвлет преобразование W f(u, s) речевого сигнала f(t) на основе вещественного вейвлета Гаусса 2-ого порядка с масштабным коэффициентом s = 1, 2,..., 16.

3. Построим опорную прямую к графику функции log s log |W f(t, s)|с помощью метода наименьших квадратов.

4. График показателя сингулярности (t) сглаживаем, как двумерные данные {(t, (t))}m, с помощью метода, основанного на локальном t=линейном робастном параметрическом регрессионном анализе, который был предложен Кливлендом. Из практических соображений параметр сглаживания определяется как l = fk/(5 m), где fk — частота дискретизации сигнала f(t), и m — число отчетов дискретизированного сигнала f(t).

5. Выделим интервалы монотонного возрастания графика показателя сингулярности (t), которые положим в качестве вокализованных сегментов речевого сигнала (см. рисунок 1).

Ко всем фразам из голосовой базы ГБ3 был применен новый метод сегментации. В результате были успешно выделены вокализованные сегмен0.0.0.0.0.-0.-0.-0.-0.-0.1000 2000 3000 4000 5000 6000 70Время 3.2.1000 2000 3000 4000 5000 6000 70Время Рис. 1: На верхнем рисунке представлен речевой сигнал, на нижнем — слаженный график показателя сингулярности (t) для соответствующего речевого сигнала. На рисунках окружностями отмечено начало вокализованного сегмента, квадратами — окончание ты. Также проводились эксперименты по сегментации с помощью предложенного метода с голосовой базой ГБ1. Было предложено в качестве одновременно и окончания и начала взять среднее между окончанием одного сегмента и началом следующего сегмента.

Для улучшения сегментации был предложен следующий модифицированный метод. Речевой сигнал грубо разбивается на сегменты методом, основанным на отношении кратковременной энергии и числа перехода через Амплитуда Показатель сингулярности нуль, затем из каждого сегмента удаляются неречевые участки методом, основанным на оценке кратковременной энергии. После чего применяется отдельно для каждого сегмента предлагаемый метод сегментации на основе оценки показателя Гельдера.

В дальнейших экспериментах использовалась голосовая база ГБ2. Все фразы всех дикторов успешно прошли качественную проверку на соответствие границам сегментирования. На основании результатов работы модифицированного метода сегментации можно утверждать, что данный метод успешно справился с разбиением сигнала.

Проводились также эксперименты по оценке устойчивости предложенного модифицированного метода сегментации к шумам. Использовалась голосовая база ГБ2. На основании полученных результатов можно сделать вывод, что приемлемые результаты средних отклонений 16 мс можно ожидать только при SNR равным 30 Дб. Помимо этого, при SNR равным Дб ошибка числа сегментов составляет 3.6%. Из чего следует, что модифицированный метод сегментации устойчив к уровню шума и помех с SNR более 30 Дб.

Проводились также эксперименты по оценке корректности извлеченных формантных частот на сегментах, полученных с помощью предложенного метода сегментации. На основании результатов эксперимента можно сделать вывод о том, что среднее и максимальное относительное отклонение для частот трех формант не больше 6-7%. Поэтому можно утверждать, что оценка частот трех формант является устойчивой.

Для сравнения модифицированного метода сегментации со стандартными были реализованы два метода: первый метод основан на отношении квадратного корня из кратковременной энергии к функции перехода через ноль и второй метод основан на вычислении автокорреляционной функции. На основании полученных результатов можно говорить о высоких результатах работы модифицированного метода сегментации по сравнению со стандартными методами. Однако, стандартные методы более устойчивы к шумам, устойчивость сохраняется даже при SNR равным 15 Дб.

Глава 5 содержит основные результаты численных экспериментов по оценке формантного метода текстозависимой верификации диктора. Исследуется надежность формантного метода текстозависимой верификации диктора с помощью метода опорных векторов. Экспериментально находится оценка надежности формантного метода текстозависимой верификации диктора. Приводятся результаты экспериментов по улучшению формантного метода текстозависимой верификации диктора.

Было установлено, что только с помощью метода опорных векторов на основе расширения пространства можно построить разделяющую гиперплоскость без ошибок распознавания. На основании полученных результатов можно сделать вывод о том, что возможно успешное разделение множества образов без ошибок. Однако в системах текстозависимой верификации с помощью решающего правила на основе метода опорных векторов возможны ошибки. Это следует из того, что обучение системы происходит на выборке малого объема, в итоге обучение будет приводить к ошибкам распознавания.

В результате численных экспериментов были получены оценки надежности формантного метода текстозависимой верификации диктора, ошибка первого рода составляет 0.3 при ошибке второго рода 0.01. Если сравнивать оценки надежности распознавания диктора с применением метода покадровой обработки и модифицированного метода сегментации сигнала на основе оценки показателя Гёльдера, то можно сделать вывод, что количество ошибок первого рода уменьшилось на 20% при фиксированном количестве ошибок второго рода.

Полученные количественные характеристики надежности формантного метода текстозависимой верификации диктора позволяют считать возможным успешное распознавание диктора, однако можно предложить ряд способов увеличения надежности. Для этого модифицируем решающее правило (1) при заданном пороговом значении .

Введем { 1, если S(i, j) < ;

I(i, j) = 0, иначе.

Положим |q| 1, если I(i, j) > ;

(x(i), q) = (2) jq 0, иначе, где i и j — объекты распознавания, соответствующие i-ой и j -ой фразе дикторов. Меру близости определим следующим образом n S(i, j) = h(xt, xt), i j n t=где xi и xj — векторы признаков объектов i и j (по числу сегментов n). Метрику h(xt, xt) в пространстве формантных наборов V введем i j соотношением u t t h(xt, xt) = r(fil, fjl) в l1-метрике i j u l=или t t h(xt, xt) = max r(fil, fjl) в c0-метрике, i j l=1,...,u t t где xt = {fil}u и xt = {fjl}u — формантные наборы для t-ой коордиi l=1 j l=наты векторов признаков xi и xj и u — число формант (u = 3 или u = 5).

t t Здесь r(fil, fjl) — метрика в пространстве формант H t t t t r(fil, fjl) = |wil - wil| t t t t c формантами fil = (wil, at ) и fil = (wil, at ) в формантных наборах xt и il il i xt. Мы не учитываем амплитуду формант, так как она неустойчива.

j Были получены также оценки надежности улучшенного формантного метода текстозависимой верификации диктора. Для экспериментов была использована голосовая база ГБ3. Тестирование происходит по методу «jack knife»: по всем дикторам по очереди составляется обучающая выборка из всевозможных комбинаций 3 фраз диктора. Результаты экспериментов позволяют сделать вывод, что достаточно ограничиться только формантами и метрикой c0, при которых ошибка первого рода равна 0.1404 с ошибкой второго рода равной 0.01.

Можно также увеличить надежность формантного метода текстозависимой верификации диктора, если пороговое значение устанавливать индивидуально для каждого диктора. Для каждого диктора по очереди строится график зависимости ошибок первого и второго рода, при ошибке второго рода в пределе 0.001–0.01 выбирается пороговое значение. Тестирование повторяется уже для всех дикторов с установленными пороговыми значениями, как описывалось выше. В ходе эксперимента проводилось n = 1772 тестов. При этом оказалось, что усредненная ошибка первого рода равна 0.1664 при ошибке второго рода равной 0.0015.

Результаты экспериментов (см. таблицу 1) по оценке устойчивости к шумам улучшенного формантного метода текстозависимой верификации диктора позволяют сделать вывод, что при уменьшении отношения сигнала к шуму надежность распознавания тоже уменьшается. Отсюда можно понять, что для успешного распознавания диктора необходимо предварительно осуществлять шумоочистку сигнала.

Таблица 1: Результаты тестирования для голосовой базы ГБ3 при разном отношении SNR в Дб SNR, Дб 50 0.1664 0.0040 0.3215 0.0030 0.4748 0.000Доверительный интервал с надежностью 0.975 для оценки ошибок , найдем как доверительный интервал для оценки математического ожидания при неизвестной дисперсии нормального распределения 2 2 2 2 - + и - +.

n n n n По результатам экспериментов для голосовой базы ГБ3 с надежностью 0.975 для оценки ошибки первого рода был получен доверительный интервал [0.1664 - 0.0091; 0.1664 + 0.0091] и оценки ошибки второго рода — [0.0015-0.00017; 0.0015+0.00017]. Для голосовой базы ГБ2 с надежностью 0.975 для оценки ошибки первого рода был получен доверительный интервал [0.1106 - 0.0078; 0.1106 + 0.0078] и оценки ошибки второго рода — [0.00098 - 0.00012; 0.00098 + 0.00012]. Отсюда можно заключить, что при увеличении длительности фразы надежность распознавания диктора увеличивается.

На основании полученных результатов экспериментов можно сделать вывод, что улучшенный формантный метод текстозависимой верификации диктора может обеспечивать приемлемую надежность распознавания.

Производилось также сравнение с существующими коммерческими системами распознавания диктора по заявленным ошибкам распознавания.

Приведенные оценки позволяют утверждать, что надежность построенной модели текстозависимой верификации диктора незначительно уступает заявленной надежности коммерческих систем.

В главе 6 описана реализованная система разграничения прав доступа в операционной системе Windows XP на основе улучшенного формантного метода текстозависимой верификации диктора. Сначала представлен обзор существующих атак и мер защиты, которые относятся к системам распознавания диктора. Затем дается общее описание системы разграничения прав доступа и далее описываются детали реализации, и интерфейса системы разграничения прав доступа в ОС Windows XP.

В общей схеме текстозависимой верификации диктора на рисунке представлены два режима работы системы: обучение и верификация, для которых есть общая процедура обработки речевого сигнала, состоящая из шумоочистки, удаления начальных и конечных пауз, нормализации уровня сигнала.

Речевой Обработка сигнал сигнала Результат Верификация верификации Параметризация сигнала Эталон Обучение диктора Рис. 2: Общая схема текстозависимой верификации диктора Процедура параметризации является общей для режимов обучения и верификации. Сначала применяется разработанный метод сегментации речевого сигнала на основе оценки показателя Гёльдера, затем на каждом сегменте вычисляется формантный набор, из которых формируется вектор признаков.

В режиме обучения пользователю предлагается 3 раза произнести ключевую фразу, ограниченную по длительности 10 секундами. После обработки речевых сигналов и их параметризации создается шаблон диктора, состоящий из векторов признаков речевого сигнала, и затем он сохраняется в системе.

В режиме верификации, проверки подлинности диктора, пользователю предлагается произнести ключевую фразу. После обработки речевых сигналов и их параметризации необходимо провести заключительный этап верификации — проверку принадлежности фразы заданному диктору с помощью решающего правила (2).

Система состоит из трех модулей: модуль обучения и переобучения, модуль верификации диктора и модуль администрирования. Модуль верификации реализован на основе стандартной библиотеки GINA для ОС Windows XP.

Модуль обучения и переобучения 1. Вводится логин, пароль. В ОС регистрируется пользователь с выбранными правами.

2. Записывается 3 раз одна и та же фраза. Проверяется близость и похожесть фраз.

3. Происходит процедура параметризации, после чего формируется шаблон.

4. В СУБД сохраняется имя пользователя и шаблон. Активируется статус допуска, время блокировки, пороговое значение.

5. В системе определяется пороговое значение общее для всех пользователей. Данное значение может индивидуально меняться для каждого пользователя и может запускаться по какому-то регламенту из модуля администрирования.

6. В журнал логов заносится информация об этих событиях.

Модуль верификации 1. При входе в систему пользователь предъявляет логин, который был создан на этапе обучения. Система предварительно проверяет, существует ли данный пользователь в системе и в базе.

2. По нажатию кнопки «Войти», система предупреждает о том, что начинается запись, и просит приготовиться. После нажатия кнопки ОК, начинается запись сигнала в WAV-файл. Затем данный файл вместе с именем пользователя отправляется серверу по безопасному протоколу SSL.

3. Сервер выполняет процедуру верификации диктора. После этого система посылает ответ, попытка была ли успешна или нет. В последнем случае должен быть указан номер попытки. Если неудачных попыток было больше 3, то система блокирует вход на 30 минут.

4. Ведется журнал логов с успешными и неуспешными попытками, указывается, какие пользователи заблокированы и на какое время.

Модуль администрирования 1. Настройка порогового значения.

2. Получение порогового значения, может запускаться по какому-то регламенту из модуля администрирования.

3. Управление учетными данными пользователей.

4. Управление и просмотр журнала логов, создание отчетов.

На основе анализа модели существующих атак и защиты можно сделать вывод, что многие проблемы и атаки предотвращаются с помощью цифрового кодирования, временных меток и шифрования открытого канала передачи данных. В связи с этим система разграничения прав доступа была реализована с клиент-серверной моделью взаимодействия, что дает следующие преимущества:

• Повышается общая безопасность системы;

• Один мощный сервер сможет одновременно обслуживать множество клиентов;

• Минимальная нагрузка на компьютер клиента;

• Минимизация количества клиентских настроек;

• Сервер можно портировать под любую ОС, а клиентские части останутся неизменными;

• Клиент также можно написать под другую ОС, а сервер останется неизменным.

В работе дается подробное описание схемы разработанной системы разграничения прав доступа, а также приводятся важные аспекты для реализации такой схемы. Описываются подробно три модуля, из которых состоит программа, с конкретными деталями реализации, программным интерфейсом. Далее следует краткое руководство пользователя реализованной системы разграничения прав доступа с примерами и результатами тестирования.

Заключение содержит основные выводы и результаты диссертационной работы.

Публикации по теме диссертации [1] Ручай, А. Н. PAM архитектура как средство усиления парольной политики // Безопасность информационного пространства: материалы международной научно-практической конференции. Екатеринбург :

ГОУ ВПО УрГУПС, 2006. C. 67 — 71.

[2] Ручай, А. Н. Построение двухфакторной модели идентификации диктора по его речи // Безопасность информационного пространства VI: сборник трудов межвузовской научно-практической конференции студентов, аспирантов и молодых ученных, Тюмень, 22-23 ноября 2007 г. Тюмень : ТюмГУ, 2007. C. 57 — 59.

[3] Ручай, А. Н. Биометрика как метод идентификации диктора по голосовым данным // Студент и научно-технический прогресс: тезисы докладов XXXI студ. научной и межвуз. научно-практической конференции для студентов классических вузов. Челябинск : ЧелГУ, 2007.

С. 97 — 98.

[4] Ручай, А. Н. Анализ и реализация методов идентификации диктора по голосу // Студент и научно-технический прогресс: тезисы докладов XXXII студенческой научной конференции. Челябинск : ЧелГУ, 2008. C. 103 — 105.

[5] Ручай, А. Н. Реализация системы текстозависимой верификации диктора по голосу // Безопасность информационного пространства:

труды VII региональной научно-практической конференции студентов, аспирантов и молодых ученных. Екатеринбург : УрГУПС, 2008.

С. 83 — 84.

[6] Ручай, А. Н. Реализация текстозависимой системы идентификации диктора по голосу // Проблемы теоретической и практической математики: труды 40 Молодежной школы-конференции. Екатеринбург :

УрО РАН, 2009. C. 316 — 320.

[7] Ручай, А. Н. Разработка текстозависимой системы идентификации диктора по голосу // Научная сессия ТУСУР-2009: Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых. 12–15 мая 2009 г. Томск : В-Спектр, 2009. Ч.3. C. 347 — 352.

[8] Ручай, А. Н. Разработка текстонезависимой системы идентификации диктора по голосу // Конкурс грантов студентов, аспирантов и молодых ученых вузов Челябинской области: сборник рефератов научно-исследовательских работ студентов. Челябинск : ЮУрГУ, 2009. С. 10 — 11.

[9] Ручай, А. Н. Сингулярность как индивидуальная характеристика речевого сигнала // Безопасность информационного пространства: материалы VIII региональной научно-практической конференции студентов, аспирантов и молодых ученых. Челябинск: ЮУрГУ, 2009.

С. 155 — 157.

[10] Ручай, А. Н. Текстозависимая верификация диктора на основе оценки сингулярности речевого сигнала // Будущее образование и науки — в руках молодых : материалы молод. науч. конф. Миасс : Миас. филиал ГОУ ВПО ЧелГУ, 2010. С. 45 — 50.

[11] Ручай, А. Н. К вопросу о формантном методе текстозависимой верификации диктора / А. Н. Ручай, А.А. Соловьев // Научная сессия ТУСУР-2010: Материалы докладов Всероссийской научнотехнической конференции студентов, аспирантов и молодых ученых, Томск, 4-7 мая 2010 г. Томск : В-Спектр, 2010. Ч.3. С. 194 — 197.

[12] Ручай, А. Н. К вопросу о законе распределения форманты, биометрической характеристики диктора // Проблемы теоретической и практической математики: тезисы 41-й Всероссийской молодежной конференции. Екатеринбург : УрО РАН, 2010. C. 401 — 407.

[13] Ручай, А. Н. Формантный метод текстозависимой верификации диктора // Вестник Челяб. гос. ун. 2010. №23(204). Математика. Механика. Информатика. Вып. 12. C. 121 — 131.

[14] Ручай, А. Н. Текстозависимая верификация диктора на основе формантного метода с использованием нового метода сегментации речевого сигнала // Современные проблемы математики: тезисы 42-й молодежной школы-конференции. Екатеринбург : УрО РАН, 2011.

C. 164 — 166.

[15] Ручай, А. Н. Модель атак и защиты на биометрическую систему распознавания диктора // Доклады ТУСУР. №1(23). 2011. C. 96 — 100.

[16] Ручай, А. Н. Улучшение надежности формантного метода текстозависимой верификации диктора с помощью нового метода сегментации сигнала // Доклады ТУСУР. №2(24). 2011. C. 241 — 246.

РУЧАЙ АЛЕКСЕЙ НИКОЛАЕВИЧ ТЕКСТОЗАВИСИМАЯ ВЕРИФИКАЦИЯ ДИКТОРА: МОДЕЛЬ, СТАТИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ, КОМПЛЕКС ПРОГРАММ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико–математических наук Подписано в печать 15.03.Формат 60 84 /Бумага офсетная. Печать офсетная Усл. печ. л. 1. Уч-изд. л. 1,Тираж 100 экз Отпечатано в ООО «Энерготехника» 454048 Челябинск, ул. Техникумовская, 32а







© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.