WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     || 2 | 3 |

Ф.И.О.

Малков Максим Александрович

Название диссертации:

«Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса»

Специальность:

05.13.18 – Математическое моделирование, численные методы и комплексы программ

Отрасль науки:

Технические науки

Шифр совета:

Д 212.110.08

Тел. ученого секретаря

Диссертационного совета:

8-499-141-94-55

E-mail:

electron_inform@mail.ru

Предполагаемая дата защиты

диссертации:

4 июня 2009г. в 14.00

Место защиты диссертации:

Оршанская, 3, ауд. 612а

Дата размещения на сайте Университета

www.mati.ru

30 апреля 2009г.

На правах рукописи

МАЛКОВ Максим Александрович

МОДЕЛИРОВАНИЕ И РАЗРАБОТКА КОМПЛЕКСА ПРОГРАММ ИДЕНТИФИКАЦИИ ГОЛОСОВОГО СООБЩЕНИЯ ПО ФОНЕМНОЙ СОСТАВЛЯЮЩЕЙ И ИНДИВИДУАЛЬНЫМ ХАРАКТЕРИСТИКАМ ГОЛОСА

Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание учёной степени

кандидата технических наук

Москва – 2009

Работа выполнена в ГОУ ВПО «МАТИ» Российском государственном технологическом университете имени К.Э. Циолковского

Научный руководитель:

кандидат технических наук

Балакирев Николай Евгеньевич

Официальные оппоненты:

доктор физико-математических наук,

профессор

Михайлюк Михаил Васильевич

кандидат технических наук,

доцент

Самсонов Олег Семёнович

Ведущая организация:

Институт точной механики и

вычислительной техники

им. С.А. Лебедева РАН

Защита состоится « » 2009 г. в ч. мин. на заседании диссертационного совета Д 212.110.08 при «МАТИ» Российском государственном технологическом университете имени К.Э. Циолковского по адресу: 121552, Москва, ул. Оршанская, д. 3, ауд. 612а.

С диссертацией можно ознакомиться в библиотеке «МАТИ» Российского государственного технологического университета имени К.Э. Циолковского.

Автореферат разослан « » 2009 г.

Учёный секретарь диссертационного совета Д 212.110.08

кандидат физико-математических наук

Спыну М.В.

Общая характеристика работы

Актуальность темы диссертации. В последние годы для идентификации личности человека всё более широкое применение получают биометрические технологии. Они используются в системах разграничения доступа, при проведении финансовых транзакций, при запросах конфиденциальной информации по телефону, при управлении различными устройствами, в криминалистике и т.д. Использование биометрических технологий в этих сферах обладает рядом существенных преимуществ перед традиционными средствами идентификации (например, использованием пароля). В первую очередь к таким преимуществам относятся высокая надёжность идентификации и удобство использования для человека.

В качестве идентифицирующих параметров в биометрических технологиях используются физиологические и поведенческие характеристики человека. К таким характеристикам относятся отпечатки пальцев, голос, радужная оболочка глаза, лицо человека, почерк и др.

В настоящее время наиболее распространёнными биометрическими характеристиками человека являются отпечатки пальцев и радужная оболочка глаза. В то же время голос используется не так широко, хотя он обладает рядом существенных преимуществ, например, простота снятия биометрического параметра (достаточно лишь стандартного микрофона), а также удобство использования.

На сегодняшний день в мире существует ряд компаний, занимающихся разработкой систем идентификации голоса. Достигнуты определённые успехи в этой области (вероятность ошибки идентификации 1 – 3%). Однако существующие разработки обладают рядом недостатков.

Алгоритмы достаточно сложны и требуют больших вычислительных ресурсов, что ограничивает область их применения только высокопроизводительными ЭВМ (время идентификации 3 – 5 секунд при длительности фразы 3 секунды на ЭВМ с частотой процессора 1,60 ГГц и объёмом оперативной памяти 896 МБ).

Кроме того, во всех системах отсутствует возможность настройки алгоритмов под различные условия применения (уровень шума, особенность голоса конкретного человека, порог ошибок и т.д.).

Также, ни один разработчик не предоставляет средства для тестирования разработанной им системы идентификации голоса, тогда как особенности условий применения могут значительно влиять на качество работы алгоритма.

Большинство алгоритмов не учитывают текстовое содержание произносимой фразы (фонемную составляющую), выделяя лишь индивидуальные характеристики голоса, что значительно снижает надёжность идентификации.

С учётом сказанного актуальной является задача разработки новой модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса, свободной от отмеченных недостатков, а также комплекса программ, реализующего данную модель и позволяющего её тестировать.

Цель диссертационной работы. Целью диссертационной работы является разработка математической модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса, а также разработка комплекса программ, реализующего данную модель и позволяющего её тестировать. Исходя из поставленных целей, в работе решаются следующие задачи:

  • анализ математических методов, которые можно применить к решению задачи идентификации голосового сообщения;
  • разработка математической модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;
  • программная реализация разработанной модели идентификации голосового сообщения;
  • разработка метода оценки качества идентификации;
  • программная реализация метода оценки качества идентификации голосового сообщения;
  • оценка влияния значений варьируемых параметров (параметры модели, с помощью которых производится её настройка) разработанной модели на качество идентификации;
  • оценка влияния различных произносимых фраз на качество идентификации.

Предмет исследования. Предметом исследования в диссертационной работе являются голосовые сообщения, представленные в оцифрованной форме, математическая модель идентификации голосового сообщения и статистические показатели, характеризующие качество идентификации этой модели.

Методы исследования. Методы исследования заимствованы из следующих областей:

  • цифровая обработка сигналов;
  • колебания и волны;
  • теория речеобразования;
  • математический анализ;
  • математическое моделирование;
  • численные методы;
  • теория вероятностей и математическая статистика;
  • теория языков программирования;
  • теория построения баз данных.

Научная новизна. Научную новизну диссертационной работы составляют результаты, полученные в ходе решения поставленных задач:

  • модель идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;
  • метод деления голосового сообщения на фонемы;
  • метод обработки фонем для их сравнения;
  • метод матричного анализа сравнения фонем голосовых сообщений;
  • набор параметров модели (варьируемые параметры), изменяя значения которых, можно настраивать её под различные условия применения;
  • метод оценки качества идентификации представленной модели.

Практическая ценность работы. Практическую ценность работы составляют следующие результаты:

  • разработан комплекс программ идентификации голосового сообщения на основе предложенной модели;
  • реализован комплекс программ оценки качества идентификации на основе статистических методов;
  • выработаны рекомендации по использованию определённых голосовых сообщений в идентификации для повышения качества работы предложенной модели.

Положения, выносимые на защиту. На защиту выносятся следующие положения:

  • речевой сигнал и теория речеобразования;
  • структурная схема модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;
  • метод деления голосового сообщения на фонемы;
  • метод обработки фонем для их сравнения;
  • метод матричного анализа сравнения фонем голосовых сообщений;
  • метод статистической оценки качества работы модели идентификации голосового сообщения;
  • статистическая оценка качества работы представленной модели в зависимости от значений варьируемых параметров;
  • статистическая оценка качества работы представленной модели в зависимости от различных фраз.

Апробация результатов исследований. Основные результаты, полученные в ходе выполнения диссертационной работы, докладывались на международных молодёжных научных конференциях ХХХII Гагаринские чтения (Москва, 2006 г.), ХХХIII Гагаринские чтения (Москва, 2007 г.) и ХХХIV Гагаринские чтения (Москва, 2008 г.), X Санкт-Петербургской международной конференции «Региональная информатика – 2006» (Санкт-Петербург, 2006 г.), XI Санкт-Петербургской международной конференции «Региональная информатика – 2008» (Санкт-Петербург, 2008 г.), VIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2008 г.), Всероссийских научно-технических конференциях: «Новые материалы и технологии – 2006» (Москва, 2006 г.), «Новые материалы и технологии – 2008» (Москва, 2008 г.), а также докладывались и обсуждались на научных семинарах кафедры «Проектирование вычислительных комплексов» «МАТИ» – РГТУ имени К.Э. Циолковского.

Программный комплекс идентификации голосового сообщения, разработанный на основе предложенной модели, прошёл апробацию на кафедре «Проектирование вычислительных комплексов» «МАТИ» – РГТУ имени К.Э. Циолковского, а также в Политехническом музее в рамках Третьего Фестиваля науки в городе Москве (Москва, ноябрь 2008 г.).

Публикации. По теме диссертации опубликованы одиннадцать печатных работ, в том числе три статьи, из них одна статья в журнале, входящем в Перечень ведущих изданий, рекомендованных ВАК.

Структура и объем работы. Работа состоит из введения, четырёх глав, заключения, списка литературы и четырёх приложений. Работа изложена на 94 страницах и включает 36 рисунков, 12 таблиц, список литературы из 98 наименований, а также приложения на 23 страницах. Общий объём работы – 117 страниц.

Краткое содержание работы

Во введении обосновывается актуальность темы диссертационной работы. Характеризуется область исследования. Обосновываются научная новизна и практическая значимость выполненного исследования. Формулируются цели исследования и основные положения, выносимые на защиту.

Первая глава посвящена обзору речевых технологий. Рассматриваются два класса подходов к определению речи. К первому классу относятся подходы, описывающие речь с точки зрения информационного содержания. Ко второму относятся подходы, описывающие речь как акустический сигнал. В общем случае акустический сигнал является носителем информационного содержания речи.

Рассматривается деление речевых технологий на шесть групп: цифровая передача и хранение, синтез речи, улучшение качества речевого сигнала, распознавание речи, устранение дефектов речи, идентификация голоса.

Анализируются математические методы, которые могут быть использованы при идентификации голосового сообщения – нейросети, частотные цифровые фильтры, Фурье-анализ, кепстральный анализ, методы машинного обучения, векторное квантование, гауссовы смеси и вейвлет-анализ.

Pages:     || 2 | 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»