WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 |

Пусть X – биометрический шаблон, – набор эталонов для N пользователей, – мера сходства шаблона и эталона, тогда положительное решение идентификации принимается, если, где th – порог идентификации. При биометрической идентификации, основанной на сравнении шаблона пользователя со всеми зарегистрированными эталонами, с ростом числа зарегистрированных пользователей понижается надежность идентификации и растет время идентификации. Обычно, проблему роста времени идентификации решают при помощи грубых методов сравнения шаблона с эталонами, которые позволяют выбрать подпоследовательность эталонов, что приводит к дополнительному ухудшению надежности.

Предложенный нами метод дистанционной идентификации человека по изображениям лица и голосу позволяет решить указанные проблемы за счет использования квазидинамического идентификационного признака как носителя аутентификационной информации. Такой подход получил название связанная идентификация. Произносимая речевая фраза S является индивидуальным аутентификатором пользователя, который считывается при помощи распознавания речи. Таким образом, формируется короткий список рассматриваемых при идентификации гипотез, где n не зависит от количества пользователей. При этом для устранения сильной зависимости речевых данных от шумовых условий проводится коррекция заданного количества ошибок в распознавании речевой фразы или в ее произнесении пользователем. В результате производится пополнение и проверка списка гипотез распознавания по существующим аутентификаторам. Использование распознавания речи позволяет сделать распознавание голоса диктора зависящим от содержания фразы, что позволяет существенно упростить применяемые алгоритмы. Распознавание голоса, зависящее от содержания, и применение нескольких биометрических признаков позволяют сократить длительность фразы, используемой для речевой аутентификации и идентификации по голосу.

Рис. 1. Функциональная схема обработки биометрических признаков при идентификации:
диагональной штриховкой отмечены функциональные элементы, относящиеся к обработке изображений лица, вертикальной функциональные элементы, относящиеся к обработке звука; серой заливкой операции логического выбора, точечной текстурой операции со смешанными эталонами, отсутствием заливки внешние операции по взаимодействию с пользователем.

Последовательность действий разработанного метода идентификации демонстрирует представленная на рис. 1 функциональная схема мультимодальной идентификации. В первом состоянии детектор изменений на сцене отслеживает появление в последовательности изображений определенных изменений. В случае обнаружения изменений производится переход к состоянию детектирования лица. Результатом работы метода в этом состоянии и критерием перехода к следующему состоянию является получение шаблона на базе качественного изображения лица. Для этого производится первичное обнаружение лица при помощи последовательного использования детектора головы человека и детектора лица человека. Если в результате их работы лицо не найдено, то изменение не рассматривается как появление пользователя и происходит переход к состоянию детектирования изменений на сцене. При обнаружении лица производится инициализация слежения за лицом и оценивается качество изображения лица. В случае выделения некачественного изображения лица продолжается слежение и опционально даются указания пользователю или оператору по изменению характеристик съемки. Для качественного изображения лица строится шаблон и осуществляется переход в состояние детектирования речевых данных. Продолжается слежение за лицом и происходит пополнение шаблона на базе качественных изображений лица. При этом добавляется синхронная обработка звука. Она заключается в очистке звукового сигнала от шумов, предобработке и параметризации, а также в детектировании наличия речи в звуковом сигнале. Если обнаружена речь, то производится переход к состоянию связанной идентификации. При этом продолжается слежение за лицом и пополнение шаблона. Одновременно по звуковому каналу производится распознавание обнаруженного речевого фрагмента, генерация списка рассматриваемых гипотез и проверка качества голосовых данных. В случае качественных голосовых данных шаблон идентификации пополняется ими, и производится смешанная верификация шаблона по эталонам из полученного списка гипотез. Результат идентификации выводится для выполнения последующих действий, и происходит переход в первое состояние. Если качество речевых или голосовых данных низкое, то выдается сообщение об ошибке.

Наиболее удобный сценарий взаимодействия с пользователем при применении рассмотренного метода идентификации в рамках системы контроля и управления доступом следующий: пользователь входит в зону доступа и идет к точке доступа, произносит парольную фразу и получает право доступа в контролируемую зону, не прекращая движения.

В третьей главе представлено описание реализации разработанного метода дистанционной идентификации человека в режиме реального времени в виде программного обеспечения комплекса идентификации. Представлены протоколы взаимодействия пользователя с комплексом при идентификации и регистрации. Приведено описание используемых в комплексе способов обработки последовательностей изображений, способов обработки звука, разработанного метода смешанной идентификации человека по лицу и голосу, а также метода регистрации биометрических данных пользователя. Подробно рассматривается разработанный метод оценки качества изображения. Представлены основные технические характеристики комплекса.

Комплекс дистанционной идентификации человека состоит из аппаратных средств и программного обеспечения, позволяющих производить видеозахват пар изображений с разрешением 320*240 пикселей с частотой 15 кадров/с, запись аудиоданных в стерео режиме с частотой 22 кГц, выдавать команды для диалога с пользователем на экран и колонки и обрабатывать данные видео- и аудиопотоков для принятия объединенного решения по идентификации человека на базе персонального компьютера с частотой процессора 3 ГГц. Использование двух аудиоканалов объясняется необходимостью подавления шумов в речевом сигнале. Применение стереоскопического видео дает возможность обнаруживать голову человека как трехмерный объект на любом фоне и обеспечивает дополнительную защиту от попыток атак при помощи фотографии или видеофильма.

Разработанный комплекс в состоянии детектирования изменений на сцене реализует анализ разностей последовательных изображений для двух каналов. Производятся фильтрация шумов, выравнивание цвета и освещенности на изображениях. Появление существенных изменений в некоторой области изображения активирует процесс восстановления карты диспарантности в этой области. Производится пирамидальное восстановление трехмерных характеристик объекта и поиск его составной части, близкой по форме к трехмерному эллипсоиду с диапазоном размеров, присущих реальной голове человека. Обнаружение на изображениях объекта, похожего на голову человека, запускает детектирование лица в данной области. Первичный анализ положения лица включает выделение области лица на голове по цвету кожи. Детектирование лица и слежение за ним производится алгоритмами с применением эластичных графов черт лица, выделенных на основе анализа геометрии откликов вейвлетов Габора с заданными направлениями, и проверкой и уточнением положения лица, осуществляемых при помощи нейронной сети. Лицо обнаруживается при положениях головы в пределах 20 градусов к фронтальному положению. Для выделенного лица производится инициализация слежения на последующих кадрах, которое использует предыдущую информацию о размере и положении лица. Слежение продолжается, даже если не удалось провести проверку и уточнение лица нейронной сетью. Обнаруженное лицо подвергается нормализации и передается вместе с параметрами детектирования на оценку качества. При неудовлетворительном качестве изображения лица по одному из параметров производится вывод совета пользователю по исправлению данного параметра. Выделение качественного изображения лица приводит к созданию шаблона распознавания по этому изображению на базе разложения в пространстве главных компонент или линейного дискриминантного анализа на базе главных компонент. Создание шаблона распознавания по изображениям лица активирует захват звуковых данных. В программном обеспечении для обработки видеопоследовательностей изображений использованы методы предобработки изображений, детектирования и распознавания лица, реализованные в виде библиотеки И.А. Матвеевым.

Разработан и реализован контроль качества изображения лица по следующим выбранным параметрам: фокус, контрастность, выдержка (экспозиция) – появление засвеченных или темных областей на изображении лица, разрешение изображения лица в пикселях, информативность изображения лица, уверенность в наличии лица при детектировании, точность выделения изображения лица. При этом учтено предварительное выравнивание освещения и регистрация различных поз и выражений в эталоне.

Реализованы следующие метрики оценки качества изображений лица для представленных параметров:

• Метрика для оценки фокуса задается соотношением E(F(I))/ E(I), где I– интенсивность, F() - высокочастотный фильтр, E() – взвешенная энергия.

• Метрика для оценки засвеченных (темных) областей оценивает долю областей с определенным процентом засвеченных (темных) пикселей среди всех рассматриваемых локальных областей изображения лица.

• Метрика для оценки контрастности реализована на основе максимума гистограммы контрастности для всего изображения лица:

при, где, где S – множество соседних пар пикселей (x1,x2); I(x1) – интенсивность в x1; N(t)= #S(t)- мощность S(t).

• Метрика для оценки информативности изображения лица реализована при помощи взвешенной суммы количества переходов через ноль оператора Марра в локальных областях.

• Метрика для оценки уверенности в наличии лица является результатом работы детектора лица.

• Разрешение определяется по результатам работы детектора и равно расстоянию в пикселях между центрами глаз.

• Метрика точности применяется на базе оценки отклонений отношений расстояний между чертами лица по нескольким кадрам.

Весовой коэффициент по локальной области определяется при помощи замещения на изображении лица этой области областью со средним значением интенсивности и вычисления меры сходства d(,) между этими изображениями лиц:.

Для установления пороговых значений отсева изображений разработана процедура последовательного ухудшения изображений по каждому отдельному параметру качества для набора эталонных изображений. Качественными изображениями лица считаются те, значения метрик по всем параметрам на которых превосходят данные пороговые значения.

С точки зрения практической применимости обработка звука допускает акустико-фоновую обстановку с отношением сигнал/шум более +15 дБ. Распознавание речи и идентификация голоса производится на основе коротких по длительности выборок из ограниченного словаря (фраз из пяти цифр средней продолжительностью 2-3 с, Персонального Идентификационного Номера, ПИН). Поэтому распознавание голоса базируется на сравнении параметров произнесения звуков, выделенных распознавателем речи.

Очистка шума основана на Винеровской фильтрации. Для очищенного звука производится оценка параметров – кепстральных коэффициентов и их первых производных в шкале мелов. Детектор наличия речи декодирует с помощью Скрытой Марковской Модели (СММ) из двух состояний (речь и пауза) последовательность параметров речевого сигнала в последовательность этих состояний. Если в течение заданного промежутка времени с момента обнаружения речи одновременно не произошло событие, заключающееся в одновременном детектировании лица и речи, то комплекс останавливает попытки создания шаблона идентификации и переходит в исходное состояние. Распознавание речи заключается в преобразовании параметров речевого сигнала в последовательность слов словаря, состоящего из цифр и вспомогательных команд. Речевой сигнал представляется как последовательность звуков. Звук моделируется при помощи СММ из трех состояний, распределение значений параметров которых задано с помощью кодовых книг - самоорганизующихся карт признаков. Каждая единица словаря имеет одну или несколько произносительных транскрипций, которые определяют возможные варианты произнесения слова. На основании произносительных транскрипций компилируется представление всего произносительного словаря в виде префиксного дерева. Распознавание речи осуществляется, как поиск на этой сети, и реализовано на основе алгоритма Виттерби. На выходе распознавателя речи выдается список из n (n 10) наиболее правдоподобных гипотез о последовательности слов. Производится пополнение списка рассматриваемых гипотез за счет коррекции одной возможной ошибки распознавания слова.

Модель голоса диктора определяется как множество шаблонов произнесения для каждого слова из словаря. Шаблоном произнесения является вектор параметров речевого сигнала, усредненных по состояниям акустических моделей звуков. Идентификация голоса проводится на базе оценки локальных расстояний, вычисляемых между шаблонами произнесения. Методы обработки звука разработаны совместно с В.Я. Чучупалом, К.А. Маковкиным и Д.В. Ковковым.

В комплексе реализованы два способа распознавания лица: метод главных компонент (МГК) и линейный дискриминантный анализ (ЛДА, метод Фишера). Метод ЛДА дает лучшие результаты, чем МГК при тех же вычислительных затратах на этапе классификации, хотя предъявляет повышенные требования к обучающей выборке. В шаблоне используются качественные кадры, выбранные с заданной частотой. Результатом распознавания лица является минимальное значение расстояния по всем парам нормализованных изображений лиц из шаблона и эталона.

Совместное решающее правило построено как линейный классификатор в двумерном пространстве с компонентами, соответствующими мерам сходства лицевых и голосовых шаблонов. Каждое сравнение в этом пространстве представлено вектором с компонентами, соответствующими мерам сходства по лицу и по голосу. Классификатор разделяет сравнения на два класса: «сравнение одного человека» и «сравнение разных людей». Классификатор минимизирует относительное количество ошибок первого рода (FRR) при заданном фиксированном относительном уровне ошибок второго рода (FAR).

Pages:     | 1 || 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»