WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

На правах рукописи

Куракин Алексей Владимирович

Распознавание динамических жестов в системе компьютерного зрения на основе медиального представления формы изображений

05.13.17 – Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва – 2012

Работа выполнена на кафедре «Интеллектуальные системы» факультета управления и прикладной математики Московского физико-технического института (государственного университета).

Научный консультант:

доктор технических наук, профессор Местецкий Леонид Моисеевич

Официальные оппоненты:

Чернов Владимир Михайлович, доктор физико-математических наук, ФГБОУ ВПО «Самарский государственный аэрокосмический университет имени академи­ ка С. П. Королёва (национальный исследовательский университет)», профессор кафедры геоинформатики и информационной безопасности;

Копылов Андрей Валериевич, кандидат технических наук, ФГБОУ ВПО «Тульский государственный университет», доцент кафедры автоматики и телемеханики.

Ведущая организация: Московский государственный университет имени М. В. Ломо­ носова.

Защита состоится « 21 » декабря 2012 г. в 10.00 часов на заседании диссертационного совета Д 212.215.07, созданного на базе федерального государственного бюджетного обра­ зовательного учреждения высшего профессионального образования «Самарский государ­ ственный аэрокосмический университет имени академика С.П. Королева (национальный исследовательский университет)» (СГАУ), по адресу: 443086, г. Самара, Московское шос­ се, д. 34.

С диссертацией можно ознакомиться в библиотеке СГАУ.

Автореферат разослан « 20 » ноября 2012 г.

Ученый секретарь диссертационного совета, д. т. н., профессор Белоконов И.В.

Общая характеристика работы

Предмет исследования. Жестом называют телодвижение, преимущественно дви­ жение рукой, сопровождающее речь или имеющее значение какого-либо сигнала, знака1.

Язык жестов в широком смысле бесконечно разнообразен как по форме жестов, так и по их семантике, поэтому полномасштабное распознавание языка жестов представляет собой сложную задачу даже для человеческого интеллекта. На современном уровне развития систем компьютерного зрения задача автоматического распознавания ставится обычно применительно к небольшому набору заранее определенных жестов.

В данном исследовании в качестве объекта, совершающего жест, рассматриваются кисти рук человека и тело человека. Под позой объекта понимается его форма и положение на отдельном изображении. А под жестом в данной работе понимается предопределенная последовательность поз, то есть предопределенное динамическое изменение формы и поло­ жения объекта в последовательности изображений. Задача распознавания жестов состоит в регистрации формы и положения объекта, регистрации межкадровых изменений фор­ мы и положения, и классификации последовательности этих изменений по нескольким предопределенным классам.

Актуальность темы. Жесты всегда были неотъемлемой частью взаимодействия людей между собой. Но жесты также являются удобным средством взаимодействия с ком­ пьютером во многих сценариях. Можно привести следующие примеры таких сценариев:

управление развлекательными приложениями и системами;

управление медицинским оборудованием при требованиях стерильности, которые можно удовлетворить за счет минимизации тактильного контакта между операто­ ром и устройством;

визуализация и моделирование сложных трехмерных данных, удобство работы с ко­ торыми ограничено при применении стандартных двухмерных манипуляторов, таких как компьютерная мышь;

компьютерное распознавание языка глухонемых.

Руки и тело человека являются естественными манипуляторами и обладают большим числом степеней свободы, поэтому успешное решение задачи распознавания выполняемых Академический словарь русского языка ими жестов раскрывает перспективы для решения широкого круга прикладных задач.

В диссертации рассматривается задача распознавания жестов на основе информации, полученной с доступных визуальных сенсоров, таких как веб-камеры и камеры глубины.

В литературе рассматриваются различные методы решения задач распознавания от­ дельных классов жестов. В частности, достаточно много работ (Wang, Popovi 2009; Van c, den Bergh, Van Gool, 2011; Ren et al., 2011; Gudmundsson et al., 2010; Suryanarayan et al., 2010), посвящены определению статической позы руки, при использовании RGB камеры в качестве сенсора. Но предлагаемые решения либо работают с простейшими одиночны­ ми жестами, либо обладают большой вычислительной сложностью, которая не позволяет использовать их в системах реального времени.

Появление сенсора Kinect в 2010 году, первой камеры глубины доступной широкой аудитории, открыло широкие возможности для создания систем распознавания жестов, что чрезвычайно повысило актуальность задачи распознавания жестов с использованием камеры глубины. А разработанное для Kinect программное обеспечение выполняет опре­ деления положений основных суставов тела человека (Shotton et al., 2011). Однако в нем отсутствует механизм распознавания динамических жестов, более того данное программ­ ное обеспечение является закрытым, и для воспроизведения лежащего в его основе метода требуется большая база данных всевозможных поз человека для обучения классификато­ ра.

В целом, решение задач, связанных с распознаванием сложных динамических же­ стов находится на начальном уровне. А разнообразие жестов и способность человека к их пониманию столь велики, что проблема их распознавания с помощью компьютера будет оставаться актуальной долгое время.

Научная задача. Основная задача данной работы заключается в разработке ме­ тода классификации динамических жестов по видеопоследовательности на основе непре­ рывного медиального представления объекта, совершающего жесты. В качестве объектов, совершающих жесты, рассматриваются рука и тело человека. Сложность задачи опреде­ ляется очень большим разнообразием жестов и вариантов их исполнения, что связано с большим числом степеней свободы рук и тела человека, разнообразием индивидуальных антропометрических и двигательных особенностей различных людей, требованием реаль­ ного времени работы системы компьютерного зрения.

Выделение признаков затруднено из-за того, что объект нередко наблюдается с ок­ клюзиями (т.е. разные точки объекта проецируются в одну точку изображения), что приво­ дит к невозможности оценки значений всех параметров, характеризующих позу объекта.

Более того, так как в работе рассматриваются динамические жесты, их продолжитель­ ность во времени может быть различна как для разных жестов, так и для повторения одного и того же жеста. Это приводит к тому, что «эффективная» размерность призна­ кового пространства, описывающего жесты, меняется как от жеста к жесту так и между повторениями одного и того же жеста.

Цель исследования. Целью диссертационного исследования является разработка новых методов распознавания поз и жестов по видеопоследовательности, полученной с веб-камер или камеры глубины, позволяющих существенно расширить класс решаемых в реальном времени задач распознавания жестов. Достижение цели повысит эффективность и расширит возможности современных систем компьютерного зрения и распознавания жестов.

Предлагаемый подход. В данной работе предлагается использовать непрерывное медиальное представление для генерации признаковых описаний отдельных кадров, на ос­ нове которых будет выполняться распознавание жестов. Совокупность признаковых опи­ саний отдельных кадров образует траекторию жеста. Распознавание жестов предлагается выполнять с помощью метрического классификатора, за счет сравнения траекторий рас­ познаваемых жестов с траекториями эталонных жестов.

Методы, основанные на непрерывном медиальном представлении2, дают информа­ тивное признаковое описание и обладают достаточной скоростью обработки. Однако по­ добные методы не использовались ранее для онлайн анализа видеопоследовательностей и распознавания динамических жестов, соответственно, их использование в рассматривае­ мой задаче требует научной проработки.

Результаты, выносимые на защиту

.

1. Метод распознавания жестов, представленных видеопоследовательностями, основан­ ный на выделении ключевых точек формы объектов в отдельных кадрах, построе­ нии динамических траекторий ключевых точек в последовательностях изображений и вычислении меры близости траекторий на основе выравнивания.

2. Метод генерации признаков пространственной формы объекта по изображениям или Местецкий Л.М. Непрерывная морфология бинарных изображений: фигуры, скелеты, циркуляры.

Москва, Физматлит, 2009.

по карте глубины на основе непрерывного медиального представления плоских про­ екций объекта.

3. Метод связывания фрагментов границ в контуры, основанный на построении внеш­ него скелета исходных фрагментов границ.

4. Метод сегментации объекта за счет анализа противоположных частей его границ с помощью непрерывного скелета и радиальной функции.

5. Метод сравнения видеопоследовательностей, каждый кадр которых описан множе­ ством ключевых точек, на основе выравнивания.

Научная новизна. Научная новизна работы определяется:

обоснованием возможности использования непрерывного медиального представле­ ния для анализа поз и динамических жестов сложных пространственных объектов в реальном времени работы систем компьютерного зрения;

разработкой оригинальной меры близости видеопоследовательностей, основанной на построении и использовании траекторий ключевых точек, получаемых по медиаль­ ным признаковым описаниям объектов;

разработкой метода распознавания жестов по карте глубины с обучением по одному прецеденту.

Теоретическая и практическая значимость. Теоретическая значимость работы заключается в разработке и обоснование нового подхода в решении задачи восстановле­ ния формы трехмерного объекта в динамике в интересах распознавания жестов в системах компьютерного зрения, а также в разработке аппарата распознавания динамических же­ стов при переменной размерности признакового пространства.

Практическая значимость состоит в разработке методов распознавания жестов ладо­ ни и тела человека, работающих в реальном времени.

Достоверность результатов. Достоверность результатов диссертационной работы подтверждается корректностью постановок рассматриваемых задач исследования, приме­ нением математически обоснованных методов их решения, программной реализацией и вы­ числительными экспериментами, проведенными на реальных видеопоследовательностях с жестами рук и тела человека.

Апробация результатов исследования. Основные результаты диссертационно­ го исследования докладывались на следующих конференциях: International conference on computer vision theory and applications (Виламора, Алгарве, Португалия, 2011); International Conference on Image Analysis and Recognition (Ванкувер, Канада, 2011); European Signal Processing Conference (Бухарест, Румыния, 2012); Bilateral Russian-Indian Workshop Emerging Applications of Computer Vision (Москва, 2011); 15-я Всероссийская конференция «Мате­ матические методы распознавания образов» (Петрозаводск, 2011); 9-я Международная конференция «Интеллектуализация обработки информации» (Будва, Черногория, 2012);

53-я научная конференция Московского физико-технического института (Долгопрудный, 2010); Конференция «Техническое зрение в системах управления-2011» (Москва, 2011).

Методы, разработанные и используемые в диссертации, были применены для участия в соревнованиях Hand Geometric Points Detection Competition 2011 и ChaLearn Gesture Challenge.

В рамках исследования была разработана система управления мышью и объектами на экране компьютера с помощью жестов рук. Примеры видео, демонстрирующих управ­ ление компьютером с помощью жестов, можно найти по ссылкам [11–14].

Основные результаты работы опубликованы в [1–10], в том числе в изданиях [1, 2], входящих в список ВАК.

Исследования по теме диссертации поддерживались РФФИ (проекты №11-01-00783-а, №11-07-00462-а).

Структура и объем диссертации. Диссертация состоит из введения, 4 глав основ­ ного содержания, заключения и библиографии. Работа содержит 108 страниц основного текста, включая 34 иллюстрации. Перечень библиографических источников включает наименований.

Содержание работы Во Введении обоснована актуальность темы диссертационной работы, сформули­ рована цель и аргументирована научная новизна исследования, показана практическая значимость полученных результатов, представлены выносимые на защиту научные поло­ жения.

В первой главе приводится постановка задачи, обзор литературы, по тематике задачи и структура предлагаемого в диссертации подхода.

Рис. 1. Схема предлагаемого подхода.

В разделе 1.1 дается формальная постановка задачи распознавания жестов, рас­ сматриваемая в диссертации.

В диссертации рассматривается метод распознавания динамических жестов, совер­ шаемыми кистью и руками.

Произвольный жест G задается последовательностью изображений G = (I1,..., I|G|) объекта, совершающего жест, где через |G| обозначается количество кадров в жесте G. Бу­ дем полагать, что имеется обучающая совокупность, заданная набором эталонных жестов G1,..., GN. На вход системы распознавания жестов подается видеопоследовательность V = (I1,..., In), содержащая один или несколько жестов, а задача состоит в определении количества жестов k входящих в видеопоследовательность V, номеров кадров начала sj и окончания ej каждого из жестов, где j {1,..., k}, а также индексов эталонных жестов gj, соответствующих каждому из жестов в видеопоследовательности. Дополнительно могут вычисляться количественные характеристики распознанных жестов такие, как общее пе­ ремещение объекта на протяжении жеста и координаты объекта и его частей в различные моменты времени.

В разделе 1.2 задача распознавания динамических жестов разбивается на подзада­ чу генерации признаков для отдельных кадров и подзадачу распознавания динамических последовательностей признаковых описаний. Для каждой из подзадач приводится обзор существующих методов их решений.

В разделе 1.3 приводится структура предлагаемого в диссертации подхода к ре­ шению задачи распознавания жестов. Она проиллюстрирована на рисунке 1 и состоит из шести этапов.

На первом этапе выполняется одновременное получение изображений с одной или нескольких камер, выполняющих съемку объекта. В работе используется одна RGB каме­ ра, стереопара из RGB камер, а так же сенсор глубины Microsoft Kinect.

На втором этапе выполняется сегментация полученных изображений с целью выде­ ления силуэта искомого объекта. Конкретный метод сегментации зависит от типа исполь­ зуемых камер и особенностей выделяемого объекта. Для цветных камер используются традиционные методы, основанные на вычитание фона, а для камеры глубины были раз­ работаны специальные методы сегментации объекта.

На третьем этапе выполняется построение непрерывного медиального представле­ ния силуэта изображения объекта — множества серединных осей, образованных центрами вписанных в силуэт кругов, и радиальной функции, определяемой радиусами этих кругов.

На четвертом этапе полученное медиальное представление объекта используется для генерации признакового описания каждого отдельного кадра. В качестве признаков высту­ пают координаты частей объекта. Для жестов рук — это координаты кончиков пальцев, а для жестов, совершаемых телом — это координаты кистей рук.

На пятом этапе происходит межкадровая обработка полученных признаковых опи­ саний с целью фильтрации выбросов, заполнения пропусков и уменьшения шумов.

На шестом этапе производится распознавание динамических жестов на основе полу­ ченных признаков.

Детально каждый из этапов описан в последующих главах диссертации.

Вторая глава посвящена методам извлечения признаков для отдельных кадров ви­ деопоследовательности. Общая идея построения признакового описания отдельного кадра состоит в сегментации объекта, построении медиального представления силуэта объекта, выделении ключевых точек объекта на основе медиального представления, и использова­ нии координат ключевых точек в качестве признакового описания.

В разделе 2.1 дается понятие непрерывного скелета и непрерывного медиального представления.

Для многоугольной фигуры F максимальным пустым кругом будем называть всякий круг B, полностью содержащийся внутри фигуры F, такой что любой другой круг B, содержащийся внутри фигуры F, не содержит в себе B, т. е. B F, B = B : B B.

Скелетом многоугольной фигуры F является множество центров ее максимальных пустых кругов. На скелете определена радиальная функция R(x, y), которая ставит в соответствие каждой точке скелета (x, y) значение радиуса максимального пустого круга с центром в этой точке. Скелет совместно с радиальной функцией называют медиальным (а ) (б ) (в ) (г ) Рис. 2. Выделение тела человека по карте глубины: (а) исходный кадр; (б) движущиеся части, полученные за счет вычитания фона; (в) края на карте глубины; (г) сегментированное тело че­ ловека.

представлением объекта.

Скелет многоугольной фигуры можно рассматривать как геометрический граф — плоскую фигуру, состоящую из вершин — точек на плоскости и ребер — линий, соединяю­ щих некоторые пары вершин. Степень вершин в таком графе равна 1, 2 или 3.

Для растровых силуэтов перед построением непрерывного скелета выполняется по­ строение многоугольной аппроксимации силуэта.

Для анализа скелета и выделения ключевых точек на скелете в диссертации вводятся вспомогательные понятия ветви скелета и радиальной функции вдоль ветви скелета.

Пусть s() : s(l) = {x(l), y(l)}, l [0, L], — непрерывная кусочно-гладкая кривая без самопересечений и l является естественной параметризацией кривой (т. е. длиной дуги кривой). Пусть каждая точка кривой s() является одновременно и точкой скелета, а s(0) и s(L) совпадают с некоторыми вершиными скелета. В таком случае кривую s(), соединяющую точки скелета s(0) и s(L), будем называть ветвью скелета.

Для каждой точки скелета с координатами (x, y) известно значение радиальной функ­ ции R(x, y), равное радиусу максимального пустого круга с центром в этой точке. Допол­ нительно для произвольной ветви скелета s() будем рассматривать радиальную функцию вдоль ветви Rs(l) = R(s(l)), l [0, L].

Следует отметить, что использование эффективных алгоритмов для построения и анализа непрерывного скелета делает возможной реализацию всех описанных во второй главе алгоритмов в реальном времени.

В разделе 2.2 приводится разработанный в диссертации метод сегментации силуэта человека на карте глубины.

(а ) (б ) (в ) Рис. 3. Демонстрация сшивки краев: (а) карта глубины; (б) ребра выделенные оператором Canny;

(в) ребра со сшитыми промежутками.

Идея метода проиллюстрирована на рисунке 2, и состоит в определении краев на карте глубины, сегментирующих все изображение на связные области, определении дви­ жущихся частей переднего плана, и определении области, содержащей наибольшее коли­ чество пикселей переднего плана.

При использовании такого подхода достаточно лишь небольшой части переднего пла­ на для определения области, являющейся телом человека. Таким образом, выделение пе­ реднего плана можно производить за счет вычитания фона из текущего кадра, при этом точная модель фона не важна.

В силу того, что человек всегда ближе фона к камере, пиксели, соответствующие фону, будут иметь большую глубину на карте глубины. Соответственно, для накопления фона предлагается вычислять попиксельный максимум интенсивности для нескольких кадров с картой глубины. Более того, так как точная модель фона не нужна, достаточно лишь небольшого числа кадров для ее накопления, и, соответственно, метод работает в реальном времени с малой задержкой.

Для построения контуров объекта по карте глубины в работе предлагается исполь­ зовать методы выделения края. Однако контуры, получаемые в результате применения стандартных алгоритмов обнаружения края на изображении, зачастую не являются за­ мкнутыми и содержат разрывы (рис. 3). По этой причине возникает задача обработка выделенных краев с целью сшивки разрывов и получения замкнутых контуров.

В работе были выделены следующие критерии того, что пара пикселей U и V края должна быть соединена для устранения разрыва. Во-первых, длина UV меньше наперед заданного порога d. Во-вторых, для любых пикселей границы U в окрестности U, и V в (а ) (б ) (в ) (г ) Рис. 4. Демонстрация работы метода заполнения разрывов в контуре, на примере разрыва, через который проходит ветвь скелета AB (а); увеличенное исходное изображение разрыва (б); век­ торизованный контур бинарного изображения и построенный скелет (в); результат заполнения разрыва (г).

окрестности V должно выполняться: |UV | > |UV |. В-третьих, по обе стороны от отрезка UV есть достаточное пространство (по площади порядка O |UV |2 ), свободное от границ.

В-четвертых, сшивка всех дыр в контурах приводит к тому, что изображение распадется на компоненты связности, соответствующие фону и переднему плану.

Применение локальных методов сшивки (например, использование морфологических операций дилатации и эрозии) способно удовлетворить лишь первые три критерия. В рабо­ те был предложен метод сшивки, учитывающий общую топологию изображения, на основе использования непрерывного скелета.

Идея метода сшивки дыр состоит в построении внешнего скелета границ и анали­ за его ветвей, соединяющих пары вершин степени 3, с целью определения мест сшивки (рис. 4). Для каждой такой ветви скелета определяется точка, где радиальная функция скелета имеет минимум. Для соответствующего вписанного круга определяются его точки касания t1 и t2 с границей. Если t1t2 < d, то отрезок t1t2 автоматически удовлетворяет критериям 1–3, и считается кандидатом на сшивку. Для случая, когда прорисованы все разрывы, определяются две максимальные компоненты связности C1 и C2, и выбирается минимальное подмножество из всех кандидатов на сшивку, которое приведет к разделе­ нию изображения на компоненты C1 и C2.

В разделе 2.3 описывается метод генерации ключевых точек на основе скелета.

Идея метода состоит в анализе геометрических характеристик ветвей, выходящих из висячих вершин скелета. Рассматриваются все ветви, соединяющие вершины степени 1 и Рис. 5. Иллюстрация алгоритма детектирования пальцев: ветвь AB — кандидат на то, чтобы быть пальцем; точка C — найденное место сочленения пальца и пясти.

3. Для каждой из таких ветвей выполняется ее классификация на классы 0 и 1. Висячие вершины, соответствующие ветвям класса 1, считаются ключевыми точками скелета. Для классификации ветвей скелета может быть использован эвристический классификатор или методы машинного обучения.

Для силуэта ладони в качестве ключевых точек рассматриваются кончики пальцев, а для выделения таких ключевых точек в работе используется следующий эвристический классификатор. Для каждой ветви-кандидата AB сначала выполнялся поиск точки C — вероятного сочленения пальца и пясти (рис. 5), а затем выполняется классификация ветви, используя следующее эвристическое правило:

|AC|/|AB| t1 и t2 < ширина(AC) < t3 и |AB| > tгде t1, t2, t3 и t4 — параметры алгоритма, а ширина(AC) — среднее значение радиальной функции на ветви AC. Поиск точки C выполняется из тех соображений, что в ее окрест­ ности начинается резкий рост ширины ветви, т.е. производная радиальной функции пре­ восходит заданный порог.

Для поиска ключевых точек на силуэте тела человека предлагается построить при­ знаковое описание ветви скелета, и далее использовать методы машинного обучения для классификации. Построение вектора признаков ветви скелета предлагается выполнять с использованием следующих величин, вычисленных в различных точках ветви:

1. r(l) — радиальная функция;

2. r3d(l) — «метрическая» радиальная функция;

b r(l)dl a 3. R (a, b) = — среднее значение радиальной функции на [a, b];

b-a b r3d(l)dl a 4. R3d (a, b) = — среднее значение метрической радиальной функции на [a, b];

b-a 5. L — длина ветви скелета;

2 2 L y3d x3d z3d 6. L3d = + + dl — «метрическая» длина ветви скелета.

0 l l l Значение «метрической» радиальной функции и «метрической» длины ветви скелета вы­ числяются и используются, когда в качестве исходных изображений выступает карта глу­ бины или стереопара. В таком случае, координаты точек ветви скелета можно перевести в трехмерные координаты, а каждому вписанному в силуэт кругу будет соответствовать сфера-прообраз в трехмерном пространстве. Длина получаемой трехмерной кривой будет «метрической» длиной ветви скелета, а радиусы сфер буду значениями «метрической» радиальной функции.

В качестве классификатора используется метод опорных векторов (Support Vector Machines, SVM). Для его обучения было вручную размечено порядка 250 изображений, из которых 70% формировали обучающую совокупность, а оставшиеся 30% — контрольную.

SVM показал точность в 98% на контрольной выборке.

В разделе 2.4 описан метод сегментации объекта за счет анализа противоположных частей его границ.

Данный метод полезен в ситуации, когда сегментация всего объекта затруднительна или нежелательна (например, из-за большой вычислительной сложности), но есть возмож­ ность выделить движущиеся части объекта (рис. 6). В таком случае, выделенные движу­ щиеся части содержат как функциональные части объекта (такие как руки), так и кромки краев больших регионов объекта (тела человека), которые вызваны небольшим смещени­ ем объекта как целого и обычно не несут полезной информации. Соответственно, задача состоит в выделении значимых частей объектов и отсеивании краев больших регионов.

Одним из отличительных критериев кромки большой области выступает то, что, если взять две противоположные точки границы кромки, то для одной из них значения про­ изводных карты глубины будут небольшими. А для регионов, представляющих интерес (таких как рука или ладонь), обе противоположные точки границы будут лежать в об­ ласти сильного перепада глубины. Таким образом, выделение значимых частей объекта, представляющих интерес, можно выполнять за счет анализа противоположных границ A B (а ) (б ) (в ) Рис. 6. Процесс анализа противоположных границ объекта за счет использования непрерывного скелета: (а) движущийся передний план (выделен черным); (б) установление соответствия между противоположными точками границы A и B на основе использования непрерывного скелета; (в) ветвь скелета (белая), соответствующая части объекта, представляющей интерес.

движущихся частей объекта. Скелет является уникальным инструментом для анализа противоположных точек границы.

Обозначим область переднего плана, которую нужно проанализировать, через F.

Рассмотрим какой-либо максимальный вписанный в область F круг C, и пусть T = {t1, t2} —пара точек касания круга C и границ области F. Для узких и вытянутых обла­ стей точки касания будут лежать на противоположных границах области. Соответствен­ но, если все точки из множества T будут принадлежать краю карты глубины, то круг C будет считаться «хорошим». Объединение всех «хороших» кругов соответствует регио­ нам, представляющим интерес. Подобный анализ можно проводить за счет использования непрерывного скелета области F (рис. 6б) Третья глава посвящена используемым методам межкадровой обработки и умень­ шения влияния шумов на признаковые описания отдельных кадров.

В разделе 3.1 рассматривается алгоритм межкадровой обработки в ситуации, когда в качестве ключевых точек выступают положения ладоней. Причем известно, что на каж­ дом кадре присутствует ровно один человек, и, соответственно, не более двух ключевых точек-ладоней.

Обработка кадра в таком случае построена таким образом, что ложных отметок прак­ тически не возникает, но возникают пропуски в траекториях. Поэтому задача межкадро­ вой обработки состоит в построении траекторий ключевых точек и восполнении пропусков в траекториях. Данная задача решается в два этапа.

На первом этапе выполняется прослеживание траекторий для известных положений рук. Алгоритм прослеживания основан на применении точечного трекинга к обнаружен­ ным на каждом кадре положениям рук. При этом соответствие между координатами рук с предыдущего кадра xprev, i 1, 2 и координатами двух рук x1 и x2, найденными на теку­ i щем кадре, устанавливается за счет минимизации суммы расстояний xprev -xj , где i=1 i i j1 = j2 и j1, j2 {1, 2}. В случае пропуска, предыдущим положением руки xprev считается i последнее обнаруженное положение. В результате получаются одна или две траектории, которые могут содержать пропуски.

На втором этапе выполняется заполнение пропусков в траекториях рук за счет линей­ ной интерполяции координат рук между кадрами, на которых координаты рук известны.

В разделе 3.2 рассматривается алгоритм межкадровой обработки в ситуации, когда в качестве ключевых точек выступают положения кончиков пальцев. При этом, требуется не только заполнять пропуски в траекториях, но также сглаживать траектории ключевых точек, с целью уменьшения шумов. Более того, на каждом кадре может присутствовать несколько (один или два) объектов-ладоней.

В таком случае, сначала методом точечного трекинга, аналогичным описанному вы­ ше, выполняется трекинг объектов-ладоней. Затем для каждой ладони вычисляются ее ориентация и положение центра, и координаты ключевых точек переводятся в относитель­ ную систему координат, связанную с ладонью. Координаты центра ладони вычисляются как координаты ее центра масс, а угол поворота, определяющий ориентацию, вычисляется на основе использования центральных моментов.

Трекинг ключевых точек производится в относительной системе координат, связан­ ной с ладонью. Использование относительных координат кончиков пальцев необходимо, например, в ситуациях быстрого вращения ладони, так как в таком случае сопоставление абсолютных координат ключевых точек приводит к большому количеству ошибок из-за сильного абсолютного сдвига ключевых точек.

Для сглаживания траекторий ключевых точек применяется фильтр низких частот.

При этом отдельно производится сглаживание координат и ориентации ладони, и отдельно сглаживаются относительные координаты ключевых точек.

Вычисленные относительные координаты ключевых точек переводятся назад в си­ стему координат, связанную с изображением.

В четвертой главе рассматривается метод распознавания простых жестов на осно­ ве набора правил, метрика для сравнения траекторий жестов, используемая для распозна­ вания сложных динамических жестов, и решаемые в диссертации практические задачи.

Для сегментации во времени (определение момента начала и окончания жеста) и рас­ познавания сложных динамических жестов в диссертации предложен метод основанный на сравнении траекторий жестов (раздел 4.2).

Каждый жест G описывается видеопоследовательностью, которая преобразуется в последовательность признаковых описаний кадров (F1,..., F|G|). Ее предлагается рассмат­ ривать как траекторию жеста, и выполнять распознавание жестов метрическими метода­ ми классификации такими, как метод ближайшего соседа, за счет введения меры близости между траекториями.

Мера близости траекторий V = (F1,..., F|G|) и G = (F1,..., F|G|) видеопоследова­ тельности V и эталонного жеста G вычисляется за счет установления соответствия между элементами обеих траекторий, и вычисления суммы мер близостей признаковых описаний соответствующих кадров.

Соответствие между элементами траекторий задается с помощью двух монотонных функций u(k) и v(k), при k = 1,..., m, так, что элемент Fu(k) последовательности V соот­ ветствует элементу Fv(k) последовательности G. А мера сходства вычисляется как:

similarity(G, G) = min m d(Fu(k), F ) k=1 v(k) m m,u(),v() u(1) = u(m) = |G| u(k) u(k + 1) u(k) + (1) v(1) = v(m) = |G| v(k) v(k + 1) v(k) + u(k + 1) > u(k) v(k + 1) > v(k) Для кадров F = (x1,..., xn) и F = (x,..., x ) мера близости d(F, F) их признако­ 1 m вых описаний вычисляется по формуле:

n m d(F, F) = minxi - x + minx - xi + C|m - n|, j xi j x j i=1 j=где C — коэффициент штрафа за различие в количестве ключевых точек на кадрах.

Для определения оптимального момента начала и окончания жеста оптимизацион­ ная задача (1) решается, как задача со свободным концом, т.е. полагается, что концы распознаваемого жеста в видео V не фиксированы.

Для экспериментов с данным методом распознавания жестов использовалась база динамических жестов соревнования ChaLearn Gesture Challenge. Данная база состоит из набора независимых пакетов. Каждый из пакетов содержит по 10 обучающих жестов и 30–40 контрольных видео по несколько жестов в каждом.

Жесты в данной базе достаточно разнородны, и для экспериментов были отобраны пакеты, содержащие динамические жесты, совершаемые ладонями.

N N Критерий Q = Levenshtein(ci, ti) / |ti| использовался для оценки каче­ i=1 i=ства распознавания жестов, где ci — результат распознавания видео i, ti — истинная по­ следовательность жестов в видео i, Levenshtein(ci, ti) — расстояние Левенштейна между последовательностями ci и ti, а N — количество видео.

Дополнительно, для оценки качества сегментации жестов во времени, вычислялась QV ideoCS — доля видео для которых все жесты были сегментированы корректно, и доля N |ci| - |ti| / N |ti|.

корректно сегментированных жестов QS = 1 i=1 i=Пакет Q QV ideoCS QS devel01 0,067 89% (33 из 37) 0,devel02 0,23 83% (30 из 36) 0,devel04 0,23 65% (24 из 37) 0,devel07 0,15 92% (35 из 38) 0,Всего 0,17 82% (122 из 148) 0,Таблица 1. Результаты экспериментов на отобранных пакетах.

Результаты экспериментов приведены в таблице 1. Они показали, что доля ошибок распознавания жестов на отобранных пакетах составляет порядка 0,07 – 0,23, что сопоста­ вимо с результатами современных систем распознавания. Качество сегментации жестов во времени также высокое, и доля верно сегментированных видео достигает 92%.

В разделе 4.1 рассматривается практическая задача, которая заключается в созда­ нии аппаратно-программного комплекса для управления компьютером с помощью жестов рук. Жесты воспринимаются RGB камерами или камерой глубины, распознаются про­ граммным обеспечением и используются для управления курсором мыши, а также для (а ) (б ) (в ) (г ) Рис. 7. Пример используемых жестов.

манипуляций объектами на экране компьютера.

Для управления компьютером требуется небольшое число простых жестов. Выбран­ ный в работе набор жестов включает жесты, отличающиеся друг от друга количеством видимых пальцев; сжатую в кулак ладонь; и жест-кольцо из большого и указательного пальца. Примеры рассматриваемых жестов изображены на рисунке 7. При этом коорди­ наты и величину перемещения ладони и кончиков пальцев предлагается использовать для определения координат курсора, направления и расстояния перемещения объекта.

Так как координатами ключевых точек являются координаты кончиков пальцев, то распознавание описанного набора жестов выполняется просто за счет подсчета количества видимых пальцев.

Для экспериментальной проверки и демонстрации данного метода распознавания жестов были разработаны аппаратно-программные комплексы, выполняющие управление компьютером за счет распознавания жестов.

В одном из них используется одна или две веб-камеры, закрепленные над однородной темной поверхностью. Однородная темная поверхность служит для упрощения задачи сегментации ладони на цветном изображении. Описанные выше жесты используются для управления объектами на экране компьютера [11, 12].

Благодаря эффективным алгоритмам построения и стрижки скелета, описанные ком­ плексы работают в реальном времени. Например, однопоточной реализации алгоритма распознавания жестов требуется около 22 мс на полную обработку одного кадра разме­ ром 640 480 точек на компьютере 2.4 ГГц Intel Core 2 Quad CPU. Это дает возможность обрабатывать все кадры видеопоследовательности, получаемой с веб-камеры.

Во втором программно-аппаратном комплексе в качестве сенсора используется ка­ мера глубины Microsoft Kinect. Использование камеры глубины позволяет упростить сег­ ментацию объекта, использовать произвольный фон и позволяет определять трехмерные координаты объекта и ключевых точек.

Как и в предыдущем случае, программное обеспечение данного комплекса позволя­ ет управлять объектами на экране компьютера с помощью жестов рук [13]. Также оно позволяет управлять курсором мыши с помощью рук [14].

В разделе 4.3 приводиться анализ вычислительной сложности подхода в целом, ко­ торый показал, что вычислительная сложность обработки отдельного кадра будет равна O(S) + O(n log n) + O(k2), где S — площадь кадра в пикселях, n — число вершин в много­ угольниках, используемых для построения скелета, k — число ключевых точек на отдель­ ном кадре (в практических задачах имеет порядок 2–10). А вычислительная сложность распознавания жестов методом динамического программирования равна O(k2m2N), где N — количество эталонных жестов, m — количество кадров в эталонном видео, макси­ мально допустимая степень растяжения и сжатия жестов (на практике не более 3).

В Заключении перечислены основные результаты работы:

1. Для решения задачи распознавания динамических жестов в диссертации предложен и обоснован подход, в основе которого лежит использование медиального представ­ ления объекта для выделения признаковых описаний.

2. Разработан метод построения признакового описания отдельного кадра, за счет вы­ деления ключевых точек с помощью медиального представления и использования их координат в качестве признаков кадра.

3. Разработан метод сшивки краев на изображении, использующий непрерывный ске­ лет и учитывающий общую морфологию изображения, с целью получения замкну­ тых контуров.

4. Разработан эффективный метод анализа противоположных границ объекта и уста­ новления соответствия между противоположными точками границ на основе исполь­ зования непрерывного скелета.

5. Разработан метод сравнения динамических видеопоследовательностей, кадры кото­ рых описаны множествами ключевых точек.

6. Выполнено теоретическое обоснование корректности и вычислительной эффективно­ сти разработанных методов и алгоритмов.

7. Работоспособность и состоятельность предлагаемых методов обоснована вычисли­ тельными экспериментами и созданными программно-аппаратными комплексами для распознавания жестов.

Список публикаций Статьи в изданиях, входящих в перечень ВАК:

1. Куракин, A. В. Распознавание жестов ладони в реальном времени на основе плоских и пространственных скелетных моделей [Текст] / A. В. Куракин // Информатика и ее применения. — 2012. — Т. 6, № 1. — С. 114–121.

2. Mestetskiy, L. Hand geometry analysis by continuous skeletons [Text] / L. Mestetskiy, I. Bakina, A. Kurakin // Image Analysis and Recognition / Ed. by M. Kamel, A. Campilho. — Springer Berlin / Heidelberg, 2011. — Vol. 6754 of Lecture Notes in Computer Science. — Pp. 130–139.

Публикации в других изданиях:

3. Kurakin, A. A real time system for dynamic hand gesture recognition with a depth sensor [Text] / A. Kurakin, Z. Zhang, Z. Liu // EUSIPCO-2012: Proceedings of the 20th European Signal Processing Conference. — 2012. — Pp. 1975–1979.

4. Kurakin, A. Hand gesture recognition through on-line skeletonization. application of continuous skeleton to real-time shape analysis [Text] / A. Kurakin, L. Mestetskiy // VISAPP 2011: Proceedings of the 6th International Conference on Computer Vision Theory and Applications. — INSTICC Press, 2011. — Pp. 555–560.

5. Mestetskiy, L. Pose and gesture recognition using stereo images and video sequences [Text] / L. Mestetskiy, A. Kurakin, A. Tsiskaridze // Proceedings of Bilateral Russian­ Indian Workshop Emerging Applications of Computer Vision (EACV-2011). — MAKS Press, 2011. — Pp. 209–215.

6. Куракин, А. В. Распознавание жестов ладони с помощью непрерывного скелета [Текст] / А. В. Куракин // Труды 15-й всероссийской конференции «Математические методы распознавания образов». — Москва: МАКС Пресс, 2011. — С. 428–431.

7. Куракин, А. В. Использование непрерывного скелета для соединения дыр в контурах на примере сегментации тела человека на карте глубины [Текст] / А. В. Куракин, Л. М. Местецкий // Труды 9-й международной конференции «Интеллектуализация обработки информации». — Москва: МАКС Пресс, 2012. — С. 430–432.

8. Куракин, А. В. Генерация признаков с помощью непрерывного скелета на примере за­ дачи выделения рук на силуэте человека [Текст] / А. В. Куракин, Л. М. Местецкий // Труды 9-й международной конференции «Интеллектуализация обработки информа­ ции». — Москва: МАКС Пресс, 2012. — С. 433–436.

9. Куракин, А. В. Распознавание двух- и трехмерных жестов ладони на основе анализа скелетного представления ее силуэта [Текст] / А. В. Куракин, Л. М. Местецкий // Тезисы докладов конференции ”Техническое зрение в системах управления 2011”. — 2011.

10. Куракин, А. В. Распознавание жестов ладони на основе анализа скелетного представ­ ления силуэта ладони [Текст] / А. В. Куракин, Л. М. Местецкий // Труды 53 научной конференции МФТИ. — 2010.

11. Демонстрация программного комплекса для распознавания жестов руки с одной ка­ мерой [Электронный ресурс] / http: //youtu. be/eYksnVGt6mo.

12. Демонстрация использования стререопары для определения трехмерных координат ключевых точек [Электронный ресурс] / http: //youtu. be/ECAKTw3GBnM.

13. Демонстрация распознавания открытой и сжатой ладони, с использованием сенсора Kinect [Электронный ресурс] / http: //youtu. be/antSN0bQBjg.

14. Демонстрация использования руки для управлением курсором мыши [Электронный ресурс] / http: //youtu. be/rljffsDcD1I.






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.