WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

 

На правах рукописи     

Славин Олег Анатольевич
 


 
Адаптивное распознавание и его применение к системе ввода печатного текста

 

 

Специальность 05.13.01 – Системный анализ, управление и обработка информации

(информационно-вычислительное  обеспечение)
 


АВТОРЕФЕРАТ
на соискание ученой степени
доктора технических наук

Москва – 2011

Работа выполнена в Учреждении Российской академии наук Институте системного анализа РАН в лаборатории 9-4 "Дискретные методы в управлении".

Научный консультант:                 чл. корр. РАН

                               Арлазаров Владимир Львович

Официальные оппоненты:        академик РАН

Соколов Игорь Анатольевич

доктор технических наук, профессор

                                       Гливенко Елена Валерьевна

доктор технических наук, профессор

Петровский Алексей Борисович

Ведущая организация:                ГОУ ВПО Московский Государственный

Технологический Университет «Станкин»

Защита состоится 23 июня 2011 г. в 11.00 часов на заседании Диссертационного совета Д 002.086.02  при Учреждении Российской академии наук
Институте Системного Анализа РАН по адресу Москва, проспект 60-лет октября, д. 9.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Института системного анализа РАН (Москва, проспект 60-лет октября, д. 9).

Отзывы на автореферат, заверенные печатью, просим направлять по ад
ресу: 117312, Москва, проспект 60-лет октября, д. 9.

Автореферат разослан «___» __________ 2011 г.

Ученый секретарь диссертационного совета, д.т.н., профессор

А.И. Пропой

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы: Рост научно-технического прогресса и его успехи в компьютерной отрасли привели к качественным изменениям в обработке  документов, содержащих текстовую информацию. Современные возможности сканирования документов и реализации трудоемких алгоритмов распознавания делают возможным автоматизировать ввод документов в компьютер. Программы распознавания текстовых документов являются сложными программными средствами, реализующими большое число наукоемких алгоритмов. Настоящая диссертация посвящена проблемам распознавания текстов в рамках создания и функционирования персональных и профессиональных программных систем ввода документов в компьютер.

Можно выделить три типа задач распознавания образов. Первый тип – с заранее известным описанием классов, заданных строго и однозначно. Второй тип – с  заранее известным числом и описанием классов с нестрогими описаниями. Третий тип – с заранее неизвестными классами, к которым требуется отнести объекты.

Задачи первого типа успешно решаются с использованием компьютера, задачи второго типа – менее успешно, задачи третьего типа практически не решаются, так как число классов для компьютерного распознавания сильно ограничено.

В диссертационной работе рассматриваются в основном задачи второго типа, как наиболее распространенные в реальности. Однако даже они далеки от окончательного решения. Так, в случае обработки изображений плохого качества, в случае различных искажений символов, возникающих, например,  на краях отсканированных страниц, в случае не вполне стандартного начертания некоторых символов программы распознавания могут давать большее число ошибок, чем при обработке однородных текстов. В то же время человек, как правило, уверенно распознает текст даже плохого качества, напечатанный малознакомым шрифтом. Успешное распознавание текста человеком нередко происходит за счет адаптации к конкретной странице. При этом сомнительные символы сравниваются с четко напечатанными символами, в построенном шрифте проверяется наличие тех или иных символов, производится сопоставление с известными словами.        

Таким образом, разработка новых высокоточных алгоритмов распознавания текстов, равно как и улучшение уже существующих алгоритмов представляется актуальной задачей.

Предметом диссертации является разработка алгоритма адаптивного распознавания текстовых документов, цель которого состоит в перестройке механизма принятия решений, поддерживаемого системой распознавания образов,  направленная на обеспечение максимального соответствия особенностям графических образов, использованных при печати документов.

Целями диссертации являются:

1) создание модели адаптивного распознавания, учитывающей искажения образов символов отсканированных документов и основанной на нескольких механизмах: геометрическом распознавании символов, статистических методах кластеризации, сегментации границ символов, словарных механизмах;

2) разработка алгоритмов адаптивного распознавания, направленных на учет особенностей отсканированного документа в различных механизмах распознавания и обеспечивающих оптимизацию нескольких характеристик качества таких как точность распознавания, монотонность оценок и быстродействие;

3)  доказательство работоспособности разработанных алгоритмов адаптивного распознавания с помощью формальных исследований и имитационного моделирования;

4) реализация алгоритмов адаптивного распознавания в составе модульной системы распознавания отсканированных документов.

Методология исследования. В работе для проведения исследований были использованы математические методы обработки изображений и распознавания образов, математический аппарат искусственных нейронных сетей, методы теории алгоритмов, машинной графики, а также концепции и методы имитационного моделирования.

Научная новизна работы состоит в следующем:

  • создана модель адаптивного распознавания, позволяющая перестраивать функционирование алгоритмов распознавания отдельных символов, алгоритмов сегментации границ символов, алгоритмов словарной коррекции;
  • реализован алгоритм быстрой кластеризации на основе метода ближайшего соседа и метода цепной развертки, позволяющий разбить множество распознанных образов на группы, соответствующие одноименным символам с одинаковыми атрибутами;
  • предложен и реализован метод построения эталонов, основанный на анализе кластеров, поиске шрифтов, имеющихся в распознаваемом тексте, позволяющий повысить точность распознавания символов и монотонность оценок;
  • разработан и реализован алгоритм сегментации границ символов, основанный на использовании эталонов, сформированных на основе результатов кластеризации, позволяющий существенно повысить как точность сегментации, так и точность распознавания;
  • проведено теоретическое обоснование влияния расстояний при параллельном переносе при наложении двух изображений и доказана теорема о малом сдвиге при поиске оптимального наложения.
  • разработаны приложения адаптивного распознавания в сжатии бинарных изображений.

Практическая ценность и реализация результатов работы. Основным практическим результатом работы является разработка алгоритма адаптивного распознавания и его использование в системах ввода документов в компьютер.

Диссертация состоит из шести глав, введения, заключения и списка литературы. Работа изложена на 275 страницах машинописного текста, содержит 53 иллюстрации, 120 таблиц и два приложения объемом 16 страниц. Список литературы включает 174 наименования.

Результаты диссертационной работы были использованы при реализации алгоритма адаптивного распознавания, являющегося составной частью программы распознавания текстов OCR Cognitive Cuneiform, начиная с 1996 года.

По теме диссертации опубликовано более 20 работ, 16 из них опубликованы в рецензируемых научных изданиях, рекомендуемых ВАК; зарегистрированы патент на изобретение и патент на полезную модель.

Основные результаты диссертации опубликованы в работах, список которых приведен в конце автореферата.

Апробация результатов диссертации. Результаты диссертации докладывались и обсуждались на семинарах Института системного анализа РАН под руководством чл.-корр. РАН В.Л. Арлазарова и д.т.н. Н.Е. Емельянова. По материалам диссертации был сделан ряд докладов на международных конференциях «Системный анализ и информационные технологии» в 2005, 2007 и 2009 г.

Личный вклад автора. Основные научные результаты диссертационной работы принадлежат лично автору. Ряд экспериментальных данных получен разработчиками системы распознавания Cuneiform, в которой автор являлся инициатором разработок, формулировал теоретические и экспериментальные задачи, намечал пути их решения, разрабатывал методики исследований, участвовал в разработке программного обеспечения.

Положения, выносимые на защиту:

  • метод адаптивного распознавания текстового документа, состоящий из пяти этапов, необходимых для самообучения на результатах распознавания текстовых строк, позволяет производить распознавание с высокой точностью и высокой монотонностью оценок распознавания;
  • способ формирования обучающей последовательности, основанный на комбинировании монотонных оценок распознавания и подтверждения словарем, позволяет достичь надежности подтверждения символа 0,9999;
  • функции сравнения бинарных образов, основанные на метрике Хэмминга и на симметрике, использующей единичную окрестность, позволяют кластеризовать множество бинарных образов символов с приемлемым качеством;
  • задача поиска параллельного переноса эталонного изображения, при котором его совпадение с тестируемым изображением максимально, обладает оптимальным решением; для достижения оптимального наложения двух фигур достаточно малых сдвигов в том случае, когда мера несовпадения при малых сдвигах незначительна;
  • моделирование процессов оцифровки, проведенное на большом объеме имитационных и реальных образов, позволяет показать адекватность модели оцифровки и выбрать параметры модели для кластеризации и построения обобщенных портретов;
  • разработанная модель образа кластера в форме разбиения на слои, равноудаленные от общей области, позволяет стабильным способом формировать обобщенные портреты символов;
  • метод построения эталонов, базирующийся на анализе кластеров и поиске шрифтов, которыми был напечатан отсканированный документ,  позволяет при повторном распознавании образов и сегментации границ символов достичь высокой монотонности оценок распознавания и точности распознавания при незначительных временных затратах;
  • приложение адаптивного распознавания для сжатия бинарных изображений обеспечивает как уменьшение объема изображения, так и различные режимы хранения и воспроизведения изображений.

СОДЕРЖАНИЕ РАБОТЫ

К настоящему времени разработан целый ряд различных методов распознавания образов, некоторые из них описаны в первой главе. В основном методы распознавания образов (нейронные сети, SVM и др) основаны на извлечении признаков и последующей классификации образов в некотором пространстве. Распознавание текста является частным случаем общей задачи распознавания образов. Любой печатный текст имеет первичное свойство - шрифты, которыми он напечатан. С этой точки зрения существуют два класса алгоритмов распознавания печатных символов: шрифтозависимый и шрифтонезависимый. Шрифтозависимые алгоритмы используют априорную информацию о шрифте, которым напечатаны буквы. Это означает, что программе оптического распознавания символов должна быть предъявлена полноценная выборка образов символов текста, напечатанного данным шрифтом при обучении. По окончании процесса обучения шрифтовая программа оптического распознавания готова к распознаванию конкретного шрифта. Второй класс алгоритмов -  шрифтонезависимые, т.е. алгоритмы, не имеющие априорных знаний о символах, поступающих к ним на вход. Эти алгоритмы измеряют и анализируют различные характеристики (признаки), присущие буквам как таковым безотносительно шрифта и абсолютного размера (кегля), которым они напечатаны. Общий путь создания базы характеристик заключается в обучении программы на представительной последовательности образов символов.

Часто для обучения используют кластерный анализ (кластеризацию). Целью кластеризации является построение набора кластеров оптимального с точки зрения минимизации изменчивости элементов внутри кластеров и максимизации расстояний между кластерами.

В агломеративно-иерархических методах кластеризации первоначально все объекты рассматриваются как отдельные, самостоятельные кластеры, состоящие всего лишь из одного элемента.

Кроме объединяющих методов иерархической кластеризации существуют и противоположные методы - дивизимные, в которых на начальном этапе вся выборка рассматривается как единый кластер, а затем уже начинается процесс его деления на составляющие части. Процесс деления продолжается до тех пор, пока каждое наблюдение не превратится в отдельный кластер.

Выбор метрики и правил объединения при кластеризации символов зависит от характера объекта распознавания.

Событийный метод, опирающийся на топологическое представление образа символа, использует структуру объекта, не изменяющуюся при некоторых непрерывных деформациях образа. Разбивая все множество образов символов на классы эквивалентности по признакам, инвариантным к малым непрерывным  деформациям, мы получим модель, приводящую к некоторому методу распознавания.

Образ символа описывается как последовательность, называемая линейным представлением

       Ev = {L, B, E, (IN1,OUT1), …, (INN,OUTN)},

содержащая L линий, количество свободных начал и концов B и E, и N интервалов (INi,OUTi), называемых событиями и состоящих из начальной INi и конечной OUTi координат, определенных в координатах грубой сетки.

Результатом распознавания является мультимножество графем

A = {(g1, N1), …, (gk, Nk)}

где  Ni – количество графем gi в обучающей последовательности, обладающих линейным представлением S(ri) в массиве эталонов.

Событийный метод порождает коллекции распознавания без оценок.

Нередко перед распознаванием символа проводится нормализация образа по различным параметрам, например, углу наклона, толщине линий или форме образа. Часто производят нормализацию по размерам или масштабирование. В процессе обучения каждый образ, соответствующий какой-либо из букв C, будем сжимать до требуемого размера, например, до размеров 3х5, а сжатые образы Ei(C) одной буквы объединим в соответствии с методом k-средних. В массиве эталонов {E1, E2, …, Em} ищутся эталоны с максимальным скалярным произведением (X, Ei) до распознаваемого сжатого образа X:

|X-Ei|2=|X|2+|Ei|2-2⋅(X,Ei)=2⋅(1-(X,Ei)).

Соответствующие этим ближайшим эталонам коды Ci, породивших их символов, и расстояния Wi до них образуют коллекцию  {(C1,W1), …, (Ck,Wk)} альтернатив распознавания.

       Большим достоинством метода сравнения нормализованных образов является монотонность получаемых оценок: большее значение скалярного произведения статистически означает большую вероятность правильного выбора.

Нормализация образа по размеру предоставляет возможность построения нейронной сети типа многослойного перцептрона над признаками растра m×n. Расчет по нейронной трехслойной сети производится следующим образом:

yi        = σ(Σ wij(2) ⋅ uj + si(2)),

ui         = σ(Σ wij(1) ⋅ xj + si(1)),

где        xi        -  элементы входного слоя (признаки сжатого образа 16х16);

       ui        -  элементы промежуточного слоя;

yi        -  элементы выходного слоя;

       wij(k)        - матрица пересчета;

  si(k)        - вектор смещения;

  σ(x)        - функция активации нейрона.

Качество распознавания зависит не только от алгоритмов, используемых программами распознавания и обучения нейронной сети, но и от того, как обучалась нейронная сеть.

Рассмотренные в первой главе диссертации алгоритмы пригодны для распознавания отдельно стоящих бинарных образов символов с вполне удовлетворительными показателями распознавания как в случае известного, так и неизвестного заранее шрифта.

Реально достижимое качество распознавания шрифтонезависимых алгоритмов ниже, чем у шрифтозависимых алгоритмов. Это связано с тем, что уровень обобщения при измерениях характеристик символов гораздо более высокий, чем в случае шрифтовых алгоритмов.

У шрифтозависимого подхода имеется преимущество, благодаря которому его активно используют. А именно, имея детальную априорную информацию о символах, можно построить весьма точные и надежные алгоритмы распознавания. Вообще, при построении шрифтозависимого алгоритма распознавания надежность распознавания символа является интуитивно ясной и математически точно выразимой величиной. Эта величина определяется как расстояние в каком-либо метрическом пространстве от эталонного символа, предъявленного программе в процессе обучения, до символа, который программа пытается распознать.

Вторая глава посвящена исследованию существующих для распознавания печатного текста с неизвестными заранее границами алгоритмов, имеющих отношение к распознаванию шрифтозависимыми и шрифтонезависимыми методами.

Пусть дано множество объектов распознавания B={b}, множество кодов S={s} и множество оценок W={w}. Образуем множество альтернатив M=S⊕W. Альтернатива является парой (s,w), первый элемент которой – код, а второй – оценка.

Алгоритмом распознавания символов (далее – АРС) A назовем функцию, ставящую в соответствие любому объекту из B последовательность альтернатив mi (может быть, пустую), которая удовлетворяет следующему условию:

если        A(b)=(m1,m2,…,mk)=((S1,W1), (S2,W2),…, (Sk,Wk)) и ,

то        Si≠Sj и Wi≥Wj.                                                                        

Предполагаем, что последовательность образов B достаточно представительна, чтобы на ней можно было проверить все основные проблемы исследуемых алгоритмов. Последовательность может быть создана искусственно или содержать реальные отсканированные объекты. В экспериментах будем использовать несколько различных последовательностей, объем которых составляет примерно 2 млн. символов.

На последовательности B определена функция «кодировки» элементов базы K(b), отображающая эту последовательность в пространство Mn, причем так, что вектор K(b) всегда имеет лишь одну непустую альтернативу. Пространство Mn предполагается либо метрическим, либо псевдометрическим с некоторой функцией r(I1, I2), играющей роль расстояния между элементами множества.

Точностью распознавания алгоритма A на базе B по метрике r, называется величина

.                                

Распределением оценок алгоритма A назовем совокупность  частот  {v(0), v(1),…, v(Wmax)} , соответствующих каждой из возможных оценок, где

,                

здесь – число образов, распознанных с оценкой W.

Монотонность оценок – это свойство оценок альтернатив (в первую очередь, ведущих) характеризовать надежность распознавания символа.

Через Δ={0=x0<x1<…<xn=255} обозначим некоторое разбиение отрезка [0,255]. Обозначим N(W1, W2)= Σ(w1<W1(b)w2) общее число образов из , получивших оценку распознавания первой альтернативы в полуинтервале (w1, w2]

Если существует разбиение с монотонно возрастающей последовательностью частот v(xi, xi+1) v(xi+1, xi+2),  i=0,…, n-1, такое что

то алгоритм считается монотонным.

Пусть W≤Wmax. Пороговой монотонностью называется величина, равная

,        

где        Nerr(W) – число неправильно распознанных образов с оценкой  W1≥W,

       N(W)  –  общее число образов, распознанных с оценкой  W1 ≥ W.

       Для шкалы оценок с Wmax=255 будем пользоваться пороговыми монотонностями M255 и M240 для оценки надежности распознающего алгоритма.

Ниже приведены дополнительные характеристики АРС, наиболее часто используемы в комбинировании АРС.

Алфавит обучения определяется перечнем классов (образов символов различных языков, цифр, специальных символов), на которые разбита обучающая последовательность.

Способность к отказам – возможность АРС порождать коллекции нулевого объема для незнакомого образа или образа, сильно отличающегося от образов, использованных в процессе обучения.

Скорость распознавания (быстродействие) – количество распознанных в единицу времени  образов в процессе обработки тестовой последовательности.

Скорость обучения  зависит от соотношения объема обучающей базы образов и времени, необходимого для достижения цели обучения.

На основании рассмотренных характеристик становится возможным комбинирование нескольких АРС с целью получения большей точности, большего быстродействия или большей монотонности оценок результирующего метода. Например, комбинирование описанными в диссертации способами быстрого структурного алгоритма (не порождающего оценки), алгоритма сравнения нормализованных образов (не обладающего высоким быстродействием) и штрафных функций (критериев несоответствия идеальным моделям образов) позволяет достичь в результирующем алгоритме ℜ1  высоких значений характеристик быстродействия (8500 образов в секунду, все оценки быстродействия производились на компьютере с CPU 2000 МГц), точности (99,8%) и монотонности оценок (M240=0,01, M255=0).

  Распознавание в OCR в общем случае не может опираться на знание приблизительных границ символов. Априори надежными могут считаться только границы строки текста, а содержащиеся в ней элементы могут являться

  • образами символов;
  • частями символов;
  • объединениями символов и их частей;
  • образами, не имеющими отношения к символам текста.

Сегментация (поиск границ, локализация) символов печатного текста, вследствие возможности объединения нескольких компонент связности в условиях искажения образа страницы, предполагает несколько взаимосвязанных процедур:

  • нахождение областей (зон) с необходимостью сегментации склеенных символов;
  • построение набора разделяющих кривых, являющихся кандидатами сегментации компонент связности;
  • перебор возможных вариантов с целью выбора оптимального пути в графе обхода кривых разрезания.

Пусть для зоны сегментации известен массив возможных координат, называемых точками сегментации x0, x1,…,xn         по горизонтальной оси (x0 и xn  - границы зоны). В общем случае точка xj определяет отрезок, располагающийся между верхней и нижней границей.

Выбор пары точек сегментации (xi,xj) определяет компоненту, то есть образ s(i,jj), извлекаемый из исходного и расположенный между этими точками сегментации и который не обязан быть связным множеством.  Задача сегментации базируется на некотором алгоритме распознавания символов R, который позволяет получить коллекцию альтернатив распознавания образов s(i,jj). Ведущая альтернатива коллекции и ее оценка p1 определяет оценку пары (xi,xj) точек разрезания и обозначается ρ(i,j)=p1. Путем  сегментации длины k для образа s(p,q) называется набор точек

Алгоритмы сегментации, рассматриваемые в диссертационной работе, опираются на некоторую аддитивную функцию, которая каждому пути t ставит в соответствие неотрицательное число μ(t). Для такой функции (меры) для любого пути t, являющегося суммой двух других путей t=u+v, справедливо равенство μ(u+v)=μ(u)+ μ(v).

В процессе определения оптимального пути используется принцип Беллмана, основанный на следующей гипотезе: если путь  является оптимальным для своей компоненты s(p,q), то любой подпуть (траектория) этого пути также является оптимальным для своей компоненты.

При оценке пути в случае, когда в точку xn ведут n путей, используются оценки путей в предыдущие точки, и путь оценивается на основе вычисленных  ранее оценок путей:

                μ(an)=max(ρ(0,xn), μ(a1,x1),…, μ(an,xn)).

При сегментации областей для сокращения объема вычислений предварительно производится поиск возможных границ из геометрических соображений, затем выбирается подмножество границ методом динамического программирования. Эвристические алгоритмы априорных оценок качества и ранжирования точек разрезания позволяют уже на первых итерациях получать искомые результаты и останавливать вычисления, избегая полного перебора.

Одним из критериев, используемых в алгоритмах сегментации, является механизм, манипулирующий символами, собранными в строки, для нахождения четырех базовых линий: b1 – верх заглавных букв, b2 – верх обычных, b3 – низ обычных и b4 – низ опущенных букв. Получены оценки вероятностей нахождения базовых линий. Например, вероятность второй базовой  линии равняется

где ni – число символов, начинающихся на bi, P1 (P2) - вероятность того, что символ начинается с первой (второй) линии в строке из N символов.

Надежное определение второй базовой линии (с вероятностью ошибки, равной 0.999) возможно уже при наличии 6-ти символов в строке. Частные случаи формирования строк, наличие коротких строк и дефекты сканирования уменьшают надежность определения базовых линий с помощью гистограмм границ символов. Для компенсации этого предлагается воспользоваться результатами работы алгоритмов распознавания символов, в особенности умеющих различать прописные и строчные буквы. Найденные базовые линии могут использоваться в качестве дискриминирующего механизма в распознавании символов, а также отделения знаков препинания от малых компонент связности, являющихся случайным шумом.

В процессе сегментации возникают случаи, для распознавания которых регулярные алгоритмы оказываются неэффективны, что требует разработки специальных эвристических алгоритмов.

Некоторые из этих проблем могут быть разрешены только применением лингвистических или словарных механизмов, базирующихся на представительном корпусе слов (словоформ) или представительном наборе сочетаний символов в общеупотребительных текстах определенного языка. По исходному представлению слова W0=C1,…,Cn словарный механизм генерирует несколько последовательностей символов Wi=, близость к которым оценивается с помощью некоторой функции расстояния d(W0, Wi). В зависимости от степени трансформации исходного слова (количество инверсий символов, количество замен одних групп символов на другие) возможны различные стратегии использования словаря:

  • подтверждение - при выполнении условия d(W0, Wi)=0;
  • ограниченная замена, в которой происходит замена кода ведущей альтернативы  W0 на код других альтернатив распознавания;
  • агрессивная  замена - символы могут быть заменены иными символами, даже отсутствующими среди альтернатив.

Рассмотренные во второй главе алгоритмы позволяют  для произвольного набора строк в отсканированном тексте:

  • распознать отдельно стоящие образы символов;
  • отделить образы, не являющие символьными, для игнорирования или последующей обработки;
  • найти заранее неизвестные границы в образах, не являющихся отдельными символами;
  • проверить наличие слова в словаре или найти ближайшее словарное слово.

Характеристики распознавания описанных алгоритмов являются высокими для текстов хорошего качества, однако эти характеристики ухудшаются при распознавании страниц с искажениями.

В третьей главе описаны основные понятия и алгоритмы адаптивного распознавания.

Под адаптивным распознаванием понимается гибкая перестройка механизма принятия решений в OCR, направленная на обеспечение их максимального соответствия фактическим изменениям объекта распознавания, т.е. на соответствие искажениям символов при сканировании и модификациям шрифтов, используемых при создании документа.

Метод адаптивного распознавания включает в себя следующие этапы:

  • первоначальная сегментация и распознавание текста с помощью алгоритмов, рассмотренных в первых двух главах;
  • формирование обучающей последовательности;
  • кластеризация распознанных символов;
  • анализ кластеров и поиск шрифтов;
  • построение эталонов;
  • повторное распознавание ненадежно распознанных слов и символов.

Таблица 1 – Оценки монотонности алгоритмов

распознавания печатных образов

Метод

Оценка

ℜ1

M240

0,483917%

0,002030%

0,004792%

M255

0,068213%

0,00%

0,003062%

Формирование обучающей последовательности производится на основании монотонности оценок надежности, порождаемых алгоритмами распознавания образов. Рассмотрим три шрифтонезависимых алгоритма: комбинированный алгоритм ℜ1, нейронную сеть ℵ и метод полиномиальной регрессии ℘. Из данных таблицы 1, полученных для различных тестовых последовательностей следует, что наибольшей монотонностью обладает алгоритм ℵ, который имеет наибольшую оценку точности распознавания (более 99%). Однако график распределения ошибок vE(W) является монотонным только для метода ℘ при оценках, превышающих Wmax/2, но при этом график распределения оценок ℘ растет в диапазоне [Wmax/2, Wmax] медленнее, чем  график ℵ. 

Модификация алгоритма ℜ1, состоящая в переоценке полученных альтернатив с помощью метода ℵ или ℘, обеспечивает высокую надежность оценок распознавания, характеризуемая M240 и M255.

Таблица 2 – Вероятности ошибок распознавания

si

  sj

pij

  si

  sj

pij

si

sj

pij

si

sj

pij

si

  sj

  pij

д

А

0,028

й

и

0,018

Ы

м

0,032

я

п

0,008

щ

Ш

0,009

й

А

0,016

н

и

0,076

В

н

0,006

ч

ц

0,010

ъ

Ь

0,006

л

А

0,008

п

и

0,006

И

н

0,047

м

ч

0,013

з

Э

0,021

в

Б

0,018

д

л

0,016

Я

н

0,008

ц

ч

0,014

й

Ю

0,034

ф

Е

0,010

п

л

0,052

Й

п

0,010

щ

ч

0,005

ыо

Ью

0,02

э

З

0,014

я

л

0,008

Л

п

0,011

й

ш

0,009

кж

Кю

0,015

Надежность оценок распознавания символов может быть повышена с помощью механизма словарного подтверждения. Для слова w, состоящего из последовательности символов α1α2…αk, распознанных алгоритмом с известным распределением ошибок (si, sj, pij=p(si,sj)), осуществляется проверка наличия слова в корпусе словарных слов некоторого языка. Было проведено численное моделирование оценки вероятности ошибки словарного подтверждения одного словарного слова другим словарным словом, при этом использовалось распределение ошибок алгоритмов распознавания, описанных в главах 2 и 3, которое приведено в таблице 2.

Рисунок 1 Распределение вероятности pk ошибки подтверждения в слове длины k при игнорировании ошибок в окончаниях

Анализ результатов распознавания слов русского языка показал, что большинство ошибок словарного подтверждения происходит из-за трансформаций в окончаниях слов, таких как "ой", "ою" и им подобные. Такие ошибки устраняются как комбинированием с монотонными оценками алгоритма распознавания символов, так и с помощью позиционного анализа слов в предложении.

Надежность словарного подтверждения при обработке особых случаев в  окончаниях слов проиллюстрирована на графике распределения ошибок, приведенном на рисунке 1.

Описанный способ словарного подтверждения при комбинировании с монотонными оценками алгоритма распознавания делает ошибку словарного подтверждения практически невозможным событием. Результаты подсчета ошибок словарного подтверждения слов из двух тестовых последовательностей TS4, TS5, содержащих как словарные так и несловарные слова, приведены в таблице 3.

Таблица 3 – Ошибки подтверждения слов

Тестовая

последовательность

Количество слов

Количество ошибок

Частоты ошибки подтверждения слов длиной k

k=4

k=5

k=6

k=7

k=8

k=9

k>9

TS4

13984

16

7

4

2

1

2

0

0

TS5

11036

3

1

0

1

1

0

0

0

Предложенный способ словарного подтверждения надежности распознанных символов обеспечивает с избытком потребности адаптивного распознавания в классах документов с хорошим и средним качеством печати, обеспечивая вероятность правильного подтверждения 0,9999.

На этапе кластеризации происходит объединение распознанных символов бинарных образов в группы Cl, состоящие из одного или нескольких элементов S1,…,Sn. Целью кластеризации является разбиение обучающей последовательности на кластеры, соответствующие символам некоторого шрифта для последующего построения эталонов и повторного распознавания с использованием построенных эталонов. Для обеспечения  кластеризации необходимо решить несколько проблем:

  • построение функции для оценки близости отсканированных (искаженных) образов;
  • стабильное определение образа кластера;
  • определение идеальных образов кластера.

Описанная в диссертации кластеризация является агломеративной, использующей начальное разбиение на кластеры с учетом алфавита распознавания символов. Для кластеризации применялись следующие методы:

  • метод ближайшего соседа;
  • метод цепной развертки, базирующийся на цепном расстоянии dC(X, Y)<, для которого справедливо неравенство

dC(Xi, Xk)<max{ dC(Xi, Xj), dC(Xj, Xk)}  ∀Xi,Xj, Xk

При использовании цепной развертки нет необходимости определять и использовать расстояние между кластерами, достаточно измерять расстояния только между отдельными элементами.

Функция сравнения двух бинарных образов должна удовлетворять следующим условиям:

  • d(A,A)≥0 ∀A;
  • рефлективность - d(A,A)=0 ∀A;
  • симметричность - d(A,B)= d(B, A) ∀A,B.

Таким условиям удовлетворяет метрика Хэмминга , а также псевдометрика, которая вычисляется следующим образом: для каждого образа символа строится изображение его единичной окрестности,  то есть множества всех точек, находящихся на расстоянии не больше 1 от S. Обозначим единичную окрестность множества S через N(1)(S), тогда расстояние между образами A={aij} и B={bij} вычисляется по формуле

.

Функция сравнения должна учитывать особенности искажения символов при оцифровке, основными классами которых являются  случайные искажения и искажения оцифровки. Пример искажений оцифровки приведен на рисунке 2, на котором ни один из оцифрованных образов не совпадает с прообразом.

Рисунок 2 Примеры оцифровки образа при различном наложении на сетку сканера

Для учета эффектов оцифровки образы подвергаются центрированию, то есть помещению в центр некоторой выпуклой фигуры. При сравнении центрированных образов A и B будем производить несколько сдвигов образа A=||aij|| в разных направлениях, выбирая в качестве расстояния между центрированными образами A и B минимальную величину из полученных значений

d0(A,B) = min(μ0(A(HV), B)) или d1(A,B) = min(μ1(A(HV), B)),

где H,V∈ Sp(z) ={-z, -z+1, … , -1,0,1, …, z-1, z}.

Эксперименты показывают, что для симметрики μ1 при сравнении бинарных образов всегда достаточно сдвигов на 1, а для метрики μ0 менее, чем для 0,8% исследуемых образов требуется сдвиг на 2, тогда как для оставшейся доли образов – сдвиг на 1. В работе была решена задача поиска параллельного переноса эталонного изображения, при котором его совпадение с тестируемым изображением максимально. В диссертации доказано, что для достижения оптимального наложения двух фигур достаточно малых сдвигов в том случае, когда мера несовпадения при малых сдвигах незначительна. Была доказана следующая теорема о малых сдвигах при наложении двух фигур:

Теорема. Зафиксируем вeктoр единичной длины. Пусть - минимальное число такое, чтo для вeктoрa , при выnoлнeнo неравенствo . Тогда при сnрaвeдливo нeрaвeнствo

.

В частности, для минимизации дoстaтoчнo рассматривать лишь вектoры , для кoтoрыx .

Выберем опорный элемент S0 кластера как образ с лучшей оценкой распознавания среди подтвержденных словарем образов. Произведем  дополнительные сдвиги для всех элементов кластера. Для поиска оптимального положения по отношению к опорному элементу положение любого элемента SX, отличного от опорного элемента S0, изменяется таким образом, чтобы расстояние d(,S0) между образами этими элементами было наименьшим.

Выбор опорного элемента S0 и симметрики d позволяет определить образ кластера P(Cl)=||pij||, как сумму бинарных центрированных образов всех элементов SX∈, составивших кластер Cl, причем положение каждого из элементов SX оптимизировано по отношению  к опорному элементу:

d(SX, S0)→min.                                                             (1)

Возможны другие способы суммирования. Например, следующая процедура обеспечивает выбор оптимального положения по отношению к уже существующей сумме. На первом шаге в качестве суммы Σ0 берется образ опорного элемента S0. На последующих шагах положение образа R=||rij|| очередного элемента модифицируется с целью максимизации наложения на сумму Σq=||rij||, подготовленную на предыдущем шаге

⋅ rij →mах, (2)

после чего полагаем  Σ q+1 = Σq + R.

Определим понятие порогового образа кластера Tr(T), получаемого из образа кластера бинаризацией с порогом Т. Пороговый образ Tr(μ(Cl)) будем называть общей областью кластера, причем пороговый образ Tr(0) совпадает с образом кластера.

Полученный суммированием образ кластера представим в виде мультимножества точек {(i,j) • pij}, где pij – значение накопленной суммы в точке (i,j).

Образ кластера описывается моделью, состоящей из совокупности равноудаленных слоев L1, L2…, каждый из которых содержит точки образа кластера P(Cl) с одинаковым расстоянием Хаусдорфа dH до общей области:

Lq = { rij | rij ∈P(Cl), [dH (rij, AC)] = q },

где dH(x,Y) = min d2(x, y), y∈Y;

  [ ] – операция взятия целой части от действительного числа;

  d2 – некоторая функция расстояния в R2.

Тогда образ кластера можно представить в следующем виде:

               P(Cl) = AC ∪ L1 ∪ L2 ∪ … 

Для избавления от влияния случайных искажений используется другая модель образа, содержащая два параметра kE< и kS>, и два соответствующих им порога  LE = kE ⋅ μ(Cl) и LS = kS ⋅ μ(Cl). Порог LE призван избавиться от  искажений индивидуальных образов символов в P(Cl), а порог LS позволяет расширить общую область. Образ кластера в этой модели представим следующим образом:

P*(Cl, LE, LS) = Tr (LS) ∪ l1 ∪ l2 ∪ … ,                                 (3)

где слои l1, l2,…, содержат точки порогового образа Tr(LE), находящиеся на одинаковом расстоянии от Tr(LS).

       Автором диссертации была разработана модель оцифровки, используемая при моделировании эффектов оцифровки. Модель оцифровки включает в себя следующие процедуры: поворот, смещение, бинаризация, сжатие, случайные искажения.

Результаты, предложенные автором в третьей главе, будут использованы ниже в описании моделирования процессов оцифровки и алгоритмов повторного распознавания образов символов и слов.

Четвертая глава  диссертации посвящена моделированию процессов оцифровки для проверки адекватности модели образа кластера (3) и модели оцифровки.

Автором диссертации был создан набор имитационных последовательностей, который соответствует представительной группе символов различных шрифтов и начертаний, содержащей:

  • различные гарнитуры (шрифты Arial, Courier New, Times New Roman),
  • различные атрибуты  шрифтов (Normal, Bold, Italic),
  • различные символы и графемы (символы кириллицы и латиницы),
  • различные углы наклона (от 0до 6 включительно).

Кроме того был создан набор последовательностей отсканированных образов различного качества, соответствующих имитационным последовательностям. 

В проведенных экспериментах были использованы следующие последовательности:

  • 4312 имитационных последовательности без случайных искажений SD(c, L, Q, m, n, α, TB);
  • 2548 имитационных последовательностей SI(c, L, Q, , m, n, α, TB) со  случайными искажениями;
  • 2989 последовательностей отсканированных образов высокого и среднего качества SS(c, m, α);
  • 60 последовательностей отсканированных образов низкого качества SN(c, α).

Целями проведения экспериментов являлись:

  • оценка возможностей симметрик d0 и d1 при кластеризации, эффективность применения симметрики оценивалась с точки зрения попадания в один кластер элементов последовательности образов, соответствующих одному прообразу;
  • оценка возможностей способов суммирования (1) и (2) при суммировании элементов одной последовательности с точки зрения плотности кортежей укладки, при этом оценивается зависимость от выбора опорного элемента;
  • оценка плотности кортежей укладки при различных значениях коэффициентов kE и kS, а также выбор диапазонов kE и kS для приемлемых значений укладки, при этом оценивается зависимость от выбора опорного элемента;
  • оценка влияния случайных искажений и  эффектов оцифровки на формирование стабильной модели образа кластера.

Проведенное моделирование позволило сделать следующие выводы:

  • функция расстояния d1 является пригодной для кластеризации последовательностей отсканированных образов, обладающих одним прообразом;
  • функция расстояния d0 пригодна для дополнительного разбиения кластера на подкластеры;
  • способ суммирования (1), состоящий в оптимальном наложении каждого из образов элементов кластера на образ опорного элемента, является предпочтительным по отношению к способу (2) при формировании образа кластера как суммы образов составляющих его элементов;
  • способ формирования эталона, состоящий в игнорировании точек образа кластера (3) при значениях, меньших kE⋅μ(Cl), и в расширении нулевого слоя до значений, больших kS⋅μ(Cl), позволяет получить разбиение на слои, слабо зависящие от выбора опорного элемента;
  • оптимальными являются диапазоны параметров kE∈[0,2; 0,3] и kS∈[0,6; 0,9];
  • малые случайные искажения образов при сканировании не влияют на результаты кластеризации и формирования эталонов в случае использования диапазона параметра kE∈[0,2; 0,3].

В результате выбора алгоритмов и параметризации выявлен стабильный способ формирования эталона, не зависящий от случайных искажений и слабо зависящий от выбора опорного элемента. При этом в эталоне основной массив точек располагается в общей области и первом слое, а площадь второго слоя мала по отношению к площади образа кластера.

В пятой главе рассмотрены вопросы определения шрифтов в найденных кластерах и формирования эталонов для последующего распознавания.

         Для более точного определения использованных на странице шрифтов и для последующего отбора кластеров иерархическим способом проводится кластеризация кластеров символов. Первоначально все кластеры рассматриваются как отдельные элементы, которые постепенно группируются в шрифты, рассматриваемые как мультимножества символов. При этом в шрифте может быть не более одного кластера с одним кодом символа.

Для оценки качества построенных шрифтов применялся метод, основанный на использовании критерия Романовского о соответствии теоретической и эмпирической функций распределения вероятностей. Теоретическая функция распределения вероятностей появления задается таблицами частот встречаемости символов в шрифтах общеупотребительных текстов.

Пусть α={α1, …, αs} – алфавит распознавания и p={p1,….ps} – соответствующее распределение вероятностей появления символов алфавита, заданное с помощью частот встречаемости символов.

Рассмотрим шрифт ={n1•α1, …, ns•αs} в форме мультимножества символов α с кратностями {n1, …, ns}. Пусть n = n1+…+ns.

Тогда вычислим величину , где . В том случае, если , то расхождение между эмпирическим и теоретическим распределениями считается несущественным (критерий Романовского).

Если величина , то расхождение между распределениями существенно. Вычисляем индекс и удаляем его из шрифта, полагая . Определяем для алфавита новое распределение следующим образом:

.

Полагаем . Повторяем процедуру вычисления ρ для новых значений параметров, проверяем условие ρ>3 и определяем очередной индекс, дающий максимальный вклад в расхождение. Такую процедуру можно повторить несколько раз с тем, чтобы найти в шрифте кластеры, сомнительные с точки зрения частоты встречаемости букв.

Кластеры, вошедшие в построенные шрифты, в последующем используются  для дополнительного распознавания символов и повторной сегментации ряда слов.

Для получения эталона E(Cl) из суммарного образа кластера Cl удаляются все точки, значения в которых меньше некоторого порога LE, с целью избавиться от искажений индивидуальных образов символов.

Автором был разработан метод ℜe сравнения с эталонами, который позволяет сравнивать образы символов более точно, чем шрифтонезависимые методы. Распознавание символа происходит на основе разбиения образа кластера на слои.

Из образа кластера P(Cl) извлекаются Tr(kE⋅μ(Cl)) следующие бинарные образы:

  • общий образ GEN(Cl)=||gij||, определенный границами общей области Tr(kS⋅μ(Cl)) и ее единичной окрестности, то есть gij=1 при dH(bkij, Tr(kS⋅μ(Cl)))<2, в противном случае gij=0;
  • образ k-ой окрестности (k>1) LAYk(Cl)=||bkij||, определенный границами lk, то есть  bkij=1 при dH(bkij, Tr(kS⋅μ(Cl)))=k, в противном случае bkij=0.

Рассмотрим способ вычисления расстояния между распознаваемым бинарным образом R и образом кластера P(Cl), в котором штрафуются точки образа R, не попавшие в  общий образ кластера, а также точки, попавшие во второй и старшие слои:

Pen(R, Cl)=                        

где        Z – ограничения на число слоев,

       πk – штраф за попадание точки в слой k.

Степень сходства Conf(R,E) рассматриваемого образа R и эталона E вычисляется следующим образом:

Conf(R,E) = max(0, 255 - Pen(R,E)).

Такое вычисление проводится для нескольких взаимных положений растра и эталона, то есть помимо центрированного положения исследуются также сдвиги образа на один точку в разных направлениях, а в качестве степени сходства берется максимальная величина из полученных значений

Confmax(R,E)=max(Conf(R,E), Conf(Rh(±1),E), Conf(Rv(±1),E), Conf(Rhv(±1),E)).

Результаты проведенных экспериментов показывают стабильность точности распознавания при kE∈[0.18, 0.36] и kS∈[0.80, 0.88], рабочим приближением являются значения порогов kE≈0.21 и kS≈0.84. При этом в диапазоне kE∈[0.18, 0.36] и kS∈[0.80, 0.88] оценка монотонности M255≈0.

Комбинирование способом ℜ1с основывается на распределениях ошибок двух алгоритмов: используемого на первом проходе комбинированного алгоритма ℜ1 и алгоритма ℜc сравнения с эталонами, полученными в результате кластеризации. Другой способ комбинирования ℜ2с  ориентирован не на повышение точности распознавания, а на повышение монотонности оценок распознавания алгоритма с высокой точностью. В таблицах 4 и 5 приведены оценки точности и монотонности оценок для методов ℜ1с и ℜ2с.

Таблица 4 – Точность распознавания алгоритмов ℜ1 и ℜ1с

стенд 

обучения

стенд

распознавания

TS3

TS6

TS9

TS3

-

ℜ1

99.25

ℜ1

99.25

ℜ1с

99,77

ℜ1с

99,77

TS6

ℜ1

99.25

-

ℜ1

99.25

ℜ1с

99,63

ℜ1с

99,60

TS9

ℜ1

99.59

ℜ1

99.59

-

ℜ1с

99.78

ℜ1с

99.61

Таблица 5 – Монотонность оценок алгоритмов ℜ1 и ℜ2с

  алгоритм

стенд

ℜ1

ℜ2с

M240

M255

M240

M255

TS3

0.748%

0.313%

0.25%

0.0%

TS6

0.78%

0.161%

0.37%

0.0%

TS9

0.373%

0.0%

0.373%

0.0%

Объектом распознавания на втором проходе служит образ I, соответствующий последовательности из нескольких символов, которые были распознаны на первом проходе недостаточно надежно.  Образу I ставится в соответствие  один или несколько шрифтов (I)={F1,…,Fn(I)}. Допустим случай, когда (I)= ∅.

Повторная сегментация  образа I проводится следующим образом:  зафиксируем набор эталонов  ={E1,…,EQ}, принадлежащих одному или нескольким построенным шрифтам. Для каждого эталона задана правая граница, которая будет использоваться для выделения части образа для сравнения с эталоном. В соответствии с размером и правой границей каждого из эталонов Ei из распознаваемого образа I выделяется левая часть L(I) так, чтобы размер L(I) соответствовал размеру эталона Ei. После этого образ L(I) сравнивается с эталоном Ei с помощью функции расстояния d. Процедура выделения части образа должна учитывать случаи невертикальных границ, что типично, например, в курсивном шрифте, но также встречается и в прямом шрифте при близком расположении символов.

Таким образом, получается некоторое количество вариантов образов левого начального символа Lj(I), таких, что расстояние d(Lj(I), Ei) меньше заданного порога. Для каждого варианта успешного распознавания левая часть удаляется из распознаваемого образа в соответствии с правой границей эталона, а с каждой из оставшихся частей операция повторяется до тех пор, пока весь образ не будет распознан, или не будет установлено, что приемлемых вариантов сегментации нет.

Таблица 6 – Точность сегментации после первого и второго прохода

  Стенд

Проход

TS1

TS2

TS3

TS4

TS5

TS6

TS7

первый

99,24%

99,83%

99,43%

99,76%

99,69%

99,40%

99,92%

второй

99,84%

99,92%

99,87%

99,76%

99,76%

99,68%

100%

Результаты, приведенные в таблице 6, иллюстрируют повышение точности сегментации при повторном распознавании с использованием алгоритма сравнения с эталонами, извлеченными из кластеров.

Описанный алгоритм поиска шрифтов позволяет реализовать алгоритм сжатия бинарных изображений, состоящий в распознавании образа страницы и замене образов отдельных символов I1,…,Ik ссылками на образы кластеров соответствующего шрифта.

В результате проведенной кластеризации, использующей в качестве функции расстояния симметрику μ1, некоторые из образов I(1)1,…,I(1)p станут элементами, образовавшими несколько кластеров Cl1, … , Clq. Другие образы I(2)1,…,I(2)k-p не войдут ни в один из кластеров. Образы I(1)1,…,I(1)p заменяются представлениями кластеров в форме пороговых идеальных образов, определяемых при максимизации выражения:

       

где k количество элементов в кластере Cl, а S∈Cl. В качестве функции близости может быть взята симметрика  d1

При выполнении условий

               q << p и 2⋅p <<k                                                                (3)

становится возможным уменьшение суммарного объема образов I1,…,Ik за счет представлений образов кластеров Cl1, … , Clq, заменяющих I(1)1,…,I(1)p.

Для изображения, удовлетворяющего условию (3), поиск шрифтов позволяет значительно уменьшить количество одноименных кластеров  Cl1, … , Clq, полученных из набора бинарных изображений I(1)1,…,I(1)p.

Различные сценарии сжатия позволяют реализовать различные режимы хранения и воспроизведения распознанных изображений:

  • репринтом

с удалением случайных образов;

  • При этом воспроизведенная страница по отношению к воспроизводимой будет выглядеть как различные экземпляры одного издания.

Таблица 7 – Улучшение характеристик качества распознавания символов

стенд

 

  характеристика 

Точность (%)

Монотонность оценок

Скорость распознавания (изображений в сек)

M240 (%)

M255 (%)

без адаптивного распознавания

с использованием адаптивного  распознавания

без адаптивного распознавания

с использованием адаптивного распознавания

с использованием адаптивного  распознавания

с использованием адаптивного  распознавания

без адаптивного распознавания

с использованием

адаптивного  распознавания

TS1

99,47

99,93

1,1

0,2

3,78

0,01

0,36

0,43

TS2

99,67

99,84

0,43

0,56

TS3

99,25

99,77

0,39

0,46

TS4

99,92

99,95

0,43

0,48

TS5

99,79

99,97

0,76

0,85

TS6

98,54

99,28

0,33

0,4

TS7

99,87

99,87

0,29

0,33

TS8

98,13

98,86

0,48

0,51

TS9

99,68

99,85

0,37

0,40

В шестой главе описаны особенности реализации алгоритмов адаптивного распознавания. Описаны следующие программные компоненты, использованные в исследованиях и в разработке:

  • контейнеры для хранения промежуточных результатов;
  • модули распознавания;
  • модуль кластеризации;
  • модуль сегментации;
  • модуль сравнения коллекций;
  • компоненты отладки, просмотра  и редактирования.

В таблице 7 приведены результаты сравнения результатов распознавания различных стендов OCR Cuneiform в режиме без адаптивного распознавания и режиме с использованием адаптивного  распознавания. Результаты таблицы 7 включают как повторное распознавание отдельных символов, так и повторную сегментацию границ символов согласно описанным в диссертации алгоритмам.

В диссертации показано, что применение алгоритмов адаптивного распознавания на различных видах текстов уменьшает количество ошибок в среднем в 3,65 раза при уменьшении быстродействия на 13,1%, что является очень хорошим показателем эффективности метода и его реализации.

Дополнительным эффектом применения разработанного метода является существенное повышение монотонности  оценок распознавания.

В заключении перечислены основные теоретические и практические результаты, полученные в рамках диссертационной работы, состоящие в следующем:

  1. Предложен и разработан метод адаптивного распознавания текстового документа, состоящий из пяти этапов.
  2. Разработаны способы формирования обучающей последовательности для кластеризации результатов первичного распознавания.
  3. Разработаны модель оцифровки и модель образа кластера.
  4. Проведено моделирование процессов оцифровки на большом объеме данных. Результаты моделирования позволяют построить функцию сравнения бинарных образов при кластеризации.
  5. Проведено теоретическое обоснование влияния расстояний при параллельном переносе в случае наложения двух изображений.
  6. Предложен и реализован метод построения эталонов, извлекаемых из набора кластеров.
  7. Разработан алгоритм сегментации границ символов, основанный на использовании шрифтов и эталонов, сформированных на основе результатов кластеризации.
  8. Разработано приложение адаптивного распознавания для сжатия бинарных изображений.
  9. Разработанные алгоритмы адаптивного распознавания являются составной частью программы распознавания текстов OCR Cognitive Cuneiform, начиная с 1996 года.

ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЦИИ ИЗЛОЖЕНЫ В СЛЕДУЮЩИХ РАБОТАХ:

  1. Арлазаров В.Л., Корольков Г.В.,  Славин О.А. Линейный критерий в задачах OCR // В сб. " Развитие безбумажных технологий в организациях ", 1999. C. 17-23.
  2. Арлазаров В.Л., Котович Н.В., Славин О.А. Адаптивное распознавание // "Информационные технологии и вычислительные системы". 2002. Вып. 4, С.11-23.
  3. Арлазаров В.Л., Куратов П.А., Логинов А.С., Славин О.А. Алгоритмы поиска границ печатных символов, используемые при оптическом распознавании символов // Информационные технологии и вычислительные системы № 4, 2004, C. 59-70.
  4. Арлазаров В.Л., Куратов П.А., Славин О.А. Распознавание строк печатных текстов // В сб. трудов ИСА РАН "Методы и средства работы с документами", М.: Эдиториал УРСС, 2000,  С. 31-51.
  5. Арлазаров В.Л., Логинов А.С., Славин О.А. Характеристики программ оптического распознавания текста // Программирование. 2002. №3, С. 45-63.
  6. Арлазаров В.Л., Романов А.Н., Котович Н.В., Славин О.А. Устройство для адаптивного распознавания символов текстовых документов. Патент РФ на изобретение № 2206918. опублик. Бюл.  №  17 20.06. 2003.
  7. Арлазаров В.Л., Славин О.А. Алгоритмы распознавания и технологии ввода текстов в ЭВМ // Информационные технологии и вычислительные системы, 1996. № 1, С. 48-54.
  8. Арлазаров В.Л., Славин О.А., Хованский А.Г.  Оценка расстояния между изображениями при параллельном переносе // Доклады академии наук, 2011. Т. 437, № 3.
  9. Гавриков М.Б., Мисюрев А.В., Пестрякова Н.В., Славин О.А. Об одном методе распознавания символов, основанном на полиномиальной регрессии // Автоматика и телемеханика. 2006. №3, С. 119-134.
  10. Котович Н.В., Кляцкин В.М., Славин О.А. Многопроходная схема распознавания документов с обучением  // В сб. трудов ИСА РАН "Управление информационными потоками". М.: Эдиториал-УРСС. 2002. С. 211-222.
  11. Котович Н.В., Славин О.А. Распознавание скелетных образов // В сб. трудов ИСА РАН "Методы и средства работы с документами", М.: Эдиториал УРСС, 2000. С. 204-215.
  12. Романов А.Н., Славин О.А, Титов Ю.В. Система адаптивного распознавания символов. Патент РФ на полезную модель № 63571. опублик. Бюл. № 15 27.05. 2007
  13. Славин О.А. Алгоритмы распознавания структурированных документов с переменным составом // Программирование № 4, 2005. С. 1-18.
  14. Славин О.А. Алгоритмы распознавания шрифтов в печатных документах // Информационные технологии и вычислительные системы. 2010. № 4,  С. 59-70.
  15. Славин О.А. Использование мультимножеств в распознавании символов // сб. трудов ИСА РАН "Системный подход к управлению информацией", М.: КомКнига, Том № 23, 2006. стр. 155-173.
  16. Славин О.А. Комбинированные методы распознавания печатных и рукопечатных символов // сб. трудов ИСА РАН " Документооборот. Концепции и инструментарий", М.: Едиториал УРСС, 2004, С.151-174
  17. Славин О.А. Многопроходное распознавание смешанных печатных текстов на примере русско-английского распознавания // сб. трудов ИСА РАН "Обработка изображений и анализ данных". Т.38. Едиториал УРСС, 2008. С. 272-277.
  18. Славин О.А., Титов Ю.В. Динамическое построение функций сравнения с идеальным образом в задаче адаптивного распознавания текстовых символов // Информационные технологии и вычислительные системы. 2007. № 1, С. 3-12.





© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.