WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

 

На правах рукописи

Харламов Александр Александрович

Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах

05.13.01 «Системный анализ, управление и обработка информации»

Автореферат диссертации на соискание ученой степени

доктора технических наук

Москва 2008

Работа выполнена в Институте высшей нервной деятельности и нейрофизиологии Российской академии наук.

Официальные оппоненты:

доктор технических наук, профессор        Галушкин Александр Иванович

доктор технических наук                Женило Валерий Романович

доктор технических наук                Лакаев Анатолий Семенович

Ведущая организация:

ФГУП Научно исследовательский институт микроэлектронной аппаратуры «Прогресс», г. Москва

       Защита состоится 29 апреля 2008 года в 14-00 на заседании диссертационного совета Д 212.133.01 в Московском государственном институте электроники и математики по адресу: 109, Москва, Большой Трехсвятительский пер., д. 3/12

       С диссертацией можно ознакомиться в библиотеке института

               Автореферат разослан «___» ____________ 2008г.

       Ученый секретарь

       Диссертационного совета к.т.н., доцент                С.Е. Бузников

Общая характеристика работы

Актуальность темы диссертации: В настоящее время успешно решаются отдельные задачи из области распознавания образов: известны коммерческие системы распознавания речи, распознавания изображений, автоматического анализа текстов. Степень успешности решения этих задач зависит от степени формализованности описания предметной области. Так, хорошо распознаются изображения символов – букв и цифр, менее успешно, но все же решена задача распознавания изображений лиц. Решена задача распознавания изолированно произнесенных команд. Успешно решена задача выявления грамматических и синтаксических ошибок в тексте.

       Более сложные задачи – распознавание изображений сцен, диктовка текстов с микрофона, автоматическая классификация текстов – далеки от решения. Существующие системы лишь демонстрируют  уровень сложности этих задач. Трудности, возникающие при решении этих задач, определяются, в том числе, существенной неоднозначностью анализируемой информации, что приводит к формированию большого числа гипотез, проверка которых, в случае обработки больших объемов информации становится нетривиальной задачей, а иногда и не решаемой в рамках разрешения применяемых методов.

       Естественным способом улучшить ситуацию в задачах распознавания является использование семантической и прагматической информации, которая является  фильтром, позволяющим ограничить число гипотез, возникающих комбинаторно в системах распознавания на нижних уровнях принятия решений. Такими нижними уровнями для системы распознавания изображений являются уровень элементарных представлений, уровень элементов объектов, и уровень объектов. В задачах распознавания речи и анализа текстов это – морфологический, лексический и синтаксический уровни представления и обработки информации.

       В настоящее время сложность методов представления семантической и прагматической информации как металингвистическими, так и образными средствами практически не позволяет эффективно использовать эту информацию для решения задач распознавания образов.

       В рамках научного направления искусственный интеллект предпринимались и предпринимаются многочисленные попытки использования семантической и прагматической информации, в основном, для решения задачи человеко-машинного общения на естественном языке. Широко известна работа Попова Э.В. в этом направлении. Однако, по его мнению, успех работы был обусловлен исключительно тем, что семантическая картина мира была заменена жесткой структурой реляционной базы, данные из которой и интерпретировались на естественном языке. В настоящее время предпринимаются попытки интерпретации естественно-языковых высказываний в терминах понятий и их отношений. Но большая неоднозначность этих интерпретаций, возникающая в силу многозначности языковой модели мира, не позволяет автоматически формировать модель мира на основе текстов.

       Менее известны способы использования семантической информации для распознавания изображений. В качестве модели мира для анализа сцен использовалась квази-3d сцена, на которой отдельные объекты представляются обобщенными геометрическими формами: шариками, цилиндрами. С помощью этого представления осуществляется сегментация и идентификация объектов сцены, которые далее описываются метаязыковыми терминами, так же как и отношения между ними, и их динамика.

       Разработка методов представления информации семантического и прагматического уровней, одинаково удобных для использования, как в задачах распознавания языковых образов, так и изображений, является ключевым моментом как в улучшении качества, так и в улучшении функциональности указанных систем распознавания, а также в переходе на следующий этап разработки интеллектуальных систем – этап создания интегрированных многомодальных систем обработки и хранения информации – интегральных роботов. Существование этих задач заставляет искать новые подходы к методам представления и обработки информации различных модальностей – речевой, зрительной, а также надмодальной (семантической, прагматической) информации.

       Для решения задач такого типа необходим комплексный интегральный подход, позволяющий использовать и многомодальную и надмодальную информацию, при помощи которого можно построить общую методологию обработки информации указанных типов, сформированную на основе общей математической модели. Она должна содержать методы удобного представления информации и эффективного доступа к ней, а также - структурной обработки информации, в том числе выявления внутренней структуры информации.

       На основании этого, составными частями такого подхода должны стать методы обработки речевой информации, обработки изображений, анализа текстовой информации, представления семантической и прагматической информации.

       Для практического подтверждения правильности выбранных методов необходимо отработать их применение на обработке реальной информации, для чего необходимо разработать программные реализации систем распознавания речи и изображений, а также анализа текстов, включающих представление семантической и прагматической информации. Реальная интеграция представления информации различных модальностей, а также надмодальной информации может быть эффективно осуществлена на основе аппаратной реализации указанных методов.

       Поскольку до настоящего времени ни один из этих вопросов не решался в совокупности со всеми остальными, можно считать, что решение такой проблемы весьма актуально.

       Целью диссертационной работы является:

Целью настоящей диссертационной работы является выявление эффективных способов представления многоуровневой структурированной информации различных модальностей  (изображения, речь, текст), адекватных представляемой информации, позволяющих естественным образом воспроизводить структуру информации так, как это происходит в мозгу человека. Указанные способы должны позволить осуществлять эффективное представление, как информации различных модальностей, так и надмодальной информации, в том числе, семантической и прагматической.

       Выбранные способы представления и обработки информации должны позволять осуществить единое интегрированное представление многомодальной и надмодальной информации, каковая, являясь многомодальной моделью мира, или ее частью – фреймом, сценарием – позволит фильтровать комбинаторные гипотезы, возникающие на разных уровнях в разных модальностях.

Достижение поставленной цели предполагает решение ряда задач теоретического, методического и практического характера. В том числе задач:

  • разработки теоретических основ и формализации процесса нейросетевой обработки информации;
  • формализации нейросетевого представления и обработки информации различных модальностей: речи, изображений, текстов, а также надмодальной информации: семантической и прагматической;
  • разработки методов и алгоритмов для структурной нейросетевой обработки изображений, речи, текстов;
  • разработки методов аппаратной реализации эффективного представления и нейросетевой обработки информации.

Для достижения поставленных задач необходимо провести следующие исследования:

  • рассмотреть существующие подходы к обработке и распознаванию информации различных модальностей, а также надмодальной: семантической и прагматической информации, и на их основе разработать единое математическое описание для представления в наиболее общей форме технологии обработки информации, описания эталонов, методов распознавания;
  • разработать обобщенный способ описания объектов (эталонов), включающий способы его получения и методы, по которым он может быть идентифицирован.

Методы исследований, применяемые в работе, основываются на использовании алгоритмов обработки изображений, алгоритмов распознавания речи, алгоритмов обработки текстовой информации, теории распознавания образов, теории графов.

Достоверность результатов теоретических исследований подтверждается данными, полученными при обработке реальной информации, с применением построенных системы распознавания изображений рукописных символов, системы распознавания речи, и системы анализа текстов.

Научная новизна работы заключается в следующем:

  • разработаны теоретические основы и формализация процесса нейросетевой обработки информации с помощью одного класса искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов;
  • разработана формализация представления и нейросетевой обработки информации различных модальностей: речи, изображений, текстов, а также надмодальной информации: семантической и прагматической;
  • разработаны методы и алгоритмы для структурной нейросетевой обработки изображений, речи, текстов;
  • разработаны методы аппаратной реализации эффективного представления и нейросетевой обработки информации.

Практическая ценность диссертационной работы состоит в том, что  ее результаты были использованы или могут быть использованы в разработке:

  • систем распознавания слитной речи и систем понимания речи для построения источников знаний верхних уровней;
  • систем распознавания изображений для структурного анализа, включая автоматическое формирование эталонов разных уровней;
  • систем анализа текстовой информации, в том числе, информационных и информационно-поисковых систем;
  • блоков ассоциативной памяти, позволяющей реализовать быстрый поиск на больших массивах данных.

Реализация результатов. Результаты исследований в виде готовых программных продуктов были использованы в организациях министерства обороны и других органах государственной власти, и на фирмах «Интеллектуальные системы безопасности», «ОАО Ангстрем-М», «Юникор микросистемы».

Апробация работы. Основные положения диссертации докладывались на Международном симпозиуме «Нейронные сети и нейрокомпьютинг» NEURONET’90, Прага 1990г.; на Всесоюзном семинаре «Автоматическое распознавание слуховых образов (АРСО-16)», Москва 1991г.; на Международном совещании «Нейрокомпьютеры и внимание», Москва 1991г.; на XI Международной конференции по нейрокибернетике, Ростов-на-Дону 1995г.; на Втором международном симпозиуме «Интеллектуальные системы», С.-Петербург 1996г.; на IV Всероссийской конференции «Нейрокомпьютеры и их применение (НКП-98)», Москва 1998г.; на Международной конференции «Информатизация правоохранительных систем», Москва 1998г.; на Третьем Международном симпозиуме «Интеллектуальные системы», Псков 1998г.; на IX сессии Российского акустического общества, Москва 1999г.; на международной конференции-совещании "Новые информационные технологии из России", Берлин 2002г.;  на IV Международном  социальном конгрессе, Москва 2004г.; на международной конференции-совещании "Новые информационные технологии из России", Белград 2004г.;  на Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы – 2005 (ИМС-2005)», Геленджик 2005г., на международной конференции-совещании "Новые информационные технологии из России", Будапешт 2005г.; на Третьем совещании Российской секции IEEE Computation Intelligence Society «Биометрические системы», Москва 2005г., на 5-х Годичных научных чтениях факультета иностранных языков РГСУ, Москва 2006г.; на конференции «Нейрокомпьютеры и их применение» (Нейро-2007), Геленджик 2007г., на конференции «Digital libraries and technology-enhanced learning: Call 3 information days», Люксембург 2007г.

Публикации. Результаты работы опубликованы в 58 печатных научных трудах общим объемом 20 печатных листов, среди которых монографии, статьи в центральных журналах, труды и тезисы конференций.

Личный вклад. Лично автором получены следующие основные результаты.

  • Разработаны теоретические основы и формализация процесса нейросетевой обработки информации.
  • Формализованы нейросетевое представление и обработка информации различных модальностей: речи, изображений, текстов, а также надмодальной информации - семантической и прагматической.
  • Разработаны методы и алгоритмы для структурной нейросетевой обработки изображений, речи, текстов.
  • Разработаны методы аппаратной реализации эффективного нейросетевого представления и обработки информации.

Структура и объем диссертации. Диссертация состоит из введения, шести глав, заключения и списка литературы, приложений. Работа содержит 256 страниц текста, список литературы включает 143 наименования.

Содержание работы.

Во введении дана общая характеристика работы, отмечена ее актуальность, научная новизна и практическая ценность. Приводится краткое описание работы по главам.

В первой главе изложена классификация и описание некоторых методов обработки информации различных модальностей. Рассмотрены существующие подходы к представлению и распознаванию речевой информации различных уровней, распознаванию зрительной информации, к обработке текстовой информации. А также рассмотрены вопросы представления и использования, для распознавания речи, изображений и анализа текстов, семантической и прагматической информации.

       Показано, что внесение знаний в искусственно-интеллектуальные системы эффективно не моделированием отдельных интеллектуальных функций, а моделированием вычислительной среды, в которой решаются интеллектуальные задачи.

Интеллектуальными системами являются системы, реализующие интеллектуальные функции в рамках познавательного поведения: восприятие, обучение (формирование модели мира), мышление (использование модели для решения текущих задач), решение задач, прогнозирование и принятие решений, языковое поведение, и т.д. Следовательно, к интеллектуальным системам можно отнести информационные системы, компьютерные системы обработки естественного языка, в том числе, системы обработки текстов, в том числе, системы автоматического извлечения знаний из текстов, компьютерные системы интеллектуального анализа данных, в том числе, системы, основанные на нейросетевых технологиях: системы распознавания изображений, системы распознавания, анализа и синтеза речи. Некоторые из этих систем рассматриваются более подробно. В первую очередь, это системы распознавания речи, изображений и анализа текстовой информации.

Классификация существующих систем распознавания речи позволяет разбить их на два класса: (1) одноуровневые системы, распознающие речевые события с помощью так или иначе модифицированных правил Байеса (в том числе и реализованных на нейронных сетях); и (2) системы для структурной обработки, в том числе, использующие эмпирические лингвистические правила.

В настоящее время под системой распознавания речи понимается программно-аппаратный комплекс, решающий одну из ниже перечисленных задач.

Распознавание изолированных устно произносимых команд ограниченного словаря.

Распознавание слитной речи.

Понимание речи.

Обычно, системы распознавания речи имеют в своем составе следующие блоки и устройства: микрофон, блок преобразования акустического сигнала в цифровую форму, блок шумоочистки, блок формирования первичного описания, блок акустико-фонетического анализа, блоки обработки верхних уровней: морфологического, лексического, синтаксического, и т.д.

Акустический речевой сигнал, после его ввода в систему, оцифровывается, очищается от шумов, нормализуется по амплитуде и освобождается  от коррелированной информации. Затем начинается сравнение его фрагментов со сформированными на этапе обучения эталонами разных уровней. Причем, сформированные на самом нижнем (акустико-фонетическом) уровне гипотезы – цепочки фонем (или любых других фонемоподобных элементов), на следующих уровнях сравниваются с эталонами поуровневых словарей. Например, с эталонами словаря корневых морфем – на нижнем уровне, на следующем уровне – с эталонами словаря слов, и т.д. Влияние более высоких уровней позволяет прекратить рост числа вероятных гипотез.

В случае решения простых задач распознавания, например, команд ограниченного словаря, используются чаще всего одноуровневые статистические подходы. При решении более сложных задач, например, распознавания ключевых слов в потоке слитной речи, требуется привлечение в рамках структурного подхода лингвистической информации всех уровней, от морфологического до синтаксического. А также экстралингвистической информации – семантической и прагматической.

Показано, таким образом, что сложность реализации систем распознавания речи заключается в необходимости интеграции в единое целое большого объема информации, имеющей различную внутреннюю структуру и требующей для ее обработки различных алгоритмов.  Кроме того, использование практически всех существующих решений задачи распознавания речи натыкается на психологический барьер, заключающийся в том, что от систем распознавания речи человек ожидает тех же возможностей в общении, что и в общении с человеком. Решение последней задачи предполагает воссоздание, по возможности, всей системы обработки и представления информации, каковая имеется у человека. Это значит, что помимо интеграции лингвистических и экстралингвистических источников знаний различных уровней, в систему необходимо интегрировать подсистемы обработки информации других модальностей, в первую очередь - зрительной. Эффективная интеграция большого объема разнородной информации становится возможной в случае решения трех проблем. Во-первых, необходимо использовать одинаковые алгоритмы обработки информации, имеющей различную структуру. Во-вторых, желательно реализовать эти алгоритмы с наименьшими затратами, то есть с использованием специализированной (нацеленной именно на эти алгоритмы) аппаратуры, вместо универсальных процессорных средств. И, в-третьих – необходимо реализовать ассоциативный способ обращения к информации.

Анализ существующих систем распознавания изображений показал, что, как и в случае распознавания речи, при решении задачи распознавания изображений используются, в основном, два подхода: геометрический (одноуровневый), и структурный или лингвистический.

Также как системы распознавания речи, системы распознавания изображений, помимо модуля ввода и оцифровки сигнала, имеют два основных модуля: модуль предобработки  и модуль распознавания. Модуль предобработки существенно учитывает особенности воспринимаемого двумерного пространства, или двумерного отображения трехмерного видимого мира. Состав этого модуля чем-то похож на состав аналогичного модуля в системах распознавания речи. В него также входят блок шумоочистки, блок нормировки, блок сжатия информации, а также блок кодирования, от эффективности работы которого в большой степени зависит эффективность работы всей системы. Этот блок в наибольшей степени учитывает особенности двумерного сигнала, в отличие от одномерного: в этом блоке используется тот или иной способ позиционного кодирования, который воспроизводит особенности фовеального зрения человека.

Показано, что распознавание изображений имеет свои сложности, связанные с перебором больших объемов информации, сопряженным с большим объемом сопутствующих вычислений, помимо той же, что и для задач распознавания речи - сложности интеграции разнородных источников знаний. Как и в случае с распознаванием речи, эффективным решением может быть использование однородных алгоритмов обработки информации, аппаратной реализации и ассоциативного доступа.

Анализ существующих систем обработки текстов позволил выявить их основные функции: извлечения индекса текста, автоматического формирования множества рубрик - кластеризации множества текстов, отнесения текста к рубрике (классификация) и сравнения текстов, создания реферата, а также -  формирования гипертекстового представления со средствами навигации по гипертекстовой структуре. Важнейшая из этих функций – индексация – осуществляется в разных системах по-разному. В основном используются два подхода.

Статистический подход позволяет сформировать индекс на основе анализа частоты встречаемости слов в тексте. Семантический подход использует в этих целях заранее сформированное семантическое представление в виде глобальной семантической сети, в том или ином представлении. В этом случае проекция входного текста на эту сеть и формирует индекс текста. Все остальные функции являются производными от функции индексации. В зависимости от качества ее реализации стоит и качество работы остальных функций. Системы анализа текстов, в связи с этим, делятся на два класса.

К первому классу относятся простые, быстрые, не зависящие от языка и предметной области, но грубые системы, использующие статистические механизмы анализа. Второй класс – реализованный на основе использования лингвистической информации -  формируют достаточно изощренные, дающие хороший результат, но сравнительно медленно работающие системы. Автоматизация извлечения знаний из текстов средствами формализмов искусственных языков представления знаний, встречает ряд трудностей, связанных с разнородностью используемых методов, слабой автоматизацией процессов формирования базы знаний и необходимостью привлечения экспертов - лингвистов и инженеров по знаниям - для формирования базы знаний. Поэтому существующие системы этого класса являются весьма громоздкими структурами с большими семантическими сетями. Либо качество их работы оставляет желать лучшего.

       Показано, что, как и при разработке систем распознавания речи, в системах анализа текстов стоит проблема автоматического формирования источников лингвистических и экстралингвистических знаний различных уровней. В наибольшей степени это относится к формированию семантических представлений, в силу большого объема используемой информации. В не меньшей степени важную роль при обработке текстов играет ассоциативность доступа к информации.

       Проведенный анализ показывает, что реализация эффективных интеллектуальных систем оказывается возможной лишь при включении в их состав семантического компонента. Существует два типа семантических представлений: процедурное представление знаний, где знания о конкретной проблемной области представляются в виде набора правил, и декларативное представление знаний, когда информация представляется в виде базы данных или базы знаний. Показано, что все семантические представления, так или иначе, сводятся к сетевому представлению.

       Ограниченность искусственно-интеллектуального подхода к представлению семантической информации заключается в невозможности полного и непротиворечивого представления семантики только метаязыковыми средствами. Решение задачи интеграции информации различных модальностей позволило бы выйти из этого порочного круга.

Во второй главе показана необходимость использования двух основополагающих принципов для эффективного решения задач обработки и представления информации, полученной от разных типов сенсоров и эффекторов (разных модальностей), а также обработки и представления надмодальной семантической и прагматической информации. Это ассоциативность обращения к информации и структурный подход к ее обработке. Ассоциативность обращения к информации позволяет быстро получить нужную информацию, независимо от объемов выборки, а структурный подход к обработке информации – автоматически восстанавливать структуру и компактно хранить полученную информацию.

Рассмотрено преобразование двоичной последовательности в -мерное пространство таким образом, что каждому -членному фрагменту последовательности соответствует точка в - , с соответствующими -членному фрагменту координатами, а всей последовательности соответствует последовательность точек: - траектория:

.                                                (2.1)

Здесь - обозначает отображение в сигнальное пространство. Отображение является основой для осуществления структурной обработки информации.

       Преобразование обладает свойством ассоциативности обращения к точкам траектории ассоциацией по -членному фрагменту последовательности (то есть - по его содержанию): любые символов сразу же адресуют нас к соответствующей точке траектории. В общем случае среди -членных фрагментов информационной последовательности может встретиться уже ранее встречавшийся -членный фрагмент, и траектория в этом случае пройдет через вершину, уже принадлежащую ей, то есть пересечется с самой собой. В этой точке возможно более одного продолжения траектории. Для двоичной последовательности продолжений может быть не более двух.

       Ассоциативность преобразования позволяет сохранить топологию структуры преобразуемой информации. Действительно, одинаковые фрагменты последовательности преобразуются в одну и ту же траекторию, разные - в разные траектории.

       Пусть есть две синхронно разворачивающиеся последовательности и . Траектория несущей последовательности в сигнальном пространстве может быть использована для запоминания в ее точках символов синхронизированной с ней информационной последовательности . В вершинах гиперкуба вводится функция памяти , ставящая в соответствие каждой вершине , соответствующей -му символу последовательности , двоичную переменную , являющуюся -м символом некоторой двоичной последовательности .

                               (2.2)

Таким образом, формируется траектория , обусловленная последовательностью . - обозначает обусловленность.

.                                        (2.3)

Другими словами, последовательность записывается в точках траектории (в ассоциации с траекторией ).

Можно осуществить восстановление информационной последовательности по обусловленной ею траектории и несущей последовательности :

,                                        (2.4)

где в каждой точке : . При этом развертывание в траекторию несущей последовательности позволяет обратиться к информации, записанной в точках траектории, то есть к информационной последовательности. Такой способ записи назовем гетерассоциативной записью, а воспроизведение - гетероассоциативным воспроизведением.

Если в качестве обуславливающей последовательности используется та же последовательность, что и несущая, то есть в точках траектории в сигнальном пространстве записываются символы этой же последовательности, - возникает случай самообусловливания: то есть, если , :

.                                        (2.5)

Аналогично (2.4):

.                                        (2.6)

В этом случае можно восстановить исходную последовательность, начиная с одной из точек траектории:

.                                        (2.7)

Такая запись называется автоассоциативной записью, а воспроизведение - автоассоциативным воспроизведением.

       Заменой триггера регистрации следующего символа последовательности двумя счетчиками, фиксирующими число прохождений траекторией заданной точки в заданном направлении: - для переходов в "0" и - для переходов в "1", возможна реализация, наряду с функцией ассоциативной записи/воспроизведения, механизм стохастической обработки информации. Введение порогового преобразования , позволяет восстановить по значению функции в точке многомерного сигнального пространства, определенной ее координатами , значение наиболее вероятного перехода в следующую точку – в "0" или в "1": . Такой механизм памяти чувствителен к числу прохождений заданной точки в заданном направлении. Он позволяет характеризовать каждую точку траектории с точки зрения частоты появления во входной информации сочетания .

Наряду с запоминанием - неуменьшением значений счетчиков и , возможно забывание - равномерное уменьшение значений счетчиков во времени со скоростью изменения их содержимого значительно меньшей, чем при запоминании:

       (2.8)

где . Введение забывания позволяет устранить случайные точки на траектории, не подтверждающиеся в процессе дальнейшего обучения.

Механизм памяти, чувствительный к числу прохождений заданной вершины в заданном направлении (механизм статистической обработки), является инструментом для анализа входной последовательности с точки зрения повторяющихся ее частей. Как было показано выше, одинаковые фрагменты последовательности отображаются преобразованием в одну и ту же часть траектории.

Преобразование , при взаимодействии с классом входных последовательностей , формирует словарь, характеризующий состав последовательностей входного класса в терминах их повторяющихся фрагментов в пространстве данной мерности:

                             (2.9)

В зависимости от величины порога преобразования   слова словаря могут быть либо цепями, либо графами.

Сформированный словарь часто встречающихся событий может быть использован для детектирования старой информации в потоке новой. Для этого необходимо поглощение фрагментов входной последовательности , соответствующих словам словаря, и пропускание новой, относительно словаря, информации. В результате появляется возможность реализовать структурный подход к обработке информации.

Для решения задачи детектирования преобразование модифицируется для придания ему детектирующих свойств. Преобразование взаимодействует с входной последовательностью , которая содержит, наряду со старой, некоторую новую информацию.        Если на основании множества входных последовательностей ранее был сформирован словарь , то использование преобразования позволяет сформировать так называемую синтаксическую последовательность или последовательность аббревиатур - , характеризующую связи слов словаря в последовательности . Здесь есть множество подпоследовательностей, соответствующих всем цепям слов словаря :

                                      (2.10)

В результате взаимодействия происходит формирование последовательности , в которой заменяются нулями те части последовательности , соответствующие которым части траектории совпадают с частями траектории . Другими словами, во входной последовательности заменяются нулями символы, соответствующие которым точки траектории совпадают с точками сформированной ранее траектории  : , где:

     

                                               (2.11)

Здесь , а , или в другой записи:

                        (2.12)

Таким образом, отображение позволяет устранить из входной последовательности некоторую информацию, содержащуюся в словаре . Тем самым создается предпосылка построения многоуровневой структуры для лингвистической (структурной) обработки входной информации. Синтаксическая последовательность , содержащая только новую, по отношению к данному уровню, информацию, становится входной для следующего уровня. На следующем уровне, подобно описанному выше, из множества синтаксических последовательностей формируется словарь и множество синтаксических последовательностей следующего уровня . Мы имеем стандартный элемент многоуровневой иерархической структуры из ассоциативных процессов: такая обработка с выделением поуровневых словарей может происходить на всех уровнях. Словарь следующего уровня является, в этом случае, грамматикой для

предыдущего уровня, так как его элементами, при соответствующем выборе размерностей пространств этих уровней, являются элементы связей слов

       Процессы в описанной многоуровневой структуре обратимы.  Информация может сжиматься при ее обработке в иерархии в направлении снизу-вверх, с выделением из нее на каждом уровне поуровневых словарей (освобождением проходящей наверх информации от часто встречающихся событий соответствующей частоты встречаемости). Информация может развертываться при ее обработке в иерархии в направлении сверху вниз.

       Расширением понятия преобразования является расфокусированное преобразование , преобразующее каждый -членный фрагмент символов последовательности не в точку - вершину гиперкуба, а во множество вершин, лежащих в окрестности указанной вершины радиуса (по Хеммингу). Исходная последовательность , таким образом, отображается в трубку радиуса с осью-траекторией :

.                                         (2.19)

Использование расфокусированного преобразования позволяет увеличить надежность воспроизведения, если при обучении была сформирована нерасфокусированная траектория. При этом, в случае ухода с траектории, в результате зашумления входной информации (например, замены части символов на противоположные), среди точек -той окрестности текущей точки траектории содержатся и точки траектории, в которых записана нужная информация. При воспроизведении, на основе этой информации (информации о переходе, содержащейся в точках -ой окрестности), а также взятой со своим весом информации о следующем символе входной последовательности, инициировавшей воспроизведение,  принимается решение о следующем символе воспроизводимой последовательности.

       В работе предложен механизм управления активностью процессов – механизм локального внимания.  Расфокусированное преобразование реализуется с использованием механизма внимания с помощью управления порогом срабатывания ассоциативным процессом:

                        (2.20)

       Вершина гиперкуба откликается точно на свой адрес, если порог равен числу единиц в адресе (так называемый порог острой настройки):. Изменение порога приводит к расфокусировке, если порог уменьшается, и к схлопыванию зоны захвата, если порог увеличивается. Изменение порога осуществляется синапсом, расположенным на теле нейрона в области триггерной зоны.

       Уменьшение порога на величину расфокусировки переводит процессы в режим генерализации. В этом случае радиусы сфер захвата всех вершин гиперкуба увеличиваются и они начинают откликаться на n-членные фрагменты, отличающиеся от их адреса на r символов. Увеличение порога переводит процессы в режим локализации.

       Под распознаванием понимается процесс принятия решения о степени совпадения входной информации с ранее запомненной. Распознавание предполагает предшествовавший ему процесс обучения. В основе механизма распознавания лежит сравнение входной последовательности и наиболее близкой ей, из запомненных, последовательности , которая начинает воспроизводиться с помощью преобразования в ответ на входную последовательность , с вычислением меры близости по Хеммингу:

.                                       (2.21)

Вычисление осуществляется суммированием расстояния по Хеммингу между соответствующими -членными фрагментами входной и воспроизводимой последовательностей, полученных на каждом шаге:

, ,                              (2.22)

где - длина траектории. Решение о совпадении с заданной степенью точности принимается сравнением с порогом по распознаванию.

Отдельно рассматривается более простой механизм распознавания, реализованный на основе гетероассоциативного способа записи/воспроизведения. При обучении, в качестве несущей последовательности используется последовательность, соответствующая запоминаемому событию, а в качестве информационной последовательности - последовательность символов кода, соответствующего этому событию. Под распознаванием, в этом случае, понимается воспроизведение информационной последовательности - кода события, которое инициирует входная последовательность .

Показывается, что описанные процессы обработки информации: обучение, воспроизведение, формирование словаря, синтаксической последовательности, одинаково эффективны как в рамках одного ассоциативного процесса, так и в системах из ассоциативных процессов, в том числе многоуровневых. Использование всех свойств ассоциативного процесса возможно лишь при включении его в иерархическую структуру, осуществляющую структурный анализ информации.

При обучении в иерархической структуре, работающей в режиме анализа, происходят следующие процессы. С выхода рецепторного органа на вход иерархической структуры поступает множество последовательностей , характеризующих множество реализаций множества входных ситуаций, имеющих внутреннюю структуру в смысле повторяемости отдельных ее элементов.

По мере поступления последовательностей из множества сначала на первом уровне формируется словарь событий наибольшей частоты встречаемости. Размерность и, следовательно, объем сигнального пространства первого уровня выбираются такими, чтобы в словаре хватило места для всех событий наибольшей частоты встречаемости, содержащихся в , но также и чтобы размер слов словаря соответствовал реальным событиям данной частоты встречаемости.

После формирования на первом уровне иерархии словаря , по мере дальнейшего поступления последовательностей из , начинается их взаимодействие с элементами словаря в сигнальном пространстве с формированием на выходе первого уровня подмножества последовательностей аббревиатур (синтаксических последовательностей), соответствующих последовательностям из .

Сформированное множество синтаксических последовательностей , поступая на вход сигнального пространства второго уровня, запускает там процессы, аналогичные вышеописанным, только словарь формируется на основе множества событий меньшей частоты встречаемости, чем .

Таким образом, при обучении заполняются сигнальные пространства всех уровней, на которых находятся соответствия элементам входных ситуаций того или иного уровня.

В реальных устройствах требование к объему сигнального пространства, необходимому для размещения словаря, может оказаться в противоречии с требованием к длине адресного регистра. Длина должна быть меньше длины последовательности, соответствующей слову словаря данного уровня, в противном случае слово может быть представленным в сигнальном пространстве единственной точкой. Оно может быть не представленным и единственной точкой, если длина адресного регистра оказывается больше длины слова. Поэтому, на каждом уровне иерархической структуры сигнальное пространство разбивается на ряд подпространств, в каждом из которых при обучении формируются подсловари, в дальнейшем используемые для распознавания, синтаксической обработки или воспроизведения.

Рассматриваются особенности формирования представления о событиях, происходящих в мире, в иерархической структуре из ассоциативных процессов. В иерархической структуре из ассоциативных процессов формируются две сосуществующие системы знаний о мире: статическая (парадигматическая), потенциально хранящая всю доступную информацию об элементах и связях структур событий мира, и динамическая (синтагматичекая), в той или иной степени соответствующая конкретным ситуациям, отображаемым на иерархической структуре. Первая - есть не что иное, как семантическая сеть, вторая имеет общие черты с фреймовыми структурами.

Статические знания - модель мира данной модальности - представляют собой многократно вложенный суперграф . На верхнем (K-ом) уровне он объединяет все графы-слова словаря (подсловарей) верхнего уровня, а на всех более низких уровнях - включает в себя (в соответствующие места – по ассоциативному принципу) графы-слова словарей нижних уровней:

                                       (2.23)

Здесь U – операция объединения, V - обозначает включение на свое место в слова словаря более высокого уровня. Это включение аналогично логическому сложению последовательности, соответствующей слову словаря нижнего уровня, с синтаксической последовательностью (вложению слова словаря в соответствующую купюру синтаксической последовательности).

Объединением нескольких иерархических структур, соответствующих разным сенсорным и эффекторным модальностям со сформированными на них модальными моделями мира , получается объединенный суперграф - семантическая сеть:

                       (2.24)

Структуру многомодальных семантических представлений можно продемонстрировать на примере металингвистической семантической сети, построенной на основе некоторого текста, множества текстов или даже целой предметной области. Такая семантическая сеть, так или иначе, сводится к учету сочетаемости слов. Семантическая сеть представляется как множество понятий (слов и словосочетаний), объединенных связями. Поскольку типы семантических связей в системе не определяются, такие связи представляют собой просто ассоциативные связи. В качестве критерия для определения наличия семантической связи между парой понятий в тексте может быть использована частота их совместной встречаемости в одном предложении. Превышение частотой некоторого порога позволяет говорить о наличии между понятиями ассоциативной (семантической) связи, а совместные вхождения понятий в  предложения с частотой меньше порога считаются просто случайными.

Элементы семантической (ассоциативной) сети и их связи имеют числовые характеристики, отражающие их относительный вес в данном тексте - семантический вес. Для более точной оценки семантических весов понятий, они пересчитываются, при этом используются веса всех понятий, связанных с данным понятием, т.е. веса целого “семантического сгущения”. В результате пересчета наибольший вес приобретают понятия, обладающие мощными связями и находящиеся как бы в центре “семантических сгущений”.

В каждый момент времени, в ответ на входную ситуацию, в каждом графе-слове данной модальности может высветиться только одна цепь . Эти цепи на вложенном суперграфе (семантической сети) составляют динамическое знание - компоненты фрейма данной модальности соответствующие некоторой текущей входной ситуации (синтагмы). По аналогии с (2.23):

                                       (2.25)

Компоненты фрейма могут включать в себя конкатенации цепей  (также по ассоциативному принципу). Здесь [] – означает конкатенацию по индексу i.

Каждой конкретной ситуации на семантической сети соответствует некоторое объединение компонент фрейма отдельных модальностей - субфрейм:

               (2.26)

где - имя субфрейма – слово, например, в вербальной (первой) модальности.

Последовательность субфреймов формирует фрейм:

                                       (2.27)

где - имя фрейма (так же как в случае имени субфрейма) – слово, например (но не обязательно), в вербальной модальности.

В третьей главе показано, что для реализации задач обработки и представления различной разномодальной информации, с ассоциативным доступом к ней, эффективно использование искусственных нейронных сетей. Анализ существующих решений показал, что нейронные сети условно можно разделить на два типа - статические и динамические. Классические сети из нейроподобных элементов позволяют решить задачу распознавания статических (пространственных) образов. Сети, имеющие в своем составе элементы задержки, - динамические нейронные сети - могут использоваться и для распознавания динамических образов (например речевых сигналов), однако в этом случае для учета временной структуры информации прибегают к специальным приемам, например заводят на дополнительные входы сети информацию с задержками. Введение в стационарную сеть обратных связей с элементами задержки с выходов сети на ее входы делает сеть рекуррентной. При этом сеть начинает учитывать временной контекст входных сигналов. Такие сети способны автоматически формировать эталоны динамических образов.

Использование рекуррентных искусственных нейронных сетей для обработки информации, имеющей временную природу, показало хорошее качество работы таких сетей. Естественная трудность, с которой сталкиваются разработчики, заключается в рутинности ручной настройки структуры нейронных сетей на распознаваемую информацию. Показано, что для эффективного решения этой проблемы необходимо организовать нейронную сеть, реализующую структурную многоуровневую обработку информации.

Для анализа временных последовательностей, к которым сводится представление как речевой, так и зрительной и текстовой информации, удобно использовать искусственные нейронные сети, динамические. Предельным случаем сетей, учитывающих динамическую (временную) информацию, являются сети из так называемых динамических ассоциативных запоминающих устройств. Такие сети представляют собой множество параллельно включенных нейроподобных элементов с временной суммацией входных сигналов. Каждый из нейроподобных элементов, являясь элементом ассоциативной памяти, моделирует одну из точек сигнального пространства, в которое отображается и в котором запоминается в виде последовательности точек - траектории - входная последовательность.

Этот тип сетей получается из более общего, который, в свою очередь конструируется из статических сетей объединением двух статических нейронных сетей, где одна из них включается в прямом направлении, а другая – в обратной связи. Сначала сеть сводится к одному нейроподобному элементу, но имеющему цепочку задержек на входе. Это нейрон с синапсами, имеющими передаточную функцию без полюсов (такие синапсы можно рассматривать как обобщенные дендриты нейрона) и не имеющими обратной связи с выхода.

В этом случае эталонная область пространства Rn сводится к одной точке. Координатами этой точки в пространстве является n-членный анализируемый фрагмент последовательности. Для построения эталонов образа, которые строятся как объединение точек – траектория, используется набор из таких нейронов – нейронный пучок. Объединение нейронов моделирует n-мерный единичный гиперкуб в сигнальном пространстве. Такая конструкция более удобна для представления информации, поскольку, в отличие от традиционной нейронной сети, где информация об образах-эталонах упрятана в весовых коэффициентах синапсов, в такой сети входная информация представляется в удобной и наглядной форме траектории на вершинах гиперкуба. Нейроны с различными распределениями синапсов на дендритах можно избирательно возбуждать, подавая на них последовательности с разным распределением в них импульсов и межимпульсных интервалов.

Представлены теоретические основы построения нейросетевых технологий для обработки  неструктурированной информации различных модальностей. Рассматривается ассоциативная память на основе нейроподобных элементов с временной суммацией входных сигналов, в которой одним из основных свойств является ассоциативное воспроизведение с динамическим формированием адреса. Такая ассоциативная память называется динамической ассоциативной памятью, а устройства на ее основе - динамическими ассоциативными запоминающими устройствами (ДАЗУ). Динамическое ассоциативное запоминающее устройство представляет собой множество объединенных параллельно нейроподобных элементов, имеющих общий вход и общий выход, и отличающихся друг от друга последовательностью знаков синаптических связей на обобщенном дендрите - адресом. Вес связей равен ±1. ДАЗУ моделирует многомерный единичный гиперкуб, и осуществляет преобразование информационной последовательности в траекторию в многомерном сигнальном пространстве. Наличие элемента памяти в составе нейроподобного элемента позволяет запоминать в ДАЗУ информационные последовательности с сохранением в сигнальном пространстве топологии сенсорного пространства. ДАЗУ реализует частотную обработку информационных последовательностей, а также ассоциативное обращение к запомненной информации.

Объединение множества из нейронов с разными адресными комбинациями в единую структуру порождает модель -мерного сигнального пространства (точнее единичного гиперкуба , если веса синапсов равны "+1" и "-1"). В этом случае каждый отдельный нейрон моделирует одну из вершин гиперкуба. Такая структура позволяет отобразить любую последовательность в последовательность вершин – траекторию.

В четвертой главе представлен структурный подход с использованием нейросетевой технологии, который позволяет естественным образом решить задачу анализа неструктурированной информации разных модальностей: языковой (речевой и текстовой), семантической информации, а также информации других модальностей, например, изображений, и интеграции их в единую структуру.

       Речевая и текстовая информация имеют общую часть, касающуюся представления источников знаний верхних уровней. Поскольку, если оставить в стороне первичную обработку, и предположить, что текстовая информация может быть с помощью системы автоматического транскрибирования переведена в последовательность фонетических значков, таких же, какие появляются на выходе акустико-фонетического уровня обработки речевого сигнала, возможно рассматривать эти два вида информации совместно, дополняя представление одного вида информации представлением другого вида информации. Для решения задачи анализа языковой (речевой и текстовой) информации, необходимо создание системы, содержащей, помимо модуля первичной обработки, источники языковых знаний различных уровней - от фонетического до синтаксического. Кроме того, она должна содержать экстралингвистические источники знаний: семантический и прагматический.

Анализ речевой информации предполагает введение акустико-фонетического уровня обработки. На акустико-фонетическом уровне формируется представление первичных неделимых фрагментов последовательности первичных признаков, кодирующих звуковую волну. На вход  акустико-фонетического уровня подается параметризованная звуковая волна, подвергнутая первичной обработке с целью улучшения отношения сигнал/шум, уменьшения корреляции, а также уменьшения вариативности. Для формирования словаря акустико-фонетического уровня на его вход подается обучающая выборка из реализаций слов фонетически сбалансированного словаря. В процессе обучения в многомерном сигнальном пространстве акустико-фонетического уровня формируется представление речевой информации в виде словаря акустико-фонетических элементов - множества фрагментов траекторий, соответствующих размеченным сегментам реализаций слов фонетически сбалансированного словаря. Наличие сформированного словаря звукотипов позволяет использовать акустико-фонетический уровень как структуру для фильтрации фонологической информации в речевом потоке.

Для формирования представления морфологического уровня на вход обученного акустико-фонетического уровня подается обучающая выборка морфологического уровня, содержащая множество произнесений произвольного множества текстов. На его выходе получается та же выборка, но уже в виде последовательности транзем с купюрами на месте отфильтрованных фонем. Из этой последовательности транзем в многомерном сигнальном пространстве морфологического уровня формируются словари корневых морфем, аффиксов и префиксов, а также флективных морфем -  окончаний, соответствующих различным грамматическим формам слов. Здесь же формируется словарь предлогов. Функционально (на синтаксическом уровне) он неразрывно связан со словарем флексий.

Для формирования словаря лексического уровня, на вход обученного акустико-фонетического уровня подается обучающая выборка лексического уровня, содержащая множество реализаций слов оперативного словаря - словаря наиболее часто встречающихся слов. При формировании словаря лексического уровня, аналогично предыдущему, после фильтрации сформированным ранее словарем акустико-фронетического уровня, на его выходе получим множество реализаций слов, представленных в виде последовательностей транзем с пробелами.

Подавая на вход акустико-фонетического уровня обучающую выборку, состоящую из множества предложений, после их взаимодействия со словарем фонем на акустико-фонетическом уровне и словарем основ слов на лексическом уровне, мы получим на входе синтаксического уровня множество синтаксем, состоящих из последовательностей предлогов и флективных морфем с купюрами вместо отфильтрованных корневых основ.

Семантика выходит за рамки языкового представления. Человек оперирует не языковой, а многомодальной моделью мира. Только в таком представлении удается избежать трудностей объяснения первичных смыслов – они формируются как элементы модели мира соответствующих модальностей. Однако необходимо отметить, что семантика отражается в языке, наряду с лексической и грамматической компонентами смысла, в виде сочетаемости слов, и, в конечном итоге, в виде семантической сети. Поэтому, на этих уровнях формируются словари сочетаемости слов (точнее – основ слов). Семантическая сеть легко может быть получена из словаря пар слов.

       Отличие информации семантического и прагматического уровня заключается только в объеме сети. В случае представления семантической информации сеть опосредует всю модель мира. Источник знаний прагматического уровня содержит частные сети для соответствующих предметных областей (ситуаций).

Обработка зрительной информации отличается от  обработки речевой информации. Основное отличие заключается в наличии двух каналов обработки зрительной информации: канала, ответственного за грубое интегральное описание поля зрения, и канала, ответственного за точное описание объектов. Наиболее наглядно особенности нейросетевого подхода выявляются на примере точной обработки информации.

Первичная обработка осуществляет улучшение, оконтуривание и сегментацию изображения. Изображение подвергается двум разным видам обработки: эквитекстурному анализу для реализации сегментирующей функции, и улучшению и яркостному анализу, с целью выделения контуров.

В точном канале реализуются следующие уровни обработки информации: уровень элементарных представлений, уровень элементов объектов, уровень объектов, и уровень сцен. Входной информацией для точного канала является оконтуренное изображение сегмента. Обработка

В зрительном анализаторе имеется две формы обработки информации: параллельная, характерная для нижних уровней анализа, и последовательная. Параллельная обработка заканчивается на этапе формирования словаря элементарных представлений на первом уровне иерархической структуры зрительного анализатора. Последовательная обработка аналогична таковой для речевого анализа.

Использование однородного нейросетевого представления информации позволяет интегрировать информацию всех уровней в процессе принятия решения. Особенностью такого представления информации является возможность автоматического формирования информационных баз источников знаний на основе соответствующих обучающих выборок, при приемлемом объеме ручной работы по составлению обучающих выборок.

Семантика и прагматика выходят за рамки лингвистических представлений, хотя и содержат лингвистические эквиваленты понятий - означающие. Второй компонентой семантических и прагматических структур являются элементы многомодальной модели мира – означаемые. В отличие от традиционного представления модели мира в виде различного типа тезаурусов, в работе предлагается использование означаемых в их естественном многомодальном представлении: в виде интегральной структуры, содержащей элементы разных модальностей, как сенсорных, так и эффекторных. В первую очередь это, естественно, зрительная модальность. Деление единого представления на семантику и прагматику осуществляется по динамическому принципу: все понятия модели мира объединяются в статическую ассоциативную сеть – модель мира. На этой ассоциативной сети конкретные ситуации высвечивают им соответствующие прагматические конфигурации – фреймовые структуры. И наоборот: частные прагматические фреймы в совокупности формируют модель мира.

Объединенное представление информации в двух полушариях можно назвать единой семантической сетью - многомодальной моделью мира, где потенциально представлены все события и их связи, встречавшиеся на входе системы во время ее обучения. Это знание является статическим знанием.

События мира в той или иной комбинации связываются в ситуации, которые высвечивают на модели мира динамически изменяющуюся структуру из слов словарей разных уровней разных модальностей - фреймовое представление [43]. В каждый конкретный момент в каждой модальности может высвечиваться только одно слово и объединение этих множеств слов, соответствующее некоторой ситуации, составляет динамическое знание - фрейм.

       Предложенная в работе интерпретация известного разделения фреймовых структур на фреймы-прототипы и фреймы экземпляры в терминах категориальных и функциональных знаний, где флективная структура фразы (в том числе неязыковой квазифразы), описывающей ситуацию, соответствует категориальной компоненте, а лексическое наполнение фразы – функциональной, позволяет использовать подмену многомодального семантического представления текстовым представлением. Что в свою очередь дает эффективный методический прием при обработке текстовой информации.

В результате анализа в тексте выделяются некоторые подобразы, которые в дальнейшем объединяются в более сложные образы. Можно представить несколько подобных пар отношений, формируемых на текстовом представлении. Рассмотрим одну из пар представлений, в которой отдельные слова текста, представленные на нижнем уровне пары, на следующем уровне объединяются в предложения текста. При этом элементы нижнего уровня – слова – являются носителями лексической компоненты значений текстовых единиц, а предложения с купюрами вместо корневых основ, составленные из этих слов (без конкретного наполнения значением слов) – носителями грамматической компоненты значений. В многомодальной модели мира словам соответствуют события, а предложениям - сцены.

Для простоты анализа, вместо формирования флективной структуры предложения анализируется частота попарной встречаемости слов (корневых основ) в предложении. Считается, что слова из текста, встречающиеся с другими в рамках одного предложения, связаны с ними. При объединении обоих текстовых компонент (слов и их попарных связей) в единое представление формируется сеть, вершинами которой являются носители лексических значений корневые основы, а связи между ними являются носителями грамматических значений.

Сформированное первоначально статистическое представление текста  – сеть слов с их связями - является лишь частотным портретом текста. Перенормировка сети с помощью итеративной процедуры, аналогичной алгоритму сети Хопфилда позволяет перейти от частотного портрета текста к ассоциативной сети ключевых понятий текста:

                 (4.1)

здесь ; и , где – частота встречаемости -го слова в тексте, – частота совместной встречаемости -го и -го слов в фрагментах текста, а -функция является нормирующим множителем.

В результате такой перенормировки меняются первоначальные числовые характеристики слов. Слова, которые в сети связаны со словами с большим весом, в том числе через промежуточные слова, в результате такой процедуры повышают свой вес, вес остальных слов равномерно уменьшается. Полученная числовая характеристика слов – их смысловой вес - характеризует степень их важности в тексте.

Ассоциативная сеть может быть сформирована, как для отдельного текста, так и для множества текстов. Это множество текстов может охватывать одну предметную область или соответствовать нескольким предметным областям. Ассоциативная сеть, построенная в результате такой обработки, будет содержать основные понятия предметных областей и связи между ними, ранжированные некоторыми числовыми значениями. Причем, для каждого понятия сети его ближайшие соседи являются его семантическими признаками.

Такое сетевое представление может автоматически  разбиваться на подсети, относящиеся к различным предметным областям. Для этого пороговым преобразованием устраняются некоторые несущественные связи, и тогда целостная сеть разбивается на несколько подсетей, объективно содержащих понятия, характерные для соответствующих предметных областей.

Совершенно ясно, что если такая сеть соответствует некоторой предметной области, и если ассоциативная сеть некоторого текста вкладывается в ассоциативную сеть этой предметной области (пересекается с ней), можно говорить о том, что указанный текст относится к данной предметной области (пересекается с ней).

В пятой главе описываются программные приложения, реализованные на основе нейросетевой технологии. В том числе, были реализованы системы анализа текстов, распознавания речи и распознавания изображений рукописных символов. Особенностью реализаций является единый подход к обработке информации. Во всех случаях существенно различаются только способы первичной обработки информации, которые определяются типом выбранной модальности.

На основе нейросетевой технологии Научно-производственным инновационным центром «Микросистемы», г. Москва было разработано семейства программных продуктов для автоматического смыслового анализа текстовой информации TextAnalyst. Система реализована как инструмент для автоматического формирования баз знаний на основе множества естественно-языковых текстов. Ядро системы выполнено как программный компонент (inproc server), соответствующий спецификации Component Object Model (COM) фирмы Microsoft.

Ядро системы реализует следующие функции. Нормализацию грамматических форм слов и вариаций словосочетаний. Автоматическое выделение базовых понятий текста (слов и словосочетаний) и их взаимосвязей с вычислением их относительной значимости. Формирование представления семантики текста (множества текстов) в форме семантической сети.

В состав ядра системы, помимо блока первичной обработки, входят следующие блоки: лингвистический процессор, блок выделения понятий текста, блок формирования семантической сети, блок хранения семантической сети.

Блок выделения ключевых понятий предметной области (слов и словосочетаний) создан на базе программной модели иерархических структур из ДАЗУ, и реализует алгоритмы автоматического формирования частотного словаря текста. Число уровней ДАЗУ в иерархической структуре определяет априорно заданную максимально допустимую длину понятия предметной области и равняется двадцати.

Блок формирования семантической сети реализован как база данных, в которой представляются семантические связи понятий предметной области. Поскольку типы семантических связей в системе не определяются, такие связи представляют собой просто ассоциативные связи. В качестве критерия для определения наличия семантической связи между парой понятий используется частота их совместной встречаемости в одном предложении.

На основе результатов работы модуля индексации реализованы следующие функции обработки текстовой         информации. Функции формирования гипертекстовой структуры, навигации по базе знаний, формирования тематического дерева, реферирования текстов, автоматической кластеризации множества текстов, сравнения текстов (автоматической классификации текстов). Наконец реализована функция формирования ответа на смысловой зарос пользователя – формирования тематического реферата.

Реализованная система анализа текстовой информации является удобным интерфейсом для представления е-книги, а также и инструментом для ее создания. Она была использована для создания электронных книг и периодических изданий.

Описана также реализованная система распознавания речевых единиц (слогов, слов), произносимых с паузами, с настройкой (обучением) на конкретного диктора, в которой для создания подсистемы представления эталонов была использована программная модель ДАЗУ. Система распознавания речи была реализована на персональной ЭВМ в виде системы диктовки для ввода информации с голоса в текстовый редактор. Данная работа была поддержана Министерством науки и технологий РФ.

Система в составе двух программных модулей - модуля предобработки речевого сигнала и модуля эмуляции иерархии из ДАЗУ имеет два режима работы - обучение (формирование эталонов) и распознавание. Структура системы распознавания речи включает в свой состав аналого-цифровой преобразователь,  блок вычисления быстрого преобразования Фурье,  блок, реализующий перцептивное сглаживание спектра,  блок вычисления автокорреляционной функции,  блок линейного предсказания,  блок вычисления кепстральных коэффициентов, общий регистр сдвига нейроподобных элементов ДАЗУ, а также блок оценки.

Для уменьшения количества коррелированной информации и вариативности описания речевого сигнала в системе использована априорная информация о процессе порождения речевого сигнала и о психоакустических особенностях восприятия речи человеком. Для получения первичного описания речевого сигнала использован метод так называемого перцептивного линейного предсказания.

Полученные в процессе первичной обработки векторы параметров далее используются при обучении для формирования фонетической базы данных. Для этого, в процессе распознавания векторы параметров подвергаются процедуре автоматической классификации. Для классификации используется нейронная сеть Кохонена. Указанный метод классификации инвариантен по отношению к содержимому векторов.  Точность классификации определяется количеством нейронов выходного слоя и количеством итераций, т.е. величиной обучающей выборки.

С помощью сети Кохонена происходит преобразование звуковой волны в акустический текст. При обучении сети используется фонетически сбалансированный текст, зачитанный разными дикторами. В данном случае для обучения использовался фонетически сбалансированный текст, зачитанный одним диктором. Каждое значение вектора параметров кодируется двухбуквенным сочетанием. Это удобно для нейросетевой обработки, описанной в разделе 4.1, а также для простоты визуальной интерпретации полученных результатов. Выходом этого этапа обработки является множество векторов параметров, расклассифицированное по разделам кодовой книги.

Формирование фонетической базы данных (формирование системы кластеров) происходит в полуавтоматическом режиме с помощью программы TextAnalyst. В этом случае TextAnalyst реализует квази-синтаксический подуровень, который  интерпретирует связи квази-слов во входном акустическом тексте в рамках его устойчивых  фрагментов, а также позволяет отнести некоторый фрагмент входного сообщения к определенному классу фрагментов.

Выделение ключевых фрагментов осуществляется на базе программной модели иерархической структуры из ДАЗУ, и реализует алгоритмы автоматического формирования частотного словаря акустического текста. Число уровней ДАЗУ в иерархической структуре определяет априорно заданную максимально допустимую длину фрагментов и равняется двадцати.

После выбора классифицируемых элементов речи (фонемы, субфонемные элементы, слоги, слова и пр.) дальнейшая обработка речи носит универсальный характер.

Формирование эталонов слов для дикторозависимого режима работы системы распознавания речи подразумевает сохранение эталонных реализаций в параметрической форме. Формирование эталонов происходит в соответствии с выбранным сценарием обучения системы.  В режиме распознавания использовались алгоритм динамического программирования и алгоритм локального поиска.

Наиболее полное применение изложенной выше теории может быть проиллюстрировано на примере реализованной системы распознавания символов. Рассмотренное на примере распознавания типографских символов, это представление может быть использовано и для распознавания изолированно написанных рукописных символов. В краткой постановке задача распознавания символов выглядит следующим образом. Исходной информацией для системы являются полутоновые изображения символов, введенные в компьютер со сканера, или с цифровой фотокамеры.

Система распознавания символов включает в свой состав светочувствительную матрицу, блок предварительной обработки, два блока представления информа­ции, состоящих из ДАЗУ (в том числе двухуровневого струк­турного и одноуровневого ассоциативного), а также блок принятия решения.

Введенное изображение подвергается предобработке, целью которой является получение бинарного контурного изображения набора символов. Набор программных средств на этапе предобработки стандартен – улучшение качества изображения, масштабирование, фильтрация, бинаризация, выделение контура, сглаживание.

Далее следует этап переописания, то есть представление исходного изображения символа в виде последовательности кодов, удобных для обработки в структуре из ДАЗУ. Переописание реализуется с помощью кодирования цепным кодом Фримена (или его разновидностей). Код Фримена позволяет представить процедуру обхода контура изображения в виде последовательности кодов направлений перехода.

В системе распознавания символов зрительный образ символа описывается в виде двух представлений: образного и структурного. Соответственно, имеется два канала обработки: грубый, обрабатывающий изо­бражение образа целиком, и точный, обрабатывающий образы фрагментов и структурные описания символов.

Цепочки кодов, описывающие сжатое изо­бражение, в режиме обучения подаются с выхода грубого канала на гребенку ДАЗУ грубого канала, где каждому символу предназначено свое ДАЗУ (в случае вариантов изображения одного и того же символа число ДАЗУ в гребенке увеличивается). С выхода точного канала цепочки кодов изображения, представленного с большим разрешением, поступают на блок структурной обработки, состоящий из гребенок ДАЗУ двух уровней, где осуществляется струк­турная обработка изображения. В результате обработки на нижнем уров­не формируется словарь статистически достоверных фраг­ментов изображений символов, каждый из кото­рых записан в отдельном ДАЗУ. При этом выделенные фрагменты принадлежат не какому-либо одному символу, а могут входить в описание нескольких из них. На верхнем уровне формируется словарь структурных описаний символов, характеризующих последова­тельность объединения фрагментов символов в их изображениях. Структурное описание каждого символа также записы­вается в отдельном ДАЗУ.

Таким образом, описание объекта представлено одновременно в образной форме в ДАЗУ грубого канала и в структурированной фор­ме в блоке структурного описания.

В шестой главе описано аппаратное решение задачи хранения, упорядочения и ассоциативного поиска информации на основе иерархии из ДАЗУ. Для этого реализован аппаратно модуль ассоциативной адресации – гребенка нейроподобных элементов. Основная особенность аппаратной реализации нейронной сети заключается в том, что обработка информации в ней происходит параллельно и распределенно. Каждый нейроподобный элемент отдельно и независимо обрабатывает приходящую на него информацию. В отличие от существующих вычислительных средств такая аппаратная реализация является весьма простой и эффективной по управлению, поскольку ее модули являются систолическими массивами, то есть они управляются потоком информации. Управление сводится к одновременной подаче входной последовательности на общий для всех нейроподобных элементов ДАЗУ вход. Кроме того, такая вычислительная среда устойчива к повреждениям: выход из строя одного нейроподобного элемента не влияет на другие. И, наконец, – не требуется написания универсальной и специальной математики для симуляции обработки, или требуется значительно меньше.

СБИС нейрочипа была спроектирована в базисе библиотеки стандартных элементов матричного кристалла и изготовлена на базовом матричном кристалле 1592ХМ1 разработки ОАО «Ангстрем» г. Зеленоград. Базовый матричный кристалл 1529ХМ1 имеет рабочую частоту 50 МГц, содержит 100000 вентилей для построения функциональных узлов СБИС.

СБИС нейрочипа выполняет операции вычисления взвешенного умножения, суммирования и сравнения. СБИС нейрочипа включает в себя 16 одинаковых модулей, каждый из которых обрабатывает бинарные последовательности длиной 32 разряда. Эти модули объединены в 4 группы по 4, каждая из которых имеет внешние входы/выходы сигналов и эталонов.  Вычисление взвешенного суммирования производится конвейерно с рабочей частотой до 16 мГц. Возможно специальное включение СБИС нейрочипа для увеличения частоты обрабатываемого входного сигнала до 32 мГц. Кроме того предусмотрена возможность каскадирования приборов с целью увеличения длины бинарных обрабатываемых кодов до 16383 бит. Размещенные на кристалле нейроны объединены параллельно по входу, т.е. данные и управляющая информация поступают одновременно на все нейроны.

Нейроподобный элемент содержит 64-разрядный узел ввода, 64-разрядный регистр весовых коэффициентов, регистр сдвига, умножитель, сумматор, нелинейный элемент. Регистр данных навешивается снаружи в виде стандартной памяти. Узел ввода предназначен для управления и приема данных. Управление данными заключается в перераспределении входной информации между регистром весовых коэффициентов и устройством умножения.

На основе разработанного нейрочипа осуществлена разработка и создание модуля наращиваемой и каскадируемой ассоциативной памяти в составе блока связи с управляющим компьютером, блока ассоциативного запоминающего устройства, блока запоминающего устройства и контроллера динамического ОЗУ.

Модуль ассоциативной памяти выполнен на 32 битной карте максимального размера с размером 312х107 мм (рис. 5.8). На слоте установлены все выше перечисленные блоки, которые, в свою очередь, реализованы на двух отдельных СБИС программируемых логических интегральных структур (ПЛИС) FPGA. Блок ассоциативной памяти реализован совместно с контроллером PCI по технологии ПЛИС FPGA производства фирмы Altera APEX20 KE. Семейство данных ПЛИС оптимизировано для изготовления на их основе контроллеров PCI и запоминающих устройств. Контроллер динамического ОЗУ (рис.5.5), также реализован по технологии ПЛИС и выполнен на ПЛИС МАХ9000, производства фирмы Altera. Память ОЗУ размещена на плате в виде отдельного модуля DIMM фирмы SAMSUNG  PC2700U-25330-B2.

Описана также реализация ассоциативной памяти с использованием стандартных микросхем памяти, адресуемой по содержанию (Content Addressable Memory). В отличие от ассоциативной памяти, реализованной с использованием описанного выше нейрочипа, реализация на основе стандартных CAM больше похожа на прототип: каждая ячейка CAM снабжена собственным регистром адреса. Размерность моделируемого пространства соответствует длине регистра адреса. При необходимости реализации нейроподобных элементов с временной суммацией для всех адресных регистров вводится единый регистр сдвига, заполняемый со входа. Запись в такую память осуществляется отдельными событиями, которые записываются в отдельные ячейки, как в случае записи информации в колонках коры – отдельное слово в отдельную колонку.

Описано также изменение конструкции микросхемы CAM, для того чтобы можно было их использовать для мягких вычислений (анализа зашумленной информации). Для этого необходимо ввести в микросхему CAM аппаратное вычисление числа совпадающих (или несовпадающих) разрядов. Для этого достаточно добавить в каждый разряд адресного регистра CAM компаратор, один, общий на ячейку, аддитивный сумматор, и осуществить поразрядное сравнение с суммированием результата.

В заключении кратко изложены результаты диссертационной работы.

Основные результаты и выводы.

       1. На основе анализа существующих интеллектуальных систем предложено использование структурных нейросетевых методов для интеграции представления и обработки информации различных модальностей, а также надмодальной семантической и прагматической информации.

       2. Проведен анализ современного состояния научной области, связанной с обработкой информации  разных модальностей, а также семантической и прагматической информации. В результате этого анализа предложена замена моделей интеллектуальных процессов моделями интеллектуальных процессоров для обработки информации.

       3. Предлагается использование одного класса искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов для представления произвольной информации в многомерном сигнальном пространстве.

       4. Предлагается метод обработки информации, имеющей многоуровневую временную структуру, с помощью динамических искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов.

       5. Предлагается создание системы источников знаний верхних уровней разных модальностей, с использованием однородного нейросетевого представления информации, что позволяет легко интегрировать информацию всех уровней в процессе принятия решения.

       6. Предлагается интерпретация информационных процессов в нейросетевых структурах в виде операций на графах.

       7. Предложен формализм динамических нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов, интерпретирующий обработку и представление двоичной, внутренне структурированной, информации в сигнальном пространстве искусственной нейронной сети, в том числе, ее запоминание, стохастическую обработку (с автоматическим структурированием внутреннего представления), воспроизведение и распознавание. Топология сигнального пространства, моделируемого искусственной нейронной сетью, устойчива к разрушению представленной в нем информации. Искусственная нейронная сеть реализует гетероассоциативное запоминание - запоминание информации в ассоциации с несущей последовательностью. Если информационная и несущая последовательности тождественны, имеется автоассоциативное запоминание. Введение в искусственную нейронную сеть механизма учета статистических свойств информации наряду с нелинейным преобразованием позволяет восстанавливать с его помощью словарь элементов внутренней структуры информационной последовательности. Искусственная нейронная сеть со сформированным в ней словарем элементов позволяет фильтровать новую информацию в потоке старой, формируя, таким образом, информацию о связях слов словаря.

       8. Предложен способ представления семантической и прагматической информации с помощью многоуровневой иерархии из ДАЗУ.

       9. Предлагается деление единого сетевого семантического представления на семантику и прагматику по динамическому принципу. Все понятия объединяются в ассоциативную сеть – модель мира – на которой конкретные ситуации высвечивают им соответствующие прагматические конфигурации – фреймовые структуры.

       10. Предлагается структура модели мира на основе текстового представления в виде ассоциативной сети, которая содержит основные понятия предметных областей и связи между ними, ранжированные числовыми значениями.

       11. Для представления семантической информации предложена иерархия ассоциативных сетей, в которой на самом верхнем уровне представлены объекты – события и ситуации – в их взаимосвязях, уровнем ниже представлены, также в сетевом виде, модели мира отдельных объектов, которые, в свою очередь, являются двухуровневыми сетями, связанными генетивными отношениями.

       12. Предлагается интерпретация состава и процесса обработки зрительной информации в зрительной системе человека.

       13. Предлагается методика формирования многоуровневого представления языковых знаний системы распознавания речи.

       14. Предложена ассоциативная память на основе нейроподобных элементов с временной суммацией входных сигналов, в которой одним из основных свойств является ассоциативное воспроизведение с динамическим формированием адреса (динамическое ассоциативное запоминающее устройство) – ассоциативный процессор с памятью. Динамическое ассоциативное запоминающее устройство моделирует n-мерный единичный гиперкуб.

       15. Предложена многоуровневая иерархия из ДАЗУ  для структурной обработки информации. Объединение многоуровневых структур, обрабатывающих информацию разных модальностей позволяет создать многомодальное семантическое представление.

       16. Представлена реализованная автором система для структурного анализа текстов TextAnalyst.

       17. Представлена реализованная автором система распознавания изолированно произносимых речевых команд ограниченного словаря.

       18. Представлена реализованная автором система распознавания изображений символов.

       19. Предложено унифицированное базовое аппаратное обеспечение нейронных сетей на базе реализованной интегральной схемы адресной части нейроподобного элемента.

       20. Предложена аппаратная реализация модуля ассоциативной памяти с использованием стандартных микросхем памяти, адресуемой по содержанию (Content Addressable Memory).

Список публикаций по теме диссертации.

  1. А.С. N 1179389 (СССР) Устройство для моделирования нейрона. /Харламов А.А., Усманов А.Х. Заявка N 3751440 от 29 марта 1984г. Опубликовано 15 августа 1985г. МКИ G 06 g 7/60
  2. А.С. N 1305732 (СССР) Устройство для моделирования нейронных сетей. /Харламов А.А., Усманов А.Х., Воронов И.В., Богомолов Г.В. Заявка N 3999328 от 27 декабря 1985г. Опубликовано 22 декабря 1986г. МКИ G 06 g 7/60
  3. Волков В.И., Жаркой Р.М., Харламов А.А. Модель ассоциативной системы машинного зрения. Приборостроение. Вестник Московского государственного технического университета, N 9-10. 1994. Стр. 31 – 33
  4. Харламов А.А. Ассоциативный процессор на основе нейроподобных элементов для структурной обработки информации. Информационные технологии, N 8, 1997. Стр. 40 – 44
  5. Харламов А. А. Нейроподобные элементы с временной суммацией входного сигнала и блоки ассоциативной памяти на основе этих элементов. //Вопросы кибернетики. Устройства и системы. Под ред. Н.Н. Евтихиева. - М.: МИРЭА, 1983.  Стр.57 – 68
  6. Харламов А.А. Нейросетевая технология представления и обработки информации (естественное представление знаний). - М.: «Радиотехника», 2006. - 89 с.
  7. Харламов А.А. Семантическая сеть для интеллектуальной системы на основе иерархической структуры из динамических нейронных сетей с опорой на зрительный и слуховой анализаторы. /"Интеллектуальные системы. Труды Второго международного симпозиума". Под ред. К.А. Пупкова. Том 2. - С.-Петербург, 1996. Стр. 201 – 208
  8. Харламов А.А. Статические и динамические нейронные сети на примере задачи распознавания образов. Приборостроение. Интеллектуальные системы автоматического управления, N 1, 1991. Стр. 58 – 66
  9. Харламов А.А. Физически реализованное многомерное сигнальное пространство – эффективная среда для структурированного хранения и ассоциативного поиска информации Искусственный интеллект, № 4, 2005. Стр. 393-402
  10. Харламов А.А. TextAnalyst – оболочка для электронного учебника //Обучение в компьютерной среде. – М.: Московский государственный открытый педагогический университет им. М.А. Шолохова. Институт информатизации образования, 2002.  Стр. 55 – 62
  11. Харламов А.А., Аллахвердов С.А., Самаев Е.С. Нейрочип - нейроподобный элемент с временной суммацией входных сигналов - элемент нейронной сети для структурного анализа информации. «Нейрокомпьютеры: разработка, применение», N 2, 2003. С.
  12. Харламов А.А., Ермаков А.Е. Динамическая нейронная сеть для распознавания речевых сигналов. Системы управления. Вестник Московского государственного технического университета, N 1. 1998г. Стр. 93 – 101
  13. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантические представления на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания. Информационные технологии, N 2, 1998. Стр. 26 – 32
  14. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. TextAnalyst - комплексный нейросетевой анализатор текстовой информации. Вестник МГТУ им. Н.Э. Баумана. N 1, 1998г. Стр. 32 – 36
  15. Харламов А.А., Жаркой Р.М., Волков В.И., Мацаков Г.Н. Система распознавания изолированных рукописных символов на основе иерархической структуры из динамических ассоциативных запоминающих устройств. //Информационные технологии, N 5, 1998. Стр. 27 – 31
  16. Харламов А.А., Кнеллер Э.Г. Распознавание ключевых слов в потоке слитной речи на основе нейросетевых технологий Нейрокомпьютеры. Разработка и применение. № 8-9, 2005г. Стр. 88 – 97
  17. Харламов А.А., Самаев Е.С., Рябов Г.Н. Многомодальные семантические представления на основе нейронных сетей. Информационные технологии, N 4, 2001г. Стр. 12 – 17
  18. Kharlamov A.A. Attention Mechanism Ussage to Form Frame-Structure on a Semantic Net. /"Neurocomputers and Attention. Volume II: Connectionism and Neurocomputers". Eds. Arun V.Holden,  Vitaly I. Kryukov. -Manchester: Manchester University Press, 1991
  19. Kharlamov A.A., Raevsky V.V. Networks constructed of neuroid elements capable of temporal summation of signals. /In “Neural Information Processing: Research and Development”, Jagath C. Rajapakse and Lipo Wang, Editors, Springer-Verlag, May, 2004, ISBN 3-540-21123-3. Стр. 56-76

Личный вклад автора диссертации во всех публикациях с соавторами является определяющим.




© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.