WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

На правах рукописи

САМКОВ Евгений Юрьевич

МЕТОДЫ И АЛГОРИТМЫ ИНТЕЛЛЕКТУАЛЬНОЙ ПОДДЕРЖКИ РЕШЕНИЙ ПО СОЗДАНИЮ БАЗ ЗНАНИЙ В СОСТАВЕ ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫХ СИСТЕМ

05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва - 2012

Работа выполнена в Федеральном государственном унитарном предприятии «Научно-исследовательский институт «Восход»

Научный консультант: доктор технических наук Дёмин Борис Евгеньевич, заместитель директора по науке ФГУП НИИ «Восход»

Официальные оппоненты:

Карп Виктория Павловна, профессор кафедры информационных систем МГТУ МИРЭА, доктор технических наук, профессор Герман Андрей Сергеевич, кандидат технических наук, руководитель группы по обеспечению функционирования системы видеоконференцсвязи Управления правовой информатизации Верховного Суда Российской Федерации, государственный советник Российской Федерации 2 класса

Ведущая организация: Федеральное государственное учреждение «27 Центральный научно-исследовательский институт Министерства обороны Российской Федерации»

Защита состоится «30» ноября 2012 года в 15-00 на заседании диссертационного совета Д212.131.05 при МГТУ МИРЭА по адресу:

г. Москва, проспект Вернадского, д. 78, Д412.

С диссертацией можно ознакомиться в библиотеке Московского государственного технического университета радиотехники, электроники и автоматики

Автореферат разослан «29» октября 2012 г.

Ученый секретарь диссертационного совета, Андрианова кандидат технических наук, Елена доцент Гельевна

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Современные информационные технологии воплощаются в виде разнообразных информационнокоммуникационных систем (ИКС), которые можно определить как взаимосвязанную совокупность информационных ресурсов, математических алгоритмов, программных и технических средств, процессов и технологий, собирающих, преобразующих, распространяющих и отображающих информацию, необходимую для принятия управленческих решений в конкретных проблемных областях. Типичными примерами крупномасштабных ИКС, обладающих указанными свойствами, являются Государственные автоматизированные системы Российской Федерации «Выборы» и «Правосудие».

Неотъемлемой составной частью современных и перспективных ИКС этого типа являются интеллектуальные базы знаний. Однако существует реальное противоречие между потребностью внедрения и использования баз знаний в составе ИКС и несовершенством технологий их создания. При этом главная причина существования этого противоречия состоит в том, что в рамках традиционной технологии для представления знаний используются два типа языков: естественный язык, которым оперирует конечный пользователь и математико-программный язык, который используют разработчики баз знаний. Если исключить из рассмотрения многочисленные подробности «технического» плана, то смысл и сущность традиционной технологии заключается в непосредственном переводе описаний предметной области с естественного языка на математико-программный язык, «понятный» компьютеру. А такой перевод фактически ограничивает экспертов - специалистов в конкретной области при процессе проектирования баз знаний. Ограниченность используемых языковых средств обусловливает все те трудности, которые приходится преодолевать разработчикам проектов по созданию баз знаний.

В современной теории искусственного интеллекта происходит интенсивное развитие новых языковых средств, в частности реляционного и ролевого типов. Эти языки позволяют записывать и генерировать правила логического вывода, создавать управляющие структуры, оперировать с процедурными знаниями. Их использование открывает возможности по описанию фактов и закономерностей предметной области, позволяет разработать современную технологию поддержки проектных решений по созданию баз знаний.

Цель диссертационного исследования заключается в повышении качества разработки и поддержки проектных решений по созданию баз знаний в составе крупномасштабных ИКС за счет разработанных алгоритмов и методов интеллектуальной поддержки и их практической реализации применительно к проекту ГАС РФ «Правосудие». Таким образом, объектом исследования является процесс создания базы знаний (БЗ), предметом – методы, обеспечивающие поддержку при управлении этим процессом.

Задачи исследования:

– исследование принципов организации общения между пользователем и базой знаний, выбор концептуальной модели машинного понимания входных текстов;

– анализ существующих и перспективных языков и методов представления знаний при выборе проектных решений по созданию баз знаний;

– разработка общего и частных алгоритмов интеллектуальной поддержки проектных решений по созданию баз знаний на основе логико-лингвистического подхода;

– определение критериев оценки качества баз знаний и выбор методов оценки качества проектных решений по созданию баз знаний;

– реализация теоретических положений применительно к поддержке проектных решений при создании базы знаний для подсистемы Банк судебных решений (судебной практики) в составе ГАС РФ «Правосудие».

Методологическую базу исследования составляют положения теории системного анализа, искусственного интеллекта, а также методы логико-лингвистического моделирования и экспертных оценок.

Научная новизна. В диссертации получены следующие результаты, обладающие научной новизной:

– предложена концептуальная модель машинного понимания входных текстов, направленная на активный поиск в тексте ключевых объектов, стимулирующих базу знаний к реакции, в отличие от традиционной ненаправленной лингвистической обработки текстовых предложений, ориентированной на пассивную регистрацию того, «что есть в предложении»;

– исследованы языковые средства с учетом особенностей крупномасштабных ИКС систем. Рекомендован перечень языковых средств для представления знаний о предметной области при реализации баз знаний в составе ИКС;

– разработаны алгоритмы интеллектуальной поддержки решений по созданию баз знаний, которые позволяют формализовать знания о предметной области с использованием методов задания единиц знаний;

– решена проблема оценки качества проектных решений по созданию баз знаний путем комплексной оценки базы знаний по показателям качества, учитывающим социальную, функциональную, эргономическую, прагматическую, техническую и технологическую составляющие.

На защиту выносятся:

– концептуальная модель машинного понимания входных текстов, ориентированная на активный поиск во входном тексте ключевых объектов базы знаний;

– алгоритмы интеллектуальной поддержки решений по созданию баз знаний, в том числе:

– общий алгоритм поддержки проектных решений по созданию базы знаний в составе ИКС;

– алгоритм представления знаний с помощью ролевых фреймов;

– алгоритм представления знаний с помощью концептуальной и терминальной семантических сетей;

– алгоритм построения процедурного компонента базы знаний;

– система критериев и комплексная оценка качества базы знаний с использованием методов интегральной свертки;

– технические решения по созданию базы знаний в проекте ГАС РФ «Правосудие».

Достоверность выводов и положений диссертационной работы определяется комплексным подходом к постановке задач исследования, а также подтверждается положительными результатами практического применения разработанных методов и алгоритмов.

Практическая значимость работы. Разработанные и реализованные алгоритмы интеллектуальной поддержки решений по созданию баз знаний целесообразно использовать при решении проблем для интеллектуальных экспертных систем социальноэкономического профиля. Кроме того материалы диссертации могут быть использованы магистрантами ВУЗов в учебном процессе для выполнения курсовых и магистерских диссертаций.

Результаты внедрения. Методы, алгоритмы, выводы и положения, обоснованные в диссертации использованы во ФГУП НИИ «Восход» при проведении плановых научно-исследовательских и опытно-конструкторских работ по созданию БЗ подсистемы «Банк судебных решений» ГАС РФ «Правосудие». При рассмотрении и оценке основных мероприятий по подготовке технических заданий на развитие ГАС РФ «Правосудие» подход, основанный на совместном использовании идей логико-лингвистического моделирования и методов экспертных оценок, позволил повысить обоснованность параметров проекта и более точно оценить затраты на проведение работ в Судебном департаменте при Верховном Суде Российской Федерации, что подтверждено соответствующим актом.

Апробация работы. Материалы диссертации докладывались и обсуждались на выездном заседании совета судей (Астрахань, 2009);

первой Всероссийской научно-технической конференции «Системы организационного поведения» (Воронеж, 2009); межрегиональной научно-технической конференции «Модели и алгоритмы интеллектуальной поддержки решений при управлении проектами» (Москва, 2009); межрегиональной научно-технической конференции «Проблемы управления в социальных и экономических системах» (Москва, 2010); Всероссийской научно-технической конференции «Управление в системах организационного поведения» (Москва, 2010); научно-практической конференции «Современные информационные технологии в управлении и образовании» (Москва, 2011); научно-практической конференции «Электронное законодательство: доступ к нормативно-правовой информации в электронной среде» (Санкт-Петербург, 2011); заседании научнотехнического совета ФГУП НИИ «Восход» (Москва, 2012).

Публикации. Результаты диссертационного исследования опубликованы в 16 печатных работах, в том числе 2 работы в издании, включенном в перечень ВАК РФ и в одной монографии. В работах, написанных в соавторстве, лично соискателю принадлежат:

в [1,8] - состав и алгоритм функционирования модели, в [5] – языки представления знаний, в [4,7] - схема и содержание этапов алгоритмов, в [10] - математические алгоритмы оптимизации, в [11] - алгоритмическая реализации базы знаний, в [14] - критерии и методы оценки проектных решений, в [12] - алгоритм обезличивания и публикации текстов, в том числе алгоритм обезличивания подтвержден патентом № 119485 от 03.05.2012.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, заключения и списка литературы из наименований. Материал диссертации изложен на 122 страницах машинописного текста, включая 39 иллюстраций и 9 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цели и задачи исследования, отражена научная новизна и практическая значимость полученных результатов, дается информация об апробации диссертации и опубликованных работах, краткая характеристика структуры и объема диссертации.

Первая глава посвящена исследованию организации общения между пользователем и базой знаний, выбору концептуальной модели машинного понимания входных текстов.

Современные базы знаний о предметной области, как правило, включают четыре компонента:

а) предметные данные - упорядоченные каким-либо способом факты и данные, отражающие модель профессиональной сферы;

б) декларативные знания - правила, модели, алгоритмы и программы, позволяющие рассчитывать определенные показатели объектов профессиональной сферы, строить цепочки логических выводов и на этой основе делать обобщения и заключения;

в) процедурные знания - управляющая и интерпретирующая структура, определяющая порядок и способы применения моделей и правил логического вывода для получения или трансформации информации;

г) лингвистические знания - правила морфологического, синтаксического и семантического анализа входных и выходных текстов, а также списки основ слов, которые используются для организации диалога между базой знаний и пользователем.

Базы знаний представляют собой дальнейшее развитие традиционного понимания баз данных по следующим основным направлениям:

– расширения понятия «данные» до уровня закономерностей, правил, алгоритмов и других операций, обеспечивающих интеллектуальную поддержку принятия управленческих решений в условиях неопределенности;

– обеспечение семантической целостности знаний и данных;

– усложнения алгоритмов обработки информации до уровня имитации интеллектуальных механизмов мышления человека;

– планирование вычислений, обеспечивающих решение сформулированных пользователем задач количественного и качественного анализа моделей проблемных ситуаций;

– интерпретация результатов решения задач в удобном для пользователя виде.

Существенным является вопрос организации общения между пользователем и базой знаний.

При полном доступе пользователю может поступать излишняя информация, на которую тратятся вычислительные и поисковые ресурсы. Время получения решения может оказаться неприемлемо большим. Этого можно избежать, если при построении базы знаний использовать принцип гибкого формирования персонально ориентированных задач с соответствующим уровнем детализации и специализацией информации, предоставляемой пользователю.

Персонально ориентированная задача строится в терминах агрегированных параметров, состав и способ построения которых может меняться в зависимости от изучаемого вопроса, от желания пользователя проследить связь между теми или иными агрегированными параметрами. Речь идет об укрупненном описании поведения параметров исходной задачи.

При реализации БЗ на основе принципа гибкого формирования персонально ориентированных задач предполагается, что из исходной задачи строятся частично агрегированные задачи, ориентированные на потребности конкретных пользователей.

Характерной чертой БЗ является ведение диалога с пользователем на проблемно ориентированном естественном языке.

При изучении проблем машинного понимания естественно-языковых текстов обычно рассматривается трехкомпонентная модель машинного понимания входных текстов, представленная на рисунке 1.

В этой модели «текст» представляется как некоторая данность. База знаний снабжается средствами лингвистического анализа текста, базой лингвистических данных и алгоритмами формирования смысла текста. Такая модель равносильна предположению, что о тексте ничего не может быть сказано заранее. В ней отсутствуют два важных компонента – пользователь, решающий с помощью базы знаний проблемно ориентированные задачи и реакция базы знаний на запрос пользователя. Без этих компонентов рассмотрение процесса машинного понимания естественно-языковых текстов является неполным. В расширенную пятикомпонентную модель вводятся два недостающих компонента. Структура пятикомпонентной модели представлена на рисунке 2.

В этой концептуальной модели критерием понимания поступающего от пользователя текста является адекватная реакция БЗ на проблемно ориентированный вопрос пользователя. При таком подходе возможно построить утверждения о некоторых целевых объектах, из которых состоит входной текст. При этом анализ должен ориентироваться на активный поиск в тексте ключевых объектов. Ключевые объекты стимулируют базу знаний к той или иной реакции и, тем самым, определяется смысл входного текста.

База знаний вырабатывает в ответ на входной текст ожидаемую пользователем реакцию, то есть имеет место понимание базой знаний смысла вопроса.

Следует отметить, что использование расширенной пятикомпонентной модели накладывает определенные ограничения на содержание и структуру входных естественно-языковых текстов.

Во-первых, такой текст должен содержать информацию для выбора алгоритма реагирования, адекватного запросу пользователя, и данные для запуска этого алгоритма.

Во-вторых, во входном тексте должны содержаться лингвистические объекты, для которых в БЗ в числе возможных реакций имеется хотя бы одна реакция, адекватная данному запросу пользователя.

Указанные ограничения в определенной мере формализуют общение пользователя с БЗ, но одновременно делают однозначным понятие «смысл текста», связывая его с целью, которую преследует пользователь, общаясь с БЗ.

Процесс понимания предложений входного текста t в формальном представлении представлен на рисунке 3 и выглядит следующим образом:

Шаг 1. (t) tw, tv, t T(p);

Шаг 2. w(tw,C(p),C(s) ) fi, fi F(p); (1) Шаг 3. fi (tv ) ri', ri' ri R.

На первом шаге алгоритм членения алгоритм выделяет в тексте входного предложения t субтексты tw и tv. На втором шаге алгоритм W производит по данным tw,C(p),C(s) выбор алгоритма реагирования fi из множества F(p). На третьем шаге алгоритм fi с учетом субтекста tv вырабатывает конкретную реакцию БЗ ri’, выбирая ее из класса однотипных реакций ri. В графическом виде с учетом того, что каждый из указанных шагов может завершиться неудачей.

Введены следующие обозначения:

Т(р) – множество всех доступных БЗ предложений входного проблемно ориентированного текста;

ri – i-й класс реакций БЗ на запрос пользователя;

ri’ - конкретная реакция из класса реакций ri;

R – множество всех классов реакций БЗ, которые могут потребоваться пользователю;

fi – алгоритм формирования реакции из класса ri;

F(p) – множество всех возможных алгоритмов формирования реакции;

W – алгоритм выбора алгоритма из F(p);

С(р) – интерпретация БЗ конкретной совокупности обстоятельств, в рамках которых анализируется запрос пользователя и выдается ответ;

С(s) – интерпретация пользователем совокупности обстоятельств, в условиях которых функционирует БЗ;

t – предложение входного текста из Т(р);

tw – часть («субтекст») текста t, предназначенная для обеспечения выбора алгоритма из F(p) («код» выбора алгоритма реагирования);

tv – часть («субтекст») текста t, содержащая значения («код» выбора конкретной реакции в классе ri однотипных реакций);

– алгоритм членения текста входного предложения на субтексты tw и tv.

Основные трудности практической реализации рассмотренного процесса машинного понимания естественно-языковых текстов связаны с тремя обстоятельствами:

а) алгоритм , выделяя в тексте входного предложения t субтексты tw и tv, может допускать ошибки, что обусловлено неоднозначностью и расплывчатостью понятий естественного языка;

б) отображение множества всех субтекстов tw на множество F(p), которое осуществляет алгоритм W, в общем случае может быть неоднозначным: при разных комплексах обстоятельств C(p) и C(s) одному и тому же входному предложению (и в его составе одному и тому же субтексту tw) могут быть адекватны различные типы реакций;

в) алгоритм fi, вырабатывая конкретную реакцию ri’ из класса однотипных реакций ri, может допускать ошибки, обусловленные тем, что одно входное предложение (и в его составе один и тот же субтекст tv) может ассоциировать различные реализации реакций БЗ.

Преодоление этих трудностей при практическом построении БЗ возможно двумя путями.

Во-первых, путем жесткой формализации предложений входных текстов, до уровня, когда все запросы пользователя к БЗ составляются по заранее определенным формам и с использованием унифицированного тезауруса.

Во-вторых, путем организации специальной процедуры обучения БЗ, заключающейся в том, что в память компьютера заранее записываются корреляционные правила вида:

(C(p),C(s))ti ri R;

w (2) (tv) ri' ri.

Правила вида (2) называются предписывающими и читаются так: если имеет место (C(p),C(s)), то при наличии субтекста ti из w множества возможных типов реакций R следует выбирать реакцию из класса rk; если имеет место субтекст tv, то из класса ri следует выбирать конкретную реакцию ri'.

Помимо предписывающих, возможно использование рекомендующих правил (например, если tw1, то лучше r1, но можно rили r3) и запрещающих корреляционных правил (например, если tw2, то недопустимы r1, r2,…, rN), а также их всевозможных комбинаций.

В совокупности эти правила образуют процедурную часть БЗ, которая после обучения может пополняться и корректироваться в процессе эксплуатации БЗ.

Во второй главе проводится системный анализ существующих и перспективных языков и методов представления знаний при создании БЗ, по результатам которого выбираются те из них, которые позволяют достичь цели исследования.

В качестве объектов анализа рассматривались: логические языки; тензорный язык Крона; язык нечетких множеств; контекстносвободный плекс-язык; язык RX-кодов; язык семантических сетей;

язык ролевых фреймов. На рисунке 4 приведена диаграмма, отражающая результаты такого анализа. На этой диаграмме языки упорядочены по двум критериям, определяющим возможности их практического использования при создании БЗ. Первый критерий, названный семантической силой языка, отражает его описательные возможности, то есть возможности адекватного и полного описания проблемных областей. Второй критерий, названный мощностью инструментальных средств языка, отражает его возможности по построению эффективных систем эквивалентных преобразований предложений языка, то есть аппарата, позволяющего (за конечное число шагов) однозначно определять синтаксическую и семантическую правильность предложений. На диаграмме помимо анализируемых языков приведены естественные языки, имеющие предельные значения указанных критериев.

Из диаграммы видно, что требования выразительности и мощности инструментальных средств языка являются противоречивыми: чем выше семантическая сила языка, тем ниже мощность его инструментальных средств и, наоборот, с ростом мощности инструментальных средств семантическая сила языка падает. Отсюда следует, что для проектирования и создания БЗ невозможно выбрать какой-либо один язык, адекватно удовлетворяющий указанным требованиям. Речь может идти о некоторой совокупности языковых средств, которые совместно могут обеспечить как требуемый уровень выразительных возможностей БЗ, так и обеспечить необходимую «суммарную» мощность ее инструментальных средств.

В таблице 1 указаны предпочтительные области применения рассматриваемых языков применительно к проектированию БЗ в составе ИКС.

Таблица 1 - Предпочтительные области применения языков представления знаний при создании БЗ в составе ИКС Тип языка Область применения при создании БЗ Перспективные исследования по развитию Тензорный язык методологии управления проектами создания Крона БЗ в ИКС Разработка моделей анализа и оптимизации Классические структуры БЗ. Создание моделей логические языки обеспечивающих функционирование БЗ Как одна из основных форм учета Язык нечетких неопределенности знаний пользователя об множеств объектах и процессах предметной области Контекстно- Представление в БЗ структур различных свободный плекс- объектов. Анализ структур на полноту, язык непротиворечивость и достаточность Ограниченное применение, как частный случай Язык RX-кодов языка семантических сетей Язык семантических Построение общей и частных технологий сетей поддержки проектных решений при создании БЗ в составе ИКС Язык ролевых фреймов Представление знаний о предметной области в Естественный виде текстов, таблиц, графиков, диаграмм и т.п.

язык Справочники, инструкции и другие документы, необходимые пользователю Проведенный анализ позволил заключить, что лишь языки семантических сетей и ролевых фреймов, обладая достаточной выразительностью (приближающейся к свойствам естественного языка) позволяют строить относительно эффективные процедуры эквивалентных преобразований, близких к аналогичным процедурам классических математических языков. Кроме того, эти языки позволяют записывать и генерировать правила логического вывода (то есть работать с декларативными знаниями), а также создавать управляющие структуры (то есть оперировать с процедурными знаниями). Указанные обстоятельства и определяет более широкое применение данных языков при проектировании баз знаний в составе современных ИКС, а, следовательно, их целесообразно положить в основу при разработке технологий поддержки проектных решений по созданию БЗ.

Третья глава посвящена разработке общего и частных алгоритмов интеллектуальной поддержки проектных решений по созданию БЗ на основе логико-лингвистического подхода.

Общая схема этапов поддержки решений по созданию БЗ представлена на рисунке 5.

Он базируется на четырех частных алгоритмах, а именно:

представления знаний на основе ролевых фреймов; представления знаний на основе концептуальной семантической сети (сокращенно – КСС); представления знаний на основе терминальной семантической сети (сокращенно – ТСС); построения процедурного компонента базы знаний.

Суть алгоритма представления знаний на основе ролевых фреймов заключается в переходе от естественно-языкового описания предметной области к ее фреймовому описанию (рисунок 6). Для компьютерной реализации такого перехода предложено использовать -конверсии. Для конструирования -выражений предложено использовать набор типовых фреймов, включающий: фрейм-состав;

фрейм-соединение; фрейм-назначение; фрейм-параметр и фреймфункция.

Фрейм-состав (FC) отражает ситуацию: «объект х содержит объекты y1, y2,…, yn, которые имеются в объекте х в количествах c1, c2,…, cn, соответственно»:

FC = (...(x: Dx, y1:D1,…,yn: Dn. CONTAIN (ch, x, v, y1,…, v, yn));: y1: D1, c1D1*. QUANTITY (ch, y1, v, c1))…yn:Dn, cnDn*. QUANTITY (ch, yn, v, yn)) conv (3) x: Dx. CONTAIN (ch, x, v, y1: D1, c1: D1*. QUANTITY ((ch, y1, v, c1),…, v, yn: Dn, cn: Dn*. QUANTITY ((ch, yn, v, cn)), где записи вида x:Dx (и аналогичные) означают, что переменная х имеет сорт Dx. Через ch и v обозначены падежные отношения («характеристика» и «значение характеристики», соответственно).

Фрейм-соединение (FS) отображает ситуацию «субъект x соединяет объект y с объектом z» и описывается -выражением вида:

FS = {x: Dx, y: Dy, z: Dz. CONNECT (s, x, o, y, o, z)}, (3) где s и o – падежные отношения, соответственно «кого соединяют» (то, что производит действие) и «с кем соединяют» (то, над чем совершается действие), D – имя или сорт объекта (субъекта).

Нетрудно заметить, что фреймы типа (3) легко вкладываются друг в друга, что позволяет использовать их для описания иерархических структур.

Фрейм-назначение (FN) служит для представления знаний о предназначении объектов через их функции и описывается выражением вида:

FN = R: DR, x: DX, y: DY, w: DW,z: DZ. R(s, x,o, y, u, w,d, z), (4) где u и d – падежные отношения «быть входом» и «быть выходом».

Фрейм-параметры (FP) используется для представления знаний о параметров какого-либо объекта в дискретные моменты времени. выражение для этого вида фреймов аналогично (2) с добавлением падежного отношения «быть моментом времени».

Фрейм-функция (FF) описывает порядок расчета параметров рi некоторого объекта при заданной функции pi(t) = f [(a1, a2, …,aN), t], где aj – аргументы, к которым применяется функция, t – текущее время. Обобщенное -выражение для фреймов этого типа имеет вид:

FF = {p: Dp, t: Dt, f: Df, a1:D1,…,aN: DN.

CALCULATE (res, p, , t) = (vf, f) (arg1 a1,…,argNaN)}, (5) где res – результат применения функции, arg – аргумент, vf – падежное отношение «вид функции», – падежное отношение «быть моментом времени», а запись x: Dx означает, что переменная x имеет имя или сорт Dx.

Суть алгоритма представления знаний на основе концептуальной семантической сети (рисунок 7) заключается в реализации перехода от фреймовых описаний предметной области к концептуальным семантическим сетям. Введем ряд определений.

Определение 1. Концептуальной семантической сетью (КСС) будем называть граф, узлы которого принадлежат множеству Х = {x}, а дуги (то есть ориентированные бинарные связи) – множеству R = {r}.

Элементы множества X соответствуют обобщенным семантическим категориям – описаниям абстрактных понятий. Элементы множества R относятся к отношениям типа «быть элементом», «содержать»», «иметь имя», «быть функцией», «быть агентом», «быть акцией» и другим отношениям, которые поясняются далее. На рисунке 8 в качестве иллюстрации представлен фрагмент КСС применительно к предметной области «судебное делопроизводство», обозначенной цифрой 1. Остальные цифры означают: 2 – функции суда; 3 – документ суда (решение, приговор, постановление и т.д.); 4 – входная информация; 5 – сотрудник суда; 6 – судопроизводство; 7 – публикация; 8 – судья; 9 – сотрудник суда; 10 – жалобы заявления; – нормативные акты (законы, кодексы, судебная практика, постановления и т.д.).

Определение 2. Окрестностью первого порядка (или 1окрестностью) относительно xi X будем называть множество пар {ri,1, xi1} = (1), таких, что {ri,1} Ri,1 представляет собой множество xi исходящих из xi отношений (связей), а {xi,1} Xi,1 – множество узлов концептуальной семантической сети, присоединенных к xi связями {ri,1}.

Таким образом, все узлы окрестности (1) на графе КСС отделены от xi путем xi единичной длины (рисунок 9). Узлы k-го уровня, отделенные от xi путями длины k обозначим xi,k, а отношения k-го уровня, присоединяющие {xi,k} к узлам {xi,k1}, обозначим {ri,k}. Соответствующие множества получают Xi,k {xi,k}обозначения и Ri,k {ri,k}. Тогда окрестность k-го порядка относительно xi (или k-окрестностью) будет Рисунок 9 - К объединение множеств узлов и отношений, понятию входящих в k – 1 окрестность относительно окрестности КСС xi со всеми I окрестностями узлов множества Xi,k-1:

k(1) (k) (k1) ( ),k 2. (6) xi xi xi,n nОпределение 3. Фреймом-отображением fi назовем информационную структуру, соответствующую 1-окрестности узла xi в КСС.

Соответствие между xi и fi определим зависимостью fi = G(xi), где функция G задает отображение множества узлов Х и отношений R, образующих КСС, на множество фреймов F, образующих фактуальную часть базы знаний G: (X, R) F.

Введем в рассмотрение предикат Pr (xi,x ), принимающий j k значение TRUE, если в рассматриваемой КСС к узлу xi посредством отношения rk присоединен узел xj. Формально во введенных обозначениях соответствие между фрейм-отображениями и узлами КСС выражается так:

f (fi F)xi (xi X) :{(fi G (xi ) & (x (x Xi,1) (7) j j i f (fi Fi,Fi F) :[fj G(x ) & Pr (xi,x )]}.

j j i k Это соотношение означает, что всякий фрейм fi, соотносимый с узлом xi, связывается с подмножеством «подчиненных» фреймов Fi, элементы которого {fj} = Fi соответствуют узлам {xj} = Xj,1, Iокрестности узла xj.

Алгоритм представления знаний на основе терминальной семантической сети. Суть этой технологии (рисунок 10) заключается в реализации перехода от описания предметной области в виде КСС к так называемой терминальной семантической сети (ТСС).

В процессе решения конкретных задач пользователи оперируют понятиями, отражающими реальные объекты, факты, события и другие единицы знаний. Когда БЗ сообщается (или выводится ею в процесс функционирования) новый факт или описание нового объекта, его можно представить конъюнкцией предикатов Pr (x1, x2) & Pr (x2, x3) &...& Pr (xk,xk1), 1 2 k (8) где {ri} R, i = 1, 2,…, k – связи (отношения) в КСС, а элементы {x1,x2,...,xk1} X – терминальные величины, соответствующие либо наименованию определенного объекта, либо числу, либо тексту, либо стандартной комбинации терминальных величин (множество, вектор, матрица, структурная запись из полей, заполненных терминальными величинами).

Таким образом, в процессе представления новой единицы знаний происходит активизация некоторых фрагментов КСС, выражающаяся в том, что вместо абстрактных символов {xi} подставляются терминальные величины {xi }. Очевидно, что при обработке очередной единицы знаний, активизируемый участок КСС является связным компонентом графа (Х, R). В этом случае удобно из исходной КCС выделять активизируемые фрагменты и формировать из них так называемую терминальную семантическую сеть (ТСС), установив соответствие между узлами {xi} и конкретизирующими их значениями {xi }. Такие соответствия можно задать специальными связями типа «иметь имя» и «иметь значением», которые присоединяют любой символ xi в ТСС к соответствующему узлу xi в КСС. Следовательно, можно ввести предикат P(xi,xi), истинность которого указывает на наличие указанного типа связей между xi и xi (P(xi,xi) = true, если между xi и xi существует связь типа «иметь имя» и «иметь значением»). Учитывая введенный формализм, можно считать ТСС некоторым продолжением КСС и рассматривать ее как единую семантическую сеть, содержащую как абстрактные понятия, так и терминальные величины. Однако с практической точки зрения удобнее рассматривать раздельно КСС и ТСС, имея в виду, что при решении задач информационного поиска множество терминальных величин, описывающих конкретную предметную область, представляет собой некоторую базу данных в ее традиционном понимании.

Поскольку всякое входное сообщение БЗ содержит некоторое понятие – тему высказывания, то такому понятию соответствуют определенный узел xi в КСС и фрейм fi в базе знаний. Некоторые из фигурирующих в высказывании величин {xi } указывают на xi либо непосредственно (с помощью связей «иметь имя» и «иметь значением»), либо косвенно, ссылаясь на узлы из окрестности (1).

xi Будем говорить, что из таких величин образуется экземпляр фрейма fi fi, обозначаемый.

Определение 4. Экземпляром фрейма fi назовем информационную структуру fi, которая образуется из терминальных величин {xi } и связей {r}, соответствующих (может быть и xi G1(x) Gнеполной) I-окрестности узла, где – функция, обратная G. Соответствие между fi и fi обозначается зависимостью fi W(fi).

Каждое высказывание об объекте, факте, событии или процессе можно представить в БЗ совокупностью взаимосвязанных экземпляров {fi }F, соответствующих подмножеству {fi} F. В конечном счете, вся ТСС может быть представлена в базе знаний множеством экземпляров F, описывающих некоторый фрагмент предметной области.

Таким образом, ТСС БЗ состоит из совокупности взаимосвязанных фреймов-отображений, образующих пользовательский уровень знаний, и совокупности взаимосвязанных фреймов-экземпляров, образующих прагматический уровень.

Алгоритм построения процедурного компонента БЗ. Эта технология (рисунок 11) применяется на завершающем этапе проектирования БЗ.

Представление предметной области в виде КСС и ТСС позволяет описывать статические отношения между объектами и терминальными единицами предметной области. Однако в практических приложениях этого недостаточно, поскольку зачастую требуется описать динамику процесса, в частности, условия формирования новых фрагментов ТСС. Это становится возможным, если ввести правила привязки к некоторым элементам КСС.

Определение 5. Правилом привязки назовем тройку c, s, d, в которой «с» – условие применимости данного правила, «s» – следствие, содержащее список операций, подлежащих выполнению в момент применения правила, «d» – задержанное действие, содержащее список операций, которые должны быть выполнены по окончании обработки всех правил.

Условие «с» формируется в терминах состояния ТСС. Оно предлагает выполнение некоторых характеристик терминальных величин или некоторых конъюнкций предикатов вида P(xi,xi), позволяющих установить существование связей между объектами в КСС и терминальными величинами в ТСС. Следствие «s» задает последовательность операций, таких как формирование или модификация фрагментов ТСС, инициирование новых правил и т.п.

Задержанное действие «d» отражает последовательность операций другого рода. Они могут состоять в обращениях к некоторым прикладным программным модулям (ППМ), составляющим пользовательский уровень базы знаний.

Все множество правил {} можно разбить на некоторые подмножества i, связываемые с дугами ri в КСС. Тогда при обработке фрагмента сети, включающего дугу ri, происходит инициирование всех связанных с ней правил i. В результате этого порождаются два процесса. Первый, обусловленный обработкой пар {(c,s)}, приводит к дополнительной модификации ТСС. Второй обусловлен накоплением задержанных действий {d}. В результате формируется некоторая траектория активации ППМ, соответствующая входному запросу.

Множество правил i отражается в процедурной части БЗ информационными структурами, которые назовем фреймами закономерностями fi F. Каждый фрейм-закономерность fi объединяет группу правил i, связанных с дугой ri, и проецирует пары {ri, i} на множество следствий:

~ O i F : R, S, (9) где – квантор нечеткости, принимающий, например, значения «почти всегда», «иногда», «в исключительных случаях»; Оi – сигнал, свидетельствующий о реализации данного правила.

Таким образом, четверка X, R,X, в совокупности с (9), которой в фактуальной части БЗ сопоставляется множество фреймовотображений и фреймов-экземпляров, а в процедурной части – множество фреймов-закономерностей и ППМ, определяет все необходимые компоненты знаний для построения, модификации и анализа модели предметной области, в которой функционирует данная ИКС.

Как уже отмечалось, в процессе функционирования базы знаний происходит инициализация некоторых фрагментов КСС и ТСС, а также некоторой совокупности правил {ri, i}, связанных с дугами указанных сетей. В правилах i = {ci, si, di} нас будут интересовать задержанные действия di, связанные с работой ППМ, являющихся неотъемлемой составной частью базы знаний ИКС. Увязка условий ci и следствий si с di осуществляется тем, что их обработка (ci и si) производится параллельно с инициализацией фрагментов КСС и ТСС. В момент завершения инициализации образуется некоторый перечень ППМ, выполнение которых и завершает решение прикладной задачи (пользователь получает мотивированный ответ на поставленный вопрос). Если количество ППМ мало (< 10) и они слабо связаны по входам и выходам, то принципиальных трудностей не возникает. Однако для реальных ИКС характерно наличие большого числа ППМ, которые жестко связаны по входам и выходам.

В четвертой главе определяется система критериев оценки качества БЗ и применяются методы интегральной оценки качества проектных решений по их созданию. Результаты определения типовых критериев качества применительно к управлению проектом создания БЗ в составе ГАС «Правосудие» приведены в таблице 2.

Таблица 2 - Критерии качества БЗ (на примере ГАС «Правосудие») Рост доверия к результатам судебных решений (Р11); повышение оперативности Социальные (Р1) работы судов (Р12); открытость судопроизводства для средств массовой информации и граждан (Р13) Функциональная полнота (Р21);

структурная полнота (Р22); отсутствие структурного дублирования (Р23);

информационная безызбыточность (Р24);

Функциональные (P2) информационная достаточность (Р25);

ресурсная обеспеченность (Р26); ресурсная согласованность (Р27); структурная связность (Р28) Качество пользовательского интерфейса Эргономические(P3) (Р31); комфортность работы пользователя (Р32) Степень удовлетворения БЗ своего Прагматические(P4) предназначения Уровень технического совершенства БЗ и Технические(P5) ее компонентов (подсистем, комплексов) Уровень алгоритмов, использованных при Технологические(P6) проектировании БЗ и ее компонентов Удобство настроек (Р71); профилактик Эксплуатационные(P7) (Р72); регламентных работ (Р73) Надежность и своевременность представления информации пользователям (P8) Полнота выходной информации (P9) Достоверность информации (P10) Сохранение конфиденциальности информации (P11) Защищенность от несанкционированного доступа (P12) Защищенность от опасных программно-технических воздействий (P13) Интегральная оценка заключается в том, что зная множество частных критериев качества БЗ получить обобщенную оценку проекта, учитывающую совокупность частных показателей полученных экспертным путем. Для решения задачи предложено использовать методы математической свертки (аддитивной, мультипликативной, метрической, матричной и дихотомической).

Однако такой подход не всегда приемлем поскольку: а) критерии проектов задаются не только числовыми, но и качественными критериями; б) связи между критериями реальных проектов не всегда удается выразить в виде математических уравнений, вместе с тем, они достаточно адекватно задаются с помощью словесных выражений. Отмеченные обстоятельства вынуждают изыскивать новые подходы, позволяющие использовать качественную информацию. Наиболее полно таким требованиям отвечает подход, основанный на совместном использовании идей логиколингвистического моделирования и методов экспертных оценок.

Такую оценку предложено осуществлять с учетом тринадцати критериев, приведенных в табл. 2.Оценка по каждому из указанных критериев (и их составляющих) дается по десятибалльной шкале (10высшая, 1-низшая оценка), а интегральная оценка рассчитывается по формулам:

3 (0,33 1i1iP1i) (0,125 2i2iP2i) i1 i0(P0) 0,(10) ;

2 6 3 (0,5 3i3iP3i) iiPi (0,33 7i7iP7i) iiPi i1 i4 i1 i8 3 8 1iP1i 2iP2i iPi 1i 2i i i1 i1 i4 0(P0) (11) ;

13 2 3iP3i 7iP7i i 3i 7i iPi i8 i1 i1 где ij– коэффициенты, отражающие относительную значимость соответствующих составляющих интегральной оценки; ij – функции принадлежности, отражающие степень уверенности экспертов в оценке составляющих.

В пятой главе описывается практическая реализация теоретических положений разработанных алгоритмов и методов, применительно к проекту создания и развития ГАС РФ «Правосудие». Была разработана подсистема «Банк судебных решений» (БСР), в составе которой создана база знаний (рисунок 12).

Основное назначение подсистемы БСР - это автоматизация сбора судебных решений, формирование единого банка судебных решений, обеспечение механизма для систематизации сведений по судебным прецедентам, аналитическая обработка и формирование судебной практики для последующего тиражирования, автоматизированное обезличивание судебных актов для публикации в средствах массовой информации. База знаний СПиСР обеспечивает автоматическое аннотирование документа на основе специализированного тезауруса, правил морфологического и синтаксического анализа и разбор входных текстов судебных документов. Распознавание персональных данных в тексте судебных актов, маркировку, обезличивание с последующей публикацией на интернет сайте. Интеллектуальный поиск судебной практики и ряд других вспомогательных функции.

С использованием разработанных методов проведена оценка качества проекта по созданию БЗ СПиСР в структуре ГАС РФ «Правосудие», по результатам которой сформулированы следующие выводы:

1) вероятность достижения целей данного проекта составляет не менее 94%;

2) по качеству своих параметров рассматриваемый проект на 84% соответствует эталонным требованиям.

В целом полученные оценки позволили перейти к опытноконструкторским работам по практической реализации предложенного проекта по созданию БЗ СПиСР в структуре ГАС РФ «Правосудие».

ЗАКЛЮЧЕНИЕ Диссертация посвящена разработке алгоритмов и методов интеллектуальной поддержки решений по созданию баз знаний в составе крупномасштабных ИКС и их практической реализации применительно к проекту ГАС РФ «Правосудие», что соответствует специальности 05.13.11 – математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей.

Исследования, получившие отражение в диссертации, выполнены в соответствии с планами научно-исследовательских и опытно-конструкторских работ ФГУП НИИ «Восход» (г. Москва) в рамках Федеральной целевой программы развития судебной системы.

Наиболее существенные научные результаты, полученные лично автором:

– сформулированы принципы построения базы знаний, положенные в основу пятикомпонентной модели, ориентированной на организацию общения между пользователем и базой знаний;

– выбраны языковые средства представления знаний с учетом особенностей крупномасштабных ИКС;

– разработаны алгоритмы интеллектуальной поддержки решений по созданию баз знаний, которые позволяют формализовать знания о предметной области с использованием методов задания единиц знаний;

– решена проблема оценки качества проектных решений по созданию баз знаний путем комплексной оценки по показателям, учитывающим социальную, функциональную, эргономическую, прагматическую, техническую и технологическую составляющие;

– реализованы теоретические положения применительно к проектированию базы знаний в составе ГАС РФ «Правосудие». По качеству своих параметров, предлагаемый автором проект по созданию БЗ СПиСР в структуре ГАС РФ «Правосудие», на 84% соответствует эталонным требованиям и может быть реализован с вероятностью не менее 94%.

Результаты исследования нашли применение во ФГУП НИИ «Восход» при проведении плановых научно-исследовательских и опытно-конструкторских работ и применялись на всех этапах создания ГАС РФ «Правосудие» в части создания базы знаний по судебной практике и судебным решениям.

Основное содержание материалов диссертационного исследования отражено в следующих публикациях:

Статьи в изданиях, определенных ВАК РФ:

1 Дёмин Б.Е., Новосельцев В.И., Самков Е.Ю. Модели машинного понимания входных текстов / Вестник Воронежского государственного технического университета, т.6, 33, 2010. С. 124127.

2 Самков Е.Ю. Синтаксический анализ текстов с помощью аппарата нейронных сетей / Вестник Воронежского государственного технического университета, т.2, №1, 2012. С. 104-105.

Монографии:

3 Самков Е.Ю. Технологии и методы поддержки проектных решений по созданию интеллектуальных баз знаний на основе логико-лингвистических средств искусственного интеллекта:

монография – Воронеж: Изд-во «Научная книга», 2010. – 130 с.

Статьи в прочих изданиях, материалы конференций:

4 Дёмин Б.Е., Самков Е.Ю. Общая технология проектирования интеллектуальных баз знаний / Сб. тр. первой Всеросс. научн.-техн.

конф. «Системы организационного поведения (SOB‘2009)». – Воронеж: ВГАСУ, 2009. С. 67-74.

5 Дёмин Б.Е., Самков Е.Ю. Представление знаний на основе ролевых фреймов / Сб. тр. первой Всеросс. научн.-техн. конф.

«Системы организационного поведения (SOB‘2009)». – Воронеж:

ВГАСУ, 2009. С. 75-79.

6 Самков Е.Ю. Представление знаний с помощью концептуальных семантических сетей Сб. тр. первой Всеросс. научн.техн. конф. «Системы организационного поведения (SOB‘2009)». – Воронеж: ВГАСУ, 2009. С. 80-81.

7 Дёмин Б.Е., Самков Е.Ю. Основная концепция управления проектами по созданию и развитию интеллектуальных компьютерных сетей / Сб. тр. первой Всеросс. научн.-техн. конф.

«Системы организационного поведения (SOB‘2009)». – Воронеж:

ВГАСУ, 2009. С. 144-149.

8 Новосельцев В.И., Самков Е.Ю. Модели машинного понимания входных текстов при проектировании интеллектуальных баз знаний / Сб. тр. межрегион. научн.-технич. конф. «Модели и алгоритмы интеллектуальной поддержки решений при управлении проектами» (ПРОЕКТ-2009). – М: НПЦ «Модуль», 2009. С. 24-28.

9 Самков Е.Ю. Контекстно-свободный плекс-язык как средство представления знаний в информационно-коммуникационных системах / Сб. тр. межрегион. научн.-технич. конф. «Модели и алгоритмы интеллектуальной поддержки решений при управлении проектами» (ПРОЕКТ-2009). – М: НПЦ «Модуль», 2009. С. 28-32.

10 Дёмин Б.Е., Самков Е.Ю. Технология построения процедуальной компоненты базы знаний в составе информационнокоммуникационных систем / Сб. тр. межрегион. научн.-технич. конф.

«Модели и алгоритмы интеллектуальной поддержки решений при управлении проектами» (ПРОЕКТ-2009). – М: НПЦ «Модуль», 2009.

С. 33-37.

11 Дёмин Б.Е., Самков Е.Ю. Интеллектуальная база знаний «Банк судебных решений (судебная практика)» в составе ГАС РФ «Правосудие» / Сб. тр. межрегион. научн.-технич. конф. «Модели и алгоритмы интеллектуальной поддержки решений при управлении проектами» (ПРОЕКТ-2009). – М: НПЦ «Модуль», 2009. С. 48-63.

12 Самков Е.Ю., Сбоев А.А. Технология обезличивания и публикации текстов судебных документов в Интернет-портале ГАС «Правосудие» / Сб. тр. Межрегион. научно-технич. конф. «Проблемы управления в социальных и экономических системах». – М: НПК «АтомТехноПром», 2010. С. 173-174.

13 Самков Е.Ю. Понятие интеллектуальной базы знаний / Сб. тр.

Всеросс. научно-технич. конф. «Управление в системах организационного поведения». – М: АтомТехноПром, 2010. С.95-97.

14 Клочков В.В., Самков Е.Ю. Методы интегральной оценки качества крупномасштабных ИКС / Сб. научн. тр. Десятой науч.практ. конф «Современные информационные технологии в управлении и образовании».-М: ООО "Издательство "Проспект" Ч.1., 2011. С. 104-107.

15 Самков Е.Ю. Технология предоставления доступа к текстам судебных документов в ГАС РФ «Правосудие»/сб.ст. междунар.

науч.-практ. конф. «Электронное законодательство: доступ к нормативно-правовой информации в электронном виде». – СПб.:

ФГБУ «Президентская библиотека имени Б.Н. Ельцина», 2011.

С.240-244.

Патент:

16 Автоматизированная система интеллектуального обезличивания персональных данных в тексте документа. Патент на полезную модель №119485 от 20.08.2012.




© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.