WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


на правах рукописи СУРПИН ВАДИМ ПАВЛОВИЧ

ПРЕДМЕТНО-НЕЗАВИСИМЫЕ МОДЕЛИ МНОГОКОМПОНЕНТНЫХ СИСТЕМ И ИХ ПРИМЕНЕНИЕ В СИСТЕМАХ МОНИТОРИНГА

05.13.01 – Системный анализ, управление и обработка информации (технические системы) автореферат диссертации на соискание учёной степени кандидата технических наук

Москва 2012

Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте проблем передачи информации им. А.А. Харкевича Российской академии наук

Научный консультант: кандидат технических наук, доцент Баканова Нина Борисовна

Официальные оппоненты: Бернштейн Александр Владимирович, доктор физико-математических наук, профессор, ИСА РАН, заведующий лабораторией Степановская Ираида Александровна, кандидат технических наук, старший научный сотрудник, ИПУ РАН, ведущий научный сотрудник

Ведущая организация: Федеральное государственное бюджетное учреждение науки Институт проблем информатики Российской академии наук

Защита состоится «__» __________ 20__ г. в ________ на заседании диссертационного совета Д 002.077.01 при Институте проблем передачи информации им. А.А. Харкевича РАН (127994, г. Москва, ГСП-4, Большой Каретный переулок, 19, стр.1.).

С диссертацией можно ознакомиться в библиотеке ИППИ РАН.

Автореферат разослан «___» _______________ 2012 г.

Учёный секретарь диссертационного совета доктор физико-математических наук И.И. Цитович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. Мониторинг явлений, процессов и их характеристик необходим для поддержки научно обоснованного принятия решений в процессе функционирования системы. В широком смысле, под мониторингом понимают систематический сбор и анализ информации об объекте с целью идентификации отклонений его характеристик от штатного режима, либо выявления тенденции изменения характеристик.

Задача мониторинга характерна для тех видов деятельности, где изучаемый объект представляет сложную многокомпонентную систему, о состоянии которой можно судить по изменению свойств системы в целом или совокупности составляющих её объектов. В качестве примеров видов деятельности, неотъемлемой частью которых является задача мониторинга, можно привести эпидемиологический надзор, управление крупномасштабными техническими объектами и производствами, организационное управление.

Многочисленные исследования в каждой из указанных областей, а также во многих других, указывают мониторинг как инструмент исследования сложных систем, так и практически значимую задачу, без которой невозможно нормальное функционирование многих организационных систем и технологических процессов, а также управление ими. Методы мониторинга традиционно применяются в экологических исследованиях. Проблемам экологического мониторинга посвящены работы И. П. Герасимова, Ю.А. Израэля, В.А. Королева, В.Д. Минченко.

Исследованию методов мониторинга в здравоохранении посвящены работы Э.

Лавсона, К. Клейнмана, Дж. Ломбардо, Д. Бакериджа, В. И. Покровского, Н.Н.

Филатова, И. Л. Шананина. Вопросам технической диагностики посвящены работы А.В. Мозгалевского, П.П. Пархоменко, Е.С. Согомоняна, И.А. Биргера, Я.А. Фомина, Л.П. Глазунова, Б.В. Павлова, В.В. Клюева.

Несмотря на широкое применение систем мониторинга во многих областях деятельности, в существующих исследованиях отсутствует достаточно общая модель этих систем, которая бы позволила бы систематизировать накопленный опыт и эффективно использовать его. В каждой области создание системы мониторинга начинается «с нуля», использование наработок из смежных областей затруднено, а передача знаний возможна лишь с опытом разработчика. Это негативно сказывается на общей стоимости, сроках разработки и качестве проектируемых систем. В связи с этим, задача создания обобщённой модели систем мониторинга является актуальной.

Препятствием к созданию обобщённой модели является значительная зависимость алгоритмического и математического обеспечения мониторинга от предметной области, поэтому для решения проблемы требуется решить задачу изоляции описания предметной области от общих методов и алгоритмов. Предметная область может быть описана информационными моделями, применяемыми при построении экспертных систем. В работе предлагается использовать информационные модели, используемые в экспертных системах, при проектировании систем мониторинга.

Таким образом, цель исследований состоит в разработке обобщённой предметно-независимой модели систем мониторинга и методов построения систем с использованием предложенной модели. Для достижения цели исследования поставлены и решены следующие задачи:

Разработка формальной предметно-независимой модели многокомпонентной системы, являющейся предметом мониторинга, и динамики изменения её состояния;

Анализ существующих информационных моделей представления знаний и обоснованный выбор информационной модели представления знаний предметной области для использования в интеллектуальных алгоритмах систем мониторинга;

Разработка методов интеллектуального анализа и обработки экспертной информации для использования в предметно-независимых системах мониторинга многокомпонентных систем;

Методы исследований. В работе использованы методы общей теории систем, теории управления, методов математического анализа данных, теории графов, теории исследования операций, а также методов объектно-ориентированного анализа и проектирования систем.

Научная новизна заключается в комплексном исследовании систем мониторинга, в составе которых используются экспертные оценки состояния объектов мониторинга:

Предложена формальная теоретико-множественная модель многокомпонентной системы мониторинга, а также объектная модель для проектирования информационных систем;

Проведён анализ существующих формальных моделей представления знаний предметной области. На основании проведённого анализа выбрана информационная модель представления знаний предметной области для использования в интеллектуальных алгоритмах систем мониторинга;

Разработаны методы интеллектуального анализа и обработки экспертной информации с использованием информационной модели предметной области, в том числе способ оценки неопределённости характеристик объектов мониторинга, а также алгоритм кластеризации объектов для формирования гипотезы о характере внешнего воздействия.

Практическая значимость исследования и реализация результатов.

Научные результаты, полученные в диссертации, использованы при создании программно-аппаратного комплекса информационной системы мониторинга распространения вирусного гепатита, а также при создании системы планирования и мониторинга контрольных мероприятий Федеральной службы по надзору в сфере транспорта. Результаты использованы в рамках выполнения следующих работ:

Федеральная целевая программа «Предупреждение и борьба с социально значимыми заболеваниями (2007-2011 годы)», проект номер 29-10/«Разработка концепции и моделирующего комплекса эпидемиологии острых и хронических вирусных гепатитов для нужд ФГУН "ЦНИИЭ" Роспотребнадзора»;

Федеральная целевая программа «Предупреждение и борьба с социально значимыми заболеваниями (2007-2011 годы)», проект номер ИН-0008/«Разработка проектных решений и программных модулей графического представления эпидемиологических данных» Ведомственная целевая программа Федеральной службы по надзору в сфере транспорта «Повышение качества исполнения государственных функций и предоставления государственных услуг, в том числе, в электронном виде», ГК №44 «Разработка информационной системы контрольных мероприятий и документооборота в Ространснадзоре» Достоверность научных положений определяется корректным использованием математического аппарата и практической реализацией конкретных информационных систем.

На защиту выносятся:

1. Предметно-независимые модели мониторинга многокомпонентных систем:

формальная теоретико-множественная модель многокомпонентной системы мониторинга, а также объектная модель для проектирования информационных систем, описывающие структуру многокомпонентных систем мониторинга, для которых применимы предложенные в работе методы.

2. Анализ существующих формальных моделей представления знаний предметной области и обоснованный выбор информационной модели представления знаний предметной области, позволяющую создать базу знаний, выполняющую необходимые для использования в интеллектуальных алгоритмах систем мониторинга запросы;

3. Методы интеллектуального анализа и обработки экспертной информации с использованием информационной модели предметной области, включая способ оценки неопределённости характеристик объектов мониторинга и алгоритм кластеризации объектов мониторинга для формирования гипотезы о характере внешнего воздействия, позволяющие идентифицировать недостоверные данные мониторинга;

4. Прототип программного комплекса, созданный на основе предложенных моделей и методов, осуществляющий сбор экспертных характеристик объектов мониторинга, и их интеллектуальную обработку с использованием проблемноориентированных семантических графов для обеспечения информационной поддержки при принятии управленческих решений, который демонстрирует применимость разработки для различных предметных областей.

Апробация работы. Основные положения и результаты диссертационной работы были доложены и обсуждались на всероссийской конференции «XII Всероссийский симпозиум по прикладной и промышленной математике (весенняя сессия)», международной конференции «Управление развитием крупномасштабных систем (MLSD’2009)», всероссийской конференции «III Всероссийская молодёжная конференция по проблемам управления (ВМКПУ’2008)», конференции молодых учёных и специалистов «Информационные технологии и системы (ИТиС'2008)», международном семинаре «Распределённые компьютерные и телекоммуникационные сети (DCCN’2005)».

Публикации. Основное содержание работы

отражено в 10 работах, в том числе в журнале «Информационные технологии», рекомендованном ВАК РФ для изложения основных научных результатов диссертации на соискание учёных степеней.

Структура и объём работы. Диссертация состоит из введения, четырёх глав, приложений и списка литературы (69 наименований). Имеет общий объём 1машинописных страницы, содержит 44 рисунка и 8 таблиц.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертации, формулируются общие проблемы, цели и задачи исследования, научное и практическое значение полученных результатов, рассматривается структура диссертации и взаимосвязь отдельных глав.

В первой главе рассмотрены основные требования к системам мониторинга;

представлен обзор математических методов, нашедших применение при решении задач мониторинга систем и процессов; приводятся основные сведения о построении информационных моделей предметных областей и существующие подходы к формализации знаний. Основное содержание главы опубликовано в [1, 7, 8].

Во второй главе предложена формальная теоретико-множественная модель многокомпонентной системы мониторинга, поставлены формальные задачи системы мониторинга в предложенной модели. Основное содержание главы опубликовано в [9, 10].

В третьей главе построена объектная модель системы мониторинга. На основе предложенной модели определены принципиальные свойства взаимодействующих объектов, предложен шаблон описания сложной системы, позволяющий формализовать характерные для системы задачи и применить к ним предложенные методы и алгоритмы. Основное содержание главы опубликовано в [4, 5].

В четвёртой главе приводятся результаты применения разработанных моделей и методов при разработке конкретных информационных систем – описано приложение предложенных методов и алгоритмов к проектированию и разработке систем мониторинга для эпидемиологии и транспортной безопасности. Основное содержание главы опубликовано в [1, 2, 3].

В первой главе:

Рассмотрены основные требования к системам мониторинга;

Приводится обзор математических методов, положенных в основу методов мониторинга;

Приводятся сведения из области экспертных систем о средствах представления знаний предметной области, а также о вероятностных сетях представления причинно-следственных связей.

В разделе 1.1 обозначен ряд качественных характеристик, отражающих общие требования к сервисам мониторинга, среди которых сложность, гибкость, качество данных, приживаемость, чувствительность, прогностичность положительного результата, представительность, оперативность, стабильность. Рассмотрено влияние отдельных характеристик на выбор подходов к созданию систем мониторинга.

В разделе 1.2 приводится обзор математических методов обнаружения разладки целевой функции, нашедших применение в мониторинге систем и процессов: метод наименьших квадратов, авторегрессионное интегрированное скользящее среднее, экспоненциально взвешенное скользящее среднее, обобщённая линейная модель, метод накопленных сумм, вейвлет-анализ, метод опорных векторов, скрытая Марковская модель, методы на основе Байесовских сетей. Приведены краткие описания основных идей, заложенных в перечисленные математические методы.

В разделе 1.3 приведены сведения из области экспертных систем о средствах представления знаний предметной области, а также о вероятностных сетях представления причинно-следственных связей. Приведены описания типовых структур представления данных структур знаний. Отдельно дан обзор вероятностных сетей представления знаний, способов обучения интеллектуальных структур на их основе.

Во второй главе предложена формальная теоретико-множественная модель многокомпонентной системы мониторинга, поставлены формальные задачи системы мониторинга в предложенной модели.

Описана общая структура модели, определены характеристики составляющих её элементов (микроуровень) и наблюдаемые характеристики системы как единого целого (макроуровень);

Предложена модель изменения состояния объектов на микроуровне, приведён пример модели изменения состояний на микроуровне объектов для эпидемиологии;

Предложена модель описания основных характеристик на макроуровне, приведён пример модели изменения состояний характеристик системы объектов мониторинга для эпидемиологии;

Формализованы задачи мониторинга в терминах предложенной теоретикомножественной модели.

В разделе 2.1 описана общая структура модели. Исследуемая система состоит из множества объектов мониторинга, взаимодействующих между собой, и множества источников информации, измеряющих параметры объектов и передающие их в центр обработки данных (рис. 1).

На схеме введены следующие обозначения: { } - многокомпонентная система, { } – система мониторинга. Многокомпонентная система { } представлена множеством { } объектов мониторинга и моделью | | изменения состояния объектов. Объект описывается вектором свойств | | ( ) размерности,. Система мониторинга { } | | состоит из множества источников информации { } и центра обработки | | данных E.

Для моделирования динамики системы в разделе 2.2 работы использован подход к моделированию сложных систем, характерной чертой которого является формулирование гипотез, описывающих динамику процессов на микроуровне, ведущих к пониманию динамики основных агрегированных характеристик на макроуровне. Модель описывает динамику изменения состояния отдельных объектов во времени и может быть представлена в следующем виде.

Состояние объекта описывается вектором, и изменяется в некоторые дискретные моменты в соответствии с правилом:

, где – новое состояние объекта, – предыдущее состояние объекта, A(t) – матрица взаимодействия объектов мониторинга, – вектор внешнего воздействия на систему объектов мониторинга. Вектор внешнего воздействия и матрица взаимодействия объектов зависят от времени.

Частным случаем модели является линейная модель, которая может описать основные свойства поведения реальных систем или использоваться как первое приближение. Уравнение описывает изменение состояние объекта, обусловленное внутренними законами его функционирования, внешним воздействием и Рис. 1. Общая схема исследуемой системы взаимодействием между объектами :

| |, где - моменты изменения состояния объекта, член описывает внутренние законы изменения состояния объекта, член | | описывает взаимодействие объектов, а описывает воздействие внешней среды на объект.

В заключение раздела приводится пример применения предложенной модели к описанию эпидемиологического процесса передачи инфекции.

В разделе 2.3 предложена модель описания основных характеристик на макроуровне. С точки зрения мониторинга систем и процессов интересны агрегированные характеристики системы, отражающие динамику процессов на макроуровне. Эти показатели, такие как уровень заболеваемости, преступности и т.д., | | часто отражают зависимость величин подмножеств множества объектов от времени. Подмножества вводятся по принципу близости вектора состояния объекта к центральному вектору подмножества:

, где – объект из множества объектов, – подмножество множества объектов, – расстояние между векторами состояний объектов, – вектор состояния объекта, – центральный вектор подмножества, – радиус подмножества. Таким образом, подмножество задаётся тремя параметрами:

.

Каждому объекту может соответствовать одно или более подмножеств, в этом случае будем говорить, что объект принадлежит одному или более классам:

{ }, где – вектор состояния объекта. Поскольку, то и набор классов объекта меняется во времени, то есть.

| | Величина класса определяется как количество объектов, | | принадлежащих классу :, где выражение принимает значение 1, если объект принадлежит классу и 0 в противном случае. В терминах объектов и классов агрегированные показатели, характеризующие динамику процессов на макроуровне, принимают вид | | | | | |, где – агрегированный показатель состояния системы, – классы объектов, t – время. В данном выражении функциональная зависимость от величин | | | | классов обозначает как зависимость от самой функции, так и от её производных, интегральных и других возможных характеристик.

В заключение раздела приводится пример применения предложенной модели к описанию макро-характеристик эпидемиологического процесса.

В разделе 2.4 сформулированы задачи мониторинга состояния системы в терминах предложенной математической модели. Рассмотрены две задачи: задача идентификации отклонения характеристик системы от штатного режима и задача проверки гипотез о характере отклонения.

Первая заключается в выборе набора классов, функции, методов её измерения, штатного режима и порога отклонения таких, что отклонение | | будет соответствовать существенной коррекции модели изменения состояний объектов. Понятие существенного отклонения зависит от конкретной области применения модели и может быть формализована, например, в терминах устойчивости системы.

| Вторая задача расширяет первую. Помимо идентификации отклонения | необходимо выбрать наиболее вероятную гипотезу из { } | множества гипотез такую, что | | |.

Выигрыш от проверки гипотез развития процесса заключается в выборе значения и, как следствие, раннем обнаружении отклонения характеристик от штатного режима при доле ложных срабатываний меньшей, чем можно получить | | простым уменьшением порога в выражении.

В третьей главе построена объектная модель системы мониторинга. На основе предложенной модели определены принципиальные свойства взаимодействующих объектов, предложен шаблон описания сложной системы, позволяющий формализовать характерные для системы задачи и применить к ним предложенные методы и алгоритмы.

Разработана объектная модель системы мониторинга и приведены примеры её применения для описания систем мониторинга в области эпидемиологии и транспортной безопасности;

Рассмотрены классический и альтернативный предметно-независимый подходы к построению алгоритмов мониторинга;

Произведён обоснованный выбор формальной модели представления знаний предметной области для использования в предметно-независимых алгоритмах;

Разработана схема системы мониторинга, использующей предметно-независимые алгоритмы интеллектуальной обработки данных, рассмотрены:

o Вопросы обработки входных данных системы мониторинга;

o Способ оценки неопределённости характеристик объектов мониторинга, используемый в интеллектуальных алгоритмах обработки данных;

o Алгоритм идентификации и устранения противоречивых информационных сообщений;

o Алгоритм кластеризации объектов мониторинга для формирования гипотезы о характере внешнего воздействия;

В разделе 3.1 разработана объектная модель системы мониторинга, применяемая при разработке информационных систем мониторинга. В формулировках задач мониторинга, приведённых в разделе 2.4, определены абстрактные элементы модели, которые необходимо связать с концепциями предметной области при проектировании той или иной системы мониторинга:

множество объектов, вектор состояния объекта, классы объектов, функцию агрегированных характеристик системы, функцию штатного | | режима функционирования системы, норму и порог отклонения от { } штатной функции, а также альтернативные гипотезы и пороговое значение.

Диагностирование состояния объекта системы производиться при помощи источников информации S, результатом работы которых является сообщение об изменении состояния объекта:

( ) { ( ), где функция ( ) принимает значение 1 в те моменты времени, когда обнаружено значительное изменение свойств объекта; – моменты времени, в которые производились измерения состояния объекта; – порог, характеризующий значимость изменения. Информацию о событии несёт сообщение , производимое источником информации, поэтому наблюдаемое время возникновения события зависит от принципа работы источников информации и их набора. Изменение состояния объекта может быть зафиксировано несколькими источниками информации в разные моменты времени. Каждый источник информации передаст сообщение о событии, в результате чего получим последовательность сообщений об одном и том же событии: ( ) ( ) ( ), где n – количество источников информации, обнаруживших изменение состояния объекта. Существует несколько причин, которые определяют «размножение» события, среди них:

Состояние объекта фиксируют несколько источников информации:

;

Источники и фиксируют разные характеристики объекта, то есть получают разный набор входных данных: { }, где – информация источника, – информация источника, - информация, измеренная обоими источниками;

Источники и производят разный набор результирующих значений: { }, где – множество значений источника, – множество значений источника, – множество значений, общее для источников и ;

События и похожим образом изменяют вектор состояния объекта .

В результате, вместо одного момента времени для каждого события получаем n значений, что искажает наблюдаемую функцию и, как следствие, приводит к сбоям при обнаружении отклонения состояния системы от штатного режима и при прогнозировании поведения системы. Решение проблемы искажения функции, возникающего вследствие «размножения» сообщений о событии, связано с решением двух задач:

1. Идентификации повторных и противоречивых сообщений: Для сообщений о событиях и ( ) установить, сигнализируют они об одном и том же событии, или о разных;

2. Кластеризации сообщений по их принадлежности к различным протекающим в системе информационным процессам.

Проблема характерна для систем мониторинга, в которых состояние многокомпонентной системы определяется множеством взаимосвязанных источников информации. На рис. 2 представлена UML-диаграмма классов объектной модели такой системы. Объектная модель используется при проектировании программного обеспечения прикладных систем мониторинга. Соответствие между UMLдиаграммой и математической моделью задаётся в табл. 1.

Приведены примеры соответствия объектов модели и предметной области, а также сформулированы задачи идентификации повторных и противоречивых сообщений и кластеризации сообщений по их принадлежности к информационным процессам в терминах предметной области.

Раздел 3.2. Для обнаружения и исправления систематических ошибок измерения состояния системы требуется привлечение знаний предметной области. Это может быть достигнуто как разработкой специальных алгоритмов для узких предметных областей, так и использованием обучаемых интеллектуальных структур. В первом случае тиражируемость решения ограничена, так как алгоритмы включают специфику предметной области и наработки передаются только с опытом разработчика. При использовании обучаемых интеллектуальных структур требуется значительное количество обучающих примеров. Их разработка должна выполняться Рис. 2. UML-диаграмма классов объектной модели системы мониторинга Таблица 1. Соответствие элементов UML-диаграммы и переменных математической модели.

1. Наблюдаемая система 2. Объект 3. Процесс 4. Событие 5. Источник информации 5.1. Измеряемые параметры 5.2. Множество значений измеряемых параметров 6. Сообщение 6.1. Множество значений выходных параметров совместно специалистами предметной области и специалистами в области искусственного интеллекта. В результате обученная модель также применяется только к решению узкой задачи.

Проблемой описанных методов является то, что формализованные знания предметной области заложены в алгоритмы обработки информации, что делает невозможным их простую адаптацию к новым задачам. В работе предложены алгоритмы обработки данных, которые взаимодействует с формализованной моделью знаний предметной области, для решения задач, определяемых данной моделью (рис.

3).

На рисунке введены следующие обозначения: A – алгоритм обработки данных;

D – входные данные алгоритма; D~ - выходные данные алгоритма; DM – интерфейс входных данных (модель данных); K – знания предметной области; KM – интерфейс модели знаний. Принципиальным отличием предлагаемой структуры алгоритмов интеллектуального анализа и обработки информации является выделение модели знаний предметной области в независимый блок и взаимодействие алгоритма с этим блоком средствами формализованного интерфейса модели знаний.

В разделе 3.3 произведён обоснованный выбор формальной модели представления знаний предметной области. Модель должна отражать существенные свойства моделируемого объекта или явления, поэтому требования к модели Рис. 3. Традиционные алгоритмы (слева) и новые алгоритмы с двумя входами (справа) представления знаний также определяются свойствами моделируемого объекта – знаний. Когда говорят об отличиях знаний от информации, указывают следующие свойства: интерпретируемость, активность, связность, структурированность. Типовые модели представления знаний в той или иной степени отражают перечисленные свойства знаний, но ни одна из типовых моделей знаний не является универсальным решением. Однако различные модели знаний имеют общие черты, что позволяет строить гибридные модели знаний на основе типовых. Поэтому, задача выбора формальной модели представления знаний является задачей синтеза модели, удовлетворяющей требованиям поставленной задачи на основе типовых.

Предложена система критериев для выбора формальной модели представления знаний. На верхнем уровне критерии поделены на три группы: «Свойства представления», «Эксплуатационные характеристики» и «Удобство использования».

В группу «Свойства представления» входят критерии, описывающие принципиальные свойства модели представления знаний: способность к обучению, статические характеристики, характеристики методов вывода. К эксплуатационным характеристикам относятся: временная сложность, ресурсоёмкость, возможность распараллеливания. Группа характеристик верхнего уровня «Удобство использования» включает такие критерии, как сложность разработки, сложность восприятия.

В разрезе предложенной системы характеристик рассмотрены типовые модели представления знаний, выбрана базовая модель и предложены доработки, позволяющие использовать её в предметно-независимых алгоритмах мониторинга. В качестве базовой выбрана модель семантической сети, для работы с неточными знаниями предложено использовать методы нечёткой логики, а вероятностные знания и обучаемость структуры обеспечить засечёт аппарата Байесовских сетей.

В разделе 3.4 разработана схема системы мониторинга, использующей предметно-независимые алгоритмы интеллектуальной обработки данных. На рис. представлена общая схема системы мониторинга, пунктирной линией выделена часть, в которой предметно-независимым способом решаются задачи идентификации повторных и противоречивых сообщений и кластеризации сообщений по их Рис. 4. Общая схема решения принадлежности к информационным процессам.

Приведено описание процедур предметно-независимого блока. Описаны процедуры, обозначенные на схеме, а также алгоритмы и модели, необходимые для этих процедур:

1. Преобразование непрерывных входных параметров в дискретные значения;

2. Мера близости векторов состояний объектов;

3. Выбор формальной модели представления знаний предметной области;

4. Алгоритм выбора расширенного множества значений состояния объекта;

5. Преобразование сообщений в события;

6. Объединение событий в процессы;

В разделе 3.4.1 рассмотрены вопросы преобразования непрерывных входных параметров в дискретные значения. Данные о состоянии объекта должны быть представлены в формализованном виде. Для этого должны быть выбраны шкалы и единицы измерения. В случае, когда элемент вектора является численным результатом измерения, то единицы измерения и шкалы известны. Если для описания значений элемента используются лингвистические конструкции, то требуется их формализация.

Наблюдаемые параметры могут быть описаны непрерывными или дискретными значениями. И вектор значений состоит из дискретной и { } непрерывной составляющих:.

Дискретным значениям ставятся в соответствие узлы семантической сети. Для этого задаётся отображение множества значений каждой из составляющих Дискретной составляющей вектора на узлы семантической сети, где – счётное и конечное множество значений i-ой компоненты вектора.

В общем случае отображение может не быть взаимно однозначным. Например, нескольким элементам множества может соответствовать один элемент множества, что возможно, когда используется недостаточно подробная семантическая сеть, либо значения множества содержит «синонимы»:.

Отображение непрерывных значений на узлы семантической сети требует дополнительного шага. Непрерывные значения должны быть поделены на диапазоны, каждый из которых соответствует узлу семантической сети. Для представления диапазонов используются нечёткие множества, характеристическая функция которых зависит от решаемой задачи.

В разделе 3.4.2 вводится мера близости векторов состояний объектов.

Сообщение о событии содержит информацию о состоянии объекта в момент времени, поэтому, мера близости сообщений зависит от меры близости векторов состояний объектов. Введём меру близости векторов состояний объектов и и выберем алгоритм её измерения.

Состояние объекта описывается наблюдаемой и скрытой частями, между которыми существует вероятностная связь:

{ } ( ) | , где ( ) – вероятность того, что скрытое состояние соответствует действительному состоянию объекта. При этом считаем, что наблюдаемое состояние объекта измерено без ошибок, т.е. ( ) | ( ) | .

Таким образом, задача сводится к измерению близости векторов состояний при условии получения результатов измерения . Введём меру близости векторов и в следующем виде:

( ) [ ( | ) ( | )], следовательно, ( ) ( ) [ | ( | )].

На практике данная мера близости будет мала для тех пар векторов состояний , скрытые части которых с близкой вероятностью проявляются при наблюдаемых измеренных значениях.

Предложен алгоритм выбора расширенного множества значений состояния объекта. Использование графа семантической сети в качестве основы построения Байесовской сети позволяет свести процедуру обучения к выбору значений условных вероятностей для рёбер графа сети, имея в наличии набор узлов и связей между ними.

Таким образом, задача обучения семантической сети разделяется на две подзадачи:

1. Первоначальное обучение, включающее выбор онтологии предметной области и её подстройку при помощи экспертов;

2. Корректировка вероятностных коэффициентов Байесовской сети на основе данных, появляющихся при использовании созданной с использованием системы мониторинга.

Первоначальное обучение семантической сети начинается с выбора графа G, представляющего онтологию предметной области. Необходимым условием применения графа G, представляющего онтологию предметной области, для оценки меры близости векторов является возможность сопоставления и. То есть вершины графа G должны содержать множество, соответствующее наблюдаемым и скрытым параметрам и их дискретным значениям.

Граф семантической сети должен выражать причинно-следственные связи между концептами, поэтому необходимым шагом подготовки графа онтологии является устранение циклов. Результатом устранения циклов станет граф, являющийся суперпозицией древовидных графов:.

При использовании в качестве основы для построения графа G онтологии предметной области, отдельные деревья в составе графа G представляют ни что иное, как таксономии, элементами которых являются элементы множеств,, а также элементы, соответствующие промежуточным уровням классификации.

Назначение условных вероятностей рёбрам графа происходит следующим образом. Предположим, что, а – узлы, соответствующие «причинам» узла. В случае если наблюдаемые параметры попарно независимы, то вероятность события определяется по формуле полной вероятности:

|, где равняется 1, если i-ый параметр наблюдается и 0 иначе. В случае, когда между наблюдаемыми параметрами существует зависимость, обучение потребует записи условной вероятности |, где – всевозможные комбинации событий.

При использовании данного подхода требуется значительное количество примеров для обучения сети, которое определяется числом перестановок элементов для каждого элемента. Сложность возрастает, если принять во внимание тот факт, что состояние некоторых параметров может приобретать не только два значения – 1 или 0, но и значение «неизвестно».

С другой стороны, граф G представлен в виде суперпозиции древовидных графов, при этом являются таксономиями, то есть классификациями концептов сходными признаками. Это обозначает, что чем меньше расстояние между узлами дерева T, тем ближе расположены соответствующие векторы состояний :

( ), где – расстояние между узлами графа, соответствующим скрытым состояниям.

В дальнейшем, мера близости ( ) будет использоваться для кластеризации состояний, то есть необходимо выбрать параметр такой, что при ( ), векторы попадают в один кластер. При этом деревья T в составе графа G, основанного на онтологии, представляют таксономию – классификацию концептов. То есть, чем ближе находится общий родитель двух концептов, тем более близки векторы, которые они представляют.

Таким образом, для первоначального обучения семантической сети при помощи эксперта меру близости векторов ( ) можно записать в виде:

( ) ( ( ) ( )), где – общий «родитель» узлов и. В случае, когда общего родителя нет, ( ). При определении общего родителя и поиск производится только на множестве ( ), где – расширенное множество значений элемента, определяемое как множество наследников узла, находящегося на n узлов выше :, где – множество всех родителей узла, находящихся узлами выше.

Множество может иметь размерность больше 1, так как узел может входить в несколько деревьев ; – множество всех «наследников» узла во всех деревьях в которые он входит.

Число для каждого узла определяется для каждого вхождения узла в дерево на основании экспертной оценки, либо в зависимости от связей узла с узлами : |.

Экспертная оценка заключается в выборе эмпирической зависимости числа от значений вектора состояния. Использование экспертной оценки числа позволяет использовать онтологию предметной области в качестве основы для Байесовской сети в случае, когда для оценки условных вероятностей | не существует достаточно данных для обучения сети.

В разделе 3.4.3 разработан алгоритм идентификации и устранения противоречивых информационных сообщений. Расстояние ( ) между векторами состояний, введённое указанным выше способом, позволяет установить меру близости состояний объектов. Сообщение о событии несёт также информацию о времени события и данные, идентифицирующие источник { } события - объект :. В случае, когда сообщения несут информацию о состоянии одного и того же объекта, то есть ( ), возникает задача идентификации и устранения повторяющихся и противоречивых сообщений о состоянии объекта многокомпонентной системы. В противном случае, решается задача кластеризации данных для идентификации независимых процессов, протекающих в системе.

При поступлении сообщения, вектору скрытого состояния ставится в соответствие расширенное множество значений, величина которого в соответствии с алгоритмом выбора расширенного множества значений тем больше, чем меньше вероятность | :

| | | | | Величина расширенного множества значений характеризуют дисперсию | | измеренного состояния объекта. Сообщения, для которых превышает заданное пороговое значение, считаются недостоверными.

При поступлении двух или более сообщений, расширенные множества значений которых пересекаются, принимается решение об идентичности сообщений.

Устраняются все идентичные сообщения, кроме одного. Его выбор определяется либо минимальной дисперсией, либо свойствами, зависящими от условий задачи – например, самое новое. Сообщение, представляющее множество идентичных сообщений, а также его дисперсию, будем называть событием.

В разделе 3.4.4 разработан алгоритм кластеризации объектов мониторинга для формирования гипотезы о характере внешнего воздействия. События представлены сообщениями, для которых ( ), то есть сообщения несут информацию о разных объектах и. Процессом считается множество событий, связанных общими свойствами. Для объединения сообщений в процессы также используется алгоритм выбора расширенного множества значений с незначительными дополнениями.

Решение об объединении событий в процесс принимается при выполнении следующих условий:

( ) { ( ).

( ) Последнее условие отражает близость событий по времени, при этом – характерное время события, зависящее от вида события.

При объединении событий в процессы можно использовать меру близости ( ), которая отличается от описанной выше меры ( ) тем, { } { } что вычисление происходит только по подмножеству деревьев, составляющих граф G.

В четвёртой главе приводятся результаты применения предложенных моделей и методов при разработке конкретных информационных систем – описано приложение предложенных процедур и алгоритмов к проектированию и разработке систем мониторинга распространения вирусного гепатита и планирования контрольных мероприятий в сфере транспортной безопасности. Приводятся:

Цели и задачи создания информационных систем мониторинга распространения вирусного гепатита и планирования контрольных мероприятий в сфере транспортной безопасности;

Описание предметной области;

Результаты анализа требований к разрабатываемым информационным системам мониторинга;

Проекты рассматриваемых информационных систем мониторинга;

Система мониторинга распространения вирусного гепатита предназначена для повышения эффективности эпидемиологического надзора за заболеваемостью вирусными гепатитами: оперативного контроля заболеваемости, систематизации процессов сбора, хранения и обработки больших объёмов первичных данных, связанных с заболеваемостью, анализа накопленных данных по заболеваемости с помощью методов и средств математической статистики. Анализ структуры заболеваемости, позволяет органам Роспотребнадзора своевременно и обоснованно принимать управленческие решения по обеспечении противоэпидемиологических и профилактических мероприятий.

Процесс эпидемиологического мониторинга требует совместной работы множества специалистов, отличающихся выполняемыми функциями и полномочиями. В процессе анализа процессов предметной области были выявлены основные участники процесса эпидемиологического мониторинга: медработники лечебно-профилактических учреждений, врачи-лаборанты лабораторий, врачиэпидемиологи четырёх уровней иерархии.

Диаграмма вариантов использования (рис. 5) демонстрирует необходимость совместной работы различных участников процесса при выполнении типовых задач, возникающих в процессе эпидемиологического мониторинга.

Взаимодействие множества специалистов, вовлечённых в процесс эпидемиологического мониторинга, приводит к появлению следующих нежелательных свойства данных мониторинга:

Противоречивость и наличие повторов, возникающие вследствие частичного дублирования функций специалистов;

Неоднородность представления, возникающая вследствие применения специалистами различных методик наблюдения одного и того же явления.

Предложенные в работе методы позволяют устранять эти свойства, помогая участникам процесса эпидемиологического мониторинга исправлять некорректные данные и обнаруживать скрытые взаимосвязи между данными мониторинга, полученными разными специалистами. На рис.6 изображён элемент экрана системы мониторинга распространения вирусных гепатитов, демонстрирующий обнаружение повторов в первичных данных мониторинга.

Пользователь имеет возможность согласиться или отказаться от группировки Рис. 5 Диаграмма вариантов использования для типовых задач, выполняемых в процессе эпидемиологического мониторинга.

Рис. 6 Элемент экрана системы мониторинга распространения вирусных гепатитов, демонстрирующий обнаружение повторов в первичных данных мониторинга экстренных извещений, предложенной системой. Отказ пользователя от группировки позволяет скорректировать параметры алгоритма группировки экстренных извещений.

В качестве основы информационной модели предметной области, использованной при разработке системы мониторинга распространения вирусных гепатитов, была выбрана семантическая сеть, входящая в состав международного медицинского классификатора UMLS (Unified Medical Language System).

Предложенные в работе методы были также применены при разработке системы планирования контрольных мероприятий в сфере транспортной безопасности. Система предназначена для консолидации информации о результатах контрольной деятельности Ространснадзора, анализа результатов контрольных мероприятий и составления плана будущих контрольных мероприятий.

Формально, процесс составления плана контрольных мероприятий является задачей многокритериальной оптимизации, однако необходимость учёта особенностей конкретных транспортных предприятий затрудняет формализацию критериев планирования. Поэтому, процесс планирования представляет собой последовательность согласований, выполняемых территориально распределёнными подразделениями Ространснадзора.

Целью процесса планирования является составление допустимого варианта плана мероприятий. Допустимость плана определяется разрешённой частотой проверок по заданной тематике, возможностью проведения одновременных проверок одной организации, наличием ресурсов для проведения проверки, тематикой и результатами предыдущих проверок и т.д.

Применение предложенных в работе методов мониторинга позволяет пользователям системы оперативно обнаруживать конфликтующие контрольные мероприятия, нарушающие условия допустимости плана, что повышает оперативность процесса планирования. Использование предложенной в работе информационной модели предметной области позволяет подключать ряд новых критериев планирования без изменения программного кода системы, что снижает материальные и временные затраты, необходимые для адаптации системы планирования контрольных мероприятий к изменяющимся требованиям пользователей.

В приложениях представлены документы, подтверждающие внедрение результатов диссертационной работы, описание структур разработанных информационных систем мониторинга.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ 1. Разработаны формальная теоретико-множественная модель многокомпонентной системы мониторинга, а также объектная модель для проектирования информационных систем, в которой специфика предметной области изолирована в формальной модели знаний предметной области;

2. Проведён анализ существующих формальных моделей представления знаний предметной области. На основании проведённого анализа выбрана формальная модель представления знаний предметной области для использования в интеллектуальных алгоритмах систем мониторинга;

3. Разработаны методы интеллектуального анализа и обработки экспертной информации с использованием формальной модели знаний предметной области, включая способ оценки неопределённости характеристик объектов мониторинга и алгоритм кластеризации объектов мониторинга для формирования гипотезы о характере внешнего воздействия;

4. Разработаны проект и прототип программного комплекса, включающего в себя элементы перечисленных моделей и алгоритмов, осуществляющего сбор экспертных оценок состояния объектов и их интеллектуальную обработку с использованием проблемно-ориентированных семантических графов для систем мониторинга распространения вирусного гепатита и планирования контрольных мероприятий в сфере транспортной безопасности.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИОННОЙ РАБОТЫ 1. Баканова Н.Б., Гурвиц А.Л., Цапаева Ю.А., Сурпин В.П. Создание корпоративной системы сбора и анализа информации на основе Веб-технологий // Труды Международного семинара «Распределенные компьютерные и телекоммуникационные сети». М.: ИППИ РАН, 2005. С. 193-196.

2. Сурпин В.П., Волчков Д. В. Проектирование структур данных для комплекса сбора оперативной информации о случаях заболеваний // Информационные технологии и системы: Сборник трудов. М.: ИППИ РАН, 2008. С. 126-128.

3. Сурпин В.П. Проектирование комплекса сбора оперативной информации о случаях заболеваний // III Всероссийская молодёжная конференция по проблемам управления: Сборник трудов. М.: ИПУ РАН, 2008. С. 283-284.

4. Сурпин В.П. Разработка подсистемы ведения классификаторов корпоративной информационной системы // «Информационные технологии». 2009. №11. С. 2327.

5. Сурпин В.П. Алгоритм анализа входных данных для крупномасштабной системы сбора медицинской статистики // Управление развитием крупномасштабных систем: Материалы Четвёртой международной конференции. М.: ИПУ РАН,.

2009. Т. 2. С. 283-284.

6. Сурпин В.П.. An approach to data validation based on lifecycle-bounded metadata // Proceedings of the 4th Spring Young Researchers’ Colloquium on Software Engineering. М.: ИСП РАН, 2009. С. 33-36.

7. Сурпин В.П. Нефункциональные требования и методология быстрой разработки приложений. Подход к прогнозированию производительности // Управление развитием крупномасштабных систем: Материалы Четвёртой международной конференции. М.: ИПУ РАН, 2010. Т. 2. С. 204-206.

8. Сурпин В.П. Применение методов сетей массового обслуживания в задаче распределения ресурсов «облачных» систем // Информационные технологии и системы – 2011: Сборник трудов. М.: ИППИ РАН, 2011. С. 227-29. Сурпин В.П. Метод тестирования гипотез о динамике информационных процессов в сложных системах // Обозрение прикладной и промышленной математики. 2011. Т. 18, Вып. 2. С. 334.

10. Сурпин В.П. Мониторинг многокомпонентных систем: предметно-независимые модели и методы // Информационные процессы. 2011. Т. 11. Вып. 3. С. 378-393.







© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.