WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     || 2 | 3 |

На правах рукописи

Привезенцев Алексей Иванович ОРГАНИЗАЦИЯ ОНТОЛОГИЧЕСКИХ БАЗ ЗНАНИЙ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ОПИСАНИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ В МОЛЕКУЛЯРНОЙ СПЕКТРОСКОПИИ Специальность 05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Томск – 2009

Работа выполнена в Институте оптики атмосферы СО РАН

Научный консультант: кандидат физико-математических наук, старший научный сотрудник Фазлиев Александр Зарипович

Официальные оппоненты: доктор технических наук, профессор Янковская Анна Ефимовна;

кандидат технических наук, старший научный сотрудник Загорулько Юрий Алексеевич

Ведущая организация: Новосибирский государственный университет

Защита состоится «17» декабря 2009 г. в 10 час. 30 мин. на заседании диссертационного совета Д 212.267.08 по адресу: 634050, г. Томск, пр.

Ленина, 36, корп. 2, ауд. 102, Томский государственный университет.

С диссертацией можно ознакомиться в научной библиотеке Томского государственного университета по адресу: 634050, г. Томск, пр. Ленина, 34а.

Отзывы на автореферат (2 экз.), заверенные печатью, высылать по адресу: 634050, г. Томск, пр. Ленина, 36, ученому секретарю ТГУ.

Автореферат разослан 16 ноября 2009 г.

Ученый секретарь диссертационного совета, д.т.н., профессор А.В. Скворцов 2

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертационной работы.

Молекулярная спектроскопия является одним из широко используемых во многих прикладных исследованиях разделов физики. Предметом изучения молекулярной спектроскопии являются спектральные свойства молекул. Детальное изучение спектральных свойств молекул не закончено до сих пор. Связано это с тем обстоятельством, что в расчетах физических характеристик атмосферы используются сотни тысяч линий, каждая из которых описывается десятком параметров. В молекулярной спектроскопии постоянно публикуется огромное количество сложных результатов измерения или расчетов спектров – результаты решения предметных задач. Решаются предметные задачи для расчёта сотен миллионов линий, проводятся эксперименты с помощью современной техники для измерения спектров, которая позволяет получать данные с большей точностью и в тех диапазонах длин волн, в которых ранее измерения не проводились. Также растет число исследовательских групп. Кроме увеличения объёма спектральных данных постоянно меняется структура представления данных, как с предметной точки зрения так с технической реализации. Например, за почти сорокалетнюю историю одна из ведущих групп экспертов по спектроскопии, поддерживающая базу данных HITRAN, несколько раз модифицировала как набор физических сущностей, так и формат документов и файлов, в котором хранятся данные. Все это указывает на необходимость сбора, хранения, обработки и распространения информации с использованием современных подходов для коллективной работы на базе информационных систем в сети Internet.

На данный момент, для работы с этой информацией создаются специальные базы постоянно пополняющихся спектральных данных:

HITRAN, GEISHA, VALD, CDMS, BASECOL, STSP. Работа с такими массивами данных требует, с одной стороны, предметной систематизации данных, с другой стороны, программных средств для их автоматизированной обработки, включающей программную интеграцию и структурирование разнородных ресурсов из различных предметных областей, а также возможность подготовки данных для решения прикладных задач в смежных предметных областях: астрономии, атмосферной радиации, оптики атмосферы. Поэтому, на основе этих баз данных создаются информационные системы. Несмотря на это, для молекулярной спектроскопии характерны следующие информационные проблемы, не решаемые в существующих информационных системах:

- для коллективной работы в информационной системе у пользователя отсутствует возможность самостоятельного формирования структуры массивов спектральных данных и их наполнение конкретными значениями, проведения на их основе расчетов и сравнения с результатами экспериментов;

- базы спектральных данных могут содержать недостоверные данные, что снижает их научную ценность;

- имеется неопределенность в информации о собранных данных, об их способах получения;

- существующие информационные системы не дают средств для автоматизированного программного анализа информации о данных и её последующей логической машинной обработки, необходимой для построения Semantic Web.

Идея Semantic Web состоит в машинной логической обработке семантики информационных ресурсов, имеющихся в сети Internet, для автономного решения интеллектуальных задач. Для решения таких задач должны использоваться специализированные интеллектуальные программы-агенты, которые предлагают решения, используя базу знаний, основанную на онтологии (онтологическую базу знаний). Для организации онтологий консорциум W3C, разрабатывающий Semantic Web, определил в качестве спецификации язык OWL DL.

Активные исследования по представлению знаний в виде онтологии начались в начале 1990-х и продолжаются до сих пор. Среди большого количества работ можно выделить M.R. Genesereth, T.R.

Gruber, N. Guarino, R. Mizogushi, J.F. Sowa, R. Studer. Актуальные исследования онтологий в рамках Semantic Web представлены в работах I.A. Horrocks, D.L. McGuinness, P.F. Patel-Schneider. Среди отечественных публикаций существует разнообразие подходов к представлению знаний в виде онтологий, и исследования в данной области активно ведутся И.Л. Артемьевой, Е.М. Бенеаминовым, В.И. Воробьевым, Б.В.

Добровым, Т.А. Гавриловой, Н.Г. Загоруйко, Ю.А. Загорулько, Л.А.

Калиниченко, А.С. Клещевым, Н.В. Лукашевич, Д.Е. Пальчуновым, А.Ф. Тузовским, В.Ф. Хорошевским. Большое количество публикаций в данной области указывает на решение разнообразных задач с помощью баз знаний, основанных на онтологиях.

Онтологические базы знаний позволяют осуществлять открытое представление машинно-обрабатываемых знаний, что позволяет повысить эффективность коллективной работы ученых в своих узкоспециализированных предметных областях. Так как они дают возможность учёным строить собственные концептуализации предметной области и проверять согласованность своих знаний с другими экспертными публикуемыми знаниями. Кроме этого ученые, анализируя получаемое знание о результатах решения предметных задач, могут своевременно реагировать на важные сведения, например о некорректных данных.

Кроме того, использование онтологических баз знаний для описания разнородных данных в рамках научных информационновычислительных систем позволяет решать задачи классификации, интеграции, поиска и сравнения информационных ресурсов.

В настоящее время в молекулярной спектроскопии в рамках научных информационно-вычислительных систем отсутствуют машинно-обрабатываемые базы знаний.

На основе всего вышеперечисленного можно сделать вывод о том, что исследование подхода к организации онтологической базы знаний по молекулярной спектроскопии имеет научную и практическую актуальность.

Цель диссертационной работы: разработка и исследование подхода к построению в рамках научной информационновычислительной системы онтологических баз знаний для описания разнородных данных молекулярной спектроскопии, извлечённых из научных публикаций и проверяемых на достоверность.

Для достижения цели диссертационной работы решаются следующие задачи:

1. Создание информационных моделей для представления данных и знаний в области молекулярной спектроскопии.

2. Разработка структур данных для информации, извлеченной из научных публикаций по спектроскопии молекул, допускающих автоматическую проверку целостности данных и необходимых для обмена между интеллектуальными агентами.

3. Создание терминологической компоненты (TBox) онтологической базы знаний для представления знаний в области молекулярной спектроскопии.

4. Разработка алгоритма формирования онтологического описания опубликованных данных с целью построения набора фактов в базе знаний по молекулярной спектроскопии, содержащих знания о их первоисточниках и достоверности.

5. Реализация программного обеспечения, созданного на основе разработанного алгоритма онтологического описания информационных ресурсов и практического использования этого описания в НИВС по спектроскопии молекул воды.

6. Реализация фактографической компоненты (ABox) онтологической базы знаний по описанию опубликованных данных спектроскопии молекул воды.

Объектом исследования являются структуры данных и модели представления знаний в информационных системах по молекулярной спектроскопии.

Предметом исследования являются подходы и алгоритмы создания баз знаний и систем управления ими в научных информационновычислительных системах по молекулярной спектроскопии.

Методы исследования. В ходе диссертационного исследования были использованы методы онтологического моделирования, теории множеств, дескриптивной логики, объектно-ориентированного проектирования и программирования.

Научная новизна диссертационной работы заключается в следующем:

1. Впервые построена семантическая модель в виде терминологической компоненты (TBox) базы знаний, являющаяся объединением информационных моделей объектов молекулярной спектроскопии, представляющая собой решения двух цепей прямых и обратных задач спектроскопии и свойств решений этих задач, позволившая решить задачу автоматической систематизации знаний о достоверности этих решений.

2. Впервые создан алгоритм для автоматизации построения фактологической компоненты (ABox) базы знаний о решениях задач молекулярной спектроскопии и их свойствах, являющийся необходимым для машинной актуализации знаний о достоверности решений задач и применимый для всех спектральных молекул.

3. Впервые создана онтологическая база знаний спектроскопии молекул воды, в которой фактологическая компонента (ABox) содержит наиболее полную информацию о значениях параметров спектральных линий молекул воды, опубликованную в мире.

Теоретическая значимость исследования состоит в разработке онтологии спектроскопии молекул как основы для построения и проверки научных гипотез, разнообразных систематизаций знаний, интеграции знаний различных предметных областей, что открывает перспективы для постановки и решения новых предметных задач, как в молекулярной спектроскопии, так и смежных с ней областях науки, таких как астрономия, атмосферная радиация, оптика атмосферы.

Практическая ценность диссертационной работы заключается:

1. В создании наиболее полной прикладной онтологии по опубликованным данным спектроскопии молекул воды.

2. В возможности использования открытых результатов семантического описания решений задач, оформленных по стандарту OWL DL, во внешних специализированных системах по работе с онтологиями, использующих машины вывода.

3. В разработке программного обеспечения в рамках научной информационно-вычислительной системы, имеющей трёхслойную архитектуру, на основе предложенного алгоритма онтологического описания информационных ресурсов и применении этого программного обеспечения рядом ведущих исследовательских групп спектроскопистов в России (Санкт-Петербургский государственный университет, Институт прикладной физики РАН, Институт оптики атмосферы РАН).

Основные защищаемые положения:

1. Семантическая модель в виде терминологической компоненты (TBox) базы знаний, являющаяся объединением информационных моделей объектов молекулярной спектроскопии, представляющая собой решения двух цепей прямых и обратных задач спектроскопии и свойств решений этих задач.

2. Алгоритм для автоматизации построения фактологической компоненты (ABox) базы знаний о решениях задач молекулярной спектроскопии и их свойствах.

3. Программное обеспечение в рамках научной информационновычислительной системы, имеющей трёхслойную архитектуру, созданное на основе разработанного алгоритма онтологического описания информационных ресурсов и полученная с его использованием онтологическая база знаний спектроскопии молекул воды.

Апробация диссертационной работы. Все результаты работы докладывались и обсуждались на следующих научных конференциях:

IX Рабочем совещании по электронным публикациям «El-Pub2004» – Новосибирск, 23-25 сентября 2004; V Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям – Новосибирск, 1-3 ноября 2004; Международной конференции по вычислительно-информационным технологиям для наук об окружающей среде «Cites-2005» – Новосибирск, 13-23 марта 2005; X Байкальской Всероссийской конференции «Информационные и математические технологии в науке, технике и образовании» – Северобайкальск, 12-19 июля 2005; 7-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2005) – Ярославль, 4-6 октября 2005; International conference on environment observations, modeling and informational systems (ENVIROMIS-2006) – Tomsk, 1-8 June 2006; XVth Symposium on High Resolution Molecular Spectroscopy «HighRus-2006» – Nizhny Novgorod, 18-21 July 2006; Рабочем семинаре «Проблемы и решения задач в области наук о Земле в распределенной ИНТЕРНЕТ среде» – Москва, 13-15 февраля 2007; European Geosciences Union General Assembly 2007 – Vienna, 15-20 April 2007; International conference on Computational Information Technologies for Environmental Sciences «Cites-2007» – Томск, 14-25 июля 2007; Всероссийской конференции «Знания – Онтологии – Теория» – Новосибирск, 14-16 сентября 2007;

9-ой Всероссийской научной конференции «Электронные библиотеки:

Pages:     || 2 | 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»