WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     || 2 | 3 |


На правах рукописи

Земсков Илья Аркадьевич

МОДЕЛИРОВАНИЕ МОНИТОРИНГА

ИНФОРМАЦИОННОГО ПОЛЯ INTERNET

05.13.11 – Математическое и программное обеспечение вычислительных
машин, комплексов и компьютерных сетей

Автореферат диссертации на соискание ученой степени

кандидата технических наук

Омск – 2005

Работа выполнена в Омском государственном университете

Научный руководитель: доктор физико-математических наук,

профессор Гуц Александр Константинович

Официальные оппоненты: доктор технических наук,

профессор Хабаров Валерий Иванович

кандидат технических наук,

доцент Долозов Николай Лаврентьевич

Ведущая организация: Южно-Уральский государственный
университет, г. Челябинск

Защита состоится 11 мая 2005 года в 14-00 часов на заседании диссертационного совета Д 212.173.06 в Новосибирском государственном техническом университете по адресу: 630092, г. Новосибирск, пр. К.Маркса, 20.

С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета.

Автореферат разослан «___» апреля 2005 года.

Ученый секретарь

диссертационного совета Чубич В.М.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. Современные научные, образовательные центры имеют беспрецедентную возможность быстро и сравнительно дёшево знакомить региональное и мировое сообщество с результатами своей деятельности. Для этого достаточно создать один или несколько Web-серверов, на которых осуществлять электронную публикацию всех необходимых сведений. По такому пути пошли, например, в таком знаменитом научно-образовательном центре, как Стэнфордский университет (Stanford University), список серверов и сайтов которого содержит несколько сотен ссылок (http://www.stanford.edu/home/atoz). Но с ростом объёмов опубликованной на всех Web-серверах информации посетителям становится трудно ориентироваться в получившемся сегменте информационного поля, а значит трудно находить путь к требуемым сведениям. Однако, при реализации поисковой системы (ПС), владельцы сегмента информационного поля сталкиваются с многочисленными проблемами выбора.

Если осуществляется выбор готового продукта из большого количества коммерческих и свободно распространяемых программных комплексов ПС, то основной проблемой является отсутствие объективной (отличной от рекламных «фактов») информации по каждому рассматриваемому варианту (не наблюдается практика публикации числовых данных, которые характеризуют сегменты информационного поля и эффективность внедрения какой-либо системы). Поэтому потребности практики обуславливают необходимость разработки программных средств, которые позволят относительно легко (при минимальных требованиях) получить данные для объективного сравнения вариантов поисковых систем или некоторых стандартных модулей поисковых систем.

Начиная самостоятельную разработку ПС оказывается трудно осуществить выбор наиболее эффективных внутренних алгоритмов (например, алгоритмов для подсистемы мониторинга состояния информационных ресурсов). Эта ситуация усугубляется тем, что в Internet присутствует большое количество публикаций (например, можно обратиться к материалам международных ежегодных специализированных конференций: http://www2003.org/, http://www.iadis.org/icwi2003), в которых предлагаются методы совершенствования различных аспектов функционирования ПС. Помочь сделать выбор может использование методов имитационного моделирования для предварительного исследования эффективности каждого из альтернативных алгоритмов. Однако в проанализированных работах наблюдается явная нехватка не только готовых моделей, но и подходов к их построению и программной реализации.

Цель работы состоит в разработке моделей и программного комплекса на их основе, позволяющих получить данные для проведения исследований относительной эффективности функционирования различных вариантов системы мониторинга.

Для достижения поставленной цели решаются следующие задачи:

  • разработать классификацию существующих стратегий мониторинга ин-формационного поля Internet;
  • выявить набор критериев эффективности, которые могут охарактеризовать любой вариант системы мониторинга;
  • разработать математическую модель процесса мониторинга;
  • разработать имитационные модели системы мониторинга;
  • разработать программный комплекс, который предназначен для проведения дискретно-событийного имитационного моделирования систем мониторинга и который допускает быструю модификацию при исследовании непредусмотренных вариантов системы;
  • получить экспериментальное подтверждение практической применимости разработанного программного комплекса.

Методы исследования. При решении поставленных задач в работе использованы элементы математического и имитационного моделирования, а также методы и средства объектно-ориентированного программирования, баз данных.

Научная новизна. К новым результатам диссертации можно отнести:

  • предложенную математическую модель процесса мониторинга информационного поля Internet;
  • предложенную сенсорную технологию осуществления мониторинга;
  • разработанный программный комплекс имитационного моделирования системы мониторинга сегмента информационного поля Internet (в Отраслевом фонде алгоритмов и программ получено свидетельство о регистрации разработки №4255 от 24.01.2005);
  • применение разработанного программного комплекса для имитационного исследования нескольких вариантов системы мониторинга.

Практическая ценность работы заключается в возможности использования полученных научно-технических результатов при проектировании, эксплуатации, научном исследовании систем мониторинга в задачах, требующих относительного сравнения альтернативных алгоритмов и стратегий мониторинга.

Апробация работы. Результаты работы были представлены на следующих научных конференциях:

  1. X Всероссийской научно-методической конференции «Телематика’2003» (Санкт-Петербург, 2003).
  2. VI Всероссийской научной конференции молодых ученых и аспирантов «Новые информационные технологии. Разработка и аспекты применения» (Таганрог, 2003)
  3. IV Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям (Красноярск, 2003)
  4. Образование. Экология. Экономика. Информатика. VIII Международной конференции "Нелинейный мир" (Астрахань, 2003).
  5. Всероссийской научной молодежной конференции «Под знаком «Сигма» (Омск, 2003)
  6. XLI Международной научной студенческой конференции «Студент и научно-технический прогресс» (Новосибирск, 2003).
  7. VI рабочем совещании по электронным публикациям "El-Pub2001" (Новосибирск, 2001)

Также результаты работы докладывались на семинарах кафедр математического моделирования и кибернетики Омского государственного университета, на семинаре лаборатории сложных систем Омского филиала института математики им. С.Л. Соболева СО РАН, на семинаре научно-исследовательского института интеллектуальных информационных систем Тюменского государственного университета СО РАН и УрО РАН, на семинаре кафедры системного программирования Челябинского государственного университета, на семинаре кафедры системного программирования Южно-Уральского государственного университета.

По результатам выполненных исследований опубликовано 11 печатных и 2 электронных работы (одна на английском языке).

Разработанный программный комплекс SimCOSAR, а также полученные с его помощью данные были использованы в процессе проектирования систем мониторинга Web-ресурсов, что подтверждено соответствующими актами о внедрении.

Основные положения, выносимые на защиту:

  • модели системы мониторинга, которые принадлежат двум различным классам в классификации стратегий мониторинга;
  • SimCOSAR - программный комплекс дискретно-событийного имитационного моделирования систем мониторинга;
  • Результаты проведённых имитационных компьютерных экспериментов.

Структура и объём работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы и семи приложений. Общий объём работы составляет 180 страниц. Библиографический список насчитывает 97 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, изложена цель и задачи исследования, научная новизна и практическая значимость, представлены основные положения, выносимые на защиту.

В первой главе фиксируются значения используемых в работе терминов, рассматриваются основные проблемы, которые возникают перед создателями и владельцами систем мониторинга, предлагается классификация алгоритмов и стратегий мониторинга (в её основе лежат сведения о месторасположении модуля обнаружения изменений в информационных ресурсах), рассматриваются критерии эффективности систем мониторинга.

В работе под словами «информационный ресурс» (ИР) понимается файл (последовательность байт), который расположен на сервере. Внутренняя структура и тип информации (HTML, RTF, JPEG, SWF, AVI и т.п.) файла значения не имеют. Сервер обеспечивает возможность доступа к этому файлу по протоколу HTTP (т.е. используется ПО Web-сервера).

Объединение в рамках одного множества всех доступных информационных ресурсов (расположенных на некотором множестве Web-серверов) составляет информационное поле Internet. Тогда сегментом информационного поля Internet будет некоторая часть всего информационного поля Internet.

Проблемы, которые непосредственно влияют на принимаемые решения при проектировании систем мониторинга информационного поля можно разделить на два класса. В первый класс относятся проблемы связанные с «природой» ИР:

  • Большой суммарный объём (байт) всех ИР.
  • Распределение ИР между узлами сети.
  • Разное время существования ИР. Документы или файлы могут быть легко добавлены и также легко удалены в Web.
  • Динамичность изменения содержимого ИР. В зависимости от активности владельца ресурса информация может меняться от «очень часто» (раз в 30 минут или ещё чаще) до «очень редко» (раз в год или ещё реже).
  • «Доступность» ИР. Имеются в виду различные качество и стабильность функционирования коммуникационных связей между распределёнными узлами и сегментами Internet.
  • Разнородность ИР. Имеются в виду, например, различные форматы файлов или применяемые естественные языки.
  • Различное «качество» ИР. Имеются в виду проблемы профессионализма создателей, а также правовые и морально-этические проблемы.
  • «Скрытость» ИР. Здесь имеются в виду ИР для доступа, к которым нужно пройти сложную процедуру регистрации или сформировать некий запрос с помощью специальной формы.
  • Различная «популярность» и уровень «полезности» ИР.

Во второй класс относятся проблемы нагрузки на задействованные аппаратные ресурсы:

  • Минимизация нагрузки на информационный источник.
  • Минимизация нагрузки на каналы связи.
  • Оптимизация нагрузки на модули сбора и накопления информации.

Анализ публикаций показал, что исследователи-разработчики по-разному ставят приоритеты при решении обозначенных проблем. Однако все предлагаемые и используемые алгоритмы и стратегии можно распределить по трём конкурирующим концепциям: «роботов», «сенсоров», «мобильных роботов».

Концепция «роботов». Основным признаком такой системы мониторинга является сервер или кластер серверов, на которых выполняется специальный программный код (именуемый в литературе «сетевым роботом», пауком, краулером, индексатором) – «робот». Причём верно то, что

  • робот постоянно занят скачиванием ИР из доступного сегмента информационного поля;
  • очередь ИР на скачивание организуется согласно некоторой внутренней стратегии, которую задают разработчики;
  • размер доступного роботу сегмента информационного поля увеличивается за счёт ручного добавления адресов ИР или за счёт обнаружения новых адресов в уже известных ИР.

Имеется несколько наиболее популярных направлений решения проблем нагрузок:

  • Разработка специализированных роботов (имеется в виду жёсткие правила отбора ИР для их добавления в обрабатываемый сегмент информационного поля, например, когда обрабатываются ИР только по музыкальной тематике).
  • Вычисление «рейтинга» ресурсов (имеется в виду некоторая композиция значения частоты изменений ИР и его вероятной «полезности»).
  • Более полное использование стандартных средств HTTP-протокола (запрос HEAD, поле If-Modified-Since) – далее в работе соответствующие роботы именуются «модифицированные роботы».

Концепция «сенсоров». Системы мониторинга данного типа отличает потребность в установке на все принадлежащие информационному полю Web-сервера специального программного модуля, на который ложится полная ответственность за обнаружение изменений в уже известных ИР, а также частичная ответственность за обнаружение новых ИР. Причём верно то, что сведения о новом состоянии информационного источника передаются на головной узел (или всем заинтересованным в этой информации узлам Internet) системы мониторинга, где на основе этих сведений предпринимаются действия (например, принимается решение о скачивании того или иного ИР) по актуализации представления об информационном поле.

На окончательное формирование данной концепции в качестве самостоятельной концепции послужило сделанное автором данной работы предложение о встраивании в программное обеспечение Web-сервера дополнительного модуля. Модуль должен будет каждому запросу (URL каждого GET запроса может быть обработан по алгоритму md5 или аналогичному) сопоставлять ответ (обработанному md5) Web-сервера, а в результате будет обнаруживать изменения в состоянии информационного источника. В силу очевидной аналогии с применяемыми в технической практике различных сенсоров модуль назван «сенсором».

Pages:     || 2 | 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»