WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 | 2 ||
  • Количество наблюдаемых страниц (шт.) – 100000, 200000, 300000.
  • Продолжительность эксперимента (ед., 1единица = 100 мсек) – 8640000 (10 дней), 17280000 (20 дней).
  • Интенсивность изменений (шт./длительность периода) – 1, 5, 10 (для 10 дней); 2, 10, 20 (для 20 дней).
  • Интенсивность запросов (шт./длительность периода) – 1, 50, 100 (для 10 дней); 2, 100, 200 (для 20 дней).
  • Вариант системы мониторинга – выбрано семь вариантов, которые определяются использованием в процессе мониторинга:
    • одного «обычного» робота (циклически скачивает подряд все ресурсы) – вариант №1;
    • одного «модифицированного» робота (циклически посылает всем ресурсам специальный HTTP запрос и при необходимости скачивает изменившийся ресурс) – вариант №2;
    • трёх обычных роботов – вариант №3;
    • трёх модифицированных роботов – вариант №4;
    • пяти обычных роботов – вариант №5;
    • пяти модифицированных роботов – вариант №6;
    • «сенсоров» – вариант №7.

Уровни второстепенных и третьестепенных факторов были зафиксированы. В результате этого, например, второстепенный фактор «Закон распределения типов изменений» принял следующий вид (см. табл.1).

Таблица 1

Закон распределения типов изменений

Наименование состояния-изменения

Ошибка 403

Ошибка 404

Ошибка 500

Уменьшение размера страницы

Увеличение размера страницы

Страница доступна (Нет изменений)

Номер

1

2

3

4

5

6

Относительная частота

0.083

0.125

0.125

0.25

0.25

0.167

В качестве дополнительных условий в эксперименте считалось, что, во-первых, каждый вариант системы мониторинга работает на единственном компьютере, а во-вторых, вычислительная мощность используемых машин одинакова у всех вариантов.

В результате применения описанного на стадии стратегического планирования алгоритма получено 378 уникальных сочетания основных влияющих факторов, каждое из которых описывает ситуацию, когда мониторингом 1 из 54 уникальных «информационных полей» занимается 1 из 7 уникальных вариантов системы мониторинга.

Основным результатом тактического планирования стало предложение проводить этап создания 54 «информационных полей» только один раз вместо положенных семи (так как имеется семь вариантов системы мониторинга). Благодаря этому решению мы имеем возможность снизить нежелательные флуктуации относительных значений критериев эффективности.

Реализация. Приведена информация о стадии подготовки программного комплекса SimCOSAR к проведению эксперимента. Эти сведения могут служить в качестве наглядной иллюстрации того, как от плана эксперимента перейти к настроенному на него программному комплексу.

В работе представлены подробные сведения, которые характеризуют использованные вычислительные мощности и затраченное время на реализацию эксперимента. Эта информация позволяет оценивать ресурсы, которые могут потребоваться для проведения экспериментов по другим планам. Например, указаны следующие факты:

  • Один прогон эксперимента по составленному плану моделирует 489888000 секунд или 5670 виртуальных дней (каждый из семи сравниваемых вариантов работал на 54 «информационных полях», суммарное виртуальное время которых равняется 69984000 секундам или 810 виртуальным дням).
  • Благодаря распределению вычислений по нескольким машинам реализация одного прогона заняла примерно два месяца (начало расчётов датировано 18/07/2003, а завершение расчётов датировано 20/09/2003, но сюда входит время и т.н. «вынужденных простоев», например, когда эксперимент переносился из компьютерных классов на персональный компьютер).
  • Если бы эксперимент осуществлялся без остановок и в каждый момент его реализации, выполнялась бы только одна операция на одной единственной машине, то продолжительность одного прогона эксперимента равнялась бы 30817758 секундам (реального времени) или примерно 357 дням.

Анализ результатов эксперимента. Было показано, что:

  • получаемые значения основных (Freshness, Sumsize) критериев эффективности системы мониторинга действительно зависят (чувствительны к изменению) от значений выбранных (ChangeIntensity, RequestIntensity, PageCount, ModelTime) факторов. Для этого использовались финальные значения критериев эффективности (таблицы представлены в приложении 3), таблица коэффициентов корреляции (построенная в SPSS на основе данных приложения 3), а также использовалось графическое (например, Рис.4) представление числовых данных, которые замерялись с некоторой периодичностью в каждом опыте;
  • получаемые значения переменных Freshness и Sumsize действительно помогают оценить относительную эффективность нескольких (даже принадлежащих разным концепциям) вариантов системы мониторинга. Для этого был построен частный рейтинг эффективности вариантов, которые принадлежат концепции роботов (в порядке убывания эффективности – №6, №4, №2, №1, №3, №5). Также было показано, в каких случаях вариант №7 занимает лидирующее положение в общем рейтинге вариантов, а в каких явно его уступает.

Рис. 4. Хроники изменений значений критериев эффективности для варианта №7

В заключении сформулированы основные результаты диссертационной работы и намечены дальнейшие пути развития исследования.

В приложениях приводятся:

  • основные компоненты поисковых систем (приложение 1);
  • сведения о затраченном в ходе моделирования времени и обработанных объёмах данных (приложение 2);
  • финальные (замеренные в последний момент модельного времени) значения критериев эффективности (приложение 3);
  • значения второстепенной переменной MaxProcessing (приложение 4).
  • листинг модуля SimRobot.py (приложение 5);
  • листинг модуля SimSensor.py (приложение 6);
  • акты о внедрении (приложение 7).

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

При выполнении диссертационной работы получены следующие основные результаты.

  1. Предложена новая классификация стратегий мониторинга информационных полей Internet. В качестве классифицирующего признака выбрана информация о месторасположении модуля системы мониторинга, который отвечает за обнаружение изменений в информационных ресурсах.
  2. Использование введённой классификации позволило предложить новый (не упоминавшийся в публикациях ранее) алгоритм мониторинга, который основан на «сенсорах» (программных модулях), которые «слушают» трафик Web-сервера.
  3. Выявлены (в ходе анализа публикаций) критерии эффективности, которые пригодны для сравнения любых вариантов системы мониторинга: «свежесть» накопленной системой мониторинга информации и объём данных, которые передаются с Web-серверов на головной сервер мониторинга.
  4. Предложена математическая модель процесса мониторинга.
  5. Разработаны имитационные модели двух вариантов системы мониторинга. Во-первых, системы, которая использует одного обычного робота для циклического скачивания всех информационных ресурсов информационного поля. Во-вторых, системы, которая использует сенсоры для обнаружения изменений состояния информационных ресурсов и которая после поступления от сенсора «сигнала тревоги» немедленно скачивает изменившийся ИР.
  6. На базе языка программирования Python, БД MySQL, библиотеки классов дискретно-событийного моделирования SimPy и имитационных моделей разработан программный комплекс SimCOSAR для компьютерного моделирования работы вариантов системы мониторинга, которые используют роботов, «модифицированных роботов», сенсоры.
  7. В ходе компьютерного экспериментирования с комплексом SimCOSAR получены числовые данные, после анализа которых:
    1. признано, что они адекватно отражают характеристики протекающих процессов (так как очевидно, что смоделированные ситуации можно воссоздать в практических условиях);
    2. получены новые знания (например, составлен рейтинг вариантов) об относительной эффективности семи вариантов системы мониторинга в широком (54 ситуации) диапазоне рабочих нагрузок – сенсорную систему мониторинга рекомендуется внедрять для наблюдения за ИР, которые имеют интенсивность посещений большую, чем интенсивность изменений, а для наблюдения за ресурсами, у которых интенсивность изменений превышает интенсивность посещений, рекомендуется использование систем мониторинга основанных на модифицированных роботах;
    3. признано, что комплекс применим (следовательно, применимы и модели, на которых он основан) для получения числовых данных, которые необходимы при сравнении различных вариантов системы мониторинга.
  8. Полученные в эксперименте данные помогли принять решение о начале реализации сенсорной системы для мониторинга информационного поля Омского государственного университета.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

  1. Земсков И.А. Технологические аспекты повышения эффективности поиска информации в сети Интернет / Материалы VI рабочего совещания по электронным публикациям "El-Pub2001". Новосибирск. 2001. [Электронный ресурс]. Режим доступа: http://www-sbras.nsc.ru/ws/list_doc.dhtmlru+28+27+S.
  2. Земсков И.А. О концепции индексации информационных ресурсов сети Интернет//Математические структуры и моделирование. Омск. 2001. Вып.8. С.126-131.
  3. Земсков И.А. Сбор информации о доступных ресурсах Интернет // Математические структуры и моделирование. Омск. 2002. Вып.9. С.168-178.
  4. Земсков И.А. Имитационное исследование концепций сбора информации для индексов поисковых систем // Математические структуры и моделирование. Омск. 2002. Вып.10. С.172-191.
  5. Земсков И.А. SIMCOSAR: Программный комплекс моделирования процесса мониторинга состояния информационного поля Интернет // Математические структуры и моделирование. Омск. 2003. Вып.11. С.128-157.
  6. Земсков И.А. Мониторинг информационного состояния единой образовательной информационной среды / Труды X Всерос. научн.-метод. конф. Телематика’2003. Санкт-Петербург. 14-17 апреля 2003 г. Т.1. С.198-199.
  7. Земсков И.А. Использование «сенсоров» для мониторинга состояния информационного поля Интернет // Вестник Омского университета. 2003. Вып.3. С.143-144.
  8. Zemskov I. Using sensors in the web crawling process (Использование сенсоров в процессе мониторинга Web). [Electronic resource]. Mode of access: http://arXiv.org/abs/cs/0312033.

Подписано в печать 04.04.05. Формат 60х84 1/16.

Печ. л. 1,25. Уч.-изд.л. 1,25. Тираж 100 экз. Заказ 31

Полиграфический центр КАН

644050, Омск-50, пр. Мира, 32, к.11, тел. (3812) 65-47-31

Лицензия ПЛД № 58-47 от 21.04.97 г.

Pages:     | 1 | 2 ||






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»