WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 |

Центральным компонентом системы является автоматически пополняемая коллекция веб-страниц по геоинформационной тематике. Ее целью является предоставление посетителю системы возможности полнотекстового поиска информации по веб-документам, имеющим отношение к геоинформационной и смежным тематикам. Пополнением коллекции занимаются интеллектуальные сетевые роботы (спайдеры) – специальные программные модули, которые посещают веб-ресурсы и скачивают размещенную на них информацию.

Первый тип спайдеров – «спайдеры каталога» посещают и помещают в коллекцию все веб-страницы с ресурсов, входящих в Интернет-каталог. Тем самым решается задача полнотекстового поиска по известным информационным источникам. Другой тип спайдеров – «поисковые спайдеры» путем последовательного рекурсивного обхода Интернет-адресов “обследуют” остальную, большую часть Сети, находя в ней веб-страницы, релевантные геоинформационной тематике. Таким образом, поисковая система охватывает информацию с ранее неизвестных Интернет-ресурсов (не включенных в каталог), но имеющую ценность для специалистов в рассматриваемых областях. Реализация «поисковых спайдеров» сложнее чем «спайдеров каталога», так как они определяют соответствие информации тематике, и имеют специализированную стратегию обхода Интернет-ресурсов, максимизирующую число релевантных веб-документов, обнаруживаемых в единицу времени.

После скачивания из сети Интернет, веб-страницы классифицируются согласно рубрикатору. Эту задачу решает модуль рубрицирования, который, анализируя текст веб-страницы, определяет рубрики, максимально близкие к ее содержанию. В режиме поиска пользователь может совмещать полнотекстовый поиск по запросу и фильтрацию поисковых результатов по конкретной рубрике.

Модуль анализа геопространственного контекста локализует веб-документ на основании его текста. Для этой цели применяются особые базы данных – электронные газеттиры, которые позволяют соотносить топонимы (географические названия) с областью на базовой карте. Находя в тексте топонимы и используя такой газеттир, модуль пытается определить геопространственный контекст, выражаемый некоторой совокупностью областей на базовой карте, с указанием точных географических координат.

Иными словами, модуль строит геопространственный индекс для коллекции, который дополняет традиционный текстовый индекс. В режиме поиска два индекса используются совместно, и результаты поиска соответствуют как текстовому, так и пространственному запросу.

Указание пространственного запроса может осуществляться как в текстовом виде (отдельная строка для ввода топонимов, как указателей на локализацию поиска), либо на электронной карте.

Модуль поиска файлов геопространственных данных является дополнительным сервисом, имеющим большую важность для ГИС-специалиста. Цель модуля состоит в том, чтобы во время посещения веб-страниц сетевыми роботами, пополняющими коллекцию, осуществлять обнаружение на этих страницах ссылки на файлы геоданных. Найденные файлы скачиваются, помещаются в хранилище системы и становятся доступными для поиска.

Обнаружение геоданных осуществляется по расширению файлов, на которые указывает URL гиперссылки, например http://server.ru/data/map.shp. Модуль производит сравнение с наиболее распространенными типами файлов ГИС: в первую очередь стандартизованных форматов GeoTIFF и ESRI Shapefile, а также с другими распространенными форматами (MapInfo, ArcGIS, ГИС «Панорама» и другими). Вследствие большого размера, файлы геоданных обычно размещают в виде архивов (zip, rar и др.). Этот факт также должен учитываться модулем, так как данные форматы широко распространены в Сети.

Новостной интегратор по геоинформационной тематике предназначен для предоставления специалисту в области ГИС технологий средства оперативного мониторинга и анализа событийного информационного потока. Под новостной информацией здесь понимаются как непосредственно новости, так и анонсы семинаров, конференций, проектов, программного обеспечения, то есть любая информация, обладающая схожими характеристиками.

Высокая степень изменчивости новостной информации требует постоянного контроля изменений информационных источников. Поэтому требуется механизм, который бы постоянно опрашивал зарегистрированные в системе новостные каналы, извлекал обновления и предоставлял их пользователям системы в виде интегрированной тематической новостной ленты.

В настоящее время в Интернете получил широкое распространение RSS- формат обмена анонсами новостной информации, основанный на стандарте XML. RSS – это стандарт на представление анонсов новостей в структурированном виде. Любой новостной источник может реализовать представление своей новостной ленты в формате RSS и, тем самым, позволить сторонним системам удобно работать с данной лентой.

Однако анализ веб-ресурсов по геоинформатике и смежным областям показал крайне малое количество ресурсов, поддерживающих RSS. В связи с этим задачей модуля является сбор новостной информации как из RSS каналов, так и непосредственно с новостных разделов веб-ресурсов (путем прямого чтения кода веб-страницы), ее обработку и представление пользователю.

В виду того, что новость также является веб-документом, она помещается в коллекцию наряду с другими веб-документами, проходя процедуры фильтрации и рубрицирования. После сохранения в коллекции полные тексты новостей становятся доступными для осуществления полнотекстового поиска.

Модуль поиска в онлайн-библиотеках предназначен для поиска в так называемой скрытой части Интернет (hidden web). Особенностью этого типа информации является то, что она не может быть непосредственно считана с веб-страницы, а выдается посетителю только в ответ на заранее сформированный поисковый запрос, с использованием интерфейса такой онлайн-библиотеки. Спайдеры не могут индексировать эту информацию, поскольку для этого требуется некоторым образом опрашивать данную БД.

Но в таких БД часто содержатся огромные массивы информации, важные для предметной области и специалистов. Перспективным является вариант метапоиска, когда поисковый запрос пользователя унифицируется и направляется на несколько таких онлайн-библиотек, а поисковые результаты от каждой из них объединяются и представляются пользователю единым списком.

Взаимодействие пользователя с информационно-поисковой системой осуществляется при помощи интегрированного поискового интерфейса. Сформулировав свою информационную потребность, пользователь запускает механизм поиска по всем типам данных: Интернет-каталогу, коллекции веб-документов, файлам геоданных, новостной информации. Такая портальная организация работы с системой позволяет одновременно познакомиться с различной информацией, отвечающей информационной потребности, не проводя несколько итераций поиска по разным типам данных.

Третья глава посвящена проектированию моделей и алгоритмов реализации компонентов специализированной информационно-поисковой системы.

В проектировании Интернет-каталога первоначально требовалось определить структуру рубрикатора информации. Для этого были проанализированы рубрикаторы крупных порталов по геоинформационной и смежным тематикам, а также анализ информационного поля, проведенный в главе 1. Каждый ресурс в каталоге может относиться к нескольким рубрикам.

Рубрики верхнего уровня выглядят следующим образом:

  • ГИС
  • Геодезия
  • Землеустройство
  • Картография
  • GPS
  • Образование и наука
  • Организации/власти/комитеты
  • Власть/комитеты

Была разработана карточка метаописания ресурса, в соответствии с требованиями стандарта на описание информационных источников – Dublin Core Metadata Set (DC). Основные поля метаописания: URL, наименование, аннотация, создатели/владельцы, доступ, авторские права, язык, доступность.

Разработаны процедуры регистрации ресурсов в каталоге: составление заявки на регистрацию, рассмотрение заявок администратором каталога, принятие решения по заявке. Для принятия решения по включению конкретного ресурса в каталог администратор оценивает качество ресурса, заключающегося в удовлетворении ряду требований качественного, количественного характера, эргономичности ресурса, подробно перечисленных в тексте диссертации.

Была произведена разработка интерфейса каталога, дающего возможность выполнения всех операций при работе с каталогом, как пользователям каталога, так и его администраторам.

Для рейтингования ресурсов в каталоге используется анализ их посещаемости, для чего на каждый веб-сайт предполагается устанавливать специальный html-код (счётчик). Рейтингование помогает пользователям в оценке авторитетности ресурса и, соответственно, качества получаемой информации.

Разработка коллекции веб-документов составила основу проектирования системы. Принципиальным вопросом явилась разработка модуля пополнения коллекции веб-страницами по указанной тематике, размещенными в Интернет.

Модуль пополнения должен обеспечивать:

  • фильтрацию веб-страниц, нерелевантных предметной области, с целью формирования коллекции только из “полезных” страниц;
  • сфокусированный обход Интернет-ресурсов, направленный на посещение в единицу времени максимального количества полезных страниц, поскольку, вследствие огромного размера Интернет, посещение всех веб-страниц не представляется возможным.

Для сканирования сети Интернет применяются специальные сетевые роботы (спайдеры). Это программы, которые путем рекурсивного обхода веб-ресурсов по гиперссылкам считывают содержимое веб-страниц, очищают их от разметки, выделяют чистый текст, гиперссылки на странице и сохраняют информацию в некую БД. Важный атрибут спайдера – это применяемая стратегия обхода, то есть критерий выбора следующего ресурса для посещения из множества уже обнаруженных роботом, но еще не посещенных ресурсов.

Критерий выбора определяется задачей робота. В нашем случае требуется спайдер, имеющий целью сбор в первую очередь тех страниц, которые относятся к геоинформационной тематике. Следовательно, ранжирование ссылок в очереди спайдера должно опираться на оценку потенциальной релевантности конкретного URL адреса для системы.

Перед поисковыми роботами стояли две задачи:

  • индексирование веб-ресурсов каталога (известных системе ресурсов);
  • индексирование веб-страниц на ресурсах вне каталога (неизвестных).

Первую задачу в модуле пополнения коллекции решает спайдер каталога, а вторую – поисковые спайдеры. Спайдер каталога, в качестве стартовых адресов, принимает адреса главных страниц веб-ресурсов из Интернет-каталога.

Спайдер каталога использует простейшую стратегию обхода «в глубину», ссылки посещаются в том порядке, в каком они были обнаружены на веб-страницах. Поскольку данные ресурсы считаются априорно релевантными, то и веб-страницы, принадлежащие им, также считаются “полезными” для системы. Таким образом, спайдер каталога не выполняет фильтрацию страниц и управление очередью, что повышает его производительность. Это позволяет чаще переиндексировать каталог и поддерживать актуальность индекса.

Поисковые спайдеры запускаются от каждой рубрики каталога, имеют задачу сбора веб-страниц, относящихся к своей рубрике, и в качестве стартовых URL принимают все внешние ссылки, найденные спайдерами каталога для веб-ресурсов из этой рубрики. Поисковый спайдер имеет специализированную стратегию обхода, основанную на том, что каждый URL в очереди непосещенных ссылок принимает оценку, заключающуюся в его потенциальной полезности для рубрики, в рамках которой работает робот. Оценки постоянно пересчитываются под влиянием новых документов, посещаемых спайдером, а очередь ранжируется в порядке убывания оценок. То есть, спайдер в первую очередь посещает страницы с максимальной оценкой релевантности для рубрики.

Рис. 2. Архитектура поискового сетевого робота (спайдера)

Поисковый спайдер выполняет грубую фильтрацию веб-документов, поскольку применение сложных фильтров существенно снизит производительность робота и всего модуля в целом. Окончательная фильтрация веб-страниц осуществляется рубрикатором на входе в коллекцию, а оценка робота рассматривается как рекомендация.

Оценка релевантности страницы основана на вычислении расстояний в рамках векторной модели информационного поиска. Робот получает тематический фильтр, а каждая посещаемая им веб-страница представляется профайлом. Тематический фильтр представляет собой вектор пар (t, Wt): термов t и их значимости в рамках рубрики, от которой запускается спайдер Wt. Профайл также представляется вектором пар (t, Ft,p): термов t и частот их использования на странице Ft,p. Оценка релевантности рассматриваемой веб-страницы к заданной рубрике определяется по формуле. Документ считается релевантным, если оценка превышает порог рекомендации L, т.е..

Фильтр, которым обладает спайдер, может уточняться под влиянием более точных оценок, которые формирует рубрикатор на входе в коллекцию. Для этого применяется механизм обратной связи между коллекцией и спайдером.

Cтратегия обхода поискового спайдера основана на оценке потенциальной релеватности URL из очереди непосещенных ссылок, по отношению рубрике. Оценка базируется на особенностях ссылочной связи в сети Интернет.

  • Механизм ссылочной связи ресурсов содержит тематическую связь. Если есть ссылка со страницы А на страницу В, то значит автор А рекомендует В на основании ее тематической близости и авторитетности.
  • Если страница А имеет ссылку на страницы В и С, то тематика страниц В и С имеют тенденцию быть схожей, причем их схожесть обратно пропорциональна близости размещенных на них ссылок на странице А.

Таким образом, оценка URL зависит от релевантности страниц, имеющих с этим URL ссылочную связь. Очередь непосещенных ссылок постоянно модифицируется под влиянием информации, которую получает робот из новой посещенной веб-страницы. Модификация заключается в добавлении в очередь новых, ранее неизвестных роботу URL, а также пересчете оценок полезности других URL в очереди, имеющих связь с текущей страницей.

Рис. 3. Рубрикация на входе в коллекцию

Финальной частью проектирования коллекции явилась разработка модуля автоматической рубрикации веб-страниц. Для каждого попадающего в коллекцию веб-документа модуль определяет набор близких к его тематике рубрик. Рубрикация совмещена с фильтрацией. Документ, не отнесенный ни к одной рубрике, считается нерелевантным и в коллекцию не включается.

Pages:     | 1 || 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»