WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

а) полнофункциональная обработка используемых в системе сильно разнородных метаданных требует наличия универсальной настраиваемой системы, которая поддерживает декодирование и преобразование всех наиболее распространенных форматов документальных данных (в том числе метаданных);

б) для обеспечения возможности отбора необходимых метаданных нужна базовая информационно-поисковая система с развитыми возможностями контекстного поиска.

Глава 3. Система преобразования данных и информационно-поисковая система.

В последнее время задаче преобразования документальных данных описательного характера в литературе уделяется крайне мало внимания. Во многом это связано с тем, что на современном этапе развития информационных технологий практически все данные генерируются в формате XML, для которого разработан универсальный язык преобразований XSLT (сейчас в версии 2.0). Наличие этого языка снимает все синтаксические проблемы преобразования, но проблема содержательного преобразования данных остается. Кроме того, фактом является наличие громадных массивов документальных данных в самых разнообразных форматах, от широко известных и распространенных типа MARC до самых экзотических корпоративных. Данные в этих форматах генерируются до сих пор, поскольку используются программные средства, созданные 20-30 лет назад. Таким образом, задача создания универсальной настраиваемой системы преобразования данных является весьма актуальной.

Под универсальностью в данном случае понимается возможность использования системы для преобразования как большинства из существующих форматов, так и для генерации специальных новых, а под настраиваемостью – возможность тонкой настройки этих преобразований.

Построена абстрактная двухуровневая модель документальных данных, которая представляет существующий формат, как логическую и физическую компоненты.

Рассматриваются ее достоинства и недостатки. Показано, что данная модель может быть с успехом использована для построения оптимизирующего самонастраивающегося алгоритма преобразования. Для формирования этого алгоритма привлекаются методы динамического программирования, поскольку в контексте модели система преобразования данных представляет собой граф, в узлах которого находятся логические компоненты форматов, а ребра описываются таблицами преобразования данных.

Таблицы преобразования данных представляют собой семантико-синтаксические структуры, определяющие, как наиболее общие операции преобразования (объединение полей и отдельных лексем, выборка поля по его наполнению, контроль длин полей, разбиение полей и т.п.), так и вполне конкретные правила преобразования конкретных данных. Приводится ряд нетривиальных правил для обработки данных наиболее общих типов – дат, ключевых слов, словарных и т.п.

Известно, что описательная документальная информация очень часто содержит такое количество разнообразных символов, которое не может быть представлено никакими кодировками стандартов ANSI или ISO. В настоящее время такая информация представляется в кодировке UNICODE, однако большое количество ранее разработанных форматов данных используют другие, зачастую корпоративные способы кодирования специальных символов.

Одним из таких форматов является формат представления символов, разработанный в ВИНИТИ РАН. На его примере рассматриваются вопросы сопоставления различных символьных алфавитов.

Одним из наиболее важных аспектов при информационном поиске, напрямую влияющим на его точность, является отображение документов на инверсный или индексный файл. Поскольку именно система преобразования данных используется, как предварительный этап в генерации инверсного файла, то исследуются вопросы построения данного отображения или «раздевания» слов.

Описанные выше компоненты системы преобразования данных обеспечивают ее базовую функциональность – без них она просто не смогла бы работать. В то же время в системе присутствуют компоненты, которые значительно повышают ее функциональность – сбор статистики и фильтрация данных.

Первая компонента глубоко интегрирована в каждый шаг преобразования и дает возможность очень детально проанализировать входные и выходные данные с точки зрения размеров полей. Таким образом, исследователю предоставляется мощный инструмент статистического анализа документальной информации. Например, можно выявить такие характеристики массива, как гистограмма распределения количества семантически значимых слов в любом поле, процент ошибочных данных для полей с фиксированной структурой и так далее. В качестве примера приводится детальная статистическая информация по одному из массивов документальной информации банка данных ВИНИТИ.

Отдельной и очень важной компонентой системы преобразования данных является возможность фильтрации данных. Эта возможность обеспечена простым встроенным языком обработки фильтров. Безусловно, этот язык не обеспечивает полный контекстный поиск, однако он дает возможность отбора документов по довольно сложным запросам и реально используется для решения ряда задач оффлайновой обработки данных. Заметим, что фильтры могут встраиваться на этапах чтения данных, их преобразования и записи раздельно.

Общая внутренняя архитектура СПД состоит из ряда внешних конфигурационных и настроечных файлов, основного модуля преобразования данных и ряда модулей генерации баз данных.

Одним из основных предназначений созданной системы преобразования данных является генерация баз данных для информационно-поисковой системы (ИПС).

Рассматривается структура и основные особенности разработанной ИПС. Обобщенная архитектура ИПС приведена на рисунке 3.1.

Показаны основные модули и взаимосвязи, определяющие в общих чертах реальную архитектуру ИПС. Ряд модулей и взаимосвязей на рисунке не отображены, в частности, это модули, управляющие загрузкой, модификацией и удалением данных и т.п.

Описываются все составные компоненты информационно-поисковой системы. В частности, большое внимание уделяется подходам к структуризации данных, оцениваются потенциальные скоростные и объемные характеристики баз данных.

Представлена методика внутреннего преобразования данных, позволившая использовать возможности ИПС для построения современных распределенных систем.

Рассматриваются различные модели взаимодействия созданной ИПС с разными языковыми средами, что дает возможность интеграции ее с программными комплексами всех уровней.

Отдельное внимание уделено лексической компоненте ИПС, позволяющей учитывать морфологию русского языка при поиске, анализе запросов и иных ситуациях.

ONLINE SQL Perl, PHP CD ROM поиск поиск Оболочка API ИПС Модуль Модуль Модуль поиска словаря доступа Модуль к данным преобразован ий Ядро ИПС Модуль связи с СУБД Доступ к Доступ к Доступ к хит-листам словарю данным Хит-листы Данные Внешняя СУБД Статический Динамический словарь словарь Рис. 3.1 Общая архитектура информационно-поисковой системы Оценивая в целом разработанную систему преобразования данных (СПД) и ИПС, можно сделать следующие выводы:

а) созданная СПД позволяет обрабатывать большие объемы разнообразных документальных данных (в том числе и геоинформационных) для целей их использования в ИПС и статистического анализа; эффективность СПД проверена при унификации представления архива БД ВИНИТИ (более 26 млн. документов с 1981 года), представленных в различных физических и логических форматах;

б) созданная полнофункциональная ИПС может быть использована для работы с большими (до нескольких терабайт) массивами документальной информации. Она является основной системой, обеспечивающей функционирование банка данных ВИНИТИ и используется, как базовая система хранения и поиска метаданных в науках о Земле в распределенной системе.

Глава 4. Систематизация и мониторинг глобальных геоданных и создание универсального хранилища.

С помощью описанных в предыдущих главах ИПС, системы преобразования данных, протоколов передачи метаинформации можно создать сеть взаимодействующих порталов, предлагающих пользователю доступ к богатой документальной и иллюстративной информации.

Многие существующие в сети Интернет системы этим и ограничиваются. Однако для специалистов в области наук о Земле существенную ценностью представляет информация, которую можно обрабатывать с помощью современных аналитических систем. Эта информация включает в себя цифровые данные и знания о свойствах природной среды и об инфраструктуре. Эта глава посвящена исследованию методов наполнения геоданными создаваемой распределенной информационно-аналитической системы.

Рассматриваются основные мировые хранилища геоданных, отдельные порталы и сайты в сети Интернет. Приводится их классификация по степени доступности и возможности их использования через специализированные прокси-сервисы в распределенной информационноаналитической системе.

Наиболее крупным хранилищем разнородных геоданных глобального характера является база данных и файловые хранилища американского геологического общества (U.S.

Geological Survey, USGS, www.usgs.gov ). Несмотря на свое название, эта база содержит не только геологическую информацию (она, как раз, касается в основном территории США), но и геофизическую, географическую и геохимическую информацию. Кроме того, портал содержит в себе громадное количество ссылочных данных, позволяющих хоть как-то ориентироваться в море разнородных геоданных. К сожалению, подавляющая часть информации в базе имеет описательный характер (статьи, отчеты) и, даже если в записи указано наличие картографических данных, то они имеют растровый характер (т.е. просто цифровые рисунки).

Тем не менее, небольшая часть данных содержит точные сеточные и векторные слои геоданных, которые могут быть использованы в ГИС-системах.

Вторым по значимости хранилищем геоданных можно считать мировую сеть центров данных в науках о Земле – WDCB (МЦД). Данные центры функционируют под эгидой Международного Совета по науке (МСН www.icsu.org ) и призваны обеспечивать ученых и специалистов всего мира общедоступной научной информаций в различных областях знаний.

Несмотря на то, что они отчасти выполняют свое предназначение, форма предоставления данных меняется от центра к центру и, чаще всего, имеет либо растровый характер, либо слабо структурированное текстовое представление. Последнее означает, что преобразование таких данных в формат, пригодный для использования в ГИС-системах аналитического типа, либо для любых других аналитических расчетов невозможно. Тем не менее, некоторая часть данных предоставляется в исходном структурированном виде. Так, МЦД по физике твердой Земли в Москве предоставляет доступ к оперативной сейсмологической информации, МЦД по геологии и геофизике моря в Боулдере, США, предоставляет доступ к самой разнообразной профильной информации.

Hассматриваются вопросы разработки разнообразных методов использования конкретных существующих глобальных и локальных геоданных для создания универсального хранилища в рамках распределенной информационно-аналитической системы. Общим для всех этих методов является то, что они предназначены для выборки данных по параметрам, задаваемым пользователем, и унификации их форматов.

Первым методом является «регионализация» глобальных данных, что позволяет резко ограничить объем передаваемой в сети информации. Причем, если для сеточных данных это делается просто «вырезанием» блока данных из бинарного файла, то для векторных данных с атрибутивной информацией алгоритм гораздо сложнее и требует привлечения методов вычислительной геометрии. Далее рассмотрены вопросы хранения и доступа к следующим геоданным:

а) глобальная модель топографии Земли;

б) глобальная карта гравитационных аномалий в свободном воздухе;

в) карта магнитных аномалий на территории бывшего СССР;

г) глобальная карта сейсмической опасности (пиковых ускорений);

д) мощность осадочного чехла Земли;

е) глобальная карта геологических разломов;

ж) векторная гидрография Европы и Азии (водные потоки и бассейны).

Поскольку все указанные данные являются относительно статичными и слабо параметризованными, то для хранения первичной информации по ним может использоваться любой узел (портал) распределенной системы.

Второй метод обработки используется для геостатистической, географической и геологической информации. Эта информация параметризована значительно больше. Приведем несколько примеров: глобальные данные о населенных пунктах (world gazetteer), каталог географических наименований и объектов, глобальный каталог полезных ископаемых. По сути дела такие данные представляют собой не только и не столько картографическую информацию, но базы данных с большим количеством элементов данных и несколькими таблицами с установленными реляционными связями. Для использования этих данных в распределенной системе предложено загружать их в СУБД какого-либо узла (портала). Для генерации региональной картографической информации на основе задаваемых пользователем параметров для использования в ГИС-системах и аналитических расчетах созданы алгоритмы генерации векторных данных с атрибутивной информацией по результатам выполнения SQL запросов. В отдельных случаях требуется создание дополнительных таблиц для адаптации данных к использованию их российскими учеными и специалистами. Последнее связано с тем, что подавляющее число указанных данных не содержат никакой кириллической информации, поскольку генерируется, как правило, в США. В настоящий момент хранилище распределенной системы содержит следующие базы данных:

а) зеркальную копию глобального каталога минеральных ресурсов (MRDS, Mineral Resources On-Line Spatial Data, http://mrdata.usgs.gov );

б) выдержку из глобального каталога географических наименований объектов Земли (Geographic Names Data Base, www.nga.mil ):

в) базу данных по населенным пунктам Земли, собранную из различных источников (в том числе и по данным переписи населения России):

г) базу данных по историческим цунами (NGDC tsunami database, www.noaa.ngdc.gov ) и некоторые другие, региональные базы данных.

Третий подход к использованию глобальных геоданных предложен для случаев, когда критически важна оперативность информации. Для этих случаев разработаны методы оперативного получения и преобразования геоданных без предварительной их загрузки в хранилище. Фактически эти методы представляют собой специализированные прокси-серверы.

Два наиболее важных примера картографических слоев данного типа это:

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.