WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


На правах рукописи

Печников Андрей Анатольевич

РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ, МЕТОДОВ И ПРОГРАММНЫХ СРЕДСТВ ДЛЯ ИССЛЕДОВАНИЯ ВЗАИМОСВЯЗЕЙ РЕГЛАМЕНТИРУЕМЫХ ВЕБ-САЙТОВ

Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени доктора технических наук

Петрозаводск – 2011

Работа выполнена в Институте прикладных математических исследований Карельского научного центра РАН

Официальные оппоненты:

доктор физико-математических наук, профессор Елизаров Александр Михайлович доктор технических наук, профессор Кулагин Владимир Петрович доктор технических наук, профессор Путилов Владимир Александрович

Ведущая организация:

Санкт-Петербургский институт информатики и автоматизации Российской академии наук

Защита состоится «17» июня 2011 г. в 13:00 часов на заседании диссертационного совета Д 212.190.03 при Петрозаводском государственном университете по адресу: 185910, г. Петрозаводск, пр.

Ленина, д.33.

С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета.

Автореферат разослан « » 2011 г.

Ученый секретарь диссертационного совета к.т.н., доцент Р.В. Воронов 2 

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ



Актуальность темы. World Wide Web, WWW, W3, Web, Сеть, Всемирная паутина, Веб – все эти термины используются для обозначения одного явления глобального масштаба. Определим Веб как распределенную систему взаимосвязанных гипертекстовых документов, содержащихся на различных компьютерах, подключенных к Интернету. Термин «вебометрика» (webometrics) обозначает научное направление, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к Вебу (T. Almind, P. Ingwersen Informetric analyses on the World Wide Web: Methodological approaches to «webometrics» // Journal of Documentation. – 1997. – № 53 (4). – P. 404-426).

Сегодня официальные веб-сайты являются средствами для публикации открытой и доступной пользователям Веба информации и выполняют коммуникационные функции между организациямивладельцами и людьми, что полностью соответствует Берлинской декларации об открытом доступе к научному и гуманитарному знанию (http://oa.mpg.de/openaccess-berlin/berlindeclaration.html). Сказанное относится и к веб-ресурсам органов государственной власти, создание которых направлено на повышение открытости их деятельности и оказание государственных услуг в электронном виде (План реализации Стратегии развития информационного общества в Российской Федерации до 2011, http://www.infosovet.ru/actionplan). Такой взгляд на Веб требует разработки новых подходов, направленных на создание благоприятной информационной среды, способствующей доступу пользователей Веба к открытой информации.

Одним из основных вопросов вебометрики является вопрос об оценке присутствия веб-ресурсов в Вебе. Для единичного веб-сайта речь идет о таких индикаторах, как, например, количество страниц («объем») и количество гиперссылок, сделанных на него с других сайтов («узнаваемость»). Для сообщества сайтов одной тематики можно говорить о таких характеристиках, как возможность перехода по гиперссылкам с одного сайта на другой («связность») и количество таких переходов («расстояние»). Рост присутствия веб-сайтов и их сообществ влияет на их поисковые характеристики, облегчая пользователям нахождение требуемой информации. Исследования, оценивающие присутствие веб-ресурсов университетов и научных организаций, показывают существенное отставание российских сайтов от зарубежных аналогов. По данным испанской группы Cybermetrics Lab на январь 2010 года, сайт Московского госуниверситета занимал 226 место в рейтинге университетов, а портал 3  РАН – 114-е в рейтинге научных организаций в мире (www.webometrics.info). Скромные позиции российских сайтов объясняются такими причинами, как малое количество англоязычных веб-страниц, низкая активность ученых и преподавателей в формировании контента вебресурсов и недостаток внешних гиперссылок, подчеркивающий невысокую коммуникабельность в Вебе.

Веб-ресурсы органов государственной власти, научных учреждений и вузов относятся к так называемым «регламентируемым веб-ресурсам». Это означает, что существует официальный документ, в котором изложены цели и задачи веб-ресурса, основные структурные составляющие, правила изменения информации и т.д. Под управляемостью процессами в Вебе понимается реализация управленческих решений в виде пунктов регламента, определяющих их исполнение. В этом случае для единичных сайтов и их сообществ могут быть выработаны управленческие решения, направленные на улучшение их присутствия в Вебе. Однако прежде чем реализовывать управленческие решения через регламенты, необходимо пройти путь от сбора информации о присутствии и взаимосвязи веб-сайтов в Вебе до построения формальных моделей, формулировки и решения математических задач и разработки рекомендаций, сделанных на их основе.

Учитывая размерность Веба, в качестве объектов исследований принимаются фрагменты Веба, задаваемые перечислением веб-сайтов заданной тематики (т.н. «тематические целевые множества» или «тематические сообщества»). Такой подход имеет ряд недостатков, в частности, из поля зрения выпадают веб-ресурсы, не вошедшие в целевое множество, но оказывающие существенное влияние на присутствие сайтов в Вебе. Для реализации целенаправленного процесса построения расширенного объекта исследований необходимо располагать достаточно большим множеством веб-ресурсов, сформированным независимо от предпочтений исследователя, которые потенциально могут воздействовать на целевое множество посредством гиперссылок, и иметь автоматизированные процедуры отбора из него допустимых (в смысле некоторых формальных критериев) веб-ресурсов с отсевом заведомо неприемлемых. Однако на сегодняшний день не разработаны подходы к формализации понятия «фрагмент Веба», не выявлено различий между важными и второстепенными веб-ресурсами. Это делает актуальной разработку концептуальной модели, отражающей общие характеристики фрагмента Веба, описывающей его разбиение на составляющие подмножества и их свойства, и определяющей связи между этими подмножествами.

Анализ концептуальной модели позволяет перейти к использованию теоретико-графовых подходов для исследования наиболее важных 4  компонент, причем размерность такой задачи заведомо меньше, чем размерность задачи исследования фрагмента Веба в целом. Исследования зарубежного Веба показывают, что, несмотря на видимое отсутствие непосредственных управляющих воздействий на процессы взаимосвязи сайтов посредством гиперссылок, в тематических сообществах возникают компоненты сильной связности большой мощности и малого диаметра.

Такие исследования для российских фрагментов Веба на сегодня практически не проводились. Отсутствуют исследования, посвященные влиянию на связность тематических сообществ веб-сайтов, выполняющих функции посредников, которые не входят в заданное тематическое сообщество, но имеют большое количество гиперссылок, связывающих их с сайтами сообщества. Исследования связности сообществ и анализ влияния сайтов-посредников на их связность являются актуальными задачами, напрямую влияющими на присутствие тематических сообществ.

Управляемость процессами в Вебе подразумевает применение количественных математических методов для обоснования решений о целенаправленной деятельности. Решение таких задач дает принципиальную возможность создания механизмов самоорганизации фрагментов Веба. И хотя спектр таких задач применительно к Вебу представляется чрезвычайно широким, на сегодня эта тема является мало исследованной. Наиболее актуальными представляются постановки математических задач, решение которых существенно влияет на присутствие в Вебе сайтов и тематических сообществ.

Анализ открытых источников, посвященным программным средствам вебометрики, не позволил обнаружить некоммерческие российские разработки на эту тему. Необходима разработка программных средств для изучения Веба, применимых к российским веб-ресурсам и открытым для использования российскими исследователями.

Таким образом, актуальна проблема разработки общих подходов, методов и программных средств для исследования Веба, позволяющих строить формальные модели и ставить математические задачи, исследование и решение которых направлено на улучшение присутствия в Вебе российских сайтов и тематических сообществ. Предложенные в диссертационной работе решения поставленной проблемы опираются на результаты исследований университетских гиперссылок (M. Thelwall, Statistical Cybermetrics Research Group, University of Wolverhampton), теоретико-множественных и теоретико-графовых моделей Веба (A-L.

Barabasi, L. Bjrneborn, A. Broder), ранжирования сайтов (I.F. Aguillo, Cybermetrics Lab; Ю.И. Шокин, ИВТ СО РАН).

Основные объекты исследований. Целевым множеством называется задаваемое прямым перечислением множество 5  регламентируемых тематических сайтов. Сопутствующим множеством называется множество сайтов, не входящих в целевое множество, на которые существуют гиперссылки с сайтов целевого множества. Фрагмент Веба – это объединение сайтов целевого и сопутствующего множеств и множество связывающих их гиперссылок. Основным объектом исследований в диссертационной работе является регламентируемый тематический фрагмент Веба. В качестве объектов для апробации математических моделей, методов и программ использовались академический фрагмент Веба (целевое множество – официальные сайты научных учреждений РАН), университетский фрагмент Веба (целевое множество – официальные сайты классических университетов Российской) и фрагмент Веба региональных органов государственной власти (целевое множество – сайты органов государственной власти Республики Карелия (РК)).

Цель работы заключается в разработке математических моделей, методов и программных средств для исследования взаимосвязей российских регламентируемых тематических веб-сайтов, направленных на улучшение их присутствия в Вебе.

Для достижения указанной цели решается ряд задач:

1. разработка метода построения концептуальной модели фрагмента Веба для регламентируемого тематического целевого множества, обеспечивающего автоматизированную реализацию моделей для целевых множеств различной тематики;

2. применение теоретико-графовых моделей и методов для исследования характеристик веб-графа, построенного на основе концептуальной модели фрагмента Веба, позволяющее дать оценки связности и определить основные направления для постановки задач улучшения присутствия в Вебе тематических сообществ;

3. исследование характеристик присутствия единичных сайтов с использованием известных алгоритмов ранжирования;

4. постановка, исследование и решение задач, улучшающих характеристики присутствия веб-сайтов и их сообществ в Вебе;

5. разработка структурных и функциональных требований, положенных в основу программного обеспечения для сбора, хранения и обработки вебометрической информации и его программная реализация.

Методы исследования. Для решения поставленных в работе задач используются методы концептуального моделирования, элементы теории множеств, теории графов, методов оптимизации, теории вероятностей и математической статистики, имитационное моделирование и численные 6  эксперименты на ЭВМ и методы проектирования программного обеспечения и баз данных.

Практической основой исследований являются:  1. созданные в процессе исследований вебометрические базы данных академического фрагмента Веба, университетского фрагмента Веба и фрагмента Веба региональных органов государственной власти РК;

2. массив данных о гиперссылках российского Веба, предоставленный Компанией Яндекс.

Научная новизна выполненных исследований заключается разработке и развитии теоретических и практических разделов вебометрики, направленных на улучшение присутствия в Вебе российских регламентируемых тематических веб-ресурсов. Основные аспекты научной новизны:

1. Концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества, представленная в виде теоретикомножественных отношений. Формальный характер модели обеспечивает возможность определения в её терминах формализованной процедуры построения концептуальной модели фрагмента Веба для заданного регламентируемого тематического целевого множества.

2. Метод автоматизированного построения реализации концептуальной модели реального фрагмента Веба, позволяющий дать численные оценки для каждого из составляющих подмножеств и степень их связности, классификацию входящих в них сайтов, а также существенно уменьшить размерность самих моделей посредством исключения подмножеств, сайты которых бесперспективны с точки зрения влияния на связность фрагмента.

3. Алгоритм ранжирования официальных веб-сайтов классических университетов России, основанный на содержательной интерпретации характеристик присутствия сайтов в Вебе.

4. Теоретико-графовые характеристики веб-графа для реальных фрагментов российского Веба, показывающие незначительную взаимосвязь веб-сайтов российских тематических сообществ.

5. Математические модели взаимосвязей сайтов посредством гиперссылок, применение которых позволяет улучшить характеристики присутствия веб-сайтов и их сообществ в Вебе.

Практическая значимость:

• Предложенные методы и реализованные на программном уровне алгоритмы позволяют строить научно обоснованные модели фрагментов Веба, которые могут быть использованы при разработке сценариев развития 7  комплексов веб-ресурсов организационных систем, направленных на улучшение их присутствия в Вебе.

• Результаты исследований внедрены для комплекса веб-ресурсов Карельского научного центра РАН в рамках проекта «Исследование и разработка научно-методических основ создания и развития инфраструктуры информационно-телекоммуникационной системы КарНЦ РАН».

• Результаты работы получили практическое применение в рамках исследований официальных сайтов органов государственной власти РК, что подтверждено соответствующим актом.

• Результаты исследований включены в Отчет о деятельности РАН в 2006 году (том 3, Основные исследования и разработки научных учреждений РАН, готовые к практическому применению).

• По результатам исследований прочитан обязательный спецкурс «Технологии специализированных баз данных для вебометрических исследований» для магистрантов факультета прикладной математики - процессов управления Санкт-Петербургского государственного университета (2009/2010 уч.год).

• Получено Свидетельство о государственной регистрации программы для ЭВМ «Информационная система для вебометрических исследований» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2010610941 от 29 января 2010 г.

• Широкая применимость предложенных моделей, методов и программного обеспечения подтверждается результатами апробации для тематических фрагментов Веба различной тематики.

Достоверность и обоснованность результатов, полученных в диссертации, основаны на большом объеме собранного, обработанного и исследованного фактического материала, применении системного подхода в исследованиях, корректности принятых при разработке моделей допущений. Разработанные и используемые методы и теоретические подходы находят свое подтверждение посредством их сравнения на различных фрагментах российского Веба и проверкой на множестве данных, предоставленных Компанией Яндекс. Адекватность ряда математических моделей подтверждается результатами компьютерного моделирования.

Личный вклад автора в проведенное исследование. В диссертацию включены результаты, которые получены лично автором.

Связь работы с научными темами и грантами.

В основу диссертации положены результаты, полученные автором в ходе исследований, проводимых по планам научно-исследовательских 8  работ Института прикладных математических исследований КарНЦ РАН «Исследование и разработка научно-методических основ создания и развития инфраструктуры информационно-телекоммуникационной системы КарНЦ» (тема НИР № 56, 2008-2010 гг.).

Исследования поддержаны:

• Компанией Яндекс (конкурс Интернет-математика 2007, проект «Математические модели согласованного поведения малых Интернетсообществ»), • инициативным грантом РФФИ (проект «Вебометрические исследования научных интернет-ресурсов российского Интернета», №0807-00023а, 2008-2010 гг.), • Программой фундаментальных исследований ОМН РАН «Алгебраические и комбинаторные методы математической кибернетики и информационные системы нового поколения» (проект «Задачи оптимальной маршрутизации трафика, распределения и защиты информационных ресурсов», 2009, 2010 гг.).

Апробация работы. Результаты исследований докладывались на конференциях, научных школах, семинарах и совещаниях:

• I и V научно-методическая конференция «Университеты в образовательном пространстве региона: опыт, традиции и инновации», Петрозаводск, 1999, 2010 гг.

• Всероссийская научная школа «Математические методы в экологии», Петрозаводск, 2001 г.

• Международная конференция «Северная Европа в XXI веке:

природа, культура, экономика», Петрозаводск, 2006 г.

• IX и XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Переславль-Залесский, 2007 г., Петрозаводск, 2009 г.





• Седьмая международная Петрозаводская конференция «Вероятностные методы в дискретной математике», Петрозаводск, 2008 г.

• XV, XVI и XVII Всероссийская научно-методическая конференция «Телематика», Санкт-Петербург, 2008, 2009 и 2010 гг.

• Третья Всероссийская школа молодых ученых «Математические методы в экологии», Петрозаводск, 2008 г.

• II, III и IV Всероссийская научно-практическая конференция «Информационная среда вуза XXI века» Петрозаводск, 2008, 2009, 2010 гг.

• Научный семинар Хельсинкского института информационных технологий (Helsinki Institute for Information Technology), Хельсинки, 2009 г.

• Международная научно-практическая конференция «Теория активных систем - 2009», Москва, 2009 г.

9  • VIII Международная конференция «Когнитивный анализ и управление развитием ситуаций», Москва, 2009 г.

• IV Международная научно-практическая конференция "Современные информационные технологии и ИТ-технологии", Москва, 2009 г.

• Семинар по теории управления организационными системами Института проблем управления им. В.А. Трапезникова РАН, 2009 г.

• VIII Всероссийская школа-семинар «Прикладные проблемы управления макросистемами», Апатиты, 2010 г.

• Семинар по информационному поиску факультета прикладной математики-процессов управления СПбГУ, 2010 г.

• Научный доклад на заседании Президиума Карельского научного центра РАН, 29 июня 2010 г.

Основные результаты, выносимые на защиту:

1. Концептуальная модель фрагмента Веба и основанные на ней метод и автоматизированная процедура построения модели фрагмента Веба для заданного регламентируемого тематического целевого множества.

2. Теоретико-графовая модель взаимосвязей веб-сайтов посредством гиперссылок, дающая оценки влияния на связность целевого множества иерархической подчиненности организаций-владельцев сайтов и веб-сайтов организаций, выполняющих коммуникационные функции для его участников.

3. Задачи взаимосвязей веб-сайтов посредством гиперссылок, поставленные и исследованные с использованием методов дискретной оптимизации, кооперативной теории игр и имитационного моделирования, решение которых позволяет улучшить характеристики присутствия вебсайтов и их сообществ в Вебе.

4. Алгоритм ранжирования официальных веб-сайтов классических университетов России, основанный на содержательной интерпретации характеристик присутствия сайтов в Вебе, требующий вдвое меньше исходных данных по сравнению с известными алгоритмами.

5. Рекомендации для организаций-владельцев официальных сайтов, использование которых в административных регламентах позволяет улучшить присутствие их веб-ресурсов в Вебе. Реализация рекомендаций для сайтов органов государственной власти Республики Карелия обеспечила прирост тематического индекса цитирования от 10 до 15% в течение года.

6. Проблемно-ориентированная информационная система, включающая в себя робот-сборщик информации о сайтах российского Веба, и реляционную базу данных для хранения и обработки собираемой 10  Публикации. Результаты диссертации опубликованы в 36 печатных работах, из которых 11 – статьи в журналах и сборниках, входящих в Перечень изданий, рекомендованных ВАК РФ для опубликования результатов докторских диссертаций. Разработан сайт рабочей группы по вебометрике ИПМИ КарНЦ РАН. Получено Свидетельство о государственной регистрации программы для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ.  Структура и объем работы. Диссертация состоит из введения, шести глав, заключения, приложений и списка использованных источников, включающего 198 наименований. Общий объем диссертации 304 страницы, из них основная часть работы содержит 266 страниц и включает 43 рисунка и 66 таблиц; 9 приложений имеют общий объем 15 страниц.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во Введении дан анализ исследуемой проблемы, её специфика и современное состояние, подходы, применяемые для её решения.

Обосновывается актуальность темы диссертации, определены цели и задачи исследования, охарактеризована научная новизна и практическая значимость результатов, приводятся данные о внедрении и апробации результатов исследований.

В первой главе дается аналитический обзор современного состояния вебометрических исследований, позволивший изложить основные понятия предметной области, определить основные объекты исследования и используемые подходы и методы.

Во второй главе представлена формализованная концептуальная модель для регламентируемого тематического целевого множества вебсайтов и основанные на ней метод автоматизированного построения фрагментов Веба на основе задаваемого целевого множества и оценки её реализации.

Веб-сайт (сайт) – совокупность html-страниц и веб-документов, связанных внутренними гиперссылками и обладающих единством содержания, идентифицируемый в Вебе по уникальному доменному имени.

Внешняя гиперссылка с сайта s на сайт t формально представляет собой четверку:

<адрес исходной страницы на сайте s, уровень исходной страницы, контекст гиперссылки, адрес целевой страницы на сайте t>.

Уровень страницы определяется следующим образом: начальная страница сайта имеет уровень 0, а уровень любой другой страницы сайта – 11  это минимальное количество внутренних гиперссылок, ведущих от начальной страницы к данной. Под контекстом гиперссылки понимается текст, сопровождающий её на странице.

Уникальной внешней гиперссылкой называется гиперссылка из множества гиперссылок, имеющих одинаковый контекст и адрес целевой страницы, сделанная с исходной страницы с наивысшим уровнем. Далее рассматриваются именно такие гиперссылки, поэтому как аналогичные будут использоваться термины «гиперссылка» или «ссылка». Обозначим множество всех гиперссылок, сделанных с сайта s на сайт t, как {}.

Целевым множеством называется множество сайтов, задаваемое перечислением доменных имен, а сопутствующим множеством (по отношению к заданному целевому множеству) называется множество сайтов, не входящих в целевое множество, на которые существуют гиперссылки с сайтов целевого множества. Введем следующие обозначения:

T={t1,t2, …, t| |} – целевое множество, U={u1,u2, …, u| |} – сопутствующее T U множество, F=TU – объединение целевого и сопутствующего множеств, E { } U – множество гиперссылок, соединяющих сайты из F: E = < s,t >.

s F t,t F s Фрагмент Веба – это пара .

Регламентируемый сайт – это сайт, для которого существует нормативный акт организации-владельца, содержащий определение цели и задач веб-ресурса, основных структурных составляющих, правил добавления и изменения информации и т.д. Множество регламентируемых сайтов будем называть регламентируемым множеством. Тематическое множество официальных сайтов – это множество официальных сайтов организаций, относящихся к заданной тематике (например, реализующих одинаковые виды деятельности). Фрагмент Веба для регламентируемого тематического целевого множества – это пара , для которой T является регламентируемым тематическим множеством официальных сайтов.

Концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества представляет собой следующий набор множеств:

KM={T, B, K, S, Att, Char}, где T – целевое множество, B – множество сайтов ближайших окрестностей, K – множество сайтов-коммуникаторов, S – множество сайтов оболочки, Att – множество отношений, определяющих структуру KM; Char – множество атрибутов объектов KM.

Ближайшей окрестностью веб-сайта называется множество сайтов его организации-владельца, являющихся элементами U, на которые 12  существуют гиперссылки с официального сайта. Обозначим Bt ближайшую U окрестность сайта tT, тогда B = Bt.

t T Веб-коммуникатором называется сайт, принадлежащий U и имеющий входящие ссылки с «достаточно большого» количества сайтов T и/или исходящие ссылки на «достаточно большое» количество сайтов из T.

Определим две функции: insitecount(A,s) – количество сайтов из множества А, имеющих гиперссылки на заданный сайт s, а outsitecount(s, A) – количество сайтов из А, на которые существуют гиперссылки с сайта s.

Обозначим нижнее и верхнее пороговые значения, как и ; , – целые и .

В качестве нижнего порогового значения принимается insitecount( T,t ) t T = round ( ), T (round – функция округления до ближайшего целого). Значение характеризует «среднюю степень» интереса к сайту из T, проявляемую со стороны других сайтов из T.

Замеры показывают, что около 80% сайтов из U имеют лишь по одному сайту из T, ссылающемуся на них, поэтому говорить о «среднем» интересе к сайтам U со стороны сайтов T как о среднем арифметическом не представляется возможным. Поэтому верхнее пороговое значение задается следующим образом:

insitecount( T,u ) u U\B insitecount( T,u ) = round ( {}).

u|u U\ B,insitecount( T,u ) Определим функцию тематической близости сайта uU к тематике целевого множества T как T_genre: U {0,1}, T_genre(u)=1, если u тематически близок к T и T_genre(u)=0, если нет. В настоящее время значения T_genre(u) определяются на основе прямого просмотра сайтов экспертом.

Тематическим сайтом-посредником называется сайт uU\B, для которого выполняется условия insitecount(T,u)&outsitecount(u,T) и T_genre(u)=1. Множество тематических сайтов-посредников обозначим K.

Тематическим сайтом-коллектором называется сайт uU\B, для которого выполняется условие insitecount(T,u)&>outsitecount(u,T)1 и T_genre(u)=1. Множество тематических сайтов-коллекторов обозначим K.

13  Тематическим сайтом-индуктором называется сайт uU\B, для которого выполняется условие >insitecount(T,u) & outsitecount(u,T) и T_genre(u)=1. Множество тематических сайтов-индукторов обозначим K.

Сайты-посредники, коллекторы и индукторы, для которых T_genre(u)=0, составляют множество KOther («нетематические» вебкоммуникаторы).

Множество веб-коммуникаторов – это K=KKKKOther.

Множество сайтов оболочки S=U\(BK) составляют сайты из U, не являющиеся сайтами ближайших окрестностей или веб-коммуникаторами.

S разбивается на три непересекающихся подмножества: S = SSS1;

S – насыщенная оболочка (sS: insitecount(T,u)), S – вязкая оболочка (sS: >insitecount(T,u) ), S1 – разреженная оболочка (sS1:

>insitecount(T,u)1).

Множество отношений Att, определяющих структуру модели, это:

Att={TT, TB, BT, TK, TK, TK,KT, KT, KT, TS, TS, T1S, ST}, где TTTT – отношение, задающее структуру T через множество { } U гиперссылок, связывающих его сайты: TT = < s,t > ;

s T t,t T s { } U TBTB – отношение, задающее связи между T и B: TB = < t,b > ;

t T b B BTBT – обратное отношение по отношению к TB;

отношения TKTK и KTKT задаются аналогично TB и BT, где в качестве K могут быть K, K или K;

TSTS – отношение, задающее связи между T и множеством S, где { } в качестве S могут быть S, S или S1: TS = U < t,s > ;

t T s S ST= – отношение, задающее связи между T и S.

Множество атрибутов объектов KM Char={Distr, Ind}.

Показатель тематического распределения сайтов множества distr(A) характеризует, какова доля элементов из A, тематически близких к тематике целевого множества. В качестве A принимаются KOther, B, S, S, и S1, поэтому Distr={distr(KOther), distr(B), distr(S), distr(S), distr(S1)}.

14  Множество показателей степени связности Ind характеризует множества отношений Att по степени связности самого целевого множества T, а также T и всех подмножеств множеств B, K, S, составляющих KM:

Ind={ind(TT), ind(TB), ind(BT), ind(TK), ind(TK), ind(TK), ind(KT), ind(KT), ind(KT), ind(SS), ind(TS), ind(TS1), ind(ST), ind(ST), ind(S1T)}.

Здесь ind(TT)=|TT|/|T|. Остальные показатели равны суммарному количеству гиперссылок, входящих в соответствующее множество, деленному на мощность этого множества, или суммарному количеству гиперссылок, исходящих с соответствующего множества, деленному на мощность этого множества.

Процедура построения KM состоит из следующих этапов:

1. задание целевого множества T;

2. формирование сопутствующего множества U для заданного T;

3. формирование множества ближайших окрестностей B;

4. вычисление пороговых значений и и задание функции T_genre;

5. формирование множества подмножеств коммуникаторов K и множества-оболочки S;

6. формирование множества отношений Att;

7. определение множества значений атрибутов Char.

Первый этап выполняется вручную, остальные этапы выполняются с использованием информационной системой для вебометрических исследований (ИС4ВИ), разработанной в Институте прикладных математических исследований Карельского научного центра РАН.

Рис. 1. Диаграмма концептуальной модели академического фрагмента Веба На рис. 1 приводится диаграмма концептуальной модели, реализованная для академического фрагмента Веба. В качестве T принято 15  288 официальных сайтов учреждений РАН. Каждое из подмножеств КМ обозначено соответствующим кружком, в котором дано обозначение подмножества, его мощность и значение distr (для некоторых из них).

Стрелки задают отношения между подмножествами и помечаются значениями ind. Похожие результаты были получены в случае реализации концептуальной модели для университетского фрагмента Веба и для фрагмента Веба органов государственной власти РК.

Анализ реализаций концептуальной модели позволяет сделать ряд общих выводов об организации реальных фрагментов Веба. Большинство сайтов характеризуются тематической близостью по отношению к T, но степень их влияния на присутствие в Вебе сайтов целевого множества, реализуемая через гиперссылки, различна. Сайты, входящие в S, составляя от 80 до 96% всех сайтов реальных фрагментов Веба, такого влияния практически не оказывают вследствие отсутствия гиперссылок, сделанных с них на сайты T. Сайты множества ближайших окрестностей также слабо влияют на связность T, поскольку в основном имеют гиперссылки, сделанные на головные сайты организаций, входящих в T, а не на другие сайты из T. Высокую степень связности с T демонстрируют сайты множеств K, K и K.

В третьей главе рассмотрено применение теоретико-графовых методов к исследованию связности регламентируемых тематических фрагментов Веба, как одной из основных характеристик присутствия T в Вебе.

Веб-графом G (V,E), заданным на фрагменте Веба называется FE ориентированный граф без петель и кратных дуг, множество вершин которого является объединением целевого множества и множества вебкоммуникаторов V=TK, а множество дуг E задается следующим образом:

v1,v2V: (v1,v2)E TTTKKTKK.

Исследуются вопросы связности целевого множества на административном каркасе и административных подмножествах. Для организаций-владельцев сайтов целевого множества, имеющих иерархическую структуру, иерархический граф обозначен GH=(DT, EH), где DT – это множество наименований организаций-владельцев сайтов целевого множества, а EH – множество дуг. EH определяется следующим образом: для u,dDT: (u,d)EH тогда и только тогда, когда организация d находится в отношении подчиненности к организации u.

Пусть даны ds,dtDT, причем организация dt находится в отношении подчиненности к организации ds, т.е. (ds,dt)EH, и сайтам организаций ds,dt 16  соответствуют вершины s,tT. Определим каркасную функцию связности сверху вниз (Skeleton Force of Connectivity) SFС+(s,t) следующим образом:

SFС+(s,t)={1| ((s,t)Ek)&(ds,dt)EH, 0| (¬(s,t)Ek)&(ds,dt)EH}.

Обозначим через Dds={dt1, dt2, …}, DdsDT множество организаций, которые находятся в отношении подчиненности к организации ds (Dds – т.н.

административное подмножество). Обозначим s сайт организации ds, а Ts – множество сайтов, соответствующих организациям из Dds (любой организации dtiDds взаимнооднозначно соответствует сайт tiTs,).

Определим функцию связности сверху вниз между сайтом s и всеми сайтами t :

T s + SFC ( s,t ) t TS + SFC ( s,Ts ) = Ts.

Каркасная функция связности снизу вверх SFС-(s,t) и функция связности снизу вверх SFС-(s,Ts) определяются аналогично. Функцию связности для пары сайтов s и t можно задать как SFC(s,t)= SFC+(s,t)+ SFC-(s,t), где и являются коэффициентами, отражающими важность иерархии сверху и вниз снизу вверх (,>0, +=1). Функция связности SFС(s,Ts) для сайта s и подмножества Ts определяется аналогично.

Исследование реальных фрагментов Веба показывает существенное влияние административного каркаса на связность целевого множества.

Значения функции связности для академического фрагмента Веба приведены на рис. 2.

Рис. 2. Значения функции связности на административном каркасе 17  Дуги помечены следующим образом: слева от дуги (или над ней) стоит значение SFC(s,T ) для соответствующих s и T; справа от дуги (или s под ней) пара значений в скобках обозначает (SFC+(s,Ts), SFC-(s,Ts)).

Графом административного подмножества вершины sT называется граф Gs=G(T,Es), где множество дуг EsE содержит только те дуги из E, s которые связывают вершины из T. В качестве «слабой» характеристики s связности принята функция CFCs (Community Force of Connectivity) Es CFCs =.

Ts x( Ts -1) Исследования различных подграфов Gs=G(T,Es) показывают s незначительную связность административных подмножеств академического фрагмента Веба и фрагмента Веба органов государственной власти РК.

Например, для институтов Отделения математических наук (s=omn.ras.ru, |T |=10) имеем CFCs=0,161.

s Предложена следующая процедура исследования компонент сильной связности (КСС) веб-графа G (V,E). Исследуется подграф FE GT (T,ET)G (V,E), построенный на целевом множестве T, в качестве FE FE множества дуг которого принимается подмножество дуг ETE, соединяющих только вершины, входящие в множество T: вычисляются полустепени захода (Indegree) и исхода (Outdegree) вершин из T, формируются все КСС, изолированные вершины, вершины, имеющие только входящие и только исходящие дуги, определяется максимальная КСС и ее диаметр. Построенные конструкции и вычисленные характеристики позволяют дать содержательную интерпретацию взаимосвязей сайтов и охарактеризовать присутствие в Вебе сайтов целевого множества.

Далее исследуется веб-граф G (V,E), что позволяет дать FE содержательную интерпретацию взаимосвязей сайтов и оценить влияние веб-коммуникаторов на изменение связности сайтов T. Изначально важная роль сайтов-коммуникаторов может быть оценена как с точки зрения их влияния на прирост взаимосвязей сайтов T, так и изменения диаметра КСС.

Приведем некоторые результаты, полученные для университетского фрагмента Веба (|T |=56). Значения полустепеней захода и исхода для некоторых вершин T: Indegree: сайт Новосибирского госуниверситета – 15, Московского – 14, Санкт-Петербургского – 12; Outdegree: сайт Бурятского госуниверситета – 43, Горно-Алтайского – 35, Нижегородского – 30.

Статистической зависимости между значениями Indegree и Outdegree не обнаруживается.

18  Рис. 3. Веб-граф GT (T,ET) университетского фрагмента Веба FE В университетском веб-графе GT (T,ET) обнаружена единственная FE КСС, содержащая 29 вершин с диаметром 5; из остальных 27 вершин у вершины имеются исходящие, но нет входящих дуг, 4 являются изолированными, а 2 имеют исходящие и входящие дуги, но не входят в КСС. На рис. 3 вершины, составляющие КСС, изображены серыми кружками, а остальные вершины – светлые кружки.

В веб-графе G (V,E) мощность КСС увеличивается до 70 вершин, а FE её диаметр остается равен 5. Количество «вовлеченных» сайтов из T в этом случае равняется 17.

По результатам исследований веб-графов реальных фрагментов Веба можно сделать следующие выводы:

1. степень связности целевых множеств невысока, следствием чего является их незначительное присутствие в Вебе, 2. административная иерархия организаций-владельцев сайтов находит хорошее отражение в Вебе и повышает присутствие сайтов в Вебе, 3. связь между сайтами организаций, подчиненных одной и той же вышестоящей организации, является весьма незначительной, что существенно снижает их присутствие в Вебе.

4. существенно влияние сайтов-коммуникаторов на увеличение связности сайтов целевого множества для всех рассмотренных фрагментов Веба.

В четвертой главе исследуются вопросы ранжирования сайтов тематического сообщества, связанные с их индивидуальными характеристиками присутствия в Вебе. В первоначальной постановке задача была сформулирована Cybermetrics Lab. Используются вебометрические 19  индикаторы, измеряемые с помощью поисковых машин (Google, Yahoo, Live Search и Exalead): S – размер сайта (количество страниц, обнаруживаемых на сайте поисковыми машинами), V – видимость сайта (количество гиперссылок на сайт с других веб-ресурсов), R – количество полнотекстовых файлов и Sc – научность сайта (количество ссылок на сайт, обнаруживаемых Google Scholar). Значения для S, V и R определяются как сумма результатов замеров по каждой машине (для S минимальное и максимальное значение отбрасываются). По каждому индикатору производится ранжирование сайтов по убыванию их значений. Для обозначения ранга по заданному индикатору используются обозначения RankV, RankS, RankR и RankSc соответственно (наивысший ранг равен 1).

Интегральный показатель W вычисляется по формуле W=KvRankV+KsRankS+KrRankR+KscRankSc, где Kv=4, Ks=2, Kr=1 и Ksc=1 – весовые коэффициенты при рангах по соответствующим индикаторам (на 2008 год).

Поясним содержательный смысл индикаторов присутствия через оценки возможности попадания пользователя на заданный сайт. Все множество пользователей Веба по отношению к данному сайту можно разделить два подмножества: первое – это пользователи, знающие данный сайт и обращающиеся к нему по адресу, а второе – это все остальные пользователи, которые имеют потенциальную возможность узнать о сайте различными способами. Индикаторы характеризуют возможность попадания на сайт через один из четырех таких способов: S – обнаружение с помощью поисковой машины и переход на сайт, V – переход с другого сайта по ссылке, R – обнаружение с помощью поисковой машины полнотекстового файла данного сайта и переход на сайт и Sc – переход через ссылку, найденную поисковой машиной для научных публикаций.

Следовательно, критерий, основанный на S, V, R и Sc, характеризует возможность попадания пользователей из второго подмножества на заданный сайт. Для российских университетских сайтов показана сильная попарная статистическая зависимость между S, R и Sc, поэтому для каждого ранжируемого сайта достаточно вычислить значение одного из интегральных показателей, например, количества страниц как средневзвешенного значения Sint(i) = PЯндексSЯндекс(i)+PRamblerSRambler(i)+ PGoogleSGoogle(i), где i – номер сайта, а PЯндекс, PRambler и PGoogle – показатели популярности поисковых систем. Производится нормирование всех Sint(i):

Sint(i).

Sintnorm(i) = Sint(i) i Для каждого сайта измеряется значение CY – тематического индекса цитирования Яндекса и производится нормирование :

20  CY ( i ).

CYnorm(i) = CY ( i ) i Интегральный показатель вычисляется по формуле WRR(i)=PsSintnorm(i)+PvCYnorm(i), где Ps и Pv – вероятности реализации того или иного способа попадания на сайт. Далее производится ранжирование сайтов по убывания значений WRR(i).

Для реализации процедуры ранжирования используются данные LiveInternet «Сайты Рунета». В качестве значений PЯндекс, PRambler и PGoogle берутся данные по статистике переходов. Для вычисления значений Ps и Pv берутся переходы с поисковых систем SE, переходы с каталогов и рейтингов Cat и количество переходов по ссылкам L. Ps и Pv вычисляются по формулам:

SE Cat + L,.

Ps = Pv = SE + Cat + L SE +Cat + L Сопоставление результатов ранжирования по методу Cybermetrics Lab и предложенному алгоритму показывает, что полученные результаты близки между собой, например, в первую двадцатку как по одному, так и по другому алгоритму входят четырнадцать сайтов одних и тех же университетов.

Измерения вебометрических индикаторов показывают существенное отставание по всем индикаторам от зарубежных аналогов.

Пятая глава посвящена математическим задачам, разработка и решение которых ведут к улучшению присутствия в Вебе сообществ сайтов в смысле некоторых заданных критериев. Первая из задач относится к дискретным оптимизационным задачам и позволяет найти такой способ расстановки гиперссылок в заданном множестве сайтов, который повышает их присутствие в Вебе с точки зрения поисковых машин. На основе предложенной модели исследованы вопросы согласованного поведения реальных веб-сообществ. Выявлены подмножества российского Веба, поведение которых является близким к согласованному. Во второй задаче исследуется вопрос о том, каков должен быть вклад организацийвладельцев заданного множества сайтов на создание сайта-коммуникатора, существенно улучшающего его связность. Построена и исследована математическая модель дележа затрат на создание веб-коммуникатора, основанная на методах кооперативной теории игр. В третьей задаче исследуется вопрос о том, при каких условиях сайты получают дополнительную выгоду (в смысле количества посещений пользователями) от участия в множестве сайтов, ссылающихся на один и тот же сайткоммуникатор и имеющих обратные гиперссылки с него. Получены решения, позволяющие каждому участнику сообщества оценивать полезность его участия в нем. На практике решение указанных задач могут 21  быть положены в основу административных регламентов, направленных на улучшение присутствия в Вебе регламентируемых тематических сообществ сайтов.

Рассмотрим веб-сообщество со следующими характеристиками:

n – количество сайтов-участников, ci – значимость i-го участника, ci>0, i=1..n, mi – максимально возможное количество ссылок от i-го на других участников, mi>0, i=1..n.

Определим матрицу ссылок X=(xij), i,j=1..n, где xij=1, если существует ссылка от i-го участника к j-му, и xij=0, если ссылки не существует. Пусть F(X) – функция, характеризующая некоторый интегральный показатель значимости всех участников и зависящая от того, каким образом расставлены ссылки между ее участниками.

Тогда задача заключается в нахождении матрицы Х, удовлетворяющей заданным ограничениям и доставляющей оптимальное значение целевой функции:

F( X ) = opt (1).

xij Основные предположения, принятые для задания вида функции приращения значимости, заключаются в следующем:

- чем больше ссылок на ресурс, тем он становится «значимее», - чем больше значимость ресурса i, тем больше возрастает значимость ресурса j, если xij=1, - чем больше исходящих ссылок от ресурса i, тем меньше приращение значимости каждого ресурса j, для которого xij=1.

Считаем, что внешние влияния на участников системы не существенны, и поэтому изменение значимости j-го участника может быть n представлено следующей формулой: ~ j j .

j =1,n : с = c + xijcii i=n Здесь или содержательно – если пользователь попал на xik i = / k =заданную страницу, то он равновероятно отправится далее по любой из имеющихся на ней ссылок и при этом вероятность того, что он не закончит работу в Вебе на этой странице, равна так называемому «дампинг-фактору» ,. По аналогии с Брином и Пейждем чаще всего принимается 0 < <=0,85 (Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine // Computer Networks and ISDN Systems. – 1998. – № 30. – P. 107-117).

Тогда изменение значимости j-го участника выражается следующей формулой:

22  n xij ~ j =1,n : (2).  с = c + ci j j n i= xik k =Введем следующие ограничения:

, (3) xii = 0 i =1,n,, (4) i =1,n xij = 0,1 j = 1,n n, (5) xij mi i =1,n j=n, i =1,n (6) xij j=Ограничения (3) учитывают, что сайту нельзя дать ссылку на самого себя, (4) – ссылки с i-го сайта либо существуют, либо нет. Ограничение (5) означает, что количество исходящих ссылок ограничено некоторыми реальными соображениями, например, оно меньше n, т.к. в этом случае поисковые системы обнуляют значимости всех участников сообщества.

Ограничение (6) означает, что участником может быть сайт, который обязательно делится своей значимостью с другими, но обратное не обязательно.

Рассматриваются различные варианты задачи в зависимости от вида целевой функции (1) и дополнительных содержательных ограничений.

В первом случае договоренность участников сообщества можно сформулировать так: распределение ссылок должно привести в первую очередь к увеличению значимости наименее значимых ресурсов, при этом суммарный прирост значимости по всем участникам системы должен быть максимальным. Тогда целевая функция принимает вид n (1’), ~ ( ) F X = cj max j X j=где коэффициенты 0j1 имеют следующий содержательный смысл, – чем больше начальное значение cj, тем меньше значение j.

Во втором случае договоренность участников можно сформулировать так: распределение ссылок среди участников должно привести к минимальному отклонению полученных значимостей каждого участника от нового среднего значения по всему сообществу:

n ~ ck n (1’’).

k =1 ~ F(X) = - cj min xij n j= 23  Исследованы свойства моделей (1’), (3-6) и (1’’), (3-6), учитываемые при разработке точных и приближенных алгоритмов решения задач.

В рамках конкурса Интернет-математика 2007 выполнен проект по выявлению согласованного поведения реальных веб-сообществ. Были взяты 20 реальных сообществ, содержащих от 7 до 84 участников, относящихся к различной тематике. Использовались предоставленные компанией Яндекс наборы данных о ссылках сайтов друг на друга по состоянию на 7 декабря 2007 года, содержащие информацию о 2714279 сайтах.

В модели (1’), (3-6) и (1’’), (3-6) был введен ряд дополнительных ограничений, появившихся в процессе их адаптации к реальным сообществам. Например, обе модели изначально трактуются как регламентируемые, – если известен оптимальный способ расстановки ссылок между участниками, то он и будет директивно реализован, – поэтому неравенства (5) заменяются на равенства (5’):

n xij = mi, i =1,n (5’).

j=~ В качестве значений ci,i =1,n были взяты значения тематического индекса цитирования Яндекса (тИЦ) соответствующих сайтов. Поскольку ~ ci,i =1,n – это значения, которые являются результатом согласованных действий участников сообщества, из (2) и (5’) следует, что начальные значения ci, являются решениями системы линейных уравнений:

i =1,n n xij ~ 1 c + Li ci = ci=..................

,  c + n xij ck ~ ci = k Li i=..................

n xij ~ cn + Li ci = cn i= где Li,i =1,n – общее количество исходящих ссылок от i-го участника сообщества. Обнаружено, что в рамках социальной модели наиболее согласовано поведение сообщества Религия: Православие, а в рамках кооперативной модели – сообщество сайтов министерств Правительства РФ.

С использованием методов кооперативных игр рассматривается вопрос о вкладе организаций-владельцев сообщества сайтов в создание общего сайта-коммуникатора. Предполагается, что веб-граф GT (T,ET) – FE 24  сильно связный и веса его дуг равны 1. Обозначим d(i,t) длину кратчайшего пути из i в t, i,tT. Критерием доступности сайта t на целевом множестве T является средняя длина пути, которая задается следующим образом:

( ) d i,t i,i T t.

midd( t ) = n -Предположим, что игроки-владельцы сайтов договорились создать веб-коммуникатор h, с которого обязательно будут сделаны гиперссылки c весом 1 на любой сайт из T и с каждого сайта из T будет сделана гиперссылка на h, имеющая вес 1. При добавлении сайта h средняя длина пути в вершину tT из всех других вершин, кроме h и её самой, равна h ( ) d i,t i,i T t h.

midd ( t ) = n -При этом верно неравенство middh(i)2 (на сайт i существуют ссылки с некоторых сайтов из T и длина пути равна 1, либо кратчайший путь проходит через сайт-коммуникатор h и длина пути равна 2). Выигрыш i-го участника от создания веб-коммуникатора h равен v(i)=midd(i) - middh(i).

Обозначим Z стоимость разработки и поддержки сайта h, а взнос каждого игрока zi, Z = zi. Требуется ответить на вопрос, каковы должны i T быть значения z1, z2, …, zn, справедливые (в некотором смысле) для каждого игрока-владельца сайта целевого множества.

Считаем коалицией множество владельцев сайтов из T, участвующих в создании h, причем h будет ссылаться только на участников коалиции, и только они будут ссылаться на коммуникатор. Зададим выигрыш коалиции v(i) S как v( S ) =, где значение характеристической функции для i-го i S участника v(i) = midd(i)–middhS(i) рассчитывается с учетом того, того что коммуникатор создается только для членов коалиции S. Именно поэтому в качестве вычитаемого принято значение middhS(i), т.е. средняя длина пути в вершину i из всех других вершин коалиции S, кроме h и её самой.

Решение основано на разделении платы на создание вебкоммуникатора пропорционально компонентам вектора Шепли, строящемуся с учетом среднего вклада каждого участника в выигрыш гранд-коалиции. Плата за создание сайта-коммуникатора z1, z2, …, zn делится между членами сообщества T пропорционально величинам ( - 1 ! n- S ! ) ( ) S.

{} i = ( v( S ) - v( S\ i )) n! S T 25  Задача обобщается на случай взвешенного графа, когда его дуги имеют веса, большие 0.

Рассмотрена математическая модель, связанная с увеличением посещаемости сайтов за счет участия в сообществе динамического каталога (СДК). В СДК имеется головной сайт, на первой странице которого расположена видимая часть динамического каталога, содержащего ссылки на всех остальных участников сообщества, а остальные сайты, называемые рядовыми участниками, имеют прямые ссылки на головной сайт со своей первой страницы. Возможный выигрыш рядового сайта от участия в СДК заключается в увеличении его посещаемости за счет роста переходов на него с каталога головного сайта.

Попадая на сайт любого участника СДК, пользователь выполняет одно из следующих действий:

– если это головной сайт, то пользователь может остаться на этом сайте и сеанс заканчивается, либо перейти через каталог на рядового участника (сеанс заканчивается);

– если это рядовой участник, то пользователь может остаться на этом сайте (сеанс заканчивается), либо перейти головной сайт (сеанс заканчивается).

Введем следующие обозначения:

n pi – вероятность попадания пользователя на i-й сайт СДК, ;

pi = i=pi0 – вероятность перехода с i-го рядового сайта на головной сайт (вероятность того, что пользователь, попав на i-й рядовой сайт, останется на нем, равна );

1- piq0 – вероятность того, что пользователь, попав на головной сайт, останется на нем;

qcat – вероятность перехода на любой рядовой сайт с j-й позиции каталога, j n.

qcat =j j=На головном сайте расположена видимая часть каталога, содержащая cat cat cat k позиций для ссылок ( );, а для,.

k n q1 q2 ... qk = k +1,n qcat = j j Пусть ri – позиция рядового участника в каталоге в некоторый момент времени,,. Позиция i-го участника изменяется i =1,n i, j =1,n : ri rj за один сеанс следующим образом:

26  • если пользователь переходит с i-го рядового сайта на головной сайт, то ri уменьшается, а ri-1 – увеличивается на единицу (либо ri не изменяется, если он уже был равен 1);

• если пользователь попадает с головного сайта на i-го участника, то ri увеличивается, а ri+1 – уменьшается на единицу (либо ri не изменяется, если он уже был равен n);

• если пользователь за сеанс не делает перехода с головного сайта на рядовой (или наоборот), то позиции всех рядовых сайтов остаются прежними.

Обозначим матрицу предельных вероятностей, где – это П = ( ij ) ij вероятность того, что ri=j. Зная матрицу П можно определить значения qi – вероятностей перехода с каталога головного сайта на любой рядовой сайт СДК:

n .

i =1,n : qi = qcatij j j=Для i-го рядового сайта доход от участия в СДК как вероятность перехода на i-й сайт с головного сайта равен di = p0( 1-q0 )qi, потери от участия в СДК как вероятность перехода с i-го сайта на головной сайт – ui = pi pi0, а функция выигрыша от участия в сообществе:

n.

qcatij Fi = p0( 1- q0 ) - pi pij j=Для нахождения матрицы П построена система уравнений, содержащая уравнений и неизвестных, при этом уравнений n2 +2n n2 nij являются уравнениями третьего порядка относительно неизвестных. На неизвестные также накладываются условия 0 ij 1 , j =1,n.

для i Для случая системы из двух участников получено достаточное условие выигрыша каждого из участников 0.

max{ p1 p1, p2 p2} p0 > cat (1- q0 )qДля общего случая разработана имитационная модель СДК.

Результаты моделирования показывают, что чем больше значение вероятности p0, тем больше рядовых участников оказываются в выигрыше.

Причем наибольший выигрыш получают участники сообщества, у которого вероятность попадания пользователя на него не самая большая, но и не самая маленькая. При достаточно малых значениях вероятности p0 ни один рядовой участник не получает положительного выигрыша, то есть если головной сайт не слишком популярен по сравнению с остальными 27  рядовыми участниками, то нет смысла участвовать в таком СДК.

В шестой главе описаны основные программные средства, используемые в диссертационной работе для сбора и обработки вебометрической информации. В состав специализированного комплекса программ, названного Информационной системы для вебометрических исследований (ИС4ВИ), входят поисковый робот LPR (от Link, Page, Robot), задачей которого является сбор внешних гиперссылок, и база данных для вебометрических исследований, представляющая множество взаимосвязанных реляционных таблиц и набор операций над ними.

Единицей анализа LPR является страница, переданная веб-сервером клиенту по http-запросу и имеющая mime-тип «text/html». Начальным адресом сканируемого сайта является доменное имя сайта. Рассматриваются гиперссылки, заданные в тегах в значении параметра href, либо в тегах в значении параметра src. Если там обнаруживается абсолютный адрес вида [http[s]://доменное_имя[:порт]/]путь_к_странице и если доменное имя отлично от адреса сайта, то такая ссылка считается внешней гиперссылкой. В качестве контекста внешней ссылки рассматривается текст, расположенный между тегами и .

Анализ страницы начинается с http-запроса к странице и чтения заголовков, по которым выясняются следующие моменты:

1. Существует ли такая страница, если нет, то ссылка на страницу помечается как неработающая, и анализ данной страницы завершается.

2. Не является ли данная страница перенаправлением на другую страницу. Если есть перенаправление, то анализируется ссылкаперенаправление. Если это ссылка на другой сайт, то она записывается как внешняя ссылка, а анализируемая внутренняя ссылка удаляется. Если это ссылка на внутреннюю страницу, то переписывается ссылка, и данный этап завершается.

3. Является ли данный объект html-страницей. Если нет, то данная ссылка помечается как «документ» и данный этап завершается.

Далее считывается код страницы, который проверяется на наличие перенаправлений на уровне страницы и в случае перенаправления подвергается обработке как в п.2. Если перенаправлений нет, то из кода извлекаются теги фреймов и гиперссылок, из которых отбирается вся требуемая информация о ссылках, включая контекст, которая записывается в отдельные таблицы ВНУТРЕННИЕ ССЫЛКИ и ВНЕШНИЕ ССЫЛКИ, соответствующие сканируемому сайту. Все ссылки, являющиеся ссылками на документы, записываются в таблицу внутренних ссылок с пометкой «документ». Остальные ссылки с пометкой «непроверенная страница», записываются в эту же таблицу, если их там еще нет.

28  Процесс сканирования сайта идет как поиск вширь: начальная страница, потом непроверенные страницы первого уровня, потом второго и т.д. Если по каким-то причинам сканирование было прервано, то оно может быть возобновлено с точки прерывания. LPR может быть в любой момент остановлен пользователем благодаря интерактивному режиму отслеживания работы робота.

В базе данных реализовано более 15 операций, соответствующих основным задачам вебометрических исследований. Программный комплекс ИС4ВИ разработан на языке PHP и работает под управлением веб-сервера Apache с интегрированным модулем PHP и СУБД MySQL. Реализован прототип компьютерной программы визуализации веб-графов, который в качестве исходных данных использует информацию из базы данных ИС4ВИ.

Проведенное сканирование более 3000 сайтов академического, университетского фрагментов Веба и фрагмента Веба органов государственной власти Карелии позволило сформировать базы данных, являющихся экспериментальной основой для исследований реальных фрагментов Веба.

ЗАКЛЮЧЕНИЕ В диссертации сформулирована и решена важная научная задача разработки и развития теоретических и практических разделов вебометрики, направленных на улучшение присутствия в Вебе сайтов, входящих в состав множеств, являющихся тематическими регламентируемыми веб-ресурсами. Проведенные исследования представляют собой новый подход к исследованию Веба, базирующийся на разработанных формализованных методах и специализированных программных средствах для детального обследования фрагментов Веба, заключающийся в построении и анализе описательных и формальных моделей, выявлении наиболее значимых компонент и постановке и решении математических задач рационального поведения веб-сайтов, входящих в данные компоненты. Основные научные и практические результаты работы состоят в следующем:

1. Предложен метод автоматизированного построения фрагментов Веба на основе задаваемого целевого множества, веб-ресурсы которого относятся к одной тематике и являются регламентируемыми, т.е.

создаются и развиваются по заранее сформулированным правилам, утвержденным в виде нормативных документов организаций-владельцев ресурсов. Основу метода составляет формализованная концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества, представленная в виде теоретико-множественных отношений.

29  Формальный характер модели обеспечивает возможность определения в её терминах формализованной процедуры построения концептуальной модели фрагмента Веба для заданного регламентируемого тематического целевого множества, предполагающей программную реализацию большинства этапов.

Концептуальная модель, реализованная на реальных фрагментах Веба, позволила дать численные оценки для каждого из подмножеств и степени их связности, классификацию входящих в них сайтов, а также существенно уменьшить размерность самих моделей посредством исключения подмножеств, сайты которых бесперспективны с точки зрения влияния на связность фрагмента. В случае академического множества мощность исследуемого множества сайтов уменьшается в 22 раза, а количества связывающих их гиперссылок – в 17 раз; в случае университетского Веба – в 9 и 14 раз соответственно.

2. Показано, что теоретико-графовые модели и методы позволяют дать оценки связности фрагментов Веба и определить основные направления для постановки задач улучшения присутствия в Вебе тематических сообществ. Установлена невысокая степень связности целевых множеств академического и университетского Веба. Показано, что административный каркас играет системообразующую роль в организации академического Веба в целом, однако его возможности для улучшения связности использованы не более чем на 60%. Установлено существенное влияние сайтов-коммуникаторов на увеличение связности сайтов целевого множества для всех рассмотренных фрагментов Веба.

3. Исследование задач ранжирования сайтов на университетском и академическом российском Вебе показывает, что на результаты ранжирования в значительной степени влияет выбор единиц анализа, а не использование тех или иных поисковых систем для измерения индикаторов. Сопоставление результатов ранжирования по предложенному в диссертации алгоритму с результатами ранжирования по известному алгоритму Cybermetrics Lab показывают их сильную положительную статистическую взаимосвязь. Показано, что для случая российского университетского Веба предложенный алгоритм требует в два раза меньше исходных данных, чем алгоритм Cybermetrics Lab.

4. Поставлены и исследованы математические задачи, основанные на применении методов математического моделирования, разработка и решение которых ведут к улучшению присутствия в Вебе сообществ сайтов в смысле некоторых заданных критериев, и предложены алгоритмы их решения. Получены решения, позволяющие каждому участнику сообщества оценивать полезность его участия в нем. На практике решение указанных задач могут быть положены в основу 30  административных регламентов, направленных на улучшение присутствия в Вебе регламентируемых тематических сообществ сайтов.

5. Создана проблемно-ориентированная информационная система для вебометрических исследований, включающая в себя роботсборщик информации, сканирующий исследуемые сайты российского Веба, и реляционную базу данных для хранения и обработки собираемой информации, в которой реализован набор операций, соответствующий основным задачам вебометрических исследований. Сформированы базы данных внешних гиперссылок для академического и университетского фрагментов Веба и фрагмента Веба органов власти Карелии, часть из которых доступна для пользователей Веба.

СПИСОК ТРУДОВ Статьи, опубликованные в реферируемых журналах из Перечня ВАК:

1. Печников А.А. Математические модели размещения ссылок в локализованной системе Интернет-ресурсов // Системы управления и информационные технологии. – 2007. – №2(28). – С. 92-96.

2. Печников А.А. О некоторых подходах к моделированию кликсообществ // Системы управления и информационные технологии. – 2008. – №3(33). – С. 15-18.

3. Печников А.А., Чуйко Ю.В. Исследование согласованного поведения малых Интеpнет-сообществ // Телекоммуникации. – 2008. – №10.

– С. 8-12.

4. Печников А.А. Вебометрические исследования Web-сайтов университетов России // Информационные технологии. – 2008. – №11. – С.

74-78.

5. Мазалов В.В., Печников А.А. О рейтинге официальных сайтов научных учреждений Северо-запада России // Управление большими системами. – М.: ИПУ РАН. – 2009. – Вып. 24. – С.130-146.

6. Печников А.А., Луговая Н.Б., Чуйко Ю.В., Косинец И.Э. Разработка инструментов для вебометрических исследований гиперссылок научных сайтов // Вычислительные технологии. – 2009. – Том 14, №5. – С. 66-78.

7. Печников А.А., Луговая Н.Б., Чуйко Ю.В.О связности множества официальных сайтов РАН // Вопросы современной науки и практики.

Университет им. В.И.Вернадского. – 2009. – № 12(26) – С. 154-158.

8. Мазалов В.В., Печников А.А., Фалько И.А. О построении рейтинга научных журналов // Управление большими системами. – М.: ИПУ РАН. – 2009. – № 27 – С. 47-52.

9. Воронин А.В., Печников А.А Исследования сайтов органов власти Республики Карелия // Век качества: Связь, сертификация, управление, экономика. – 2010. – №3. – С. 2-4.

31  10. Мазалов В. В., Печников А. А., Чирков А. В., Чуйко Ю. В. Задача дележа затрат на создание веб-коммуникатора как кооперативная игра / Управление большими системами. Специальный выпуск 30.1 "Сетевые модели в управлении". - М.: ИПУ РАН. - 2010. - № 30.1. - С. 187-196.

11. Печников А.А. Модель университетского Веба / А.А. Печников // Вестник Нижегородского университета им. Н.И. Лобачевского. – 2010. – №6. – С. 208 - 214.

Статьи в других научных изданиях:

12. Мазалов В.В., Печников А.А., Раковский И.В. Создание информационно-коммуникационной среды поддержки развития общественного участия и межмуниципальной кооперации // Петрозаводск:

ЗАО «Копистар Оптима». – 2005. – 33 с.

13. Печников А.А. Задача рационального размещения ссылок в регламентируемой локализованной системе интернет-ресурсов // Методы математического моделирования и информационные технологии. Труды ИПМИ КарНЦ. – Петрозаводск. – 2006. – вып. 7. – С.176-182.

14. Печников А.А., Чуйко Ю.В. Математические модели согласованного поведения малых Интернет-сообществ // Интернетматематика. – Екатеринбург: Издательство Уральского университета. – 2007. – С. 164-170.

15. Печников А.А., Илюкевич О.Г. Рейтинг официальных web-сайтов университетов России и Финляндии: сравнительный анализ // Информационные ресурсы России. 2008. – № 3 (103) – С. 25-28.

16. Печников А.А., Луговая Н.Б. Являются ли сайты конференций RCDL научными веб-коммуникаторами? // Тр. XI Всероссийской научной конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». – Петрозаводск. – 2009. – C. 329-332.

17. Печников А.А. Об исследованиях российского научного Веба // Материалы Всеросс. конф. с международным участием «Знания – Онтологии – Теории» (ЗОНТ-09, 22-24 октября 2009 г., Новосибирск). – Новосибирск: Институт математики им. С.Л. Соболева. – 2009. – Т.2. – С.

197-201.

18. Печников А.А. О некоторых подходах к исследованию российского научного Веба // Теория активных систем – 2009. Тр. междунар. научнопракт. конф. (17-19 ноября 2009 г., Москва). Том II. – 2009. – С. 140-144.

19. Чуйко Ю.В., Печников А.А. Исследование связности российского научного Веба / Ю.В. Чуйко, А.А. Печников // Когнитивный анализ и управление развитием ситуаций (CASC'2009). Тр. Междунар. конф. (17-ноября 2009 г., Москва). – С.283-286.

20. Печников А.А. О некоторых результатах вебометрических исследований университетского Веба // IV Междунар. научно-практ. конф.

32  «Современные информационные технологии и ИТ-образование». Сборник избранных трудов. – М.: ИНТУИТ.РУ. – 2009. – С. 530-537.

Тезисы докладов на научных конференциях:

21. Осолоткина Е.Ю., Печников А.А. Экспертные оценки предметной области в INTERNET // Университеты в образовательном пространстве региона: опыт, традиции и инновации. Тез. докладов научно-методической конф. (Петрозаводск, 18-20 мая 1999 г.). – 1999. – Часть 1. – С. 40.

22. Осолоткина Е.Ю., Печников А.А. Экологический аспект в Internetмоделях муниципальных образований // Математические методы в экологии. Тез. докладов Всеросс. научной школы (Петрозаводск, 10-июня 2001 г.). – 2001. – С.186.

23. Печников А.А. Вэбометрика интернет-ресурсов Карельского научного центра РАН // Северная Европа в XXI веке: природа, культура, экономика. Материалы Междунар. конф., посвященной 60-летию КарНЦ РАН (24-27 октября 2006 г.). – Том 2. – Петрозаводск: КарНЦ РАН. – 2006.

C. 146-147.

24. Печников А.А. Моделирование клик-сообществ // Обозрение прикладной и промышленной математики. – 2008. – том 15, вып. 3. – С. 566567.

25. Луговая Н.Б., Печников А.А. Измерения научных сайтов // Телематика’2008. Тр. XV Всероссийской научно-методической конф., Санкт-Петербург, 23-26 июня 2008. – Том 1 – С.166.

26. Луговая Н.Б., Печников А.А. Исследование экологических сайтов // Математические методы в экологии. Тез. докладов Третьей Всероссийской школы молодых ученых (Петрозаводск, 24-29 августа 2008 г.). 2009. – С.106.

27. Печников А.А. О некоторых результатах вебометрических исследований университетских сайтов // Информационная среда вуза XXI века: материалы II Всероссийской научно-практической конф., Петрозаводск, 15-18 сентября 2008. – С. 122-123.

28. Косинец И.Э., Луговая Н.Б., Печников А.А. Об одном подходе к исследованию ресурсов российского сегмента сети Интернет // Информационная среда вуза XXI века: материалы II Всероссийской научнопрактической конф., Петрозаводск, 15-18 сентября 2008. – С. 15-18.

29. Печников А.А., Луговая Н.Б. Структурные исследования научного Веба // Телематика’2009. Тр. XVI Всероссийской научно-методической конф. (22-25 июня 2009 г., С-Петербург), Том 2. – 2009. – С.340.

30. Луговая Н.Б., Печников А.А. Разработка инструментов для вебометрических исследований // Телематика’2009. Тр. XVI Всероссийской научно-метод. конф. (22-25 июня 2009 г., С-Петербург), Том 2. – С.341.

33  31. Косинец И.Э., Печников А.А. О подходе к классификации внешних гиперссылок // Информационная среда вуза XXI века: материалы III Всероссийской научно-практической конф. (21-25 сентября 2009 г.). – Петрозаводск. – 2009. – С. 121-124.

32. Печников А.А. О связях между сайтами Российской академии наук и учреждений высшего образования // Информационная среда вуза XXI века: материалы III Всероссийской научно-практической конф. (21-сентября 2009 г.). – Петрозаводск. – 2009. – С. 181-182.

33. Печников А.А. О веб-коммуникациях между официальными сайтами вузов Карелии // Университеты в образовательном пространстве региона: опыт, традиции и инновации. Материалы научно-методической конф. (Петрозаводск, 16-17 февраля 2010 г.), Часть II. – С. 81-83.

34. Мазалов В.В., Печников А.А. Задача дележа затрат на создание вебкоммуникатора как кооперативная игра // VIII Всероссийская школасеминар «Прикладные проблемы управления макросистемами». Материалы докладов (Апатиты, 29 марта-2 апреля 2010 г.) – С.37-38.

35. Косинец И.Э., Печников А.А. Об анализе веб-ресурсов органов власти // Информационная среда вуза XXI века: материалы IV Всеросс.

научно-практ. конф. (20-24 сентября 2010 г.). Петрозаводск, 2010. – С. 131133.

36. Печников А.А. Концептуальная модель фрагмента Веба и примеры ее реализации // Информационная среда вуза XXI века: материалы IV Всеросс. научно-практ. конф. (20-24 сентября 2010 г.). Петрозаводск, 2010.

– С. 172-173.

Веб-ресурсы 37. Вебометрика. Институт прикладных математических исследований КарНЦ РАН [Электронный ресурс]. – Режим доступа:

http://webometrics.krc.karelia.ru.

Свидетельства о регистрации программ:

38. Свидетельство о государственной регистрации программы для ЭВМ «Информационная система для вебометрических исследований» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2010610941 от 29 января 2010 г. Авторы: Печников А.А., Луговая Н.Б.

34  Автореферат отпечатан с разрешения диссертационного совета Д 212.190.03 (протокол № 60/2 от «31» января 2011 г.) Заказ № _____. Тираж 100 экз.

Карельский научный центр РАН Редакционно-издательский отдел 185003, г. Петрозаводск, пр. А. Невского, 50.

35 






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.