WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

На правах рукописи

Евсюткин Александр Сергеевич

Развитие методов и моделей формирования интеллектуального контента

08.00.13 - Математические и инструментальные методы экономики

Автореферат диссертации на соискание ученой степени кандидата экономических наук

Москва - 2012

Работа выполнена на кафедре информационных систем ФГБОУ ВПО «Государственный университет управления»

Научный консультант: кандидат экономических наук, доцент, доцент кафедры «Информационные системы» ФГБОУ ВПО Государственного университета управления Лобанова Надежда Михайловна

Официальные оппоненты: доктор экономических наук, профессор, заведующий кафедрой «Менеджмент» ФГБОУ ВПО Московского государственного университета приборостроения и информатики Белоусов Владимир Леонидович, кандидат экономических наук руководитель проектов ООО «ИБС Экспертиза» Прохорова Екатерина Андреевна

Ведущая организация: ФГБОУ ВПО Национальный исследовательский университет «Московский авиационный институт»

Защита состоится 25 апреля 2012 г. в 15 часов 00 минут на заседании диссертационного совета Д.212.049.09 в ФГБОУ ВПО «Государственный университет управления» по адресу: 109542, г. Москва, Рязанский проспект, 99, бизнес-центр, аудитория 211.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Государственный университет управления».

Автореферат разослан « » марта 2012 г.

Ученый секретарь диссертационного совета Д.212.049.кандидат экономических наук, доцент Алтухова Н. Ф.

I.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования.

Рост информационных потребностей в современном обществе связан с повышением сложности управления экономическими процессами и необходимостью принятия оптимальных решений на всех уровнях управления, поэтому современный этап развития экономики и управления требует новых форм информационного обеспечения пользователей с предоставлением им достоверной, качественной, своевременной и интеллектуально обработанной информации в соответствии с их потребностями.

В настоящее время существует большое количество поисковых систем по базам данных, по локальным ресурсам, по локальным и глобальным сетям, в которых применяются разнообразные математические модели и инструментальные средства для получения релевантных данных, удовлетворяющих заданным критериям поиска. Задача поиска информации осложняется тем, что по запросу пользователя, как правило, выводится огромное множество документов, а также с широко распространенными сегодня копипастерскими ресурсами, тайпсквоттерами и другими представителями черного и серого контента. Однако даже если детально рассмотреть результаты поиска, то часто в них обнаруживается изобилие так называемого «мусора», т.е. той информации, которая не имеет ощутимой пользы для пользователя. Все это говорит о необходимости совершенствования поисковых систем, самих алгоритмов поиска, а также о расширении существующего функционала.

Целью данной работы является развитие инструментария и математического аппарата для формирования интеллектуального контента при поисковом пользовательском запросе с целью повышения релевантности поиска и качества принимаемых управленческих решений на основе полученной в результате поиска информации.

Основными задачами

исследования являются:

1. Проведение анализа и сравнительной характеристики современных поисковых систем и технологий поиска.

2. Разработка инновационных методов формирования и обработки контента.

3. Разработка метода обучения классификатора при автоматическом реферировании поисковой выдачи.

4. Разработка модели формирования интеллектуального контента.

5. Разработка механизма функционирования системы формирования интеллектуального контента.

Область исследования. Диссертация выполнена по профилю специальности 08.00.13 – «Математические и инструментальные методы экономики» и соответствует областям исследования паспорта специальности 08.00.13 Высшей аттестационной комиссии «2.6. Развитие теоретических основ методологии и инструментария проектирования, разработки и сопровождения информационных систем субъектов экономической деятельности: методы формализованного представления предметной области, программные средства, базы данных, корпоративные хранилища данных, базы знаний, коммуникационные технологии» и «2.8. Развитие методов и средств аккумуляции знаний о развитии экономической системы и использование искусственного интеллекта при выработке управленческих решений».

Предметом исследования являются методы и модели формирования интеллектуального контента.

Объектом исследования является информационное обеспечение деятельности государственных, муниципальных органов самоуправления, а также субъектов бизнеса.

Методологические и теоретические основы диссертационного исследования.

Диссертационное исследование основывается на информационной, методологической и теоретической базе математического анализа, прикладной математики, маркетинговых исследований, разработок в области поиска и обработки информации и высокоуровневого программирования, а так же трудов ведущих отечественных и зарубежных специалистов в области искусственного интеллекта, поиска и обработки информации, таких как, Журавлв Ю.И., Рязанов В.В., Сенько О.В., Загоруйко Н. Г., Круглов В. В., Борисов В. В., Уоссермен Ф., Роберт К., Розенблатт Ф., Дж. Солтон., Федоровский А.Н, Костин М. Ю., Губин М. В., Колисниченко Д. Н.

Научная новизна. Научная новизна диссертационного исследования заключается:

- в развитии и комбинации методов повторного автоматического ранжирования, автоматического реферирования, латентно-семантического индексирования и стемминга с использованием экологического подхода для формирования интеллектуального контента;

- в разработке метода извлечения значимого текста из исходного html - документа с применением классификатора на основе нейронной сети и построении модели формирования интеллектуального контента при осуществлении релевантного поиска, как в глобальных, так и в локальных сетях.

Основными результатами диссертационного исследования, обладающими элементами научной новизны, являются следующие:

1. Проведен анализ и сравнительная характеристика современных поисковых систем и технологий поиска, в результате которого установлено, что на сегодняшний день не существует ни одной поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования.

2. Предложена комбинация методов формирования и обработки контента с использованием экологического подхода к осуществлению поиска.

3. Разработана конфигурация нейронной сети для обучения классификатора при автоматическом реферировании, применение которой позволяет исключить участие пользователя для извлечения значимого текста из исходного html - документа.

4. Предложена модель формирования интеллектуального контента, алгоритм функционирования которой основан на применении предлагаемых в диссертационном исследовании методов и реализован в виде надстройки для поискового модуля системы управления контентом Drupal.

5. Разработан механизм функционирования системы формирования интеллектуального контента на базе Интернет-портала, представляющий инструментальное средство, реализующее функции поиска и обработки информации, позволяющее обеспечить дружественный интерфейс пользователя и повысить эффективность и оперативность обработки запросов при принятии экономических и управленческих решений.

6. Разработаны методические рекомендации по организации процесса поиска и формированию интеллектуального контента.

7. Проведена оценка эффективности от внедрения системы формирования интеллектуального контента в Администрации г. Реутов Московской области.

Практическая значимость полученных в исследовании выводов и рекомендаций определяется возможностью повышения эффективности поиска необходимой релевантной информации внутри локальных и глобальных сетей при хозяйственной деятельности за счет комплексного интегрированного применения современных информационных технологий.

Разработанные методические рекомендации по организации процесса поиска и формирования интеллектуального контента можно использовать в рамках осуществления хозяйственной деятельности и процесса управления как для органов государственного и муниципального управления, так и для коммерческих организаций малого, среднего и крупного бизнеса.

Достоверность научных результатов подтверждается опытом применения разработанных методов и моделей в повседневной деятельности экономического управления Администрации города Реутова Московской области. Основные результаты диссертации опубликованы в печатных работах и обсуждались на международных и всероссийских конференциях и получили одобрение специалистов.

Апробация результатов исследования. Основные положения диссертации докладывались на научных конференциях: 15-я Всероссийская научно-практическая конференция "Актуальные проблемы управления – модернизация и инновации в экономике", Москва, ГУУ, 27-28 октября 2010г.; 21-ая ежегодная выставка-конференция информационных и коммуникационных технологий Softool, Москва, ВВЦ, 26-29 октября 2010г.;

третья ежегодная научно-практическая конференция «Информационные бизнес системы», Академия IBS, Институт информационных бизнес систем НИТУ «МИСиС», Факультет информационных бизнес систем МФТИ, апреля 2011 г.; 23-я международная выставка-конференция телекоммуникационного оборудования, систем управления, информационных технологий и услуг связи «Связь-Экспокомм-2011», Москва, ЦВК «Экспоцентр», 10-13 мая 2011 г.; 22-ая ежегодная выставкаконференция информационных и коммуникационных технологий Softool, Москва, ВВЦ, 25-28 октября 2011 г.

Внедрение результатов исследования проводилось в Администрации города Реутова Московской области.

Публикации. По теме диссертации в открытой печати опубликовано четыре научные работы общим объемом 1,4 п.л., из них две входят в рекомендованный ВАК перечень, лично автору принадлежит 1,4 п.л.

Объем работы. Диссертация состоит из введения, трех глав, заключения. Работа содержит 152 страницы основного машинописного текста, 27 рисунков, 17 таблиц. Библиографический список включает 1источников, в том числе 51 отечественный, 41 зарубежный, 19 Интернет ресурсов.

Структура диссертации. Работа состоит из введения, трех глав, заключения и списка литературы.

Во введении дано обоснование актуальности, научной новизны, целей и задач исследования, приведены наиболее существенные результаты.

В первой главе «Сравнительная характеристика современных технологий поиска, методов организации поиска и поисковых систем для сети Интернет» выделены основные задачи информационного поиска, рассмотрены устройство и принцип функционирования современных Интернет-поисковых систем, рассмотрена концепция информационной экологии, дана сравнительная характеристика существующих поисковых систем.

Во второй главе «Теоретические и методические вопросы формирования интеллектуального контента» были детально рассмотрены современные механизмы и методы формирования контента, реферирования текстовой информации, поиска и обработки текстов одинаковой тематики, был предложен механизм формирования интеллектуального контента с описанием основных принципов и алгоритма, даны методические рекомендации по разработке системы формирования интеллектуального контента с модульной структурой на основе Интернет-портала, рассмотрены современные системы управления контентом (CMS), дана их сравнительная характеристика и выбрана CMS Drupal в качестве основы будущей системы.

В третьей главе «Разработка системы формирования интеллектуального контента при поисковом запросе» были выделены функциональные модули и компоненты системы формирования интеллектуального контента, построена модель формирования интеллектуального контента, закладываемая в основу будущей системы, выделены классы пользователей и процессы системы, распределены права доступа, проведена оценка экономической эффективности создания системы.

В заключении диссертации даны основные выводы и предложения теоретического и практического плана.

II. ОСНОВНОЕ СОДЕРЖАНИЕ ИССЛЕДОВАНИЯ 1. Проведен анализ и сравнительная характеристика современных поисковых систем и технологий поиска.

Установлено, что основной задачей информационного поиска является помощь пользователю в удовлетворении его информационной потребности. Сегодня типичными задачами информационного поиска являются: классификация, фильтрация и кластеризация документов, проектирование архитектур поисковых систем и пользовательских интерфейсов, извлечение информации (аннотирование и реферирование документов), разработка новых и совершенствование существующих языков запросов.

В ходе анализа работы современных поисковых систем было выявлено, что при формировании выдачи, системы используют при описании документов привычные теги, использующиеся также при поисковой оптимизации (

, ), однако основная информация, по которой можно судить о релевантности документа, чаще всего, разбросана по всему документу. Ни одна из современных поисковых систем не обладает возможностью реферирования документов из выдачи, а лишь выводит заголовки и ключевые слова из найденных документов, соответственно пользователю приходится пересмотреть огромное множество страниц, анализируя предлагаемую информацию, что требует немало времени, а также значительно увеличивает трафик, стоимость которого достаточно высока.

В процессе проведения анализа выявлено, что на сегодняшний день не существует ни одной поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования.

2. Предложена комбинация методов формирования и обработки контента с использованием экологического подхода к осуществлению поиска.

Необходимость использования информационной экологии рассматривается в свете проблем, возникающих при взаимодействии человека с информационной средой. Стратегическая цель информационной экологии состоит в формировании средства фильтрации в реальном времени информационного потока, воздействующего на человека.

Концепция экологического подхода к Интернет-поиску не реализована в настоящее время ни в одной из поисковых систем. Однако следует понимать, что данную проблему невозможно решить лишь с одной стороны, поскольку концепцию экологического поиска необходимо применять еще на этапе создания сайтов и порталов.

В диссертационном исследовании при формировании интеллектуального контента предлагается использовать комбинацию из нескольких методов. В первую очередь осуществляется автоматическое реферирование первичной поисковой выдачи, за которым следует латентносемантическое индексирование и повторное ранжирование с построением результирующей выдачи (интеллектуального контента) с использованием экологического подхода к осуществлению поиска, заключающегося в удалении невостребованной пользователем информации, а также в фильтрации в реальном времени информационного потока, воздействующего на человека.

Предлагаемая концепция представляет механизм повторного автоматического ранжирования с выделением полезного текста из найденных в процессе запроса html-документов при помощи автоматического реферирования. Суть данного подхода заключается в удалении слишком общих документов из промежуточной поисковой выдачи. В настоящее время такой механизм не применяется ни одним из существующих Интернет поисковиков.

Повторное ранжирование в данном случае представляет метод учета статического качества документа из промежуточной выдачи с тем, чтобы определить попадет ли данный документ в итоговую выдачу для пользователя. Вводится понятие «порога неспецифичности», представляющего из себя числовой коэффициент, который определяется в результате функционирования системы автоматического реферирования, а также опорного тестирования выдачи на различных значениях данного коэффициента, с последующим сравнением результатов.

Таким образом, характерным решением для увеличения релевантности поиска может стать либо удаление всех документов из поисковой выдачи, не удовлетворяющих установленному порогу неспецифичности, либо увеличение позиции в общей выдаче для таких документов. Необходимость повторного ранжирования с реферированием и неприменимость прямого реферирования связана с тем, что, объем поискового индекса современных систем настолько огромен, что для автоматического реферирования всего множества просто нецелесообразно тратить время и ресурсы, которые потребовались бы для хранения аннотаций документов.

Принцип функционирования предлагаемой системы автоматического реферирования html-документов предполагает, что процесс реферирования разделяется на три последовательных этапа: анализ исходного текста, полученного из поисковой выдачи, выделение фрагментов, повторное ранжирование и формирование выдачи.

В настоящее время поисковыми системами применяются так называемые сниппеты – небольшие отрывки текста из документов, найденных поисковиком по запросу. Просмотрев сниппет, можно лишь приблизительно судить о контенте веб-страницы. В лучшем случае они содержат контекст, в котором встретилось ключевое слово относительно документа, но чаще просто выводят содержимое тега «Description», который у 90% сайтов не заполнен общей информацией по правилам поисковой оптимизации, соответственно для рядового пользователя эта информация носит лишь рекламный характер. Для нашей же концепции экологического поиска в сети Интернет данный подход не применим.

Задачи анализа текста и выделения фрагментов могут быть решены различными способами: составление выдержек, формирование краткого изложения. Для решения поставленной задачи метод формирования краткого изложения не применим, поскольку для его реализации требуются мощные вычислительные ресурсы, направленные на обработку естественных языков, в том числе грамматики и генерацию естественно-языковых конструкций, а в любой поисковой системе основные ресурсы затрачиваются на выполнение полнотекстового поиска и на обработку поискового индекса.

Метод составления выдержек предполагает акцент на выделение характерных фрагментов (как правило, предложений). Для этого методом сопоставления фразовых шаблонов, выделяются блоки наибольшей лексической и статистической релевантности. Создание итогового документа в данном случае - просто соединение выбранных фрагментов.

Автоматическое реферирование документов предполагает составление рефератов html-документов без активного участия пользователя.

Полезный для пользователя текст содержится в теле html документа, в основном между тегами и и может состоять из меню, заголовков, метаданных, программного кода, скриптов, таблиц, списков и т.д.

В соответствии с предложенной концепцией исходный документ разбивается на N-ое количество частей (например, строки или параграфы). В нашем случае остановимся именно на строках, поскольку далеко не все документы разбиваются по параграфам, да и чем крупнее части используются для анализа, тем больше полезной информации пропускается.

В данном случае возникает проблема: могут быть пропущены некоторые из строк, содержащих полезную для пользователя информацию, если в данной строке оказалось много разметки или сама строчка была слишком короткой. Для того, чтобы избежать описанной проблемы и тем самым улучшить фильтрацию полезного текста, при анализе текущей строки документа, следует рассматривать не только данную строку, но и соседние с ней, применив модель определения критериев адекватного выбора фрагментов.

Для этого на аналитическом этапе обработки документа применяется модель линейных весовых коэффициентов, предполагающая выполнение последовательности вычислений частоты и операций сопоставления строк или шаблонов, которые для каждого блока исходного текста выдают весовые коэффициенты четырех типов: Расположение, Частота появления, Частота использования, Статистическая значимость. Затем эти коэффициенты суммируются для каждого блока, после чего выбираются n блоков, обладающих наивысшей суммой коэффициентов (значение n может быть определено на основании степени сжатия) для включения в реферат.

3. Разработка конфигурации нейронной сети для обучения классификатора при автоматическом реферировании.

В большинстве систем, созданных на сегодняшний день для автоматического реферирования отдельных документов, пользователь задает параметры и производит настройку вручную, и выбор параметров зависит скорее от текущих потребностей, поскольку относительная значимость различных характеристик может сильно различаться для текстов разного стиля. Для автоматизации данного процесса, необходимо ввести классификатор, способный обучаться правилам выделения фрагментов.

Для обучения классификатора предлагается использовать такой метод машинного обучения, как нейронная сеть. В данном случае при проверке является ли текущая строка текста полезной информацией или мусором используется нейронная сеть, предварительно натренированная на некотором наборе данных.

В результате анализа данных, полученных в ходе тестирования алгоритма на одной из статей, можно сформулировать следующие недостатки: в тексте сохранилась подпись (теги), а также могут быть пропущены строки значимого текста, если в данной строке оказалось очень много разметки или сама строка была слишком короткой. Данные недостатки не отвечает требованию универсальности предлагаемого метода.

Поэтому, с целью улучшения фильтрации текста, следует рассматривать не только текущую строку, но и соседние с ней.

Основная идея состоит в том, чтобы при проверке очередной строки на наличие значимого текста, обратиться к предварительно натренированной на тестовом наборе данных нейронной сети.

В качестве входных параметров для нейронной сети используются следующие характеристики: порядковый номер строки в документе, плотность html-разметки в данной строке, длина строки, плотность htmlразметки в предыдущей строке, длина предыдущей строки, плотность html- разметки в следующей строке, длина следующей строки.

Длины всех строк (strleng) следует предварительно нормировать относительно максимальной длины строки в документе, а номер строки в документе (i) относительно общего количества строк N. Таким образом, каждый из перечисленных входных параметров принимает значение от 0 до включительно.

Для решения задачи была выбрана простая нейронная сеть с прямым распространением ошибки, а в качестве активирующей функции, с целью введения нелинейной зависимости, гиперболический тангенс.

Для выбора оптимальной конфигурации нейронной сети применяется алгоритм прореживания, позволяющий последовательно упрощать, либо усложнять нейронную сеть, в поисках варианта с наименьшей ошибкой. В итоге лучшие результаты получились с нейронной сетью из трех невидимых уровней, с семью нейронами в первых двух и с тремя в последнем. Стоит отметить, что слишком большое количество невидимых уровней позволит слишком точно настроить сеть на конкретные данные, что в итоге скажется на ухудшении результатов работы алгоритма. Схема нейронной сети представлена на рисунке 1.

Первый невидимый Второй невидимый Входные параметры Входной уровень уровень уровень порядковый номер строки в 1-1 2-1 3-документе плотность html-разметки в Третий невидимый 2-1 2-2 3-данной строке уровень Выходной уровень длина строки 3-1 2-3 3-3 4-Результат Является ли строка плотность html-разметки в 5-1 значимым текстом для 4-1 2-4 3-4 4-предыдущей строке пользователя? длина предыдущей строки 5-1 2-5 3-5 4-плотность html-разметки в 6-1 2-следующей строке 3-длина следующей строки 7-1 2-7 3-Рисунок 1 - Схема нейронной сети Для тренировки нейронной сети были созданы тренировочный и проверочный наборы данных. По двадцать html-документов экономической направленности для каждого, выбранных случайным образом. В результате анализа созданной нейронной сети получились следующие параметры:

количество ложных срабатываний 0.3%, количество пропусков события 0%.

4. Предложена модель формирования интеллектуального контента.

В результате комбинирования существующих методов обработки текстовой информации, применяемых современными поисковыми системами, таких как, латентно-семантический анализ, стемминг, с предложенными методами повторного ранжирования и автоматического реферирования, была построена модель формирования интеллектуального контента с использованием принципов экологического подхода к поиску.

Алгоритмическая схема предлагаемой модели формирования интеллектуального контента представлена на рисунке 2. Для реализации предлагаемого метода формирования интеллектуального контента далее необходимо определиться с системой управления контентом. На базе выбранной CMS (системы управления контентом) возможно разработать поисковый модуль, в функционал которого заложить рассмотренный выше алгоритм формирования интеллектуального контента.

Запуск системы в браузере Начало Ввод поискового Html запроса Документ, (ключевых пороговая слов) величина etal Осуществление Поисковый поиска через Открытие индекс модуль Search.php документа Латентносемантическое Разбиение индексирование документа на выдачи, с строки применением алгоритма Портера Подсчет количества строк, Ввод N количества документов на странице N (По Подсчет кол-ва умолчанию тегов в строке, N=10) html_lengh[N] Обработка документа с Подсчет помощью отношения да алгоритма количества html автоматического разметки к длине реферирования строки, qual[N] Постраничный Удаление строки вывод qual[N]

str = str + str [i] kз [i] = htmlleng [i] / strleng [i], при kз < const и i є [1; N], где N є Z, N > 0, const = 0,str – переменная, включающая текст реферата str [i] – вектор, значения которого – текущие строки kз - коэффициентом значимости В качестве константы, опытным путем, в ходе эксперимента, лучший результат был получен при const = 0,5. Разработан механизм функционирования системы формирования интеллектуального контента на базе Интернет-портала.

Для функционирования системы формирования интеллектуального контента предполагается создание ряда модулей на базе Интернет-портала.

Эти функциональные модули позволят решить задачи обеспечения информационного поиска, формирования поисковой выдачи, формирования поискового индекса, формирования интеллектуального контента из выдачи, реализации экологического подхода к поиску, обеспечить интерфейс пользователя с информационной системой. Варьируя набор модулей, можно дополнять или ограничивать функциональность информационного портала, для максимального соответствия потребностям пользователей. Для системы формирования интеллектуального контента необходимы следующие модули:

1. Web-браузер – для корректной работы с информационной системой подойдт любой современный Интернет-браузер, поддерживающий языки html и java.

2. phpMyAdmin - веб-интерфейс для администрирования СУБД MySQL, позволяет через браузер осуществлять администрирование сервера MySQL, запускать команды SQL и просматривать содержимое таблиц и баз данных.

3. СУБД MySQL - СУБД, управляющая реляционными базами данных. В его задачу входит работа с данными (хранение, выдача и т.д.).

4. Web-сервер Apache – HTTP-сервер. Apache принимает запрос и генерирует ответ (например, в виде html - страницы), передавая его обратно браузеру. Он позволяет подключать внешние модули для предоставления данных, использовать СУБД для аутентификации пользователей, модифицировать сообщения об ошибках.

5. PHP 5.0 - язык программирования (интерпретатор), созданный для генерирования HTML-страниц на веб-сервере и работы с базами данных. В его задачу входит подготовка (трансляция) программного кода и его исполнение (интерпретация).

6. Ядро CMS Drupal – основа системы управления контентом, организующая общее взаимосвязанное функционирование модулей и осуществляющая интерфейс с web-сервером.

7. Модуль Admin – осуществляет доступ к административному разделу CMS, в котором осуществляются основные настройки системы, подключение дополнительных модулей, а также наполнение Интернет-портала и поискового индекса контентом.

8. Модуль Profile – осуществляет создание и управление профилями пользователей портала, содержит пользовательские настройки.

9. Модуль Menu – позволяет формировать пользовательское меню для проекта, отвечает за навигацию по порталу.

10. Модуль Search – осуществляет поиск информации по порталу.

11. Модуль UserRange – позволяет организовывать систему пользовательских рейтингов контента.

12. Модуль Stemm – выполняет функции по выделению основы из слова.

13. Модуль Neuralnet – реализовывает нейронную сеть для модуля Referate, используемую при автоматическом реферировании.

14. Модуль LSI – реализовывает алгоритм латентно-семантического индексирования при анализе поисковой выдачи с целью выделения одинаковых документов.

15. Модуль Referate – основной модуль, отвечающий за автоматическое реферирование поисковой выдачи 16. Модуль Rerange – отвечает за повторное ранжирование документов из поисковой выдачи.

Схема взаимодействия модулей представлена ниже, на рисунке 3.

Web-браузер phpMyAdmin СУБД MySQL Web-сервер Apache PHP 5.Модуль Profile Модуль UserRange Ядро CMS Drupal Модуль Menu Модуль Search Модуль Referate Модуль Admin Модуль Rerange Модуль LSI Модуль Neuralnet Модуль Stemm Рисунок 3 - Диаграмма модулей системы формирования интеллектуального контента Создаваемая система формирования интеллектуального контента на базе Интернет-портала состоит из трх основных компонентов: Удалнный сервер, Автоматизированное рабочее место администратора системы и Автоматизированное рабочее место пользователя, соединение между которыми будет осуществляться через сеть Интернет. Кроме того, компонентами информационной системы могут являться локальные вычислительные сети любых заинтересованных организаций, в которые будут объединяться АРМ пользователей информационной системы, работающих в данных организациях, ЛВС должны будут построены по принципу клиент-сервер, а сервер должен иметь подключение к сети Интернет. На рисунке 4 представлена общая схема взаимодействия компонентов создаваемой информационной системы.

Удаленный сервер хостинг-провайдера … ПК Пользователя системы 1 ПК Пользователя системы N ПК Администратора системы Интернет … Сервер Пользователя системы 1 Сервер Пользователя системы N Локальная сеть Локальная сеть … … ПК Пользователя системы 1 ПК Пользователя системы N ПК Пользователя системы 1 ПК Пользователя системы N Рисунок 4 - Диаграмма размещения компонентов 6. Разработаны методические рекомендации по организации процесса поиска и формированию интеллектуального контента.

Ниже представлены рекомендации по реализации функций, выполняемых каждым компонентом информационной системы.

1. Удалнный сервер хостинг-провайдера. На удалнном сервере устанавливаются сервер баз данных MySQL Server для работы с базой данных информационной системы на базе Интернет-портала, программный интерпретатор PHP для трансляции и интерпретации файлов с исходным кодом информационной системы, веб-сервер Apache для обеспечения интерфейса создаваемой информационной системы и будущих пользователей по протоколу HTTP. Кроме того, на удалнный сервер устанавливается контрольная администраторская панель, обеспечивающая доступ к пользовательскому аккаунту услуг хостинга, позволяющая производить основные настройки программных серверов, а также работать с исходными файлами информационной системы. Также на сервер хостинг-провайдера крайне необходимо установить FTP-сервер, позволяющий работать с исходными и прочими файлами информационной системы через программуклиент по технологии FTP. Кроме системного программного обеспечения на удалнный сервер провайдера будут загружаться как сами исходные файлы CMS Drupal, так и прочие файлы, необходимые для полноценного функционирования будущей информационной системы на базе Интернетпортала, т.е. сервер будет также выполнять функцию хранения информации.

2. Автоматизированное рабочее место (ПК) администратора системы.

АРМ администратора представляет персональный компьютер с определнным набором установленного программного обеспечения, имеющий высокоскоростное подключение к сети Интернет. АРМ администратора выполняет все основные функции по настройке информационной системы, по наполнению Интернет-портала контентом, а также по обновлению данного контента и поддержке общего функционирования системы.

3. Автоматизированное рабочее место (ПК) пользователя системы. АРМ пользователя представляет персональный компьютер с установленным веббраузером, поддерживающим протокол HTTP. Кроме того, ПК пользователя должен иметь подключение к сети Интернет, достаточно скоростное для комфортной работы с порталом. Число АРМ пользователей, одновременно работающих с Интернет-порталом ограничивается лишь техническими возможностями удалнного сервера, а также программных серверов, и пропускной способностью Интернет-канала.

7. Проведена оценка эффективности от внедрения системы формирования интеллектуального контента в Администрации г.

Реутов Московской области.

Поскольку основной упор при внедрении системы делается на органы самоуправления муниципальных образований, а так же на субъекты малого и среднего бизнеса, то внедрение системы рассмотрено на примере Администрации города Реутов Московской области и ООО «Социальноделовой центр «Инициатива». В процессе внедрения системы была проведена классификация пользователей и определены их права доступа при эксплуатации системы формирования интеллектуального контента.

Использование системы предполагается экономическим управлением Администрации города Реутов Московской области. Основными задачами управления являются:

- разработка мероприятий по расширению налогооблагаемой базы, оказание поддержки предприятиям города, подготовка отчетов по социальноэкономическим показателям развития города, - подготовка доклада о достигнутых значениях показателей для оценки эффективности деятельности Администрации города за отчетный год и их планируемых значениях на трехлетний период.

Основными источниками экономической эффективности разрабатываемой системы являются:

1. Снижение нагрузки на сотрудников за счет автоматизации рутинной работы с помощью интеллектуальных алгоритмов.

2. Снижение времени на поиск документа, повышение своевременности, достоверности получаемой информации благодаря экологическому подходу и снижению количества «мусора» в поисковой выдаче.

3. Уменьшение времени подбора необходимой экономической информации за счет автоматизации и простоты поиска.

4. Ускорение ввода основных данных в информационную систему за счет применения шаблонов и классификаторов.

5. Небольшая трудоемкость и простота расширения системы с помощью незначительных изменений существующих компонентов и организации взаимодействия с другими информационными системами через стандартные протоколы обмена информацией (HTML, XML, ODBC).

6. Повышение оперативности и удобства взаимодействия с системой в результате формирования дружественного интерфейса пользователя с помощью Интернет-портала.

Для оценки эффективности была рассчитана трудоемкость создания системы формирования интеллектуального контента и определены основные количественные показатели эффективности. При ожидаемой команде разработчиков из 5 человек, 8-часовом рабочем дне и 5-дневной рабочей неделе система формирования интеллектуального контента будет готова через 4 месяца с учтом добавления месяца для непредвиденных ситуаций.

Чистый дисконтированный доход составляет 993923 руб., внутренняя норма доходности системы формирования интеллектуального контента составит 47 %, что намного выше нормы дисконта, которая при расчтах принималась равной 12 %. Срок окупаемости равен 3 года.

При оценке трудоемкости и эффективности действующие лица, типы пользователей и весовые коэффициенты, единовременные и текущие затраты, норма дисконта, экономия на заработной плате сотрудникам, выраженная в качестве дохода, определялись с помощью экспертных оценок, в роли экспертов выступали: Руководитель Администрации, заместители Руководителя Администрации, а также начальник экономического управления. Экономия на заработной плате стала возможной благодаря снижению нагрузки на сотрудников, экономии времени на поиск документов, автоматизации процессов поиска и подбора требуемой экономической информации.

III. ВЫВОДЫ В процессе диссертационного исследования получены следующие основные результаты и сформулированы выводы:

1. В результате проведенного анализа и сравнительной характеристики современных поисковых систем и технологий поиска установлено, что поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования, в настоящее время не существует.

2. Концепция экологического подхода к Интернет-поиску, заключающегося в формировании средства фильтрации в реальном времени информационного потока, воздействующего на человека, является важной составляющей системы формирования интеллектуального контента.

3. Разработаны инновационные методы формирования и обработки контента в соответствии с экологическим подходом к поиску, которые представляют комбинацию из нескольких методов, а именно, автоматическое реферирование первичной поисковой выдачи, за которым следует латентносемантическое индексирование и повторное ранжирование с построением результирующей выдачи (интеллектуального контента) с использованием экологического подхода к осуществлению поиска, заключающегося в отбросе невостребованной пользователем информации, а также в фильтрации в реальном времени информационного потока, воздействующего на человека.

4. Для обучения классификатора предлагается использовать нейронную сеть, конфигурация которой позволяет исключить участие пользователя при анализе и обработке исходного текста документа из поисковой выдачи.

5. Предложена модель формирования интеллектуального контента, построенная на основе комбинации методов, применяемых современными поисковыми системами, таких как, латентно-семантический анализ, стемминг, и предлагаемых в диссертационном исследовании методов повторного ранжирования и автоматического реферирования с использованием принципов экологического подхода к поиску.

6. Разработан механизм функционирования системы формирования интеллектуального контента на базе Интернет-портала, состоящего из функциональных модулей, позволяющих решать задачи обеспечения информационного поиска, формирования поисковой выдачи, формирования поискового индекса, формирования интеллектуального контента из выдачи с использованием экологического подхода к поиску, обеспечивая интерфейс пользователя с информационной системой.

7. Дана оценка экономической эффективности от внедрения системы формирования интеллектуального контента на примере экономического управления Администрации города Реутов Московской области.

8. Теоретические положения и практическая реализация результатов исследования ориентированы на широкое использование в хозяйственной деятельности органов муниципального самоуправления субъектов РФ, а также субъектов малого и среднего бизнеса.

IV.Работы, опубликованные автором в ведущих рецензируемых научных журналах и журналах, рекомендованных ВАК Министерства образования и науки РФ 1. Евсюткин А.С. Интеллектуальные технологии поддержки современного бизнеса. // «Вестник университета» №19. - Москва:

ГУУ - 2011. – С. 169-171.– 0,3 п.л.

2. Евсюткин А.С. Формирование интеллектуального контента при поисковом запросе. // «Вестник университета» №21. – Москва: ГУУ - 2011. – С. 39-42.- 0,3 п.л.

Другие работы, опубликованные автором по теме кандидатской диссертации 3. Евсюткин А.С. Формирование контента на базе CMS Drupal. // Материалы 15-ой Всероссийской научно-практической конференции " Актуальные проблемы управления – модернизация и инновации в экономике ". Вып. 4. - Москва: ГУУ - 2010. – С. 30-33.- 0,4 п.л.

4. Евсюткин А.С. Анализ систем управления контентом. // Материалы конференции «Третья ежегодная научно-практическая конференция «Информационные бизнес системы».- Москва: Академия IBS, Институт информационных бизнес систем НИТУ «МИСиС», Факультет информационных бизнес систем МФТИ - 2011.- С. 188-191.

– 0,4 п.л.




© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.