WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 | 2 || 4 |

3. Определение класса документа. Выполнение данного этапа основывается на понятиях матрицы и шаблона документа. Матрица документа представляется в виде b1 Z1 l A =........., где Zi – тип i–ой зоны документа, li – длина i–ой зоны докумен bn Zn ln та в символах, bi – положение начала зоны относительно начала документа в символах. Шаблоном документа называется вектор (Z1,..., Zn ), определяющий порядок зон, где Zi – тип i-ой зоны. Для одного класса ЭД может существовать множество шаблонов, описанных указанным методом. Класс ЭД определяется посредством сопоставление матрицы ЭД и набора возможных шаблонов.

4. Последовательное определение метаданных в каждой зоне документа. Основано на существовании для найденного класса шаблона, в котором указан набор зон и список возможных метаданных для каждой зоны.

На 2-4 этапах используется математический аппарат, основанный на построении нейронной сети Кохонена, применяемой для классификации образов путём нахождения близости параметров образа к ядру каждого класса. Для использования данного механизма определяются: ядра классов C, вектор входных параметров x и вектор d, характеризующий расстояние от x до C. Для определения класса, к которому относится объект, выбирается минимальная евклидова норма d, т.е. решается задача d(x,C) min. Соответствующий минимальному расстоянию класс является искомым.

На слой нейронов подается вектор входных параметров x = (x1,..., xn ), где xi – слова выбранной зоны документа, n – количество слов в зоне.

Ядро класса для метаданного имеет вид:

C = (k, r,{s1,..., sv},{ f1,..., fu},{t1,...,tw}) (1) где k – определяющий признак класса, r - позиция признака в тексте, {s1,…,sv} – ключевые слова, v – количество ключевых слов, {f1,…,fu} – ключевые фразы, u – количество ключевых фраз, {t1,…,tv} – шаблоны, соответствующий синтаксису регулярных выражений, w – количество шаблонов.

Задача поиска минимального расстояния d(x,C) от вектора входных параметров до ядра класса сводится к определению:

q1d1 + d2q2 + d3q3 + d4q4 + d5q5 max, (2) где — d1 – величина, определяющая присутствие в документе определяющего признака, нормированное к числу слов зоны документа:

n d1 = (3) [k = xi ].

n i=— d2 – величина, определяющая расстояние между позицией определяющего признака в документе и позицией определяющего признака из ядра класса, нормированное к числу слов зоны документа:

n d2 = k = xi 1-. (4) [ ] i - r n max(i,r) i= — d3 – величина, определяющая количество слов зоны документа, совпавших со словами из ядра класса, нормированное к числу слов зоны документа:

n v d3 = sk = xi. (5) [] n i=1 k=— d4 – величина, определяющая количество фраз зоны документа, совпавших с фразами из ядра класса, нормированное к числу слов зоны документа:

n-m u i+m d4 =. (6) fk = x j n i=1 k=1 j=i — d5 – величина, определяющая количество слов, соответствующих регулярным выражениям из ядра класса, нормированное к числу слов зоны документа:

pk n w d5 = (7) match(t,x ), k j n i=1 k=1 j=i где pk – количество слов в k-ом регулярном выражении, match (x,y) – логическая функция, истинная, если фраза y соответствует регулярному выражению x и ложная в противном случае.

— весовые коэффициенты qi удовлетворяют условию = 1.

q i i=Для эффективного определения метаданных в механизм включена функция обучения, состоящая в автоматическом добавлении новых ядер классов (автоматическое обучение), а так же в модернизации и добавлении шаблонов вручную (обучение с учителем).

Достоверность определения метаданных в период тестовой эксплуатации при занесении документов в СЭД составила 94% для структурированных (например, распоряжение, приказ, заявление) и 76% для слабоструктурированных (например, письмо, служебная записка) документов.

Метод выбора архитектуры СЭД основан на решении задачи оптимизации стоимости документопотоков, в основе которой лежит «архитектурный» подход – анализ возможного использования различных архитектурных решений при проектировании СЭД.

В качестве целевой функции выбрано выражение, включающее определение стоимостей хранения информации, получения данных из ИС и получения данных из БД СЭД при заданных ограничениях. Показано, что решение задачи оптимизации можно найти путём оценки эффективных параметров различных архитектурных решений, возможных для конкретного предприятия. Представлен анализ каждого из слагаемых целевой функции с учётом существенности полученных ограничений. На основе данного анализа разработан и представлен метод выбора оптимальной архитектуры СЭД.

На основе построенных моделей разработана структура данных СЭД, представленная в виде ER-модели.

Построенные модели соответствуют разработанным требованиям:

1. Модели должны обеспечивать возможность эффективного добавления, редактирования, удаления и работы с данными произвольного типа и размера. Данное требование обеспечивается за счёт ввода в информационную модель понятия ЭД, как объекта, способного содержать различную информацию как в структурированном, так и в слабоструктурированном виде, снабжённого стандартизованным описанием, а также вводом в функциональную модель блоков добавления, редактирования и удаления объектов содержимого.

2. Модели должны обеспечивать возможность совместного с другими ИС использования одной и той же информации. Данное требование обеспечивается вводом в информационную модель понятий ИС, а в функциональную модель блоков импорта, экспорта и управления доступом.

3. Модели должны обеспечивать возможность интеграции ИС за счёт использования стандартизованного описания формата передачи данных и наличия у систем схожих сервисов работы с этим форматом. Данное требование обеспечивается вводом в информационную модель понятия ЭД, отношений между ЭД, а в функциональную модель - блоков импорта, экспорта, управления доступом, выполнения дополнительных функций.

4. Модели должны обеспечивать возможность объединения внутренних прикладных процессов каждой ИС за счёт создания в СЭД типовых бизнес-процессов.

Данное требование обеспечивается за счёт ввода в информационную модель понятий БП, процесса, задания и функции, а в функциональную модель блоков управления бизнес-процессами и управления доступом.

5. Модели должны обеспечивать возможность автоматического определения метаданных из содержимого текстового документа, а также возможность определение метаданных из описания, представленного в специальном формате (например, в XML формате). Данное требование обеспечивается вводом в информационную модель понятий метаданных ЭД и XML формата их представления, вводом в функциональную модель блоков автоматического определения метаданных, в основу которого положено построение нейронной сети Кохонена, определения метаданных из XML формата.

6. Модели должны обеспечивать возможность управления документами. Данное требование обеспечивается вводом в информационную модель понятий ЭД, содержимого ЭД, метаданных ЭД, а в функциональную - модель блока работы с ЭД.

7. Модели должны обеспечивать возможность маршрутизации. Данное требование обеспечивается вводом в информационную модель понятия ЭД, маршрута ЭД, а в функциональную модель - блока управления БП. Маршрутизация ЭД осуществляется посредством создания связанного с ним процесса.

8. Модели должны обеспечивать возможность управления бизнес-процессами. Данное требование обеспечиваются вводом в информационную модель понятий БП, а в функциональную модель - блока управления БП.

9. Модели должны обеспечивать возможность реализации удобных средств навигации и организации доступа пользователей к информации. Данное требование обеспечивается за счёт ввода в информационную модель понятий папки, закладки, отношения, группы объектов, а в функциональную модель - блоков управления папками, закладками и блока осуществления различных видов поиска.

10. Модели должны обеспечивать безопасность хранения и передачи информации.

Данное требование обеспечивается за счёт ввода в информационную модель понятий пользователя, группы пользователей, права и роли, а в функциональную модель блоков авторизации, разграничения прав доступа к объектам и делегирования прав.

11. Модели должны предусматривать настройку СЭД на выбранную архитектуру.

Данное требование обеспечено предложенным методом выбора архитектуры СЭД на основе решения задачи оптимизации стоимости документопотоков.

Третья глава посвящена описанию реализации СЭД согласно предложенным моделям и методам.

С учётом построенных моделей СЭД, используя метод выбора оптимальной архитектуры системы, осуществлён выбор трёхзвенной архитектуры СЭД с централизованным управлением данными и доступом к системе через Интернет. В качестве клиентского приложения выбран максимально “тонкий” клиент - стандартный веб-броузер. Все электронные документы СЭД хранятся без дублирования в БД ЭД. Так как БД ЭД должна быть в некотором смысле “распределённой”, то есть состоять из двух частей – реляционной базы данных, предназначенной для хранения метаданных, и объектной базы данных, ориентированной на работу с документами произвольного типа, то в качестве БД была выбрана объектно-реляционная СУБД. Структура реляционных таблиц соответствует модели структуры данных. При реализации уровня бизнес-логики были использованы средства, обеспечивающие эффективную работу с данными, –пакеты PL/SQL и JAVA.

Для обеспечения доступа к логике СЭД из Интернета использован сервер приложений Apache Tomcat, выполняющий также функции web-сервера. Для реализации интерфейса СЭД использована библиотека KemSUWEB, разработанная в ЦНИТ КемГУ, обеспечивающая единую среду для создания приложений, основанных на трехзвенной архитектуре, за счет адаптеров, которые удовлетворяют потребностям разработчика: в операциях с БД, в защите информации, в управлении ходом приложения. Интерфейс СЭД расположен на сервере приложений и представлен в виде набора xml-файлов, хранящихся в папках, имеющих древовидную структуру.

В конце главы приводится описание интерфейса и функционала реализованной СЭД, а также подтверждение соответствия созданной системы построенным моделям. Проведено тестирование СЭД на соответствие предъявленным к ней требованиям. СЭД внедрена в тестовую эксплуатацию в КемГУ и доступна по адресу http://sed.kemsu.ru.

В заключении приводятся основные результаты, полученные в диссертации, формулируются выводы, вытекающие из проведённых исследований, приводится ряд возможных направлений дальнейших исследований.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ, ПОЛУЧЕННЫЕ В ДИССЕРТАЦИИ 1. Предложена модель комплексной интеграции информационных систем, обеспечивающая информационно-ориентированный, сервисно-ориентрованный и процессно-ориентированный принципы интеграции.

2. Разработан перечень требований к моделям СЭД на основании результатов проведённого анализа существующих подходов к интеграции информационных систем и систем электронного документооборота. На его основе определены информационные объекты системы.

3. Разработаны информационная и функциональные модели, а также модели структуры данных СЭД, удовлетворяющие разработанным требованиям. В информационной модели описаны информационные объекты СЭД, а также отношения между ними. Набор функциональных моделей создан в виде совокупности диаграмм IDEF0 и IDEF3, отражающих функционал СЭД и существующие в системе потоки данных.

4. Разработан метод выбора архитектуры СЭД на основе решения задачи оптимизации стоимости документопотоков.

5. Предложен метод автоматического определения метаданных ЭД, в основу которого положена математическая модель нейронной сети Кохонена. Метод реализован и апробирован как часть СЭД.

6. На основе представленных моделей и методов реализована СЭД и проведена её апробация в процессе управления ВУЗом.

Достоверность результатов диссертационной работы подтверждается реализацией на основе построенных моделей в соответствии с разработанными требованиями СЭД и внедрении её в опытную эксплуатацию в КемГУ.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Журналы, рекомендованные ВАК для представления основных научных результатов диссертации:

1. Гудов, А. М. Об одной модели оптимизации документопотоков, реализуемой при создании системы электронного документооборота [Текст] / Гудов А. М., Завозкин С.Ю.

// Вычислительные технологии. - 2006. - том 11, специальный выпуск. – С. 53 - 2. Гудов, А.М. Создание компонента автоматического определения метаданных документа для системы электронного документооборота [Текст] / А.М. Гудов, С.Ю. Завозкин, А.С. Меньшиков // Вестник томского государственного университета. – 2006. - №16.- С. 19-3. Гудов, А.М. Информационные и математические модели, заложенные в систему электронного документооборота КемГУ [Текст] / А. М. Гудов, С. Ю. Завозкин // Вестник НГУ.- 2005.- Том.2, вып.1, серия “Информационные технологии в образовании”. – С.

68 – 73.

4. Завозкин, С. Ю. Процессно-ориентированная интеграция приложений при помощи системы электронного документооборота [Текст] / А. М. Гудов, С. Ю. Завозкин // Вестник ТГУ. – 2006. - № 19. - Приложение. Материалы международных, всероссийских и региональных научных конференций, симпозиумов, школ, проводимых в ТГУ.

– С. 20 – 27.

Труды конференций:

1. Завозкин, С. Ю. Система электронного документооборота ВУЗа [Текст] / А. М. Гудов, С.Ю. Завозкин // Труды VI Всероссийской научно-практической конференции “системы автоматизации в образовании, науке и производстве”. – Новокузнецк: СибГИУ, 2007. С. 278 – 281.

2. Гудов, А.М. Интеграция распределённых приложений при помощи системы электронного документооборота [Текст] / А.М. Гудов, С.Ю. Завозкин // Труды международной конференции “Вычислительные и информационные технологии в науке, технике и образовании”. – Павлодар: ТОО НПФ “ЭКО”, 2006. - II том. С. 442 – 451.

3. Завозкин, С.Ю. Об одном подходе построения архитектуры для реализуемой системы электронного документооборота ВУЗа [Текст] / С.Ю. Завозкин // Труды V Всероссийской научно-практической конференции “Недра Кузбасса. Инновации.”. – Кемерово:

ИНТ, 2006. С. 172 – 176.

Pages:     | 1 | 2 || 4 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»