WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 | 2 || 4 |
    • ai – количество документов, относящихся к процессу Pri и отнесенных в результате классификации к этому процессу;
    • bi – количество документов, не относящихся к процессу Pri, но отнесенных в результате классификации к этому процессу – так называемая ошибка первого рода;
    • ci – количество документов, относящихся к процессу Pri, но не отнесенных в результате классификации к этому процессу – так называемая ошибка второго рода;
    • di – количество документов, не относящихся к процессу Pri и не отнесенных в результате классификации к этому процессу.

Данные величины рассчитываются после завершения исполнения процесса. Если процесс завершился без изменения привязки документа экспертом, то увеличивается значение ai, в противном случае увеличивается значение bi или ci в зависимости от того, правильно ли был отнесен документ к процессу. Для всей совокупности процессов рассчитываются следующие интегральные величины:,,,. Вероятности этих гипотез несовместимы и образуют полную группу событий, т.е. P(A) + P(B) + P(C) + P(D) = 1. На основании этих величин рассчитываются коэффициент точности классификации (a) и ошибка классификации (e) по следующим формулам:

,. (8, 9)

В данной работе качество классификации оценивается коэффициентами точности и ошибки классификации по контрольной выборке. Оценка качества определения взаимосвязей документов и технологических процессов должна производиться при практическом использовании предложенного метода для выявления снижения адекватности репозитория и принятия соответствующих мер (повторного его формирования, изменения коэффициентов зон документов и т.д.).

В третьей главе описывается реализация предложенного метода в виде модуля системы поддержки процессного управления, функционирующего по схеме, приведенной на рис. 1. Входящий документ регистрируется в системе документооборота, проходит классификацию и соотносится с каким-либо технологическим процессом, который затем выполняется. По результатам реализации процесса производится корректировка моделей взаимосвязи документа и процесса. Реализация производилась на программно-технологической платформе Национального банка Республики Башкортостан Банка России.

В настоящее время в Банке России технологической основой системы электронного документооборота является система САДД «Дело» 8.6.1. Система поддержки процессного управления СОУД ТУ реализована на базе аналитического комплекса «Прогноз» - специализированного инструментария создания систем поддержки принятия решений и информационно-аналитических систем в банковской сфере, различных областях экономики, финансов и производства. В связи с открытостью системы СОУД ТУ, наличием в АК «Прогноз» мощного инструмента для создания приложений, наличием в САДД «Дело» API-интерфейса, в качестве платформы для разработки системы классификации выбрана среда АК «Прогноз».

Реализация предложенного метода произведена в виде двух подсистем – подсистемы обучения (формирования репозитория) и подсистемы классификации. Фрагмент предлагаемой информационной модели приведен на рис. 4. Фрагменты программ на языке FORE (язык АК «Прогноз»), хранимых процедур на языке PL/SQL и часть экранных форм приведены в диссертационной работе. При практической реализации метода использовано хранилище описаний технологических процессов системы СОУД ТУ и хранилище документов системы САДД «Дело». Взаимодействие этих систем с целью обеспечения информационной безопасности производится от имени специально созданного пользователя. В диссертационной работе приведены требования к серверам и рабочим станциям, используемым комплексами «Прогноз» и «Дело».

Рисунок 4. Фрагмент логической модели разработанного модуля

В четвертой главе приводится описание проведенного эксперимента, осуществленного на базе Национального банка Республики Башкортостан Банка России. Целью проведения эксперимента является исследование адекватности и корректности модели взаимосвязей документов и технологических процессов и алгоритмов ее построения и применения, а также проверка на практике предположения, лежащего в основе построения модели документа процесса, о том, что выделенная совокупность терминов и их статистические характеристики могут быть использованы для определения технологических процессов, к которым относится тот или иной документ.

Для получения наиболее достоверных данных и исследования влияния количества документов, на которых строятся их модели, на качество классификации, произведена серия испытаний, отличающихся наборами входных данных. Проведены следующие испытания:

  1. Произведено формирование репозитория на полном объеме обучающей выборки по четырем выбранным технологическим процессам и тестовая классификация на полном объеме тестовых документов;
  2. Произведено формирование репозитория на полном объеме обучающей выборки только по одному технологическому процессу и тестовая классификация на полном объеме тестовых документов;
  3. Формирование репозитория производится в два этапа на разных половинах обучающей выборки, после каждого этапа производится тестовая классификация на полном объеме тестовых документов.

Для проведения эксперимента отобрана группа из 4 технологических процессов, относящихся к направлению деятельности «Информатизация деятельности»:

  • предоставление сервисов информационно-телекоммуникационной системы (ИТС);
  • поддержка сервисов ИТС;
  • техническая эксплуатация оборудования и средств связи, вычислительной техники, организационной техники и средств механизации кассовой работы;
  • ведение договоров.

Выбор этих процессов обусловлен наличием в их исполнении большого количества типов документов: это информационные сообщения, приказы, распоряжения, договоры. Проведение эксперимента на этих процессах позволит сделать выводы о применимости предложенных модели и алгоритмов для полного набора технологических процессов и их документов.

В обучающую выборку включены документы, привязанные к процессам и созданные в течение предыдущего календарного года (т.е. с 01.01.2006 по 31.12.2006). По выбранным технологическим процессам за указанный период времени отобрано 389 документов, хранящихся в электронном виде в хранилище САДД, из которых всем условиям удовлетворяют 346 (по 43 документам имеются незавершенные запуски процессов). Таким образом, в ходе экспериментальных исследований должны быть обработаны 346 документов по 4 технологическим процессам, из числа которых часть документов должна быть выделена для построения моделей, а оставшиеся должны быть использованы для проверки системы классификации на основании полученных моделей.

Распределение документов на обучающую и тестовую выборки осуществлялось случайным образом; количественно документов отражено в таблице 3.

Таблица 3

Параметры

Испытание

Количество процессов в обучающей выборке

Количество документов в обучающей выборке

Количество документов в тестовой выборке

1

4

173

173

2

1

47

299

3

2

173

173

Ниже приведены обобщенные результаты работы модуля при определении взаимосвязи документов и технологических процессов в рамках первой серии экспериментов. В ходе обработки документов обучающей выборки (привязанных к выбранным технологическим процессам) для формирования моделей документов процессов выделено 1184 значащих уникальных термина, среднее количество терминов в документе составляет 192. В среднем каждый выделенный термин встречается в ~80% обработанных документов. В данной матрице представлены уникальные термины после произведения замены синонимов. В случае наличия синонимов они заменяются на термин с максимальным приоритетом из справочника синонимов.

После проведения классификации документов получены результаты, в графическом виде представленные на рис. 5.

Рисунок 5 – Результаты классификации 1 документа

Из рисунка возможно сделать вывод о принадлежности классифицируемого документа к процессу с номером 27, а также, возможно, к процессам 10 и 29, что определяется анализом того, есть ли у этих трех процессов общие документы. Если есть – документ должен быть отнесен ко всем трем процессам, иначе – к тем, которые имеют общие документы (т.е. 27 и 10 или 27 и 29 или только 27).

Обобщенные результаты классификации документов тестовой выборки по первому виду испытаний приведены в таблице 4, результаты классификации документов трех групп приведены в таблице 5.

Таблица 4

процесс

термин

Количество документов, относящихся к процессу

Количество документов, верно отнесенных системой к процессу

Количество документов, неверно отнесенных системой к процессу

Ошибка классификации

предоставление сервисов ИТС

49

46

3

6,1%

поддержка сервисов ИТС

96

90

6

6,2%

техническая эксплуатация оборудования и средств связи

19

17

2

10,5%

Ведение договоров

9

8

1

11,1%

Показатели качества классификации (коэффициент точности классификации и ошибка классификации), рассчитанные по приведенному в главе 2 алгоритму, для первого вида испытаний составили: a = 93%, c = 7%.

Таблица 5

Показатель качества

Группа

Количество верно классифици-рованных документов

Количество неверно классифици-рованных документов

Количество неклассифици-рованных документов

Коэффициент точности классифика-ции

ошибка классификации

1

46

3

0

93%

7%

2

32

15

0

68%

23%

3

44

10

2

91,3%

5,8%

Отсутствие в первых двух испытаниях неклассифицированных документов говорит о том, что наличие в классифицируемых документах терминов, присущих документам этого процесса, позволяет хоть и с малой точностью (всего 68% во втором случае), но произвести классификацию даже при малом объеме обучающей выборки. Проведенные испытания показали, что предлагаемая в данной работе модель взаимосвязей документов и технологических процессов, алгоритм ее формирования и метод классификации пригодны к использованию на практике для классификации документов по технологическим процессам. Проведенные 3 вида испытаний показали, что качество получаемой в результате обучения модели и точность классификации зависят от размеров обучающей выборки связанных документов и технологических процессов.

ОсновнЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ работы

Основные результаты работы состоят в следующем:

Pages:     | 1 | 2 || 4 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»