WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 | 4 |

Документ – совокупность связанных лексических единиц, состоит из формализованной части – заголовка, и неформализованной – тела документа. Термин – лексическая единица, состоящая из букв и цифр, ограниченная с обеих сторон символом «пробел», «табуляция», «перевод строки» или «граница абзаца» или перечисленными символами слева и знаком препинания справа. Если к термину с любой стороны присоединен знак препинания, при выделении терминов знаки препинания удаляются. Технологическая карта – формализованное представление технологического процесса в виде набора атрибутов. Реализация процесса – исполнение технологического процесса, заданного описанием в виде технологической карты и имеющее наступившее инициирующее событие.

В работе документ D рассматривается как набор значащих терминов T, его составляющих, получаемый после отбрасывания шумовых терминов по словарю стоп-слов V. Принадлежность термина к шумовым определяется по его вхождению в словарь шумовых терминов, состоящий из форм обращения, приветствий, предлогов и т.д.. Таким образом:, где D – документ, T –термины, составляющие документ, V – словарь шумовых терминов. Каждый термин имеет свойства, характеризующие его значение в документе: это зона документа Z, к которой относится термин, и количество вхождений этого термина в каждую зону K. Документ как множество терминов можно описать следующим образом: D = T(z, k) \ V. Множество документов образует базу документов: B = {Di}, i=1..|B|.

Технологические процессы представляют собой описание выполняемых операций, для которых указаны сведения о документах, используемых при их исполнении, время начала действия описания процесса и время окончания действия описания. Так, можно записать P = <OP, DO, RD, tн, tк>, где P – технологический процесс, OP={Oi} – множество операций p-го процесса, DO = {Di} – документ, RD = {Ri}– роль документа D в операции, tн, tк – дата начала и окончания действия данного описания технологического процесса. В операции процесса документ может играть следующие роли: документ инициирует выполнение процесса, инициировать выполнение операции, использоваться в результате выполнения процесса, завершать выполнение операции и завершать выполнение процесса.

Связь документа и технологического процесса определяет, с одной стороны, к каким процессам относится документ, и с другой – какие документы используются в процессе. Так, можно записать:

Li,j = <Di, Pj, Wi,j >, (1)

где Li,j – связь i-го документа и j-го технологического процесса, Di – i-ый документ из множества документов D, Pj – j-ый технологический процесс из базы описаний технологических процессов P, Wi,j – множество весов терминов, составляющих документ Di в процессе Pj. Определение весов терминов описано ниже.

Таким образом, структурно-логическая модель взаимосвязи документов и технологических процессов описывается следующим кортежем:

Mj = < <T(z, k) \ V>, <OP, DO, RD, tн, tк>, Wi,j > (2)

Совокупность моделей взаимосвязей документов и технологических процессов составляет репозиторий (базу моделей документов процессов): M’ = {Mi}, i=1..|M|.

Формирование базы прецедентов, состоящей из моделей документов и процессов в их взаимосвязи, производится по следующему алгоритму:

  1. Из хранилища системы поддержки процессного управления отбирается множество всех технологических процессов, когда-либо выполнявшихся и имеющих статус завершенных. Завершенность исполнения процесса необходима для обеспечения качества обучения, т.к. по незавершенному процессу документ может быть отнесен во время его исполнения к другому процессу, что негативно скажется на модели документов процессов, если включить этот документ в обработку.

E = {Ei}, i = 1..KP (3)

где E – множество реализаций процессов, Ei – реализация i-го процесса, KP– количество описаний процессов.

  1. Для каждого элемента полученного множества реализаций технологических процессов E определяются связанные документы в разрезе ролей, т.е. формируется множество документов, используемых в реализациях процессов:

D’ = <Di, Ri, tн, tк >, i = 1..|M| (4)

где D’ – множество документов, относящихся к реализациям всех процессов, Di – множество документов i-го технологического процесса, Ri – роль документа в запусках i-го процесса.

  1. Из полученного множества документов формируется множество терминов, составляющих эти документы. При выделении терминов производится их фильтрация в соответствии со следующими правилами:
  • шумовые термины отбрасываются в соответствии с принадлежностью термина к словарю шумовых терминов, формируемым экспертами до начала формирования моделей документов процессов;
  • все термины приводятся к нижнему регистру;
  • термины, встречающиеся в разных зонах документа, учитываются по зонам.
  1. Вычисляется вес термина Wl в документах процесса как отношение количества его вхождений в документы процесса KP к количеству документов данного процесса KD: Wl = KP / KD. (5)

В результате обработки всех документов, имеющих связи с выполнявшимися технологическими процессами, из выделенных терминов и их весов формируется матрица взаимосвязей процессов и документов (т.н. матрица процесс-термин) размерностью NxM, по строкам которой расположены все термины, выделенные в документах процессов, а по столбцам – сами процессы, где N – количество технологических процессов, когда-либо запускавшихся и завершенных, M – количество уникальных терминов, выделенных в этих процессах. Таблица 1 иллюстрирует пример матрицы процесс-термин.

Таблица 1. Матрица процесс-термин

Процесс 1

Процесс 2

Процесс 3

Процесс N

Термин 1

0,91

0,233

0,523

0,324

Термин 2

0,835

0,667

0,445

0,233

Термин 3

0,322

0,923

0,645

0,176

Термин M

0,697

0,433

0,921

0,46

Определение технологического процесса, к которому относится обрабатываемый документ, предложено производить по алгоритму, основанному на использовании полученной базы моделей взаимосвязей документов и технологических процессов и приведенному на рис 2.

Алгоритм заключается в следующем:

  • производится формирование множества терминов рассматриваемого документа Tд. При этом различаются зоны документа, также как и при формировании моделей взаимосвязей документов и процессов, и используются те же правила выделения и отсеивания терминов, что и на этапе построения моделей документов процессов, описанные выше;

Рисунок 2. Блок-схема алгоритма классификации

  • из базы прецедентов последовательно выбираются все модели и по описанному ниже алгоритму определяется степень их корреляции с полученным на предыдущем шаге набором терминов Tд. Результатом сравнения является множество вычисленных степенней корреляции документа и моделей;
  • производится анализ результатов сравнения набора терминов связываемого документа Tд со всеми моделями и принятие решения об отнесении документа к соответствующему процессу (нескольким процессам) либо о необходимости произведения классификации экспертом;
  • после осуществления привязки документа к какому-либо технологическому процессу номер документа и номер соответствующего ему процессу заносятся в список классифицированных документов, ожидающих подтверждения корректности классификации. Подтверждение корректности классификации заключается в завершении того запуска процесса, к которому был прикреплен классифицируемый документ. В случае завершения выполнения процесса без изменения привязки документа, т.е. подтверждения корректности произведенной классификации, документ считается правильно классифицированным и удаляется из списка документов, ожидающих подтверждения классификации, в отличие от случая неподтверждения корректности, в этом случае необходимо скорректировать те модели, которые позволили сделать вывод о неправильной принадлежности документа к процессу, и те, к которым документ на самом деле должен относиться. Для этого реквизиты документа заносятся в список документов, ожидающих обработки для коррекции моделей.

Определение степени корреляции набора терминов обрабатываемого документа Tд и модели Mi осуществляется по следующему алгоритму. Производится последовательный перебор терминов связываемого документа и вычисление количества их совпадений с терминами модели. Данное значение складывается из количества совпадений терминов из наименования регистрационной карточки документа в системе документооборота, отражающего его наименование, с полем технологической карты, отражающим наименование документа, относящегося к процессу и количества совпадений терминов, выделенных из тела классифицируемого документа, с соответствующими терминами моделей документов процессов. В обоих случаях учитывается вес термина в модели, а для различия значимости зон документа введены коэффициенты значимости зон документа Kz, их значения получаются экспериментальным путем и основаны на том, что название документа в РК заполняется экспертом исходя из накопленных знаний и опыта работы, соответственно наличие документа с таким названием с большей достоверностью должно являться основанием для отнесения документа к процессу, чем его содержимое.

Результат Ri оценки взаимосвязи документа и процесса рассчитывается следующим образом:

, (6)

где Kz1 и Kz1 – коэффициенты значимости зон документа, L – количество совпавших терминов для каждой зоны, Kj – количество совпадений j-го термина, Wj – его вес в i-ой модели. После расчета всех Wi матрица нормируется:

(7)

Полученные значения оценки степени принадлежности документа к процессам можно представить графиком, приведенным на рис. 3.

Возможны следующие варианты распределения оценок степени принадлежности документов к процессам:

    • На графике есть одна точка максимума, однозначно определяющая принадлежность документа процессу – ее значение на 20% больше значений остальных точек. Граница однозначности может быть изменена по результатам апробации метода.
    • Некоторое количество точек образует группу наиболее вероятных вариантов принадлежности, остальные точки на графике расположены ниже границы и не рассматриваются далее.
    • Среди оценок степени принадлежности документов к процессам нет ни однозначного максимума, ни группы точек, пригодных для дальнейшей обработки.

Количественные параметры, такие как минимальное превосходство максимального значения над остальными, количество вариантов в группе, граница попадания значений в группу устанавливается экспериментальным путем.

Рисунок 3. Пример распределения результатов поиска

Для определения эффективности разработанной системы определения взаимосвязей документов и технологических процессов осуществляется оценка показателей качества классификации. В некоторых публикациях для определения ошибки классификации текстовых документов предлагается подход, при котором ис­следуемая выборка по отношению к процессу Pi (i = 1..N) разбивается на че­тыре непересекающихся множества и представляется в виде таблицы частот сопряжен­ности размером 2x2 – таблица 2).

Таблица 2

Документ принадлежит процессу Pi

Документ не принадлежит процессу Pi

Документ отнесен к процессу Pi

ai

bi

Документ не отнесен к процессу Pi

ci

di

В ячейках таблицы расположены следующие элементы:

Pages:     | 1 || 3 | 4 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»