WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


На правах рукописи

РАДИОНОВА Юлия Александровна

ИНТЕЛЛЕКТУАЛЬНЫЕ МЕТОДЫ ОРГАНИЗАЦИИ АРХИВОВ ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ НАУЧНО-ПРОИЗВОДСТВЕННОГО ОБЪЕДИНЕНИЯ

Специальность 05.13.12 – Системы автоматизации проектирования (промышленность)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Ульяновск – 2012

Работа выполнена на кафедре «Информационные системы» в Ульяновском государственном техническом университете.

Научный консультант: доктор технических наук, профессор Ярушкина Надежда Глебовна

Официальные оппоненты: доктор технических наук, профессор, зав. кафедрой «Вычислительная техника» УлГТУ Соснин Петр Иванович кандидат технических наук, главный конструктор ОАО «Ульяновское конструкторское бюро приборостроения» Ларин Кирилл Валентинович

Ведущая организация: ФГБОУ ВПО «Ульяновский государственный университет»

Защита диссертации состоится «21» ноября 2012 г. в 12-00 на заседании диссертационного совета Д 212.277.01 при Ульяновском государственном техническом университете по адресу: 432027, г. Ульяновск, ул. Северный Венец, 32 (ауд. 211, Главный корпус).

С диссертацией можно ознакомиться в библиотеке Ульяновского государственного технического университета.

Автореферат разослан «19» октября 2012 г.

Ученый секретарь диссертационного совета, доктор технических наук, профессор В.И. Смирнов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

В функции любого научно-производственного предприятия входит проектирование, разработка и поддержка научно-технической продукции. При создании своих решений предприятие опирается на современные средства и методы обработки информации в рамках корпоративной информационной системы предприятия (КИСП). Одним из центральных звеньев в построении эффективной КИСП является автоматизация деятельности службы архивов технической документации предприятия, обеспечивающих выполнение всего комплекса работ по учету, хранению, тиражированию и обращению технической документации.



Большой объем технической документации, необходимость постоянных корректировок и новых разработок, присущие опытному производству, увеличивает объем работы и усложняет задачи архивных служб. Также проблемой является наличие большого количества бумажных документов.

Правильно организованная система хранения документации не только позволяет ускорить и оптимизировать работу сотрудников архивов и объединить разнородные архивы в единую информационную систему, но и предоставить оперативный доступ к информации архивов всем сотрудникам предприятия.

Информация архива должна быть достоверной и актуальной, необходимой частью архива является система контроля за достоверностью и целостностью информации.

Процесс предоставления доступа к информации должен опираться на систему правил разграничения доступа, которая является следствием не субъективного восприятия сотрудника-архивариуса, а утвержденной на предприятии системы доступа к документации.

Также в настоящее время все более актуальным становится организация архива не только как совокупности архивных единиц – документов, но и как общей базы знаний предприятия, позволяющей сохранить опыт разработчиков документов и осуществлять поиск информации по содержанию документов.

Таким образом, предметом исследования в данной работе является создание автоматизированной информационной системы архива технической документации, включенной в систему электронного документооборота службы технической документации и в общую информационную систему предприятия и снабженной некоторыми интеллектуальными методами организации информации.

Объектом и материалом исследования послужили архивы, а также общая система учета, хранения и изготовления документации отдела технической документации ФНПЦ ОАО «НПО «Марс».

Актуальность темы В результате анализа рынка программного обеспечения стало понятно, что на момент постановки задачи автоматизированной системы, удовлетворяющей большинству предъявляемых требований, не существовало.

Современные системы электронного документооборота и архивов рассчитаны, в основном, на организационную документацию и не учитывают многих требований, обязательных для конструкторской и программной документации.

Отсутствует организация архива не только как совокупности архивных единиц – документов, но и как общей базы знаний предприятия, позволяющей сохранить опыт разработчиков документов и осуществлять поиск информации по содержанию документов. При построении архивов в данных системах не решен вопрос автоматической классификации технической документации.

Отсутствуют какие-либо интеллектуальные методы организации информации.

Таким образом, организация архивной системы с применением интеллектуальных методов классификации и кластеризации является актуальной темой в настоящее время. Основы современной теории кластеризации излагаются в трудах таких ученых, как С. Макнаотон, Гюстафсон, Кессель, Т. Кохонен, Г. Болл, Д. Холл, Дж. Мак-Кин, Г. Ланс, У. Уильямс, М. Жамбю, Г. Миллиган, М. Брюинош, Р. Дженсен, Х. Фридман, Дж.Рубин, Н.Г. Загоруйко, В.Н. Елкина и других. Основы построения интеллектуальных САПР рассмотрены в трудах Хилла П., Дж. Джонса, Норенкова И.П., Борисова А.Н. и др. Основы классификации документации рассмотрены в трудах Ч. Мидоу, Дж. Солтона. Современное архивоведение (в том числе и зарубежное) подробно рассмотрено в трудах Е.В. Старостина, Е.В. Булюлиной и др.

Цель диссертационной работы Целью работы является исследование и разработка эффективных механизмов интеллектуальной организации информации в автоматизированном архиве технической документации.

Задачи исследования В соответствии с целью работы необходимо решить следующие задачи:

1. Провести сравнительный анализ современных систем электронного документооборота и электронных архивов, возможностей существующих информационно-поисковых систем, принципов разграничения прав доступа.

2. Разработать структурно-функциональное решение программной системы архива технической документации и алгоритм автоматической экспертной классификации документов, основанный на структуре архива.

Включить систему архива в систему электронного документооборота отдела технической документации и общую информационную систему предприятия.

3. Рассмотреть возможности алгоритмов кластеризации, в том числе нечеткой, на массиве технической документации. Разработать методику оценки эффективности применения алгоритмов кластеризации для классификации технической документации. Разработать модель интеграции алгоритмов кластеризации для системы архива технической документации.

4. Разработать модель разграничения прав доступа к документации архива в общей информационной системе предприятия, основанную на экспертной классификации и организационной структуре предприятия, включить разработанную модель в программную систему архива.

Методы исследования Для решения поставленных задач использовались следующие методы исследования: теория кластеризации, метод экспертной оценки специалистов, объектно-ориентированный подход при создании комплекса программ.

Научная новизна 1. Методика экспертной оценки результатов работы алгоритмов кластеризации на массиве технической документации.

2. Модель интеграции алгоритмов кластеризации для системы архива технической документации.

3. Интегрированный алгоритм кластеризации технической документации.

4. Модель разграничения прав доступа к документации, основанная на экспертной классификации документации и организационной структуре предприятия.

5. Структурно-функциональное решение программной системы архива технической документации, включающее в себя алгоритм автоматической экспертной классификации и подсистему разграничения прав доступа.

Достоверность результатов диссертационной работы Достоверность научных положений, выводов и рекомендаций подтверждена результатами вычислительных экспериментов, а также результатами использования разработанных алгоритмов и методик в повседневной работе отдела технической документации и общей информационной системе ФНПЦ ОАО «НПО «Марс».

Теоретическая значимость работы Теоретическая значимость работы заключается в разработке: методики оценки эффективности применения алгоритмов кластеризации на массиве технической документации; модели интеграции алгоритмов кластеризации;

интегрированного алгоритма кластеризации технической документации;

модели разграничения прав доступа, основанной на экспертной классификации документации и структуре предприятия; структурно-функционального решения программной системы архива, содержащей алгоритм автоматической экспертной классификации и подсистему разграничения прав доступа, и включенной в общий электронный документооборот предприятия.

Практическая значимость работы Разработанная система ЭДО и архива используется в работе отдела технической документации ФНПЦ ОАО «НПО «Марс» и позволяет организовать более эффективную работу сотрудников отдела. Система разграничения прав доступа используется в общей информационной системе ФНПЦ ОАО «НПО «Марс», обеспечивая оперативный и удобный доступ к информации архива для всех сотрудников предприятия.

Реализация результатов работы Результаты работы оформлены в виде комплекса программных приложений и программной документации «Автоматизированная система управлением отчетностью и выполнением работ отдела технической документации» АБЕИ.97630.001, отчетов и программного обеспечения по х/д НИР №100/05 УлГТУ по заказу ФНПЦ ОАО «НПО «Марс».

Апробация результатов исследования Основные положения и результаты диссертации докладывались, обсуждались и получили одобрение: на всероссийской научной конференции с международным участием «Нечеткие системы и мягкие вычисления» (Ульяновск, 2008), на одиннадцатой национальной конференции по искусственному интеллекту КИИ-2008 с международным участием (Дубна, 2008), на V-й Международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2009), на двенадцатой национальной конференции по искусственному интеллекту КИИ-2010 с международным участием (Дубна, 2010), на семинаре с международным участием «Интеллектуальный анализ временных рядов» по результатам НИР, поддержанной ФЦП, проект №02.740.11.5021 (Ульяновск, 2010), на молодежной научно-практическая конференция «Автоматизация процессов управления» (Ульяновск, 2011).

Апробация результатов диссертации осуществлялась в работе над системой архивов ФНПЦ ОАО «НПО «Марс». Основные положения и результаты неоднократно докладывались и обсуждались на научно-технических конференциях УлГТУ «Вузовская наука в современных условиях».

Публикации По теме диссертации опубликована 21 работа, в том числе 3 в журналах из перечня, рекомендованного ВАК РФ.

Личный вклад Все результаты, составляющие содержание диссертации, получены автором самостоятельно.

Структура и объем работы Диссертационная работа состоит из введения, четырех глав и заключения, содержит 224 страницы машинописного текста, 11 таблиц, рисунок, список литературы из 140 наименований, 6 приложений.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении рассмотрена актуальность создания автоматизированных архивохранилищ, формируются цель и задачи работы, определяются теоретическая значимость и практическая ценность исследования, а также структура работы, сформулированы положения, выносимые на защиту.





В первой главе рассмотрены основные понятия и типы информационно-поисковых систем, виды классификаций документов, история и способы организации архивов.

Приведено краткое описание используемых в работе алгоритмов автоматической кластеризации, обоснована возможность использования рассмотренных алгоритмов при организации поисковой системы архива электронной документации.

Рассмотрены модели разграничения прав доступа, используемые в современных СУБД и системах защиты информации, сформулированы требования к системе разграничения доступа архива электронной документации.

Сформулированы общие требования к организации учета и хранения технической документации научно-производственного объединения.

Проведен сравнительный анализ существующих (из наиболее известных) систем электронного документооборота и электронных архивов. Рассмотрена возможность применения данных систем для архива технической документации научно-производственного объединения.

Сделаны выводы, что существующие системы электронного документооборота и электронных архивов не подходят в полной мере для создания основного архива технической документации НПО.

Сформулированы требования к системе архива технической документации научно-производственного объединения.

Вторая глава посвящена разработке системы архива технической документации, удовлетворяющей сформулированным требованиям и содержащей алгоритм автоматической экспертной классификации технической документации, а также исследованию эффективности применения алгоритмов автоматической кластеризации на массиве технической документации.

В первом разделе описывается разработанный алгоритм выделения классификационных признаков документа с точки зрения организации архива, приведено обоснование выбранных принципов классификации.

Во втором разделе описывается разработанная методика оценки качества работы алгоритма автоматической кластеризации (рисунок 1). Для оценки эффективности алгоритмов автоматической кластеризации необходимо сделать вывод о том, насколько близко разбиение массива документации в результате кластеризации к разбиению этого же массива, полученному в результате экспертной классификации. Необходимо объединить в единую структуру разнородные данные различных алгоритмов кластеризации и разработать алгоритм построения оценочной функции результатов. Далее необходимо сформировать несколько различных массивов технической документации, провести экспертную классификацию каждого массива и провести эксперименты по автоматической кластеризации массивов, используя различные алгоритмы с различными параметрами. На основании данных экспериментов, используя формулу оценочной функции, сделать выводы об оптимальных параметрах каждого алгоритма и об оптимальной «нише» использования каждого алгоритма кластеризации.

Рисунок 1 Схема оценки эффективности применения алгоритмов автоматической кластеризации Введем следующие обозначения:

K - разбиение массива документов, полученное в результате экспертной классификации;

) K - разбиение того же массива документов, полученное в результате работы алгоритма автоматической кластеризации;

i K - множество документов, входящих в i-й класс согласно экспертному делению;

i =1,n - номер класса, n – количество классов эксперта;

) j K - множество документов, входящих в j-й кластер согласно автоматическому разбиению;

j = 1,l - номер кластера, l – количество кластеров автоматической системы.

Будем считать кластеризацию тем более качественной, чем ближе ) разбиение K к разбиению K.

) i j Устанавливаем пары K, K из расчета максимального совпадения ) i j элементов множеств K и K.

Далее необходимо удалить одинаковые элементы из обоих множеств. В результате получаем:

) ) ) 1 1 max(n,l ) max(n,l ) i K, K,.., K, K, где Kr и Kri - редуцированные множества r r r r документов экспертной классификации и автоматической кластеризации, i = 1, max(n,l).

В результате можно получить формулу целевой функции, формализующую качество кластеризации, используя два критерия: отсутствие документов в кластере (то есть количество документов, которые должны быть в кластере, но отсутствуют в нем - Kri ) и наличие «лишних» документов в ) ) i i кластере ( Kri ): f = K + (1- ) K, где = 0,1 - коэффициент важности i r r критерия, i = 1, max(n,l) - номер кластера.

Для того чтобы убрать зависимость значения целевой функции от количества кластеров в эксперименте, значение целевой функции нормируем:

) Kri + (1-) Kri fi =.

) max( Kri, Kri ) Чем меньше значение целевой функции, тем более качественным является результат кластеризации.

Далее приводится описание структур данных экспертного классификатора и алгоритмов автоматической кластеризации Кохонена, FCM и генетического, приведение данных к единому формату для последующего построения матриц соответствия. Структура матриц соответствия определяется следующими полями:

1) kod_exp – код кластера экспертной классификации;

2) kod_avt – код кластера автоматической классификации;

3) count_eq – количество документов принадлежащих обоим кластерам;

4) exp_all – количество документов, принадлежащих кластеру экспертной классификации;

5) avt_all – количество документов, принадлежащих кластеру автоматической классификации.

Каждая строка матрицы формируется для кластера экспертной кластеризации N и кластера автоматической кластеризации M. По сформированным матрицам соответствия вычисляется значение оценочной функции для каждого типа экспертной классификации и каждого эксперимента автоматической кластеризации:

select sum((alpha*(exp_all-count_eq)+(1- alpha )*(avt_all-count_eq))/max(exp_allcount_eq,avt_all-count_eq)) as res_function from resMatrix Alpha – коэффициент важности критерия (от 0 до 1). Для получения значения целевой функции для эксперимента в целом значения целевой функции для каждой пары класс – кластер суммируются. В качестве нормирующего коэффициента в процессе проведения экспериментов были взяты различные комбинации параметров и среди них выбран оптимальный.

В третьем разделе описывается модель интеграции алгоритмов кластеризации, разработанная на основании проведенных экспериментов по оценке качества алгоритмов.

Для полноты проводимых экспериментов было необходимо обеспечить вариативность используемых параметров. Для алгоритма Кохонена в процессе проведения экспериментов изменялось количество нейронов, радиус активации, множитель нормы обучения. Полученная зависимость количества получаемых кластеров от параметров использовалась для формирования экспериментов с количеством кластеров, близким к количеству классов экспертной классификации. Количество нейронов варьировалось от 4 до 13, значение множителя нормы обучения – от 0.3 до 0.9, радиус активации взят равным 2. Для двух этапов проведено в общей сложности 57 экспериментов, по результатам которых сделаны следующие выводы:

1) количество кластеров, получаемых в результате работы алгоритма, находится в прямой зависимости от количества нейронов и в обратной зависимости от нормы обучения и множителя нормы обучения;

2) лучшие значения оценочной функции при сравнении с экспертной классификацией с малым количеством классов дают эксперименты с наибольшим количеством получившихся кластеров (при одинаковых значениях количества кластеров лучший результат получается при более высоких значениях нормы и множителя нормы обучения и средних значениях количества нейронов); для экспертных классификаций с большим количеством классов лучшие результаты достигаются при малом числе кластеров и больших значениях нормы и множителя нормы обучения, дающих небольшое количество кластеров;

3) значения оценочной функции при росте значения коэффициента важности критерия ухудшаются для экспериментов с большим количеством кластеров и улучшаются для экспериментов с малым количеством кластеров;

4) при значении коэффициента важности критерия от 0,6 до 0,наилучшие результаты для документов более технического содержания получены для архивной классификации по тематике работ и разделам документации, для документов более произвольного содержания – по тематике работ и видам документации, при значении коэффициента важности критерия от 0,5 до 0,1 наилучшие результаты получены для классификации по классам документации (рисунок 2).

Рисунок 2. Алгоритм Кохонена. Этап 1. Результаты сравнения с различными видами экспертных классификаций при альфа<0,5 и при альфа>0,Для FCM-алгоритма изменялось значение экспоненциального веса (меры нечеткости) и требуемое количество кластеров. Эксперименты проводились со значениями экспоненциального веса 1.3, 1.4, 1.5 и 1.6. Количество кластеров также устанавливалось близким количеству классов экспертной классификации и варьировалось от 3 до 60. Для трех этапов проведено экспериментов, по результатам которых сделаны следующие выводы:

1) при смещении значений важности критерия в сторону полноты поиска лучшие значения оценочной функции получаются для архивной классификации по тематике работ и видам документации и для экспериментов с малым количеством кластеров;

2) при выборе коэффициента важности критерия от 0,4 до 0,1 лучшие значения оценочной функции получаются при сравнении экспериментов с большим количеством кластеров и архивной классификации по классам документации.

Для генетического алгоритма изменялись значения количества кластеров (от 2 до 32). Значения предела популяции, размера первого поколения, вероятности мутации и плодовитости были приняты соответственно 100, 100, 3.2 и 1.5 – данные значения признаны оптимальными. Для трех этапов проведено 46 экспериментов, по результатам которых сделаны выводы:

1) сравнение с экспертной классификацией с большим количеством классов при росте количества кластеров дает сначала ухудшение, затем улучшение значения оценочной функции при значении коэффициента важности критерия от 0,1 до 0,6; при значении коэффициента от 0,7 до 0,значение оценочной функции сначала резко, а затем более плавно ухудшается;

2) сравнение с экспертной классификацией с малым количеством классов при росте количества кластеров дает улучшение оценочной функции при альфа от 0,1 до 0,4; ухудшение – при альфа от 0,6 до 0,9; практически одинаковые значения при альфа 0,5;

3) сравнение с экспертной классификацией со средним количеством классов при росте количества кластеров дает улучшение оценочной функции при альфа от 0,1 до 0,3; при альфа 0,4-0,6 сначала ухудшение, затем плавное улучшение; и ухудшение оценочной функции при альфа 0,7-0,9.

4) при сравнении с разными видами экспертных классификаций большое влияние оказывает характер документации: для документации более технического содержания при малых значениях коэффициента важности критерия лучшие значения оценочной функции получаются при сравнении с классификацией по классам документации, при высоких значениях коэффициента важности критерия лучшие результаты достигаются для классификации по тематике работ и разделу документации (рисунок 9); для документации более свободного содержания при малых значениях коэффициента важности критерия лучшие значения оценочной функции получаются при сравнении с классификацией по классам документации, худшие при сравнении с классификацией по тематике работ; при высоких значениях коэффициента важности критерия лучшие результаты достигаются для классификации по тематике работ, худшие для классификации по разделу документации (рисунок 3).

Рисунок 3. Сравнение оценочной функции для разных экспертных классификаций.

Генетический алгоритм. Альфа<0,5.

Была поставлена задача в общей системе поиска архива технической документации определить нишу для каждого алгоритма с определенными параметрами. По результатам алгоритмов сформирована таблица параметров алгоритмов, дающих лучшие значения оценочной функции (рисунок 4), построена схема выбора алгоритма (рисунок 5) и сформирована обобщенная таблица выбора параметров алгоритма кластеризации в зависимости от указанных параметров поиска (таблица 1).

Рисунок 4. Параметры алгоритмов Рисунок 5. Схема выбора алгоритма Таблица 1. Обобщенная таблица выбора алгоритма Параметры пользователя Параметры кластеризации ({0,1;0,2;0,3};{t;v;r};{1}), ({0,1;0,2;0,3;0,4};{v;r};{0;1}) Кох (12;0,9;0,9;38) ({0,6-0,9;0};{v};{2;0});({0,7};{t;-};{2}) Ген (3,2;3) ({0,1;0,2;0,3;0,4};{v;cl;-};{2}),({0,5;0};{cl};{2}) Кох (7;0,4;0,4;36) ({0,1;0,2;0,3;0,4};{cl;-};{0;1}),({0};{cl;-};{1;0}) Кох (8;0,7;0,7;47) Параметры пользователя Параметры кластеризации ({0,1-0,3};{t};{2;0}),({0,1-0,3};{r};{2}) Кох (8;0,5;0,5;34) ({0,6};{t;r;-};{2});({0,5};{r};{2});({0,6};{r};{0}) Ген (3,2;10) ({0,5;0,6};{t};{1});({0,6};{r;-};{1}); ({0,6};{t;-};{0}); ({0,7}; Ген (3,2;2) {t;v;r;cl;-};{1}); ({0,7};{t;r;-};{0}); ({0,8;0,9;0};{t;r};{1;2;0});

({0,8;0,9;0};{v};{1}); ({0,8;0,9};{cl;-};{1;2;0});({0};{-};{2}) ({0,4};{t};{1}) Кох (8;0,9;0,9;18) ({0,4;0,5};{t};{2;0}), ({0,4};{r};{2}); ({0,5};{-};{2}) Кох (13;0,9;0,9;21) ({0,5};{v;r};{1;0}), ({0,6};{cl};{1;0}), ({0,6};{v};{1}) Кох (5;0,8-0,9;0,9;4) ({0,5};{v};{2});({0,6};{cl};{2});({0,7};{cl};{2;0}) Кох (6;0,9;0,9;2) ({0,7};{r};{2}) FCM (1,5;3) ({0,5};{cl;-};{1;0}) FCM (1,3;26) Таким образом, получаем следующее описание: F(X ) = Y, где h a X = ,Y = n, h[0;1;2], [0;0,1;K0,9], g [t;v;r;cl,-],a{Кох, Ген,FCM}, g b C, N, Nm, при = Кох n n – количество параметров, b = {b,K,bn}= C, W, при = FCM 1 k Ck, P, при = Ген Учитывая разницу значений оценочной функции, можно определить средний коэффициент ухудшения эффективности применения кластеризации при использовании на каком-либо этапе поиска произвольного алгоритма вместо алгоритма, оптимального для данного этапа. Значения коэффициента приведены в таблице 2.

То есть оценку качества модели интеграции можно представить как функцию, зависящую от входных параметров: F(,h,g).

Таблица 2. Коэффициент ухудшения эффективности применения кластеризации при использовании произвольного алгоритма Класс Раздел до- Вид Тема документации кументации документа работы Документация более технического содержания (этапы 1,3 плана экспериментов) Приоритет точности 1,23 1,24 1,24 1,Приоритет полноты 1,2 1,21 1,29 1,Документация более свободного содержания (этап 2 плана экспериментов) Приоритет точности 1,04 1,4 1,3 1,Приоритет полноты 1,06 1,37 1,18 1,В четвертом разделе описывается разработанное структурнофункциональное решение программной системы архива, а также принципы организации системы внутреннего электронного документооборота отдела технической документации ФНПЦ ОАО «НПО «Марс». Система архива имеет модульную структуру. Основными функциями хранилища данных являются:

реализация единого источника данных, обеспечение достоверной информацией сотрудников предприятия, обеспечение автоматизированного учета документации в соответствии с ГОСТ и стандартами предприятия, обеспечение хранения информации и гарантии ее целостности, обеспечение оперативного поиска документации, автоматизированной обработки и изготовления комплектов документации, обеспечение оперативного доступа сотрудников предприятия к информации архивохранилища в соответствии с системой разграничения доступа, обеспечение возможности поиска документации с использованием индексирования и классификации.

На рисунке 6 приведена схема функций основных АРМ разработанной системы, отсутствующих в современных системах электронных архивов и электронного документооборота.

Рисунок 6. Функциональность системы архива и электронного документооборота В таблице 3 приведены некоторые количественные показатели эффективности применения автоматизированной системы архива.

Таблица 3. Количественные показатели эффективности автоматизации системы архива Операция Длительность до после Получение копии документа из архива 25 мин. 2 мин.

Изготовление копии бумажного документа 6 мин. 1 лист А4 2,5 мин. 1 лист АСоздание сопроводительных документов к 10 мин. 1 лист А4 0,3 мин. 1 лист Акопиям Подбор электронного документа 4 мин. 0,2 мин.

Общее количество записей в картотеках архивов: 79364 (основной электронный);

158624 (основной бумажный); 9666 (дополнительные).

За 1 месяц в среднем 1500 обращений за копией документа через производственный сервер И в последней части четвертого раздела описывается разработанная модель разграничения доступа к информации архива технической документации, основанная на номенклатуре документации и организационной структуре предприятия. Систему, обеспечивающую доступ к информации архива, можно представить в виде совокупности трех подсистем:

1) подсистема назначения прав доступа к конкретным документам, функционирующая в составе электронной картотеки архива;

2) подсистема корректировки карты доступа, определяющая данные, которые используются как входящие алгоритмами назначения прав доступа первой подсистемы;

3) подсистема web-интерфейса, использующая механизмы авторизации пользователей в операционной системе и права доступа к документам, зарегистрированным в картотеке архива.

Общепринятая схема разграничения прав доступа, реализованная в современных СЭДО, предполагает назначение прав к документу разработчиком документа при его создании. Как показывает практическая эксплуатация, данная система имеет существенные недостатки:

1) разработчик документа не всегда имеет представление об общей структуре изделия, не всегда может предусмотреть состав всех групп сотрудников, которым может быть необходим доступ к данному документу;

2) назначение прав к каждому конкретному документу при регистрации его в архиве является достаточно трудоемкой задачей;

3) нет возможности назначить доступ к целой группе документов, разрабатываемых различными сотрудниками;

4) нельзя назначить доступ к документу на основании его подобия другому документу.

В данной работе представлены модель, алгоритм и программная реализация другого способа назначения прав доступа. При постановке на учет в картотеке архива в соответствии с разработанным алгоритмом экспертной классификации проводится классификация документа по четырем признакам:

изделию, в схеме которого закреплен документ; типу документа; разделу и классу документации. Также проводится кластеризация документов.

В результате классификации все множество документов X можно представить в виде следующих разбиений:

T C Cl X = {XiI}={X }= {XlR}= {Xk }= {X }={X }, где j n q I X - подмножество документов, принадлежащих i-му изделию;

i T X - подмножество документов, принадлежащих j-му типу;

j R X - подмножество документов, принадлежащих l-му разделу;

l C X - подмножество документов, принадлежащих k-му классу;

k Cl X - подмножество документов, принадлежащих q-му кластеру;

q X - конкретный документ архива.

n Для подмножеств выполняется следующее условие:

M M X X = M {T, R,C }, то есть классификация по данным I i j признакам однозначно определяется принадлежностью документа определенному классу. Для разбиения на подмножества по принадлежности к I I изделиям выполняется условие: i, j : X X , так как существуют I i j документы, используемые в нескольких изделиях. Для разбиения на подмножества по принадлежности к кластерам выполняется условие:

Cl Cl i, j : X X .

I i j Таким образом, для массива документации D = {D1 KDN} получаем T R C следующую схему: d [1, N] j : D X,l : D X,k : D X, d j d l d k I Cl {i1Ki }: i {i1Ki }D X, {q1Kq }: q {q1Kq }D X m m d i r r d q Также все множество сотрудников можно представить в виде следующих D P разбиений: U = {U }= {U }= {U }, где i j k D U - подмножество сотрудников, имеющих должность D;

i P U - подмножество сотрудников, работающих в подразделении P;

j U - учетная запись конкретного сотрудника.

k Таким образом, ставится задача организации системы разграничения прав доступа, исходя из данных классификации документов и структурной схемы «пользователь» - «должность» - «подразделение» предприятия.

Сотрудник может иметь только одну должность, но может быть включен в состав нескольких групп;

При назначении доступа может быть использован результат разбиения множества документов на кластеры, то есть назначен доступ ко всем документам, подобным данному.

Ставится задача сформировать карту доступа и алгоритм определения множества документов, доступных данному пользователю в соответствии с картой доступа.

Каждая строка карты доступа будет иметь вид:

I T R C Cl D P X X X X X X U U U i i j l k q n r p и будет определять наличие доступа для группы пользователей к группе D документов, то есть пользователь U, имеющий должность U и n r P принадлежащий группе U, имеет доступ к документу X, входящему в состав p i I T изделия X, имеющему тип документа X, принадлежащему к разделу i j R C Cl документации X, классу документации X и кластеру X. Или более l k q K P формально: группа пользователей U = Un IUrD IU имеет доступ к группе p K I T R C Cl документов X = X I X I X I X I X I X.

m i j l k q Данный способ назначения прав доступа обладает следующими существенными достоинствами:

1) реализована возможность назначать права доступа к группам документов, сформированным на основе номенклатуры документации на предприятии;

2) при изменении подразделения или должности пользователя для него автоматически меняются права доступа;

3) при вводе нового документа нет необходимости назначать для него персональные права доступа, доступ будет предоставлен автоматически в соответствии с принадлежностью документа определенным классификационным группам;

4) реализована возможность назначать права доступа к группе документов на основе их подобия данному документу.

Пример реализации системы разграничения прав доступа приведен на рисунке 7.

- 12345 формуляр комплекс ЕСПД - - инженер- лаб.1- 12345 формуляр комплекс ЕСПД - - инженер- лаб.1программист программист - - - - - Кластер документа - инженер- лаб.1- - - - - Кластер документа - инженер- лаб.1АБВГ.12345-01 программист АБВГ.12345-01 программист Рисунок 7. Пример реализации системы разграничения прав доступа Модель, разработанная в рамках данной работы, предполагает разграничение прав доступа к строкам объекта в пределах одной метки конфиденциальности, исходя из классификационных данных документа, являясь, таким образом, развитием мандатной модели. Также предлагаемая модель позволяет осуществлять автоматическое назначение прав доступа по классификационным признакам вновь регистрируемого документа, используя формирование некоторой динамической группы доступа, как пересечения трех заложенных в структуре групп. То есть данная модель является развитием и ролевой модели доступа (рисунок 8).

Рисунок 8. Отношение предлагаемой модели к существующим моделям разграничения прав доступа В первом разделе третьей главы описана структура базы данных АСУ отдела технической документации. Описание основных функций и приложений АСУ ОТД приведено в приложении 4.

Во втором разделе описаны общие принципы программной реализации системы разграничения прав доступа (СРПД) и интерфейс программного приложения администратора СРПД. СРПД объединяет в себе три подсистемы:

1) модуль автоматической классификации технической документации, встроенный в картотеки архивов ОТД;

2) АРМ администратора СРПД, предоставляющий интерфейс формирования и корректировки карты доступа в соответствии с моделью разграничения прав доступа, описанной в главе 2.;

3) систему web-интерфейса производственного сервера с реализацией доступа к базе данных архивов ОТД.

В третьем разделе описан инструментарий оценки эффективности работы алгоритмов автоматической кластеризации на массивах технической документации. Разработанное программное приложение предоставляет возможность:

1) подбора списка документов и проведения экспертной классификации;

2) подключение справочников-классификаторов и картотеки документов из БД АСУ ОТД;

3) построение результатов классификации в виде дерева;

4) преобразование структур таблиц, полученных в результате работы алгоритмов кластеризации в единую структуру;

5) загрузка данных экспериментов из файлов формата MS Excel;

6) построение матриц соответствия и вычисление значений функций соответствия для экспериментов с выбранными алгоритмами;

7) применение различных значений нормировочного коэффициента и коэффициента важности критерия при вычислении функции соответствия;

8) просмотра значений функции соответствия, а также формирования отчета по значениям функции в файл формата MS Word и в таблицы БД;

9) проведения вычислительных экспериментов по сравнению эффективности поиска на массиве документации с применением и без применения кластеризации;

10) построения сравнительных графиков по результатам экспериментов.

В четвертой главе приводится описание разработанного плана экспериментов и проведения вычислительных экспериментов, используемых для проверки и формирования теоретических результатов исследования.

В первом разделе описаны результаты экспериментов по оценке эффективности алгоритмов автоматической кластеризации на массиве технической документации. Для проведения экспериментов сделаны три выборки из массива технической документации, отличающиеся по количеству и содержанию документов. Проведена экспертная классификация выборок.

Проведены два этапа экспериментов для алгоритма Кохонена и по три этапа для алгоритма FCM и генетического алгоритма. При вычислении значений оценочной функции использовались разные значения нормировочного коэффициента и разные значения коэффициента важности критерия. Пример зависимости значений целевой функции от нормировочного коэффициента показан на рисунке 9 (эксперименты с алгоритмом Кохонена вторая часть).

2,1,0,38 23 47 18 12 5 4 21 15 12 14 8 4 8 4 19 14 14 15 12 34 35 7 коэфф=Nэ+Na коэфф=Nэ*Na коэфф=С Рисунок 9. Выбор нормировочного коэффициента По результатам экспериментов сделаны выводы об оптимальном подборе параметров алгоритмов кластеризации.

Также была проведена оценка полноты поиска с учетом применения кластеризации. В качестве исходных данных был взят массив документов, подобранный в третьем этапе экспериментов (как наиболее близкий по составу и количеству документации к небольшому архиву), а также FCM-алгоритм.

Результаты работы FCM-алгоритма были объединены в три группы по количеству кластеров. Схема проведения экспериментов приведена на рисунке 10. Результаты проведения экспериментов приведены на сравнительных графиках на рисунке 11.

Рисунок 10 Блок-схема алгоритма оценки эффективности поиска Рисунок 11. Сравнительные графики оценки эффективности поиска Продолжение рисунка 11. Сравнительные графики оценки эффективности поиска Во втором разделе описываются работы, проведенные при вводе в эксплуатацию системы разграничения прав доступа к информации электронного архива. Проведено заполнение исходных данных справочников и карты доступа, в течение года в процессе эксплуатации системы собиралась статистическая информация по осуществлению доступа к документации, на основании которой были сделаны выводы о работоспособности системы.

В приложении 1 приведены таблицы параметров для проведенных экспериментов с алгоритмами кластеризации.

В приложении 2 приведены значения оценочной функции для всех проведенных экспериментов, а также общая сравнительная таблица.

В приложении 3 приведены отдельные фрагменты исходных кодов программного обеспечения: алгоритм автоматической экспертной классификации технической документации, алгоритм построения матриц соответствия и алгоритм вычисления значений оценочной функции по результатам экспериментов.

В приложении 4 приведено краткое описание работы с АРМ системы архива и электронного документооборота отдела технической документации.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ В ходе диссертационного исследования получены следующие результаты:

1. Разработан алгоритм автоматического выделения классификационных признаков документа на основе экспертной классификации, учитывающей особенности структуры технической документации научно-производственного предприятия.

2. Изучены возможности алгоритмов автоматической кластеризации на массиве технической документации, проведено сравнение результатов работы различных алгоритмов классификации и кластеризации, разработана методика оценки эффективности применения алгоритмов кластеризации, разработана модель интеграции алгоритмов автоматической кластеризации.

3. Разработана модель разграничения доступа пользователей к информации архива, основанная на экспертной классификации документации и организационной структуре предприятия.

4. Разработана программная система архива технической документации НПО, организационно-нормативная база для функционирования архива, удовлетворяющего требованиям, поставленным в данной работе, структура базы данных, пользовательский интерфейс, программные алгоритмы функционирования архива и системы электронного документооборота. В состав системы архива включена подсистема разграничения прав доступа.

5. Разработанные структуры данных и программные реализации алгоритмов используются в работе отдела технической документации, а также в общей информационной системе ФНПЦ ОАО «НПО «Марс».

СПИСОК ПУБЛИКАЦИЙ Статьи, опубликованные в журналах, рекомендованных Перечнем ВАК России:

1. Радионова Ю.А., Селяев А.Г. Применение лексического анализа для решения задач автоматической классификации электронной документации // Приложение к международному журналу «Проблемы теории и практики управления» - «Программные продукты и системы», № 4(84), 2008. – Тверь.

– С.71-73.

2. Радионова Ю.А. Хранение истории изменения данных в архивах технической документации //Научно-технический журнал «Автоматизация процессов управления». - № 1(19). – 2010. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». C. 82-88.

3. Радионова Ю.А. Система разграничения прав доступа к данным архивохранилища технической документации на основе использования экспертной классификации документов //Научно-технический журнал «Автоматизация процессов управления». - № 3(21). – 2010. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». C. 63-71.

В прочих изданиях:

1. Селяев А.Г., Радионова Ю.А. Разработка программного обеспечения архива машинных носителей //Научно-технический журнал «Автоматизация процессов управления». - № 1(7). – 2006. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». – C. 31-32.

2. Радионова Ю.А. Интерактивное классифицирование в архивах электронной конструкторской и программной документации на основе дескрипторного поискового языка // Научно-технический журнал «Автоматизация процессов управления». - № 1(9). – 2007. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». – С.107-109.

3. Радионова Ю.А. Обзор современных систем электронного документооборота и организации архивных хранилищ, возможность их применения для архивов технической документации // Научно-технический журнал «Автоматизация процессов управления». - № 2(10). – 2007. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». – С.87-92.

4. Радионова Ю.А., Тронин В.Г. Модель включения электронного архива конструкторской и технической документации в информационное хранилище предприятия документации // Научно-технический журнал «Автоматизация процессов управления». - № 1(11). – 2008. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». – С.97-100.

5. Островский А.А., Радионова Ю.А. Кластеризация набора электронных информационных ресурсов // Научно-технический журнал «Автоматизация процессов управления». - № 1(11). – 2008. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». – С.101-104.

6. Радионова Ю.А., Тронин В.Г. Проектирование структуры данных архива электронных документов НПО с использование среды MS SQL Server 20// Научно-технический журнал «Автоматизация процессов управления». - № 2(12). – 2008. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». – С.119-123.

7. Радионова Ю.А., Тронин В.Г. Классификация технической документации на основе лексического анализа децимального номера // Научнотехнический журнал «Автоматизация процессов управления». - № 3(13). – 2008. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». – С.69-72.

8. Радионова Ю.А. Включение электронного архива технической документации в информационное хранилище предприятия // Тезисы докладов 42 научно-технической конференции УлГТУ «Вузовская наука в современных условиях» (28.01-04.02.2008). – Ульяновск: УлГТУ, 2008. – С.130.

9. Наместников А.М., Ярушкина Н.Г., Корунова Н.В., Островский А.А., Селяев А.Г., Радионова Ю.А., Чекина А.В. Интеллектуальный проектный репозитарий // Одиннадцатая национальная конференция по искусственному интеллекту КИИ-2008 с международным участием: Труды конференции. Т. 3. - М.: ЛЕНАНД, 2008. – С. 345-353.

10. Радионова Ю.А., Селяев А.Г. Автоматизация процесса классификации технической документации // Сборник научных трудов второй всероссийской научной конференции с международным участием «Нечеткие системы и мягкие вычисления». Т.2. – Ульяновск, 27-29 октября 2008 года. – С. 139-144.

11. Радионова Ю.А. Метод построения оценочной функции, определяющей эффективность алгоритмов автоматической кластеризации // Научнотехнический журнал «Автоматизация процессов управления». - № 1(15). – 2009. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». – С.23-28.

12. Радионова Ю.А. Методика оценки эффективности методов кластеризации при построении интеллектуального репозитария // V-я Международная научно-практическая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (28-30 мая 2009г.). – Сборник научных трудов, Том 2. – М.,Физматлит, 2009. – С. 897-908.

13. Радионова Ю.А. Инструментарий оценки эффективности методов автоматических кластеризаций // Научно-технический журнал «Автоматизация процессов управления». - № 4(18). – 2009. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». – С.89-96.

14. Радионова Ю.А. Исследование эффективности методов кластеризации для построения интеллектуального репозитария // Тезисы докладов 43 научнотехнической конференции УлГТУ «Вузовская наука в современных условиях» (26-31 января 2009г.) – Ульяновск: УлГТУ, 2009. – С.123.

15. Радионова Ю.А. Методика настройки автоматических кластеризаторов // Тезисы докладов 44 научно-технической конференции УлГТУ «Вузовская наука в современных условиях» (1-7 февраля 2010г.) – Ульяновск: УлГТУ, 2010. – С.185.

16. Корунова Н.В., Наместников А.М., Островский А.А., Чекина А.В., Ярушкина Н.Г., Радионова Ю.А. Интеллектуальный репозиторий проектных документов // Сборник научных трудов семинара с международным участием «Интеллектуальный анализ временных рядов» по результатам НИР, поддержанной ФЦП, проект №02.740.11.5021. – г. Ульяновск, 15 июня 2010г. – С. 54-60.

17. Наместников А.М., Ярушкина Н.Г., Корунова Н.В., Островский А.А., Чекина А.В., Радионова Ю.А. Интеллектуальный репозитарий проектных документов // 12 национальная конференция по искусственному интеллекту с международным участием КИИ-2010 (20-24 сентября 2010г.) – Тверь. – С.

257-264.

18. Радионова Ю.А. Интеграция алгоритмов кластеризации технической документации // Молодежная научно-практическая конференция «Автоматизация процессов управления». Сборник докладов. – 2011. – Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». C. 77-Радионова Юлия Александровна Интеллектуальные методы организации архивов технической документации научно-производственного объединения Автореферат Подписано в печать. _15.10.2012_______. Формат 60x80/Бумага писчая. Усл. печ. л. 1,Тираж 100 экз. Заказ 12Типография УлГТУ, 432027, г. Ульяновск, Северный Венец, 32.






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.