WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 |

Для предотвращения некорректной замены данных в централизованном хранилище на данные, полученные от другой компьютерной системы, в работе предлагается задание приоритетности компьютерных систем-источников. В структуре централизованного хранилища формируется матрица приоритетов для каждой сущности или для полей отдельной сущности. Приоритеты задаются номером уровня, то есть для каждой сущности каждой системы присваивается номер уровня (приоритета), на котором она находится.

Компьютерные системы на одном уровне могут замещать данные друг друга, однако данные в централизованном хранилище не могут быть заменены данными из системы с меньшим приоритетом. Формирование матрицы приоритетов выполняется экспертами.

С целью повышения устойчивости централизованного хранилища и всей системы в целом предлагается использовать в централизованном хранилище системный историзм: все данные, попавшие в систему, не удаляются безвозвратно. Если данные изменяются (в т.ч. удаляются из хранилища), сохраняется их «резервная копия», которую можно восстановить. Для полноценного восстановления истории предлагается сохранять не только старые версии данных, но и старые структуры данных. При данном подходе становится возможным восстановить любую сущность и справочные данные даже в том случае, если изменился формат централизованного хранилища данных.

Для сохранности данных также в работе предлагается разработка системы фильтрации поступающих данных, которая построена на базе алгоритмов, применяемых в системах фильтрации нежелательной почты, теории нечеткой логики, нейронных сетей, эвристик и четких правил, настраиваемых экспертом на этапе внедрения.

Оправданным с точки зрения простоты и эффективности представляется применение регулярных выражений, накладывающих ограничения на данные.

Предлагается использование принципа обязательной обратной связи, когда формирование ответа от централизованного хранилища должно производиться всегда: в случае успешного сохранения переданных данных возвращается присвоенное ЕИО; в случае ошибки в ответ высылается подробное описание причины, из-за которой данные не могут быть приняты в централизованное хранилище.

Показано, что для обеспечения бесперебойной работы центрального концентратора необходим механизм приоритетизации поступающих пакетов на основе пула задач, каждой из которых присваивается определенный приоритет.

Диспетчер задач должен обладать возможностью определения и автоматического изменения порядка пакетов и их приоритетов.

В третьей главе рассматриваются теоретические основы предложенных методов, включая математические модели и алгоритмы.

Показано, что структура данных в едином интегрированном информационном пространстве описывается в УФОД, а затем расширяется добавлением ключевых слов, требуемых для классификации данных.

УФОД основан на XML, который позволяет в комплексе (объектноориентированно) описывать объекты и связи, а также операции по их обработке. В зависимости от типа пакетов, УФОД позволяет представлять данные либо в виде иерархии вложенных объектов, либо в плоском виде, когда каждый объект размещается на верхнем уровне иерархии, а его свойства – на уровень ниже.

Предлагается в качестве средства конвертирования данных использовать универсальный конвертор, работающий с XML. Схемой отображения данных в этом случае выступает шаблон преобразования, который и задает соответствие полей в одной структуре полям в другой структуре. Для задания нестандартных соответствий системному аналитику предоставляется возможность вписывать в шаблон преобразования собственные алгоритмические конструкции на специальных языках программирования.

В главе разработана математическая модель преобразования данных и шаблонов преобразования данных, выводятся ограничения на данные и структуры.

Пусть задано множество объектов (сущностей) O={o1,o2,…on}, при этом каждому объекту oi соответствует набор свойств из множества P={p1,p2,…,pn}, то есть у объекта oi набор свойств – pi,. Сам набор свойств представляет собой кортеж полей pi=(ei1,ei2,…,eim). Каждое поле состоит из пары eij=(vij,sij), где vij – значение поля, sij – формат поля (размерность, тип).

Связи между объектами задаются элементами множества L={l1,l2,…,lk}, где каждый элемент является тройкой lj=(oj1,oj2,rj), указывая на два связанных между собой объекта и наименование (вид) роли, по которой они связываются.

Иерархия (дерево вложенности) объектов в конкретном файле данных описывается множеством T={t1,t2,…,tn}, где каждый элемент – это пара ti = (oi, oj),, в которой первый элемент соответствует объекту с тем же индексом, а второй указывает на объект, который является родительским по отношению к данному в иерархии (т.е. oi непосредственно вложен в oj).

Совокупность всех указанных выше множеств U = {O, P, L, T} образует пакет данных в определенном формате. Тогда шаблон преобразования F – это отображение двух множеств U, т.е..

Показано, что множество T можно считать единообразным, т.е. когда ti=(oi, ),. Предполагается, что верхний индекс i у объектов, их свойств, связей и т.п. означает соответствующую совокупность Ui.

В общем случае каждому объекту из U1 может соответствовать произвольное количество объектов из U2, и наоборот: каждому объекту из Uможет соответствовать произвольное количество объектов из U1. Это связано с тем, что в соответствие ставятся не сами объекты, а их свойства. Следует отметить, что одному свойству одного объекта в U1 может соответствовать набор свойств одного или нескольких объектов в U2 (обратное также верно).

Таким образом, отображение раскрывается следующим образом:

.

Учитывая вышеизложенное, можно определить отображение F (шаблон преобразования) как набор условий-связей пространств.

Данные условия-связи устанавливают соответствие между свойствами объектов и связями между объектами.

Каждое такое условие состоит из тройки: элемента U1, элемента U2 и дополнительного условия (функции преобразования). В качестве рассматриваемого элемента может выступать конкретное свойство объекта или связь между объектами, а в качестве дополнительного условия может значиться изменение формата, добавление дополнительных символов. Отметим, что условия могут быть разными и не обязательно взаимообратными при прямом и обратном преобразовании.

Каждая связь-тройка описывается следующим образом (Таблица 1).

Таблица 1 - Соответствие формального представления видам связей Вид связиФормальное представление тройки или Один-к-одному Один-ко-многим или Многие-кодному или где ;, H – множество функций преобразования.

Таким образом, все можно разделить на 2 вида: связывающие свойства объектов (что приводит к связи самих объектов между собой) и связывающие связи между объектами.

Отдельно описывается роль и место функций преобразования, заданных специальными алгоритмами. Рассматривается расширение, обеспечивающее возможность двустороннего преобразования данных с использованием шаблона преобразования.

Реляционная модель организации системного историзма представлена на схеме (рис. 2). Схема БД для хранения данных о структуре хранилища в самом хранилище представлена на рис. 3. Приводится разработанный общий двухпроходный алгоритм обработки данных центральным концентратором (рис. 4).

Четвертая глава посвящена разработке и пилотному внедрению прототипа программного обеспечения, реализующего описанные в третьей главе алгоритмы и методы, а также анализ эффективности метода на основе тестирования разработанного прототипа.

Прототип серверного программного обеспечения интегрирующей системы представляет собой сложную систему управления данными, процессами и потоками обработки данных, имеет модульную структуру и во многом опирается на принципы, используемые при построении операционных систем.

Серверная часть системы не имеет пользовательского интерфейса.

Разработан «толстый клиент» для работы с концентратором данных. Модуль преобразования данных (конвертор) основан на предлагаемом подходе и использует шаблоны преобразования в формате XML.

Рисунок 2 - Схема реляционной БД для организации системного историзма Рисунок 3 - Схема БД для хранения структуры хранилища Анализ эффективности предлагаемых моделей, методов и подходов выполнен на основе обработки выборки реальных данных компьютерных систем Администрации ГО г.Уфа РБ. Результаты обработки данных приведены на схеме (рис. 5) и диаграммах (рис. 6, 7).

Разработанный прототип программного обеспечения позволил синхронизировать 11834 реальных объекта недвижимости в центральное хранилище, связав их адреса, описанные в одной структуре, с адресным планом города Уфы, описанным в другой структуре и другой компьютерной системе обработки данных. Кроме того, 11166 объектов были признаны ошибочными, так как не были найдены соответствующие адреса в адресном плане (и по иным причинам). Наконец, было выявлено около 0,3% дубликатов адресов в реальном адресном плане города, что позволило провести «очистку» данных в соответствующей системе.

Начало Экпорт данных Формирование временных связей (реестров и между объектами с временными справочников) из КС ID, а также между объектами с Используется Используются реальными и временными ID снимок правила предыдущей проверки выгрузки Формирование пакета (эвристики, Автоматическая обновления данных грамматики и валидация формата и Используется т.п.) полноты данных шаблон преобразования Конвертирование данных Для каждого пакета данных в объекта в УФОД Используются пакете правила проверки Автоматическая (включая Присвоение валидация формата и формат УФОД) реального ID, вызов полноты данных процедуры BeforeSave() Для каждого Сохранение текущей объекта в версии объекта и его пакете связей (системный историзм) Объект уже нет Сохранение объекта существует Выделение для объекта да Вызов AfterSave()временного ID, Присвоение объекту процедуры формирование уже существующего объекта в ID оперативной памяти Сохранение связей объекта с заменой временных ID на реальные Объект можно да обновить Используются таблица Формирование и отправка приоритетов обратного пакета с отчетом системИсключение объекта об ошибках и присвоенными источников из обработки объектам идентификаторами Конец Рисунок 4 - Схема общего двухпроходного алгоритма обработки данных Рисунок 5 - Результаты обработки реальных данных разработанных прототипом программного обеспечения Проведено сравнение результатов обработки тестовых данных разработанным прототипом программного обеспечения и экспертами, данные отражены в Таблице 2.

Рисунок 6 – Результаты анализа адресного реестра Таблица 2 - Сравнение результатов анализа выборки данных экспертами и прототипом программного обеспечения Параметр Оценка Результат экспертов, % тестов, % Доля дефектных (ошибочных) адресов 7,4 Доля ошибок в адресах договоров аренды 12,5 Доля дубликатов в адресах договоров аренды 34,1 Привлечение экспертов при близких результатах привело к временным затратам около 115 человеко-часов, работа прототипа программного обеспечения – 5,5 часов, что доказывает преимущество в производительности при проведении такого анализа – более чем в 20 раз.

Рисунок 7 – Результаты анализа объектов реальной системы Рассматриваются область применения предлагаемого подхода, ограничения, а также приводится анализ преимуществ и недостатков.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ 1. Разработана архитектура и общие требования к технологии интеграции разных компьютерных систем обработки данных. Сопоставление данных и их обмен между системами производится в центральном элементе системы – централизованном хранилище, а структура централизованного хранилища и пакетов обмена данными описывается на универсальном формате обмена данными (УФОД). В отличие от известных архитектур, в предложенной достигается возможность как комплексной обработки данных разных компьютерных систем при сохранении ими независимости и невмешательства в их внутренние структуры, так и обеспечение обмена данными между этими системами, что позволяет связать системы между собой путем создания связей между объектами, находящимися в разных системах.

2. Разработаны следующие модели и методы:

математическая модель единого интегрированного информационного пространства, позволяющая рассмотреть общий случай передачи данных между системами, а при задании ограничений получить модель задачи, решаемой в рамках диссертационного исследования. В отличие от известных подходов, в модели акцентируется внимание на вопросе конвертирования данных в различных форматах при наличии произвольного количества систем.

математическая модель преобразования данных между различными форматами на основе шаблона преобразования, которая формально описывает две в общем случае неравноценных структуры данных, а также способы их сопоставления путем задания связей. В отличие от известных, модель описывает принцип задания соответствия данных в формальном виде шаблона преобразования.

метод сопоставления данных в различных структурах на основе оценки идентичности объектов путем сравнении групп ключевых полей, что, в отличие от известных методов, позволяет определять различные ключевые поля (признаки) для объектов из различных систем, а также определять дубликаты объектов и автоматически добавлять связи между объектами.

метод обеспечения безопасных изменений (сохранений) данных в централизованном хранилище путем применения системного историзма, задания приоритетности систем-источников, применения единого идентификатора для объектов, а также использования принципа обязательной обратной связи и фильтрации поступающих данных. В отличие от известных решений, метод обеспечивает создание в централизованном хранилище «эталонных» реестровых данных, а также обеспечивает защиту от некорректного их изменения и возможность восстановления ранних версий.

3. Разработан общий алгоритм двухпроходного изменения данных в централизованном хранилище, который включает в себя проверку всех поступивших в рамках транзакции объектов, и не помещает их в хранилище, а также не создает пустые связи, до того, пока не будет получен результат, что позволяет объекту, который будет связан с данным, также успешно пройти проверку. Разработанный алгоритм, в отличие от известных, позволяет избежать пустого выделения единых идентификаторов объектам, которые не будут в итоге сохранены в централизованном хранилище, а также позволяет не создавать ссылки на несуществующие объекты.

Pages:     | 1 || 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»