WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 | 2 ||

Описывается автоматизация ввода статистической информации в БД АИС Каскад с помощью предлагаемой технологии. Неполнота представ ления статистической информации в базах данных Иркутскстата не позволя ет организовать прямое преобразование необходимых данных в АИС Кас кад. Поэтому публикуемые электронные статистические отчеты Росстата являются основным источником необходимых данных. Эти отчеты представ лены в форматах DOC, XLS, plain-text. При этом большинство таблиц в от четах формата DOC являются включениями ASCII-текста, остальные явля ются табличными объектами Word. Каждое структурное описание извлечен ной таблицы преобразуется в промежуточное представление, которое состоит из 1) таблицы формата СУБД Paradox (хранит в реляционном виде дан ные из статистической таблицы) и 2) текстового FNI (Field Name Information) файла (хранит информацию о структуре табличных заголовков и их связях с полями реляционного отношения). Для этого деревья заголовков структур ного описания таблицы объединяются в одно дерево показателей. С помощью регулярных выражений в дереве показателей идентифицируются заголовки, обозначающие лексически время и территории. Эти заголовки исключа ются из дерева показателей и образуют два измерения время и терри тории. Также из дерева показателей исключаются игнорируемые заголовки, указывающие на вычислимые данные. Формируется реляционное отношение:

элементы данных связанные с одним листом дерева показателей образуют поле, также два поля образуют соответственно значения измерений время и территории. Формируется FNI файл, в котором каждой метке поля со поставляется путь из дерева показателей. В БД АИС Каскад информация организована в виде дерева, узлами которого являются показатели из ста тистических отчетов. Для каждого промежуточного представления выпол няется связывание со структурой БД АИС Каскад, далее осуществляется автоматический ввод его данных.

Применение предлагаемой технологии для наполнения БД АИС Кас кад позволило снизить затраты и повысить качество при вводе в неё инфор мации из электронных статистических отчетов.

В заключении приводятся основные полученные результаты диссерта ционной работы, обсуждаются перспективные направления их развития.

Основные полученные результаты.

1. Разработана модель страницы документа, которая служит для пред ставления данных страницы, используемых в процессе извлечения таб личной информации из электронных документов.

2. Разработана модель структурного описания таблицы, которая предна значена для представления заголовков и данных таблицы, а также свя зей между ними.

3. Разработаны методы обнаружения, сегментации, анализа функций яче ек и структурного анализа таблиц, ориентированные на структуру и осо бенности статистических таблиц.

Список публикаций [1] Шигаров А.О. Технология извлечения табличной информации из элек тронных документов разных форматов [Текст] / Шигаров А.О. // Современные технологии. Системный анализ. Моделирование. – 2009.

– № 3 (23). – С. 97–102.

[2] Бычков И.В. Эвристический метод обнаружения таблиц в разноформат ных документах [Текст] / Бычков И.В., Ружников Г.М., Хмельнов А.Е., Шигаров А.О. // Вычислительные технологии. – 2009. – Т. 14, № 2.

– С. 58–73.

[3] Shigarov A.O. A method for table detection in metafiles [Текст] / Shigarov A.O., Bychkov I.V., Khmel’nov A.E., Ruzhnikov G.M. // Pattern Recognition and Image Analysis. – 2009. – Vol. 19, No 4. P. 693–697.

[4] Бычков И.В. Метод обнаружения таблиц в метафайлах [Текст] / Быч ков И.В., Ружников Г.М., Хмельнов А.Е., Шигаров А.О. // Современные технологии. Системный анализ. Моделирование. – 2008. – Спецвыпуск.

– С. 47–51.

[5] Хмельнов А.Е. Метод извлечения таблиц из неформатированного текста [Текст] / Хмельнов А.Е., Шигаров А.О. // Вычислительные технологии.

– 2008. – Т. 13, Спец. выпуск 1. – С. 93–101.

[6] Шигаров А.О. Автоматизированная система извлечения табличной ин формации из метафайлов [Текст] / Шигаров А.О. // Труды XIV Всерос сийской конференции Информационные и математические технологии в науке и управлении. – Иркутск, 2009. – Т. 2. - С. 218–224.

[7] Bychkov I.V. A method for table detection in metafiles [Текст] / Bychkov I.V., Hmelnov A.E., Ruzhnikov G.M., Shigarov A.O. // In Proc.

9th Int. Conf. on Pattern Recognition and Image Analysis: New Information Technologies. – Nizhni Novgorod, 2008. – Vol. 1. – P. 66–69.

[8] Хмельнов А.Е. Сегментация страницы документа для обнаружения таб лиц [Текст] / Хмельнов А.Е., Шигаров А.О. // Труды XIII Всероссийской конференции Информационные и математические технологии в науке и управлении. – Иркутск, 2008. – Ч. 2. – С. 244–251.

[9] Шигаров А.О. Метод обнаружения таблиц в метафайлах [Текст] / Шига ров А.О. // Материалы Школы-семинара молодых ученых Информаци онные технологии и моделирование социальных эколого-экономических систем. – Иркутск, 2008. – С. 58–61.

[10] Хмельнов А.Е. Метод извлечения статистических таблиц из неформати рованного текста [Текст] / Хмельнов А.Е., Шигаров А.О. // Труды XII Всероссийской конференции Информационные и математические техно логии в науке и управлении. – Иркутск, 2007. – Ч. 2. – С. 91–99.

[11] Хмельнов А.Е. Извлечение таблиц из неформатированного текста [Текст] / Хмельнов А.Е., Шигаров А.О. // Доклады 13–й Всероссийской кон ференции Математические методы распознавания образов (ММРО–13).

– Зеленогорск, 2007. – С. 551–553.

[12] Хмельнов А.Е. Извлечение статистических таблиц из неформатирован ного текста [Текст] / Хмельнов А.Е., Шигаров А.О. // Материалы IX Школы-семинара Математическое моделирование и информационные технологии. – Иркутск, 2007. – С. 167–169.

Редакционно-издательский отдел Учреждения Российской академии наук Института динамики систем и теории управления Сибирского отделения РАН 664033, Иркутск, ул. Лермонтова, Подписано в печать 28.12.Формат бумаги 60 x 84 1/16, объем 1,25 п.л.

Заказ № 10. Тираж 100 экз.

Отпечатано в ИДСТУ СО РАН

Pages:     | 1 | 2 ||



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.