WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

На правах рукописи

Шабалов Андрей Андреевич

АЛГОРИТМЫ АВТОМАТИЗИРОВАННОГО ГЕНЕРИРОВАНИЯ АНСАМБЛЕЙ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ ДЛЯ ЗАДАЧ АНАЛИЗА ДАННЫХ

05.13.01 – Системный анализ, управление и обработка информации (информационные и космические технологии)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Красноярск - 2012

Работа выполнена в ФГБОУ ВПО «Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева» (СибГАУ), г. Красноярск

Научный консультант: доктор технических наук, профессор Семенкин Евгений Станиславович

Официальные оппоненты: доктор физико-математических наук, профессор, Сенашов Сергей Иванович, ФГБОУ ВПО «Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева», заведующий кафедрой информационных экономических систем доктор технических наук, профессор Спицын Владимир Григорьевич ФГБОУ ВПО «Научно-исследовательский Томский политехнический университет», профессор кафедры вычислительной техники

Ведущая организация: Институт проблем управления РАН им. В.А. Трапезникова (г. Москва)

Защита состоится «27» декабря 2012 г. в 14 часов на заседании диссертационного совета Д 212.249.02 при ФГБОУ ВПО «Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева» по адресу: 660014 г. Красноярск, проспект имени газеты «Красноярский рабочий»,

С диссертацией можно ознакомиться в библиотеке Сибирского государственного аэрокосмического университета имени академика М.Ф. Решетнева

Автореферат разослан «26» ноября 2012 г.

Ученый секретарь диссертационного совета Александр Алексеевич Кузнецов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. В настоящее время интеллектуальные методы анализа данных получили широкое распространение при решении практических задач в различных сферах человеческой деятельности. В области исследований интеллектуальных систем анализа данных помимо совершенствования отдельных технологий, можно выделить интенсивно развивающееся направление, заключающееся в совместном использовании различных типов интеллектуальных информационных технологий (ИИТ) с целью увеличения качественных характеристик конечной системы.

Искусственные нейронные сети (ИНС) характеризуются адаптивным обучением, самоорганизацией, возможностью работы в режиме реального времени, отказоустойчивостью. Область их применения охватывает широкий спектр практических приложений. Они обладают эффективной способностью извлекать существенные признаки из сложных и неточных данных, где другие компьютерные методы, как правило, не справляются с поставленной задачей. Однако нейронные сети представляют собой модель “черного ящика”, т.е. интерпретация построенных решений является практически невозможной.

Отличительной чертой систем на нечеткой логике (НЛС) является построение решения в форме лингвистических правил-продукций, что предоставляет “прозрачную” модель (т.е. модель “белого ящика”).

Нечеткие системы концептуально понятны, гибки, устойчивы к неточным данным, основываются на естественном языке. Они позволяют инкорпорировать опыт экспертов предметной области, а также способны моделировать нелинейные функциональные зависимости произвольной сложности. Однако нечеткие системы не имеют автоматических обучающих алгоритмов, вследствие чего они не могут быть использованы при отсутствии экспертных знаний.

Среди различных способов гибридизации технологий, выделяются нейро-нечеткие системы (ННС), объединяющие преимущества систем на нечеткой логике и аппарата нейронных сетей, а также эволюционные нейронные сети и эволюционные нечеткие системы, позволяющие автоматизировать процесс создания модели и решения задач анализа данных.

Обобщающая эффективность отдельной технологии может быть ограничена в виду сложности решаемой задачи. Выходом из данной ситуации могут служить ансамбли интеллектуальных систем, представляющие собой набор моделей, каждая из которых способна решить поставленную задачу и комбинация которых позволяет повысить эффективность и робастность системы в целом по сравнению с отдельной технологией.

Создание эффективного алгоритмического ядра интеллектуальных информационных технологий требует значительных временных и финансовых затрат и очень высокой квалификации разработчиков, что на практике конечным пользователям (врачам, инженерам, менеджерам и др.) далеко не всегда удается обеспечить. Автоматизация генерирования алгоритмического ядра ИИТ с помощью эволюционных алгоритмов позволяет значительно упростить процесс разработки интеллектуальных систем поддержки принятия решений для конечных пользователей, не являющихся экспертами в области интеллектуальных информационных технологий.

Таким образом, разработка и исследование методов автоматизированного генерирования алгоритмического ядра интеллектуальных информационных технологий и их коллективов при решении сложных задач анализа данных в различных областях человеческой деятельности, позволяющих повысить эффективность и надежность конечной системы при принятии решений, является актуальной научно-технической задачей.

Целью диссертационной работы является повышение обоснованности и надежности принятия решений при использовании интеллектуальных информационных технологий за счет автоматизации их проектирования и применения на основе эволюционных алгоритмов.

Достижение поставленной цели работы предполагает решение следующей совокупности задач:

1. Усовершенствовать стандартный генетический алгоритм для повышения его надежности при решении задач оптимизации на сложных структурах данных.

2. Автоматизировать процесс проектирования структуры искусственных нейронных сетей и настройки ее весовых коэффициентов.

3. Автоматизировать процесс проектирования базы правил и настройки семантики лингвистических переменных для систем на нечеткой логике.

4. Разработать подход, автоматически настраивающий семантику лингвистических переменных в нейро-нечетких системах.

5. Разработать метод автоматизированного проектирования коллективов ИИТ.

6. Реализовать предложенные методы и показать их работоспособность на тестовых и практических задачах анализа данных.

Методы исследования. При выполнении диссертационной работы использовались методы системного анализа, теории вероятности и математической статистики, теории обработки информации, теории оптимизации, теории эволюционных вычислений, методика разработки интеллектуальных информационных систем.

Научная новизна результатов диссертационной работы состоит в следующем:

1. Разработан новый самонастраивающийся эволюционный алгоритм для решения задач безусловной и условной оптимизации, отличающийся от известных сочетанием асимптотического генетического алгоритма с автоматическим выбором типа селекции.

2. Разработан новый эволюционный метод автоматизации проектирования структуры НЛС и одновременной настройки ее базы правил, отличающийся от известных представлением решения в виде хромосомы генетического алгоритма и позволяющий одновременно настраивать количество правил в базе и длину каждого правила.

3. Разработан новый алгоритм настройки лингвистических переменных в нейро-нечетких системах, отличающийся от известных способом представления решения и позволяющий одновременно выбирать центр и ширину базы лингвистических термов.

4. Разработан новый метод создания коллективов ИИТ на основе алгоритма генетического программирования, отличающийся от известных способом формирования коллектива и его решения и позволяющий получать более эффективные коллективы ИИТ.

Теоретическая значимость результатов диссертационного исследования состоит в том, что разработаны новые эволюционные алгоритмы для автоматического проектирования интеллектуальных информационных технологий и их коллективов, предназначенных для решения задач аппроксимации, классификации и прогнозирования, обладающие более высокой эффективностью, надежностью и адаптивностью, что имеет существенное значение для теории интеллектуальных технологий представления знаний и практики их применения в системах обработки информации и интеллектуального анализа данных.

Практическая ценность. На основе разработанных в ходе исследования алгоритмов и методов реализована программная система поддержки принятия решений при управлении реальными инвестициями машиностроительного предприятия на основе многоагентных стохастических алгоритмов, а также программная система, позволяющая осуществлять проектирование нейросетевых моделей, систем на нечеткой логике и нейро-нечетких систем, а также их коллективов на основе эволюционного подхода для решения сложных задач анализа данных:

аппроксимации, классификации и прогнозирования. Полученные в диссертационной работе самонастраивающийся асимптотический генетический алгоритм, а также рекомендации по настройке параметров метода генетического программирования позволяют конечным пользователям, не являющимися экспертами в области эволюционных вычислений и проектирования ИИТ, применять программные системы при решении сложных задач в различных сферах человеческой деятельности.

Программные системы апробированы на реальных практических задачах.

Реализация результатов работы. Диссертационная работа поддержана Фондом содействия развитию малых форм предприятий в научно-технической сфере по программе «У.М.Н.И.К.» («Участник молодежного научно-инновационного конкурса») в рамках НИОКР «Автоматизированное проектирование интеллектуальных информационных технологий для задач анализа данных на основе самонастраивающегося генетического алгоритма» на 2010-2012 гг. Работа финансировалась из средств госбюджета в рамках НИР 1.7.08 «Разработка теоретических основ решения задач автоматизации проектирования распределенных многопроцессорных вычислительных комплексов интеллектуального анализа данных в режиме реального времени» темплана ЕЗН СибГАУ, а также по проекту "Математическое моделирование инвестиционного развития региональных экономических систем" Аналитической ведомственной целевой программы "Развитие научного потенциала".

Результаты диссертационного исследования использовались при выполнении НИР 2.1.1/12096 «Математическое моделирование инвестиционного развития региональных экономических систем» АВЦП «Развитие научного потенциала высшей школы (2009–2011 годы)», НИР 2009-1.2.2 «Автоматизированная система решения сложных задач глобальной оптимизации многоагентными стохастическими алгоритмами» ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2011 годы и российско-германского проекта 2011-1.2.1-113-025002 «Математическое и алгоритмическое обеспечение автоматизированного проектирования аппаратно-программных комплексов интеллектуальной обработки информации в распределенных высокопроизводительных системах космического назначения» ФЦП «Научные и научно-педагогические кадры инновационной России на 20092013 годы (с участием научно-исследовательских и научнообразовательных организаций Германии)».

Созданная в ходе исследования программная система «Система поддержки принятия решений на основе многоагентных стохастических алгоритмов для управления реальными инвестициями машиностроительных предприятий» апробирована на реальных данных Химзавода – филиала ОАО «Красмашзавод» и передана для эксплуатации двум предприятиям.

Одна программная система прошла государственную экспертизу и была зарегистрированы во ВНТИЦ, четыре программные системы зарегистрированы в Роспатенте.

Разработанные в диссертации программные системы используются в учебном процессе Института информатики и телекоммуникаций СибГАУ при выполнении лабораторных и курсовых работ и, кроме того, переданы для использования в две инновационные IT-компании.

Основные защищаемые положения:

1. Самонастраивающийся асимптотический генетический алгоритм безусловной оптимизации обеспечивает эффективность, сравнимую со стандартным генетическим алгоритмом, но обладает значительно меньшим числом настроек.

2. Разработанные алгоритмы автоматизации проектирования ИИТ позволяют эффективно решать сложные задачи анализа данных и не требуют от конечного пользователя экспертных знаний в области эволюционных вычислений.

3. Разработанный подход к построению коллектива интеллектуальных информационных технологий на основе метода генетического программирования позволяет повысить эффективность и надежность принятия конечного решения в задачах аппроксимации и классификации по сравнению с альтернативными методами.

Апробация. Результаты диссертационной работы были доложены и обсуждены более, чем на 20 научных и научно-практических конференций, среди которых: International Conference on Hybrid Artificial Intelligence Systems (HAIS’12) и International Symposium on Distributed Computing and Artificial Intelligence (DCAI’12), г. Саламанка, Испания, 2012;

Всероссийская научная конференции «Теория и практика системного анализа» (г. Рыбинск, Институт системного анализа РАН и РГАТА, 2012);

Joint IEEE Conference "The 7th International Conference on Natural Computation & The 8th International Conference on Fuzzy Systems and Knowledge Discovery" – FSKD’2011, China, 2011; конференция-конкурс «Технологии Microsoft в теории и практике программирования» (г. Томск, ТПУ, 2011); Национальные конференции по искусственному интеллекту с международным участием КИИ-2010 и КИИ 2012 (г. Тверь, 2010, г.

Белгород, 2012); Международные научно-практические конференции «Решетневские чтения» (г. Красноярск, СибГАУ, 2008, 2009, 2011);

Всероссийские научно-практические конференции с международным участием «Информационные технологии и математическое моделирование» (г. Томск, ТГУ, 2008, 2009); Всероссийские научнопрактические конференции «Актуальные проблемы авиации и космонавтики», (г. Красноярск, СибГАУ, 2008, 2009), а также ряд молодежных и студенческих конференций. Отдельные аспекты исследования обсуждались на научном семинаре института информационных технологий университета г. Ульм (Германия).

Диссертация в целом обсуждалась на научных семинарах Института проблем управления РАН им. В.А. Трапезникова (г. Москва) и Института системного анализа РАН (г. Москва) и научно-техническом семинаре кафедры системного анализа и исследования операций СибГАУ.

Публикации. По материалам данной работы опубликовано более 25 печатных работ, в том числе 4 статьи в научных изданиях Перечня ВАК.

Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность работы, сформулирована цель и поставлены задачи исследования, приведена общая характеристика работы, изложены основные результаты и защищаемые положения, выносимые на защиту.

Первая глава посвящена обзору основных методов вычислительного интеллекта. Рассматриваются ключевые черты искусственного и вычислительного интеллекта, приводятся основные понятия искусственных нейронных сетей, систем на нечеткой логике и нейро-нечетких систем, эволюционных методов.

Во второй главе рассматриваются бионические методы оптимизации, приводятся основные понятия алгоритмов эволюционных вычислений и роевого интеллекта. В данной главе предлагается схема самонастраивающегося асимптотического генетического алгоритма, путем автоматизации выбора типа селекции. Стандартная схема асимптотического генетического алгоритма приведена ниже:

1. Положить компоненты вектора распределения вероятности pj 0.5, j 1,M, M – число настроек типа селекции. Инициализировать начальную популяцию на основе биномиального распределения с параметром 0.5, т.е. xij принимает значения 0 и 1 с равной вероятностью.

2. Вычислить значения пригодности каждого индивида y f x . Если выполняется критерий остановки, прекратить работу i i алгоритма, вывести лучшее найденное решение.

3. Вычислить веса особей g, представляющие собой вероятности i прохождения отбора с помощью асимптотической селекции.

4. Определить условное распределение вероятностей новой популяции по формуле:

N g x i i, j ip , j 1,M ;

j N g i i5. Выполнить мутацию распределения по формуле:

pj r 1 2 r pj, j 1,M, где r - вероятность мутации.

6. Создать новое поколение потомков случайным образом с помощью биномиального распределения с параметром pj, т.е. j-й ген i-ой хромосомы принимает значение 1 с вероятностью pj и значение 0 с вероятностью qj 1 pj.

7. Произвести смену поколений.

В самонастраивающемся асимптотическом генетическом алгоритме осуществляется выбор единственной оставшейся настройки – типа селекции – на основе распределения вероятности его применения для порождения потомков. Обозначим через z вероятность выбора k конкретного типа селекции. На каждом поколении осуществляется пересчет этих вероятностей по формуле:

r 100 N z k all z z k all K r k k 20 success k где K – количество типов селекции, zall , r , usedk – число k K used k применения типа селекции, successk – количество случаев применения, приведших к улучшению средней пригодности популяции по сравнению с предыдущим поколением. Изначально, значения usedk инициализируются значениями, равными единице, чтобы избежать деления на нуль.

В конце главы приводится экспериментальное сравнение генетических алгоритмов и бинаризованного стайного алгоритма. В результате такого сравнения установлено, что на множестве тестовых задач усредненная эффективность бинаризованного стайного алгоритма оказывается хуже генетических алгоритмов. Средняя эффективность асимптотического генетического алгоритма превосходит среднюю эффективность стандартного генетического алгоритма.

Самонастраивающийся генетический алгоритм сравним со стандартным алгоритмом, однако в нем не требуется вручную подбирать эффективные параметры для работы алгоритма. На основе разработанного генетического алгоритма была реализована система поддержки принятия решений при формировании инвестиционного портфеля машиностроительного предприятия, прошедшая успешную апробацию на реальных данных, Химзавода-филиала ОАО “Красмашзавод”.

В третьей главе диссертации предлагаются методы автоматизированного проектирования интеллектуальных информационных технологий (ИИТ) методами эволюционных вычислений.

Нейросетевой подход. В качестве архитектуры нейронной сети был выбран многослойный персептрон в связи с тем, что он является наиболее часто используемым в практических приложениях.

Эффективность качества моделирования нейронных сетей зависит от эксперта, проектирующего топологию и обладающего знаниями о “тонкостях” нейронных сетей и области решаемой задачи. С увеличением сложности проблемы проектирование нейронных сетей становится затруднительным.

Алгоритмы обучения многослойных персептронов, как правило, основываются на градиентном спуске. Основными недостатками данного алгоритма являются: “застревание” в локальных минимумах функции ошибки, низкая скорость сходимости при малом шаге обучения, паралич сети и др.

Эволюционные алгоритмы помогают преодолеть большинство недостатков. С помощью генетического алгоритма одновременно выбирается структура нейронной сети и настраиваются ее весовые коэффициенты.

Хромосома структуры нейронной сети кодируется следующим образом. Изначально исследователем задается максимальное количество скрытых слоев и максимальное количество нейронов на каждом слое. При кодировании проход по сети осуществляется сверху – вниз, слева – направо по каждому нейрону. Длина хромосомы каждого нейрона будет состоять из 3 или 4 битов при использовании набора из 7 или активационных функций, соответственно. Равенство всех битов нулю означает отсутствие нейрона. В остальных случаях имеем бинарный код номера функции активации. Таким образом, длина хромосомы, кодирующей структуру нейронной сети, будет равна максимальному количеству нейронов, умноженному на длину хромосомы одного нейрона.

Весовые коэффициенты кодируются аналогично. Исследователем задается интервал изменения весовых коэффициентов W,W и точность a b (дискретизация числа), на основании чего определяется количество бит n для кодирования вещественного числа. Длина хромосомы, кодирующей весовые коэффициенты, равна числу n, умноженному на число всех коэффициентов текущей сети.

Данный способ кодирования позволяет настроить топологию сети (число скрытых слоев и число нейронов на каждом слое), выбрать функцию активации каждого нейрона, а также оптимизировать весовые коэффициенты.

Системы на нечеткой логике. Генетический алгоритм предоставляет гибкую структуру кодирования различных параметров нечеткой системы, позволяя влиять на ее сложность, интерпретируемость, “прозрачность”. Поэтому в данной работе проектирование основного компонента системы – базы знаний – осуществляется с помощью ГА.

В силу теоремы об универсальности аппроксимации выбираются следующие настройки нечеткой системы: гауссовские функции принадлежности, импликация в форме Ларсена, композиция в форме произведения, и центроидный метод приведения к четкости.

При проектировании нечеткой системы использовался Питтсбургский подход, в котором отдельный индивид представляет собой отдельную базу правил. Изначально необходимо задать максимальное количество правил N. В процессе обучения настраиваются следующие max параметры базы знаний: параметры функций принадлежности, определяющие центр и ширину термов, количество правил, общая длина всей базы правил благодаря включению дополнительного терма “игнорирование”. На рисунках 1 и 2 представлены схема кодирования хромосомы по Мамдани и по Такаги-Сугено (нулевого порядка), соответственно.

При кодировании вещественных чисел (параметров функций принадлежности), необходимо задать точность . Интервал изменения переменных выбирается автоматически на основе нижней и верхней границы обучающего множества.

Rk k 1, N max a1 1 … an t1 … tn a1 1 … am m an n Входные параметры Терм Выходные параметры игнорирования Рисунок 1 – Представление кодирования хромосомы по Мамдани Rk k 1, N max a1 1 … an t1 … tn 1 … m n Входные параметры Терм Выходные параметры игнорирования Рисунок 2 – Представление кодирования хромосомы по Такаги-Сугено нулевого порядка На рисунке 1 и 2 ai, i, i 1,n, - центр и ширина гауссовских функций принадлежности левой части правила, n – число входных переменных, ti – параметр игнорирования (включения или невключения ' того или иного терма в условной части правила); a'j, j 1,m, - центр и j ширина гауссовких функций принадлежности правой части правила в случае механизма вывода по Мамдани и j – синглетоны в моделях по Такаги-Сугено (нулевого порядка), m – число выходных переменных; Rk – k-е правило, Nmax – максимальное число таких правил.

Нейро-нечеткие системы. В диссертационной работе реализуется нейро-нечеткая система с выводом по Такаги-Сугено (нулевого порядка) и по Мамдани. Параметры нечеткой системы выбраны с тем же основанием, что и для нечетких систем: гауссовские функции принадлежности, импликация в форме Ларсена, композиция в форме произведения, центроидный метод приведения к четкости.

Весами нейро-нечеткой сети являются параметры функций принадлежности в предпосылках и заключениях: a , и akj, , в ki ki kj случае схемы по Мамдани, или – по Такаги-Сугено.

kj Обучение нейро-нечеткой системы проходит в два этапа. На первой стадии определяются число правил и начальные параметры функций принадлежности на основе кластерных методов. Для этой цели в работе реализовано два метода: модифицированное конкурентное обучение и алгоритм адаптивной резонансной теории (2) (АРТ). В отличие от обычных кластерных методов (алгоритм k-средних, нечеткий алгоритм k-средних, стандартный алгоритм конкурентного обучения), которые требуют знания количества кластеров, и соответственно количества правил, алгоритм конкурентного обучения с механизмом штрафования соперника и алгоритм АРТ (2) подбирают подходящее число кластеров в процессе обучения.

Во второй фазе обучения происходит “тонкая” настройка параметров базы данных. Для этой цели обычно применяется так называемый модифицированный алгоритм обратного распространения ошибки, по сути представляющий собой алгоритм наискорейшего спуска.

Однако он применяется только для нейро-нечетких моделей ТакагиСугено, где все функции в нечетких нейронах являются непрерывно дифференцируемыми. В случае моделей по Мамдани в узлах выполнения композиции правил, операция max является недифференцируемой. В некоторых случаях вместо операции max применяется операция sum, однако она не удовлетворяет условиям t-конормы. К тому же общеизвестным недостатком градиентных алгоритмов является “застревание” в локальных экстремумах, что препятствует эффективному использованию нейро-нечетких систем.

Поэтому в данной работе для настройки параметров семантики лингвистических переменных применяются ГА. Ниже приведена структура кодирования хромосомы (рисунок 3).

Система по типу Мамдани Система по типу Такаги-Сугено Rk k 1, M Rk k 1, M a1 1 … an a1 1 … am m an n a1 1 … an 1 … m n Входные параметры Выходные параметры Входные параметры Выходные параметры Рисунок 3 – Представление кодирования хромосомы На рисунке 3 обозначения переменных аналогичны обозначениям на рисунке 2, где M – найденное число кластеров (число правил) с помощью соответствующего метода.

Начальная инициализация популяции может быть произведена либо случайным образом, либо на основе параметров, определенных на первой стадии обучения. При кодировании параметров функций принадлежности также необходимо задать точность . Область определения переменных выбирается автоматически на основе нижней и верхней границы обучающего множества.

В этой же главе предлагается алгоритм проектирования коллективов интеллектуальных информационных технологий и структуры их взаимодействия при получении результирующего коллективного решения, основанного на частных решениях индивидуальных технологий, на основе метода генетического программирования с целью повышения эффективности и надежности модели при решении сложных задач Идея заключается в построении математического выражения из результатов отдельных членов коллектива. В этом случае элементами терминального множества алгоритма генетического программирования являются частные решения отдельных систем.

На предварительном этапе необходимо заранее сгенерировать и обучить заданное число элементов терминального множества, которые будут в дальнейшем использоваться в работе алгоритма. При такой постановке задачи существует два способа реализации мутации в алгоритме генетического программирования: либо случайным образом выбирать элемент из терминального множества, либо генерировать полностью новую интеллектуальную систему. Функциональное множество при данном подходе включает в себя математические функции, а способом коллективного принятия решений является аналитическое выражение.

Таким образом, комбинация отдельных технологий в коллективе позволяет объединить преимущества каждой из них и значительно компенсировать их недостатки, увеличивая эффективность и надежность системы в целом.

Приведем примеры кодирования деревьев в методе генетического программирования. На рисунке 4 представлен генотип дерева и соответствующее ему решение в поисковом пространстве:

+ ИНС / sinНЛС Out ИНС ННС sin ННС НЛС Рисунок 4 – Пример кодирования дерева Четвертая глава диссертации посвящена проверке эффективности разработанных методов автоматического проектирования интеллектуальных информационных технологий и их коллективов.

В таблице 1 представлены задачи анализа данных, на которых апробировалась система. Первые четыре задачи взяты из репозитория машинного обучения UCI. Остальные представляют собой данные, снятые с реального объекта.

Таблица 1 – Характеристики решенных задач анализа данных Объем выборки Размерность Размерность Задача входа выхода Обучение Экзамен Репозиторий машинного обучения UCI 1. Классификация ирисов 4 3 135 2. Классификация вин 13 3 163 3. Предсказание лесных 12 1 477 пожаров 4. Распознавание типов земель 36 6 4435 20по спутниковым изображениям Практические задачи 5. Прогнозирование состояния турбины по вибрационным 11 12 1000 4характеристикам 6. Моделирование процесса 9 1 47 рудно-термической плавки 7. Прогнозирование деградации электрических характеристик 7 4 177 солнечных батарей космического аппарата Для каждого типа ИИТ было выполнено 20 запусков программы.

При каждом запуске были получены работоспособные системы. В таблице 2 приведены лучшие результаты.

Таблица 2 – Результаты решения задач анализа данных Нейро-нечеткая № Нейронная сеть Система на нечеткой логике система Ошибка О Э О Э О Э 1 3.70% 6.66% 1.48% 0% 1.48% 0% 2 0.61% 6.66% 0% 0% 0% 0% 3 23,2% 24,3% 16.87% 19.61% 15.67% 17.5% 4 1.78% 1.79% 1.11% 1.11% 1.45% 1.46% 5 9.11% 9.14% 8.07% 8.09% 7.99% 7.97% 6 4.86% 4.97% 2.99% 3.01% 2.81% 2.92% 7 9,01% 9,72% 5.66% 7.66% 5.05% 5.87% В таблице 2 приняты обозначения: О – обучение, Э – экзамен.

Указана относительная ошибка.

Ниже приведены примеры построения коллектива на основе математического выражения из частных решений отдельных технологий.

Изначально заранее были сгенерированы и обучены по 10 ИИТ каждого типа, коллектив должен был формироваться из этих 30 кандидатов.

В частности, в задаче классификации вин была получена следующая формула:

C sinННС4 eННС , где C – номер класса, ННС – выход соответствующей нейро-нечеткой системы. При этом ошибка распознавания составила 0% как на обучающей выборке, так и на контрольной, что лучше, чем у нейросетевых и нечетких моделей по отдельности и сравнимо с нейро-нечеткими. При этом лучшие отдельные ИИТ, превосходящие остальные по качеству моделирования, не вошли в итоговый коллектив.

В задаче моделирования процесса рудно-термической плавки получено выражение (НЛС означает выход соответствующей системы на нечеткой логике):

НЛСНЛС6eННСНЛСNi(%) ННС10 e, определяющее процентное содержание никеля в отработанном шлаке.

Относительная ошибка составила: 2.21% на обучающей выборке и 2.33% на тестовой, что лучше, чем у каждой индивидуальной ИИТ в отдельности, и лучше, чем было получено ранее с помощью методов, использованных другими исследователями.

Сравнивая полученные результаты с интеллектуальными технологиями, сгенерированными отдельно для этих задач, видно, что эффективность конечной системы в смысле значения критерия ошибки моделирования повысилась.

В ходе численных экспериментов было выявлено, что отдельные технологии, превосходящие по качеству моделирования остальные, редко присутствуют в конечной формуле итогового коллектива. В конечной композиции могут принимать участие технологии с разным, в том числе и более низким, чем у лучших технологий, качеством моделирования.

Однако, войдя в итоговый коллектив, они позволяют иногда существенно увеличить эффективность и надежность системы в целом. Наилучшие индивидуальные технологии редко позволяют формировать наилучший коллектив.

В заключении диссертации приведены основные результаты и выводы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ В диссертационной работе получены следующие результаты:

1. Проведен анализ современных методов проектирования интеллектуальных информационных технологий.

2. Разработан самонастраивающийся генетический алгоритм, отличающийся от известных сочетанием асимптотического генетического алгоритма с автоматическим выбором типа селекции.

3. Предложены методы автоматического формирования нейронных сетей, систем на нечеткой логике и нейро-нечетких систем на основе генетического алгоритма.

4. Разработаны и апробированы программные системы, реализующие предложенные алгоритмы.

5. Проведен анализ эффективности разработанных алгоритмов на множестве задач анализа данных, показавший работоспособность предложенных подходов.

Таким образом, в диссертационной работе предложены, реализованы и исследованы новые алгоритмы автоматизации проектирования интеллектуальных информационных технологий и их коллективов, предназначенных для решения задач аппроксимации, классификации и прогнозирования, что является вкладом в теорию и практику интеллектуального анализа данных в системах обработки информации.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи в ведущих рецензируемых научных журналах и изданиях 1. Семенкин, Е.С., Шабалов, А.А. Система автоматизированного проектирования коллективов интеллектуальных информационных технологий для задач анализа данных // Программные продукты и системы. – № 4 (100). – 2012. – C. 51-54.

2. Shabalov, A.A. Application of Neuro-Fuzzy Systems in Bank Scoring Problems // Vestnik. Scientific Journal of Siberian State Aerospace University named after academician M. F. Reshetnev. – № 4 (44). – 2012.

3. Семенкин, Е.С., Шабалов, А.А., Клешков В.М. Система поддержки принятия решений при управлении инновациями реструктурированного машиностроительного предприятия // Вестник СибГАУ. - Вып. 5(38), 2011. – С. 207-210.

4. Семенкин, Е.С., Шабалов, А.А., Ефимов, С.Н.

Автоматизированное проектирование коллективов интеллектуальных информационных технологий методом генетического программирования // Вестник СибГАУ. – Вып. 3 (36). – 2011. – С. 77-81.

Публикации в сборниках трудов конференций 5. Семенкин, Е.С., Шабалов, А.А. Программная система -IT-on для автоматизированного проектирования коллективов интеллектуальных информационных технологий // XIII Национальная конференция по искусственному интеллекту с международным участием КИИ-2012: Труды конференции. Т. 4. – Белгород: Изд-во БГТУ, 2012. – С. 109-116.

6. Шабалов, А.А. Автоматизированное проектирование коллективов интеллектуальных информационных технологий при решении задач анализа данных // Теория и практика системного анализа: Труды I Всероссийской научной конференции молодых ученых. – Рыбинск:

РГАТА имени П.А. Соловьева, 2012. – С. 69-79.

7. Шабалов, А.А., Семенкин, Е.С., Ефимов С.Н. Коллективные технологии интеллектуального анализа данных. – Saarbruecken: LAMBERT Academic Publishing, 2012. – 100 c.

8. Shabalov, A., Semenkin, E., Galushin, P. Integration of Intelligent Information Technologies Ensembles for Modeling and Classification // Hybrid Artificial Intelligence Systems. Lecture Notes in Computer Science, Volume 7208/2012, pp. 365-374.

9. Bukhtoyarov, V., Semenkin, E., Shabalov, A. Neural Networks Ensembles Approach for Simulation of Solar Arrays Degradation Process // Hybrid Artificial Intelligence Systems. Lecture Notes in Computer Science, Volume 7208/2012, pp. 186-195.

10. Galushin, P., Semenkina, O., Shabalov, A. Comparative analysis of two distribution building optimization algorithms // Distributed computing and artificial intelligence. Advances in Intelligent and Soft Computing, 2012, Volume 151/2012, pp. 759-766.

11. Шабалов, А.А. Автоматизированное проектирование интеллектуальных информационных технологий с помощью эволюционных алгоритмов // IX Всероссийская научная конференция молодых ученых «Информационные технологии, системный анализ и управление»: Сборник материалов. – Таганрог: Изд-во ТТИ ЮФУ, 2011. – Т.1. – С. 182-184.

12. Шабалов, А.А. Автоматизированное проектирование коллективов интеллектуальных информационных технологий на основе эволюционных алгоритмов // Сборник работ победителей отборочного тура Всероссийского конкурса научно-исследовательских работ молодых ученых по нескольким междисциплинарным направлениям. – Новочеркасск: Лик, 2011. – С. 39-42.

13. Шабалов, А.А. Автоматизированное проектирование коллективов интеллектуальных информационных технологий // «Решетневские чтения». – Материалы XV Международной научной конференции. – Красноярск: СибГАУ, 2011. – Ч. 2 – С. 519-520.

14. Shabalov, A., Semenkin, E., Galushin, P. Automatized Design Application of Intelligent Information Technologies for Data Mining Problems // Joint IEEE Conference "The 7th International Conference on Natural Computation & The 8th International Conference on Fuzzy Systems and Knowledge Discovery" – FSKD’2011: pp. 2596-2599.

15. Шабалов, А.А. Система автоматизированного проектирования интеллектуальных информационных технологий -IT-on для задач анализа данных // Технологии Microsoft в теории и практике программирования:

сб. тр. VIII Всероссийской научно-практической конференции. – Томск:

Изд-во Томского политехнического университета, 2011. – С. 125-126.

16. Шабалов, А.А., Семенкин, Е.С. Автоматизированное проектирование коллективов интеллектуальных информационных технологий для задач анализа данных // XII национальная конференция по искусственному интеллекту с международным участием КИИ-2010: Труды конференции. Т. 2. – М.: Физматлит, 2010. – С. 66-72.

17. Шабалов, А.А. Система -IT-on – Автоматизированное проектирование интеллектуальных информационных технологий для задач анализа данных // Молодежь и высокие технологии. – Вологда: ВоГТУ, 2010. – С. 55-57.

18. Шабалов, А.А., Автоматическая настройка параметров нейронечетких систем генетическим алгоритмом // Информационные технологии и математическое моделирование: сб. научн. тр. VIII Всероссийской научно-практической конференции с международным участием. – Томск: ТГУ, 2009. – Ч. 2. – С. 296.

19. Шабалов, А.А. Применение генетических алгоритмов в настройке нейро-нечетких систем // «Решетневские чтения». – Материалы XIII Международной научной конференции. – Красноярск: СибГАУ, 2009.

– Ч. 2. – С. 472-473.

20. Шабалов, А.А. Применение нейро-нечетких систем в задачах моделирования и классификации // Актуальные проблемы авиации и космонавтики: сб. науч. тр. Всероссийской научно-практической конференции. – Красноярск: СибГАУ, 2009. – Т1, С 280.

21. Шабалов, А.А., Клешков, В.М. Исследование эффективности модификации оператора равномерного скрещивания эволюционного алгоритма в задаче управления реальными инвестициями // Информационные технологии и математическое моделирование: сб. научн.

тр. VII Всероссийской научно-практической конференции с международным участием. – Томск: ТГУ, 2008. – Ч. 1. – С. 175-177.

22. Шабалов, А.А., Клешков, В.М. Применение эволюционных алгоритмов с модифицированным оператором равномерного скрещивания в задаче поддержки принятия решений при управлении реальными инвестициями // «Решетневские чтения». – Материалы XII Международной научной конференции. – Красноярск: СибГАУ, 2008. – С. 284-285.

23. Шабалов, А.А. Применение эволюционных алгоритмов в задаче поддержки принятия решений при управлении реальными инвестициями реструктурируемого машиностроительного предприятия // Prospects of fundamental sciences development: V International Conference. – Tomsk: ТПУ, 2008. – С. 304-306.

Зарегистрированные программные системы 24. Шабалов, А.А., Семенкин, Е.С. Система -IT-on автоматизированного проектирования коллективов интеллектуальных информационных технологий для задач анализа данных. – М.: Роспатент, 2011. – № государственной регистрации программы для ЭВМ 20116179от 10.10.2011.

25. Шабалов, А.А., Семенкин, Е.С., Ефимов, С.Н. Система автоматизированного проектирования нейросетевых моделей. – М.:

Роспатент, 2011. – № государственной регистрации программы для ЭВМ 2011617909 от 10.10.2011.

26. Шабалов, А.А., Семенкин, Е.С., Ефимов, С.Н. Система автоматизированного проектирования систем на нечеткой логике. – М.:

Роспатент, 2011. – № государственной регистрации программы для ЭВМ 2011618350 от 24.10.2011.

27. Шабалов, А.А., Семенкин, Е.С., Ефимов, С.Н. Система автоматизированного проектирования нейро-нечетких систем. – М.:

Роспатент, 2011. – № государственной регистрации программы для ЭВМ 2011618351 от 24.10.2011.

28. Шабалов, А.А., Семенкин, Е.С., Семенкина, О.Е., Клешков, В.М. Система поддержки принятия решений на основе многоагентных стохастических алгоритмов для управления реальными инвестициями машиностроительных предприятий. – М.: ВНТИЦ, 2008. – № государственной регистрации программы для ЭВМ 50200802148 от 29.10.2008.

Шабалов Андрей Андреевич Алгоритмы автоматизированного проектирования ансамблей интеллектуальных систем для задач анализа данных Автореферат Подписано к печати Формат 60х84/Уч. изд. л. 1.0 Тираж 100 экз. Заказ № ________ Отпечатано в отделе копировальной и множительной техники СибГАУ.

660014, г. Красноярск, пр. им. газ. «Красноярский рабочий»,






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.