WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 19 | 20 || 22 | 23 |   ...   | 65 |

что термин «знание» является интуитивно определяе- По форме представления наиболее распространенмым. Ниже представлены энциклопедические опреде- ными и наиболее естественными для восприятия и понимания человеком являются логические продукления.

ционные правила, выраженные средствами естественЗнание – результат познавательной деятельности, ного языка в форме ЕСЛИ-ТО; символьные выражесистема приобретенных с ее помощью понятий о дейния (например, математические функции, алгоритмы).

ствительности [11].

Наконец, необходимо определить методы и алгоЗнание – проверенный практикой результат познаритмы, используемые для извлечения знаний из данния действительности, верное ее отражение в созна Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева ных. Очевидно, что наилучший инструмент добычи, – третий критерий (К3), определяющий интерпреусвоения и использования знаний – это непосредст- тируемость знания. В случае базы правил на нечеткой венно интеллект человека. Поэтому самым перспек- логике критерий определяется средней длиной правил тивным кажется использование методов интеллекту- в базе (более простые правила должны быть более альных информационных технологий, которые наи- понятны субъекту), в случае генетического програмболее эффективно воспроизводят такие важные осо- мирования – разнообразием использованных функбенности интеллекта, как способность к обобщению, ций, возможно, с учетом предпочтений субъекта.

прогнозированию, распознаванию и др. Таким образом, задача автоматизированного поОбозначенные задачи извлечения знаний доста- строения интеллектуальной технологии извлечения точно эффективно решаются следующими методами знаний о системе сводится к задаче многокритериальинтеллектуальных информационных технологий: ме- ной оптимизации (K1, K2, K3) extr, которая может тодами, основанными на нечеткой логике, методами быть решена самонастраивающимися генетическими генетического программирования [15–17].

алгоритмами.

Методы, основанные на нечеткой логике, способВажным преимуществом предложенного многоны выявлять знания в явном виде, так как для описакритериального подхода является то, что субъекту ния информации используются лингвистические пебудет предъявлено не единственное решение, а мноременные («большая скорость», «дорогая машина», жество несравнимых по эффективности решений «слабый сигнал» и т. д.), а совокупность выявленных (множество Парето). Это, во-первых, увеличит интерзнаний представляется в виде логических правил претируемость полученных знаний, так как одна и та в форме ЕСЛИ-ТО. Обычно для построения базы знаже система будет описана «разными словами», воний требуется предметный эксперт, который опредевторых, разные представления знаний могут раскрыть ляет как лингвистические переменные, так и сами «разные стороны» системы (отражать разные аспекты правила принятия решения. Базу правил можно позависимостей), а значит, такое описание будет более строить и без эксперта, сгенерировав ее с помощью объективным.

методов случайного поиска, например, с помощью Для более представительной аппроксимации многенетического алгоритма. Однако такая база в завижества (или фронта) Парето целесообразно использосимости от задачи будет содержать огромное число вать генетический алгоритм SPEA и SPEA2, которые правил, что нарушает принцип компактности описаявляются одними из наиболее эффективных подходов ния знаний.

к решению сложных многокритериальных задач и Аналогичные результаты могут быть получены обеспечивает поддержание разнообразия паретопри использовании метода генетического программиэффективных решений [18].

рования, который представляет результат исследоваРезультаты применения подхода в задачах изния системы в виде символьных выражений, сгенеривлечения знаний. Для демонстрации подхода решерованных из элементов заданного множества элеменны тестовые задачи из базы UC Irvine Machine тарных функций, предметных переменных и конLearning Repository (URL: http://kdd.ics.uci.edu/), котостант. Например, символьным выражением может рая содержит множество известных прикладных забыть математическое выражение (формула), описыдач, наиболее часто используемых при апробации вающая исследуемые зависимости. Принцип комразличных интеллектуальных информационных техпактности описания знаний в генетическом програмнологий. Ниже представлено краткое описание постамировании также нарушается, поскольку классиченовки и даны решения задач.

ский подход направлен в большей мере на точность Задача 1. Задача распознавания пользователя описания, нежели на интерпретацию результата.

по произношению (Japanese vowels. URL:

В данной работе, для обеспечения выполнения http://archive.ics.uci.edu/ml/datasets/Japanese+Vowels).

всех требований, предъявленных к извлекаемым знаЗадача состоит в распознавании девяти мужчин ниям, впервые предложен многокритериальный подпо произношению дифтонга из двух японских гласход к построению интеллектуальных технологий.

ных (/ае/). Иными словами, имеем задачу классифиВ общем виде множество критериев содержит слекации с девятью классами. Исходная база данных дующие:

(обучающая выборка) состоит из записи 30 произне– первый критерий (К1), определяющий качество сений каждого из девяти участников. Для каждого исследования системы. Обычно это численная оценка произнесения с помощью алгоритма LPC вычислены соответствия результата извлечения знаний и исход12 кепстр-коэффициентов.

ных исследуемых данных, например квадратичная На первом этапе были преобразованы входные ошибка аппроксимации;

данные. На втором этапе был сформирован нечеткий – второй критерий (К2), определяющий компактклассификатор, где решение о принадлежности ность полученных знаний о системе. Вид и содержак классу определяется по базе правили вида «ЕСЛИ ние данного критерия зависит от представления знапараметр 1 И параметр 2 И... И параметр 12, ТО ний. В случае базы правил на нечеткой логике критекласс». При фазификации используется пять термов, рий определяется размером базы (числом правил), равномерно распределенных по области изменения в случае генетического программирования – размером каждого из входных параметров и терм игнорироваи сложностью дерева решения;

ния (который позволяет создавать правила с непол Математика, механика, информатика ным набором входных параметров). Вид термов – В результате была построена база нечетких пратриангулярные нечеткие числа. На третьем этапе вил, состоящая из 211 правила и дающая надежность с помощью многокритериального генетического ал- классификации 0,817 6. Из конечной базы правил выгоритма SPEA была сформирована эффективная база делены 39 наиболее общих правил, которые доступны правил. Использованы три критерия: F1 – эффектив- для интерпретации. Класс 1 определяется 13 правиланость решения исходной задачи (соответствие полу- ми, класс 2 – шестью правилами, класс 3 – семью праченной базы правилам исходной выборки данных), вилами, класс 4 – одним правилом, класс 5 – семью F2 – размер базы правил (число правил в базе), F3 – правилами, класс 6 – пятью правилами. В среднем средняя длина правил в базе. правила содержат три признака. Очевидные выводы, Многократный запуск алгоритма дал ряд сущест- которые можно сделать по выявленным знаниям – венно отличающихся наборов правил. При этом во это, например, легкость определения класса 4, отсутвсех наборах наблюдалась общая закономерность: ствие полезной информации для некоторых классов в определенном спектре.

использовались все или почти все входные параметры Задача 3. Задача прогнозирования расхода топлива (терм игнорирования появлялся редко) и в среднем автомобиля в городском цикле эксплуатации 20…30 эффективных правил. Можно сделать вывод, (Auto MPG Data Set. URL: http://archive.ics.uci.edu/ml/ что все входные параметры являются информативными для решения задачи. При этом эффективный datasets/Auto+MPG). Объем выборки – 398.

На первом этапе были восполнены пробелы в данразмер базы правил (20…30) существенно меньше ных в разделе мощность – заполнены средним. На размера «полной базы», в которой содержится втором этапе с помощью метода генетического про(513 = 1,2·109) различных правил. Например, одно из граммирования были получены решения задачи восполученных решений позволяет получить эффективстановления символьной регрессии для набора данность классификации 82 % (число угаданных применых. В качестве целевых критериев выбраны точность ров из тестовой выборки), используя всего 24 правила описания (ошибка аппроксимации) и сложность репри средней длине правил равной 11,83. Для опредешения (число узлов в дереве). Пригодность решений ления каждого из классов по отдельности используетоценивалась по аддитивной свертке критериев. Для ся всего 2…3 индивидуальных правила, что весьма поиска различных решений из множества Парето исполезно для понимания природы объектов класса.

пользован мультистарт. На третьем этапе полученные Задача 2. Задача распознавания изображений, порешения были упрощены и подвергнуты содержалучаемых со спутника (LandSat Satellite. URL:

тельному анализу. Были сделаны следующие выводы:

http://archive.ics.uci.edu/ml/datasets/Statlog+(Landsat+Sa – решения с низкой ошибкой содержат большое tellite)). Спутник дистанционного зондирования Земли количество элементов – представляют собой нелисканирует земную поверхность в четырех спектральнейные зависимости, а потому сложны для анализа;

ных диапазонах – зеленом, красном и двух диапазо– среди простых решений с большей ошибкой часнах в инфракрасной области. Данные представляют то встречаются решения с одной переменной – «дисобой изображения в виде квадрата 33 пикселя. Ненамика», что означает, что более динамичные авто обходимо отнести данный участок к одному из шести потребляют большее количество топлива;

классов (типу почвы). Исходные данные представля– переменная «мощность» часто встречается с отют собой сгруппированные по девяти пикселям данрицательным коэффициентом, что означает снижение ные, полученные с небольшого участка изображения, расхода при большей мощности. Данный вывод логичен переданного американским спутником LandSat. Объдля легковых авто и городского цикла (условие задачи), ем обучающей выборки составляет 4 435 элементов.

где более мощные авто в режиме разгон-остановка споНа первом этапе был проведен факторный анализ собны работать на более низких оборотах.

методом главных компонент. Были получены четыре Задача 4. Задача из области криминалистики – новых информативных признака (главных компоклассификация стекла (Glass Identification) на основе нент), которые содержат в себе около 90 % информаданных измерений оптических и химических характеции, содержащейся в исходной базе данных. На втористик образцов (URL: http://archive.ics.uci.edu/ml/ ром этапе был сформирован нечеткий классификатор.

datasets/Glass+Identification). Всего используется семь При фазификации используется пять термов, равнопараметров, полученных в ходе анализа физических мерно распределенных по области изменения каждого и химических свойств стекла. Данные группируются из входных параметров и терм игнорирования (кото- в три класса: оконное стекло, автомобильное стекло рый позволяет создавать правила с неполным набо- и стеклянная тара (бутылки, банки и т. д.).

ром входных параметров). Вид термов – триангуляр- На первом этапе был сформирован нечеткий класные нечеткие числа. Для задачи с четырьмя информа- сификатор. При фазификации используется пять тертивными признаками общее число всех возможных мов, равномерно распределенных по области изменеправил равно 1 296. На третьем этапе была получена ния каждого из входных параметров и терм игнорироэффективная база с минимальным набором. Оптими- вания (который позволяет создавать правила с неползация осуществлялась с помощью генетического ал- ным набором входных параметров). Вид термов – горитма, использующего Питсбургский подход (ин- триангулярные нечеткие числа. На втором этапе была сгенерирована эффективная база правил. В качестве дивид – база правил).

Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева критериев выступили два: надежность классификации 3. Теоретические основы системного анализа / (максимизация) и число правил в базе (минимизация). В. К. Голиков, Б. Е. Демин, В. И. Новосельцев, Б. В. ТаОптимизация проводилась классическим генетиче- расов. М. : Майор, 2006.

ским алгоритмом по аддитивной свертке критериев. 4. Акофф Р., Эмери Ф. О целеустремленных сисПолучена база правил, содержащая всего пять темах. М. : Сов. радио, 1974.

правил со средней длиной правила, равной четырем 5. Акофф Р. Искусство решения проблем. М. :

(параметрам). Точность классификации составила Мир, 1982.

90 %. При этом из базы правил можно сделать выво- 6. Тарасенко Ф. П. Прикладной системный анализ.

ды, например, что параметр 2 (содержание оксида Томск : Изд-во Том. ун-та, 2004.

натрия) не является информативным для принятия 7. Дюк В., Самойленко А. Data Mining : учеб. курс.

решений, а значит, данный тип измерений можно СПб. : Питер, 2001.

исключить.

8. Барсегян А. А. Технологии анализа данных.

СПб. : БХВ-Петербург, 2007.

Предложенный способ выявления знаний с помо9. Интеллектуальные системы / В. М. Курейчик [и др.].

щью многокритериального подхода к построению М. : Физматлит, 2005.

интеллектуальных информационных технологий по10. Сопов Е. А. Интеллектуальные информационзволяет сделать процесс исследования систем более ные технологии извлечения знаний // Системный анапрозрачным для субъекта, который формулирует пролиз в проектировании и управлении : тр. Х междунар.

блему и принимает решения относительно вмешанауч.-практ. конф. Ч. 2. СПб. : Изд-во Политехн.

тельства в проблемную ситуацию.

ун-та, 2006. С. 289–296.

Возможность получить не одно-единственное, 11. Толковый словарь русского языка : в 4 т. / а множество эффективных и различных по форме под ред. Д. Н. Ушакова. М. : Сов. энцикл. : ОГИЗ, представления информации решений, позволяет рас1935–1940.

смотреть систему с разных «точек зрения», что по12. Большая советская энциклопедия : 3-е изд.

вышает надежность интерпретации результатов: ка[Электронный ресурс] // Book Archive.RU. URL:

кой-то аспект описания системы более понятен субъhttp://www.bookarchive.ru/jenciklopedii/ (дата обращеекту, какой-то – менее понятен.

Численные исследования показывают, что в ре- ния: 19.10.2011).

зультате реализации подхода можно, во-первых, су- 13. Новейший философский словарь. 3-е изд., щественно упростить решения при допустимой точ- исправл. Минск : Книжный Дом, 2003.

Pages:     | 1 |   ...   | 19 | 20 || 22 | 23 |   ...   | 65 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.