WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

ТОРА-Центр. Статьи экспертов и сотрудников фирмы ТОРА-Центр. Стр. 1 из 3 Нейросети: современное оружие финансовых баталий.

(продолжение) “... в заботе о ближнем главное - н ка В начале статьи, опубликованном в предыдущем номере, на примере популярной системы Ward System были рас возможности и характеристики современных нейропрограмм. Данная часть статьи посвящена обзору задач, как пр помощью нейросетей.

Немного теории...

При решениии той или иной задачи мы опираемся на доказанную теорему, в общем случае представляемую так:

решение в рамках классического набора математических инструментов, то решение задачи может быть реализов нейросети обратного распространения, причем с количеством слоев не более трех (имеются в виду входной, скры слои).

В подавляющем большинстве задач (90%) действительно используются сети с алгоритмом настройки, названным распространение” (Back Propagation, Backprop). Этот алгоритм является наиболее стабильным в работе, хотя и не результатах. Дело в том, что любой алгоритм настройки (парадигма) нейросети является множественно-вероятно задумываясь о выборе аналитического инструмента, мы ни в коем случае не отрицаем тот факт, что точность реш использовании методов классического анализа получится выше.. Но, во-первых, время, затраченное на “классиче может оказаться непомерно большим для конкретной задачи. Во-вторых, стабильность такого решения (его приме широкого диапазона реальных значений) - тоже вопрос, а время корректировки модели сопоставимо с разработко третьих, для решения задач классическими методами требуются достаточно квалифицированные специалисты с математической подготовкой. Нейросети в общем случае свободны от указанных недостатков.

Date High Low Close Volume Open Int.

01/01/96 85.997 83.012 84.756 19567 10054.....

02/01/96 86.003 83.976 84.563 20057 12138....

03/01/96 88.113 84.103 86.435 21774 11097....

........................

Вернемся к обратному распространению. Когда мы оцениваем перспективы получения конкретного решения, то н лежит та степень точности, которая нас устраивает и которую мы явно указываем при настройке сети. На другой ч вопрос: “будет ли получено решение с заданной точностью вообще и за какое время ”. Планируя решение задач набором статистических данных - это может быть временной ряд, кодированное изображение, любой процесс, оп набора формальных параметров и рядя их значений (см. таблицу 1). Таблица разделяется на колонки входных зн обучающих шаблонов (они же выходные значения). В идеальном случае для нейросети требуется предъявление совместных данных, то есть таких, которые наиболее полно отражают суть рассматриваемого процесса. Но практ затрудняемся явно определить, какие именно данные содержат более значимую информацию, а какие - менее зн реальных задачах мы вынуждены проделать большую работу по подбору данных, которые, на наш взгляд, имеют исследуемой задаче. (В скобках замечу, что подбор и предобработка, “причесывание” входной информации съеда времени аналитика, о способах ее подготовки будет отдельный разговор). Весь фокус в том, что не существует в более-менее стабильных и общепризнанных методик для определения ожидаемого времени настройки нейросети весьма большой массив данных сеть обрабатывает за приемлемое время (час-полтора), а бывает, что с виду нех заставляет сеть учиться сутками... Каково вам будет ходить вокруг компьютера несколько часов (дней), чтобы выя “впала в маразм" и отказывается работать дальше Существуют разные подходы к решению этой проблемы.

Практические приемы.

Предобработка данных. Эта часть решения задач на крепкие плечи (голову) аналитика. Состав и глу статистической выборки как обучающей последова нейросети такое же значение, как и внутренние упр параметры. Что касается состава данных - здесь во поле для экспериментов. Понятно, что включение в цены семечек на местном “маркете” вряд ли будет http://ebook/library/ns/r_c_b2.htm 17.06.ТОРА-Центр. Статьи экспертов и сотрудников фирмы ТОРА-Центр. Стр. 2 из задаче прогноза цены закрытия ОФЗ (впрочем, как такого типа аналитик опознает без специальной подготовки. Однако, с другой стороны, аналитик располагает знач количеством деловой информации, прямо или косвенно относящейся к “его” сектору рынка. Проблема в том, как о информацию, выделив нужные данные.

Во-первых, современные нейропакеты, как правило, содержат функцию “определение чувствительности нейросет рис 1). Практически имеющиеся данные “сваливаются в кучу “, а затем нейросеть посли серии предварительных п развернутую картину приоритетности входных данных. Этот метод скорее всего не самый оптимальный (вспомним время обучения !), зато наиболее доступный в смысле затрат усилий.

Во-вторых, существуют методы кластерного, корреляционного ана временных рядов (time series analysis), которые позволяют сгрупп выявить степень взаимосвязи разных групп (отдельных элементо а также определить в том же численном виде степень цикличност значений как групп, так и отдельных элементов (см. рис 2). Это та некоторую пищу для размышлений о выборе данных и задани их В-третьих, существует целое направление в финансовом анализе Maining (буквально - “заготовка данных”), которое пытается ответи извлечь интуитивно понятные и полезные для применения знания информационных объемов, причем достаточно быстрым и эффек И существуют различные программные инструменты, которые так используют. Например, пакет IDIS фирмы Information Discovery в р порождает систему явных правил, описывающих взаимосвязь меж базы данных с указанием степени достоверности и возможностью исключительных и противоречивых ситуаций. Система на основе CubiCalc 2.0 фирмы HyperLogic имеет в своем составе элемент R либо извлекает множество нечетких правил из предоставляемых вами данных, либо аппроксимирует сложные фу же данных. И в том, и в другом случае в качестве “двигателя” (rule engine) используются нейронные сети, работаю классификации.

Наконец, в-четвертых, проблема противоречивости данных. Излишне говорить, что плохое качество исходных дан на нет “ все ваши усилия по их подбору. Эта проблема актуальна на всех мировых рынках, на российском - особо Центр на основании анкетирования многих клиентов и учета их пожеланий было проведено специальное маркети исследование в области рынка информационных услуг в Москве. Учитывалось количество предоставляемой инфо обновления и уровень предоставляемого сервиса по ряду параметров. В числе прочего выяснился любопытный ф информационные агенства, имеющие внутрифирменный стандарт передачи данных (не декларируемый, а факт исключение, чем правило. Этот факт означает, что возможность (или невозможность) автоматизированной обраб количество ваших же часов и головной боли, потраченных в борьбе с табличным процессором в деле формирова базы данных (это утверждение проверено автором на практике).

Постановка задачи. Существенный, хотя, на первый взгляд, очевидный момент. Попытки нахождения того, что в представляете смутно, часто приводит к процессу “достижения линии горизонта” в различных формах.

Общим местом стала необходимость привлечения квалифицированных экспертов. Например, вы предполагаете, рынка сильно зависит от изменений политического (социального, естественного) климата. Нейросети здесь нагото возникает проблема эффективной формализации указанных вами факторов, то есть, опять же, сбора информаци и составления моделей рейтинговых оценок.

Другое общее место - применение специальных технологий и соответствующего программного обеспечения. Напр реинжиниринга, ставшего на Западе экономическим идолом и более известного в России как имитационное моде (разновидность системного анализа) воплощена в пакете iThink фирмы High Performance System (HPS). Применен конечно, требует определенных временных затрат, но, во-первых, порождает систему моделей, привязанных к ко предметной области (и представляющих самостоятельную ценность), во-вторых, освобождает вас от применения нахождении решения.

Выбор парадигмы нейросети, то есть ее конструктивного типа и связанного с ним алгоритма обучения.

Таковых существует около 30 (т.к. для некоторых сходимость не доказана), объединенных в несколько групп. Неко представляют интерес в основном для исследований (как, например, адаптивный резонанс), другие находят широ коммерческих задачах. Одни нейропакеты, включают все известные парадигмы и представляют собой элементны создания приложений, например, библиотека OWL фирмы HyperLogic c полным набором нейро- и fuzzy- парадигм Explore Net фирмы Hecht-Nielsen Company (HNC) - одного из “патриархов” в мире нейрокомпьютеров, создателя с нейрокомпьютеров и систем класса FALCON. Другие системы - коммерческие - в большинстве своем содержат се распространения (широчайший круг решаемых задач), прямого распространения, сети с механизмами рекуррентн (реализуется механизм задания “ассоциаций" и дает неплохие результаты прогноза временных рядов), сети Кохо кластеризации), сети со стохастическими методами обучения (обучение и работа с неполными данными) и в редк линейными алгоритмами обучения (возможность преобразования аппроксимируемых функций в ряды с вычислен http://ebook/library/ns/r_c_b2.htm 17.06.ТОРА-Центр. Статьи экспертов и сотрудников фирмы ТОРА-Центр. Стр. 3 из коэффициентов). Их применимость детально описана в различной литературе, но в общих случаях рекомендуется простого к сложному”, то есть начинать с Back Prop.

Настройка сети и проверка качества настройки.

Вопрос настройки - отдельная большая тема. В сложных ситуациях процесс может занимать часы и дни. Один мз настройки - способность сети распознавать данные, не участвующие в обучении. Для этого из обучающего набора "тестовое множество" (обычно 10-20%), которым периодически проверяется работоспособность сети. Отсюда же “переобучения", когда тестовая ошибка начинает расти, хотя обучающая уменьшается. Такая ситуация говорит о надо прекратить и поменять исходные настройки и (или) состав данных.

Критерием работоспособности сети является для вас среднеквадратичная ошибка обучения. Ее можно характери разброса” прогнозируемых данных. Точнее - вероятность выхода прогнозируемой величины за диапазон, заданны Диапазон изменения - весьма существенный показатель, вне которого сеть не сможет функционировать корректно работоспособности - статистическая повторяемость точности получаемых прогнозов, определяемая серией экспе “реальном” режиме.

Итак, мы с вами прошли весь цикл нейросетевого решения решения задачи. Все это замечательно, скажете вы, н реального применения.

http://ebook/library/ns/r_c_b2.htm 17.06.




© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.