Добро пожаловать!

Pages:     | 1 |   ...   | 19 | 20 || 22 | 23 |   ...   | 82 |

This paper presents an analysis of different techniques that is designed to aid a researcher in determining which of the classification techniques would be most appropriate to choose the ridge, robust and linear regression methods for predicting outcomes for specific kvazistationarity process. We shall try to see that success can be attained with particular architectures on commonly used data for such process.

According to goal of our researching it is suggesting to create two-layer architecture in which the classifiers to be combined are called level-0 classifiers, and the combining classifier is the level-1 classifier. The layering may be iterated to create level-2 classifiers, and so on. Such architecture is a framework for classifier combination in which each layer of classifiers is used to combine the predictions of the classifiers at the immediately preceding layer. A single classifier at the top-most level outputs the ultimate prediction. The classifier at each layer receives as input a vector of predictions of the classifiers in the layer immediately below. While the information passed XII-th International Conference "Knowledge - Dialogue - Solution" from layer to layer may take the form of vectors of predictions, confidence values, or other data, we will limit our attention to systems in which only predictions of estimation methods class are passed from layer to layer. We will also limit ourselves to two-layer generalizes, consisting of a set of component classifiers and a single combining classifier that combines the predictions of the component classifiers.

In effect, such combining classifiers are an attempt to minimize generalization error by using the classifiers in higher numbered layers to learn the types of errors made by the classifiers immediately below. The task of the level-1 (and higher) classifiers is to learn to use the contestant predictions to predict more accurately.

Such combining classifiers framework diagram looks like a multilayer neural network diagram (Fig. 1).

Prediction M([C (x), …, C (x)]) 1 n (k-nn, trees, NN) Train: Class of Instance c(x) Combining Classifier M Component C (x) C (x) 1 n Predictions C (x) Component + + …..

Classifiers C (x) i Prototype instance X Fig. 3. Classifier architecture There are certainly analogous aspects to the two frameworks. The distinction between them appears to lie partially in the type of information that is passed from the input layer to the succeeding layer and in the granularity of the classifier nodes themselves. In a neural network, an activation value is passed to forward layers, which may or may not be an ultimate prediction or even have some recognizable interpretation. Generally, in the stacked generalization framework, a “full-fledged” class prediction is passed to the combining classifier, and not just a scalar that somehow contributes to a prediction. Also, in other implementations of such classifiers, the classifiers to be stacked are complex, and may be neural networks themselves.

2. Architecture and Algorithm We have been given a set of n level-0 (component) learning algorithms, a level-1 learning (combining) algorithm, and a training set of classified instances, T. The n level-0 learning algorithms should be distinct, so that diverse level-0 classifiers are obtained. Otherwise, no synergy will result from their combination. How to create diverse component classifiers is a fundamental problem for composite classifier construction. Our algorithm has the two phases, training and application.

Training Phase:

1. Train the component classifiers as follows. For each instance in the data set, train each of the n level-classifiers using the remaining instances. After training, classify the held-out instance using each of the trained level-0 classifiers. Form a vector from the predictions of each of the level-0 classifiers and the actual class of that instance. These vectors have length n + 1, since they have as components the predictions of each of the n level-0 component classifiers and a class label.

Neural and Growing Networks 2. Train the level-1 classifier, using as the level-1 training set the collection of vectors of the level-0 classifier predictions and the actual classes. This collection has cardinality |T |, since there is one level-1 training instance corresponding to each level-0 training instance.

3. Since the level-0 classifiers have not been trained on the entire training set, re-train the level-0 classifiers on the entire training set.

Application Phase:

When presented with a new instance whose class is unknown, classify the instance using each of the level-classifiers, deriving an input vector for the level-1 classifier. The derived vector is then classified by the level-classifier, which outputs a prediction for the new instance. Leave-one-out cross validation is applied in the training phase to ensure that the level-1 algorithm is trained on the generalizations made for unseen data by the level-classifiers. Since “generalization” refers to data outside the training set, this observation is memorialized in the name “composite generalization”, as opposed to “stacked classification”.

In an experiment with combining linear, ridge, robust regression function showed that using 10-fold cross validation to create the level-1 training data yielded slightly more accurate stacked generalizes than when we applied only leave-one-out cross validation. Also in our experiment has been used decision-tree to generate classifiers that make diverse prediction. We combines a set of trees that have been pruned to the k-node trees that displayed the smallest training set error, for various choices of k. Investigation of the effect of the combination of neural networks with different numbers of units have been performed too. The accuracies of a given model will vary for the different prediction, so have opportunity to compare it on commonly used data.

In our study we used a commonly used data and compare prediction as follow:

Maximal accuracy prediction: predicted value must lie within a narrow range of actual value.

Minimal level prediction: actual value is no less than 5 point below predicted value.

Significant assistance prediction.

Table 1. Accuracy prediction Model Accuracy Combination of Decision trees 55.7% Combination of Linear discriminant function 68.9% Combination of Neural network 76.5% Linear regression 45.8% The accuracy for each model for the minimal level prediction is higher than those for the same model for the maximal accuracy prediction. Obtained results shows that combined classifier of neural network have the best accuracy prediction. Does this suggest that artificial neural network models should be used for all outcome predictions in class of kvazistationarity process For check-up such situation the experiment was designed to test “whether such composite classifier of combination of neural network can be used to separate ridge and robust estimation methods for incomplete input information” using a set of neural network.

As income information from quasistationarity process with multicolinearity and noisiness for level-0 classifiers used: volume of sample, number of independent variables, degree of multicollinearity, dispersion of a mistake in a dependent variable, ratio of scales of “littering” and basic distributions of the “polluted” distribution of mistakes of model, degree of pollution of independent variables, the form of emissions in independent variables, length of a tail of the “polluted” distribution of independent variables. As a level-0 classifier we used a Probabilistic neural network, Multiple Perceptron Layers, Radial Basis Function for prediction a class or subclass of methods. When an input task is given, the allocator determines which module (neural network) should be used to fulfill this task.

Generally, many modules might be selected to fulfill the task together. Each of these selected modules outputs a result based on local computation. The coordinator then gives the final result based on outputs of the modules. If the allocator is so strong that a single module can always be correctly selected to perform a given task, the coordinator can be removed. If, on the other hand, the allocator is so weak that all modules must be used to fulfill a task, a strong coordinator would be useful to make the final judgment. Interesting enough, most existing nets are different from each other simply because their allocators or coordinators are stronger or weaker.

XII-th International Conference "Knowledge - Dialogue - Solution" Bibliography 1. Лесная Н.С., Репка В.Б., Шатовская Т.Б. Метод выбора эффективных процедур оценивания параметров моделей квазистационарных процессов в нейросетевой экспертной системе // Радиотехника. Всеукраинский межведомственный научно-технический сборник. - Харьков. 2001. - № 119. - С. 195-198.

2. Skalak D.B. Prototype selection for composite nearest neighbour classifiers. Neurological Research 2001; 20.

Pp. 116-328.

3. Breiman L., Friedman J.H., Olshen R.A., Stone C.J. Classification and regression tress. Belmont, CA: Wadsworth. 1984.

4. Lang E.W., Pitts L.H., Damron S.L., Rutledge R. Outcome after severe head injury: Analysis of prediction based upon comparison of neural network versus logistic regression analysis. Neurological Research 1997; 19. P. 274-280.

5. Grisby J., Kooken R., Hershberger J. Simulated neural network to predict outcomes, cost and length of stay among orthopaedic rehabilitation patients. Arch. Phys. Med. Rehabil. 1994. Vol. 75. P. 1077-1082.

6. Manchester Metropolitan University. Department of Computing. Report, September 1997. A Modular Neural Network Architecture with Additional Generalization Abilities for High Dimensional Input Vectors.

7. Happle H. and Murre. Design and Evolution of Modular Neural Network Architectures. 2000. Vol. 75. P. 256-Authors' Information Tatiana Shatovskaya - Department of Software Engineering, Kharkiv National University of Radioelectronics, Computer Science Faculty, 61166, Kharkiv, Lenin avenue 14, e-mail: mywork@kture.kharkov.ua ИНТЕЛЛЕКТУЛАЬНАЯ ОПТИМИЗАЦИЯ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ Кирилл Юрков Аннотация: Рассматриваются возможности применения достижений в области искусственного интеллекта (ИИ) для оптимизации искусственных нейронных сетей (ИНС) под конкретную задачу.

Особое внимание уделено мультиагентыным системам (МАС). Предложен ряд метафор миров агентов для применения при оптимизации.

Ключевые слова: Мультиагентные системы, искусственные нейронные сети.

ACM Classification Keywords: I.2: Artificial Intelligence: I.2.11 Distributed Artificial Intelligence - Multiagent systems, I.2.6 Learning – Connectionism and neural nets Введение Во многих книгах по искусственным нейронным сетям (ИНС) написано, что нейронные сети не могут считаться панацеей [Уоссермен, 1992], [Gonzalez, 2000]– в теории они могут почти все, а вот на практике – только как получится. Тем не менее, нередко от ИНС ждут, что поставленная задача будет решена как по мановению волшебной палочки, на необработанных данных первая попавшаяся сеть уловит все внутренние закономерности данных и будет выдавать только правильные результаты. После первых опытов с ИНС вполне может наступить горькое разочарования, способное заставить отказаться от дальнейшего применения ИНС. С другой стороны, после тщательного штудирования литературы по ИНС, можно прийти в ужас от количества исследовательской работы, которую необходимо проделать, для того чтобы выбрать правильную, в смысле почти оптимальную и наиболее адекватную задаче, сеть.

Исключения могут составлять те узкие области, где ИНС давно и с успехом применяются, например, распознавание. Но распознавание распознаванию рознь, и если сеть таки показывает неудовлетворительные результаты, разработчик опять сталкивается с необходимостью проведения исследовательской работы.

Neural and Growing Networks Поэтому вполне естественным является желание облегчить разработчику работу, избавив его от проведения большого количества рутинных экспериментов, и возложить обязанности по нахождению оптимальной сети на вычислительную систему. Не менее естественным является вопрос, можно ли найти зависимость (в идеале отображение) позволяющую по описанию задачи определить тип и параметры оптимальной сети. То есть, в какой уже раз мы хотим перенести работу с наших плеч на виртуальные плечи искусственного интеллекта (ИИ), другими словами, нам бы хотелось найти подход, который позволил бы по заданным данным, критерию оптимальности (в данном случае речь идет о более общем критерии, чем целевая функция сети) и описанию задачи получать (суб)оптимальную сеть.

В данной статье рассмотрена проблема оптимизации ИНС. Мы обсуждаем возможности, предоставляемые для решения этой неформальной задачи современные достижения в области ИИ.

Особое внимание уделено многоагентной парадигме как наиболее современной и в определенном смысле, наиболее адекватной, и предложено ряд концепций, которые могут быть использованы для решения поставленной задачи нахождения оптимальной ИНС в рамках поставленной задачи.

Оптимизация ИНС в рамках когнитивистской парадигмы Как известно, экспертные системы (далее ЭС) способны решать неформализованные задачи, каковой и является подбор ИНС под задачу. Однако для создания такой ЭС нужен высококвалифицированный эксперт в данной проблемной области (выбора оптимальной ИНС под задачу), которого в настоящее время трудно найти, так как область не является устоявшейся и эксперты слишком сильно расходятся во мнениях. Как следствие, мы не можем применить все наработки когнитивистской парадигмы напрямую, однако, как будет показано, это не делает данную парадигму абсолютно бесполезной.

База данных экспериментов как источник знаний об оптимальной сети В процессе работы с ИНС каждый разработчик создает, обучает и тестирует сотни ИНС. На данный момент научное сообщество накопило информацию о тысячах экспериментов, и большая часть этих данных находится в свободном доступе. Заметим, что каждый исследователь склонен работать в своей проблемной области, а значит, наиболее релевантные примеры он может почерпнуть даже из своей практики, не прибегая к внешним источникам информации. Из этого следует, что вполне разумным является создание базы данных экспериментов, которая может стать источником знаний об оптимальной сети для конкретной задачи. На данный момент Data Mining является развитой отдельной наукой, и его методы позволят создать набор правил или даже ЭС для создания оптимальных ИНС при наличии достаточно полной и репрезентативной базы данных.

Pages:     | 1 |   ...   | 19 | 20 || 22 | 23 |   ...   | 82 |

© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.