WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 15 | 16 || 18 | 19 |   ...   | 22 |

Качественно в общем виде задача может быть сформулирована следующим образом. Каждый агент характеризуется некоторым первоначальным уровнем навыка (например, производительностью труда). В процессе осуществления деятельности производительность труда агента растет по мере приобретения опыта, совершенствования навыков и т.д. (имеет место обучение в процессе работы), причем скорость этого роста (так называемая скорость научения – см. формальное определение ниже) у каждого агента индивидуальна. Спрашивается, как оптимальным образом распределить во времени работу между агентами. Ведь один агент, уро В качестве отступления отметим, что процессы обучения технических и кибернетических систем являются предметом исследований в кибернетике и смежных дисциплинах на протяжении уже полувека. С одной стороны, даже краткий их обзор требует отдельной книги.

Кроме того, команды – благодатный объект для математического моделирования на уровне аналогий. Возьмем, например, компьютерную нейронную сеть и объявим ее «командой», членами которой являются отдельные нейроны. Известно множество методов обучения нейронных сетей, и все эти методы можно интерпретировать в терминах «обучения команд». Или другой пример: «командой» можно объявить GRIDсистему, осуществляющую распределенные вычисления. И так далее. С другой стороны, нас интересуют эффекты автономности активного поведения членов команды, поэтому в настоящем разделе акцент делается на обучении в процессе работы и оптимальном с точки зрения команды в целом распределении работ между ее членами.

вень начальной квалификации которого низок, будучи с самого начала сильно загружен, быстро повысит свою квалификацию и сможет потом работать эффективно. С другой стороны, быть может, рациональным является загрузить сразу тех агентов, которые имеют более высокую начальную квалификацию Ответы на эти вопросы не очевидны, тем более что необходимо доопределить, что понимается под «оптимальным» распределением работы между агентами. В качестве критерия эффективности могут выступать суммарные затраты агентов, время выполнения командой заданного объема работ, результат, достигнутый за фиксированное время, и т.д.

Перейдем к формализации рассмотренной ситуации – начав с наиболее простой модели, будем потом постепенно ее усложнять.

При этом ограничимся случаем итеративного научения [63], соответствующего достаточно рутинным видам деятельности и представляющего собой многократное повторение обучаемой системой действий, проб, попыток и т.д. для достижения фиксированной цели при постоянных внешних условиях. Итеративное научение (ИН) лежит в основе формирования навыков у человека, условных рефлексов у животных, обучения многих технических (материализованных) и кибернетических (абстрактно-логических) систем и является предметом исследования педагогической и инженерной психологии, психофизиологии, педагогики, теории управления и других наук (см. обзор в [63]).

Постоянство как внешних условий, так и цели, позволяет проводить количественное описание ИН в виде кривых научения – зависимостей критерия уровня научения от времени или от числа повторений (итераций).

Многочисленные экспериментальные данные (см. [61, 63]) свидетельствуют, что важнейшей общей закономерностью итеративного научения является замедленно-асимптотический характер кривых научения: они монотонны, скорость изменения критерия уровня научения со временем уменьшается, а сама кривая асимптотически стремится к некоторому пределу. В большинстве случаев кривые итеративного научения аппроксимируются экспоненциальными кривыми.

Различают два аспекта научения. Первый аспект – результативный – при научении система должна достичь требуемого результата – качества выполнения действий с приемлемыми затрата ми времени, энергии и т.д. Второй аспект – процессуальный: адаптация, приспособление научаемой системы к некоторому виду действий в процессе деятельности (например, упражнения) и т.д.

Соответственно, выделяют результативные характеристики итеративного научения и характеристики адаптации [61], которые относятся, как правило, к физиологическим компонентам деятельности – утомляемость и т.п. В настоящей работе речь идет именно о результативных характеристиках научения (характеристики адаптации зачастую имеют совсем другую динамику – см. также предыдущий раздел).

Как отмечалось выше, итеративное научение, как правило, характеризуется замедленно-асимптотическими кривыми научения, аппроксимируемыми экспоненциальными кривыми (см. Рис. 20):

(1) r(t) = r + (r0 – r) e - t, t 0, или дискретной последовательностью(2) rk = r + (r0 – r) e - k, k = 1, 2, …, где t – время научения, k – число итераций (проб, попыток) с момента начала научения, r(t) (rk) – тип агента (уровень навыка, квалификация) в момент времени t (на k-ой итерации), r0 > 0 – начальное значение (соответствующее моменту начала научения – первому периоду времени) типа, r – «конечное» значение, r r0, – некоторая неотрицательная константа, определяющая скорость изменения типа и называемая скоростью научения [63].

r(t) r rt Рис. 20. Экспоненциальная кривая научения Условимся в настоящем разделе верхним индексом обозначать номер периода времени, а нижним индексом – номер агента. В случае, когда рассматривается единственный агент, нижний индекс будем опускать.

Обучение одного агента. Рассмотрим сначала модель научения (обучения – так как мы рассматриваем только процесс научения, то различий между этими терминами делать не будем) единственного агента. Обозначим yk 0 – выполняемый им в k-ом периоде времени объем работ. Если интерпретировать тип агента (уровень навыка) rk [0; 1] как долю успешных действий агента, то, выполняя в периоде k объем работ yk, агент достигнет результата zk = rk yk.

Тогда результат агента – суммарный объем работ, успешно выполненных агентом за k периодов времени, равен k l (2) Zk = yl.

r l =С другой стороны, агентом выполнен больший объем (успешных и неуспешных) работ:

k (3) Yk = yl.

l =Этот объем работ условно можно считать тем «опытом», который приобрел агент (см. [14, 141], а также обзор в [63]), то есть, его «эффективным внутренним временем» (прошедшим с момента начала обучения и потраченным на обучение), и подставить в показатель экспоненты (1). Получим:

(4) rk = 1 – (1 – r0) exp(– Yk - 1), k = 2, 3, ….

Обозначим y1, = (y1, y2, …, y), = 1, 2, … и условимся считать, что y0 = 0.

Объединяя (3) и (4), получим следующие выражения для соответственно объемов успешно выполненных работ и типов агента:

k l-(5) Zk = yl{1- (1- r0 )exp(- ym )}, l =1 m=k -(6) rk = 1 – (1 – r0) exp(– yl ), k = 2, 3, ….

l=Отметим, что при фиксированном суммарном объеме работ тип агента определяется выражением (4) однозначно и не зависит от того, как объемы работ распределены по периодам времени.

Поэтому задача максимизации типа агента (достижения максимальной его квалификации) при фиксированном суммарном объеме работ Y T в рамках рассматриваемой модели не имеет смысла.

В модели фигурируют три «макропараметра»: суммарный объем работ Y, число периодов T и результат Z. Искомой переменной является «траектория обучения» y1,T.

Задачи оптимального обучения могут заключаться в экстремизации одной из переменных при фиксированных остальных переменных44. Таким образом, получаем, что целесообразно рассматривать следующие постановки.

1. Фиксируем суммарный объем работ Y, который может выполнить агент, и результат Z, который необходимо достичь. Требуется найти траекторию, минимизирующую время достижения результата:

T min T Y Y (7).

T Z Z Задачу (7) можно условно назвать задачей о быстродействии.

2. Фиксируем суммарный объем работ Y, которые может выполнить агент, и время обучения T. Требуется найти траекторию, максимизирующую результат Z:

Z max Y Y (8).

T Задачу (8) можно условно назвать задачей об оптимальном обучении. Наверное, именно эта задача наиболее близка к проблемам педагогики, когда требуется за фиксированное время и при фиксированном объеме учебного материала так распределить его во времени (дидактические аспекты, то есть содержание, в силу рутинности предмета научения практически не имеют значения), чтобы максимизировать «объем усвоенного материала» (максимизировать «качество обучения»).

В более общем случае может существовать некоторый функционал, который подлежит экстремизации (например, затраты на обучение, качество обучения и т.д.), могут приниматься во внимание дополнительные ограничения, варьироваться могут одновременно несколько переменных и т.д. – все эти задачи представляют перспективный предмет будущих исследований.

Так как выражение (5) монотонно по сумме объемов работ агента и длительности периода обучения, то задачу (8) можно записать в виде:

T l-(9) yl exp(- ym ) min.

T l=1 m={ y1,T | y =Y } =В выражение (9) уже не входит начальная квалификация агента r0, то есть справедливо следующее утверждение.

Утверждение 9.1. Оптимальная траектория обучения не зависит от начальной квалификации агента.

Данный вывод представляет интерес для методики обучения, так как с точки зрения результатов отдельных независимых агентов существенны только индивидуальные различия скоростей их научения.

3. Фиксируем время обучения T и результат Z, который требуется достичь. Требуется найти траекторию обучения, минимизирующую суммарный объем работ:

min Y T.

(10) T Z Z Каждая из задач (7)-(10) может быть сведена к задаче (или набору задач) динамического программирования.

Пример 9.1. Решим задачу (8) для случая двух периодов. Если T = 2, то имеем два варианта. В первом = 1, то есть y1 = Y, тогда Z1 = r0 Y. Во втором = 2, и, учитывая, что y2 = Y – y1, получим:

Z2(y1) = Y – (1 – r0) [y1 + (Y – y1) exp (– y1)].

Легко видеть, что максимум этого выражения по y1 [0; Y] не зависит от r0. То есть, оптимальное распределение объемов работ по периодам не зависит от начальной квалификации агента.

Кроме того, чем больше, тем меньше оптимальное значение объема работ, выполняемого в первом периоде. То есть, чем выше скорость научения агента, тем больший объем работ он должен выполнять в последнем периоде (и, соответственно, тем меньший объем работ необходимо выделять на начальный период для повышения его начальной квалификации). • Пример 9.2. Решим задачу (9) для случая T = 11, r0 = 0,1, = 0,5, Y = 10.

Динамика типов агента представлена на Рис. 21. Динамика оптимальных объемов работ представлена на Рис. 22.

1,0,0,0,0,0,0,0,0,0,0,1 2 3 4 5 6 7 8 9 10 Рис. 21. Динамика типов агента в примере 9.3,2,2,1,1,0,0,1 2 3 4 5 6 7 8 9 10 Рис. 22. Динамика оптимальных объемов работ в примере 9.Оптимальной стратегией обучения является увеличение объема работ агента со временем, причем, чем выше скорость обучения, тем более «выпуклой» является оптимальная траектория обучения. Качественно, данный вывод является следствием вогнутости45 экспоненциальной кривой научения (см. выражение (1) и Рис. 21). • Обучение нескольких агентов. До сих пор мы рассматривали одного агента. Обобщим полученные результаты на случай нескольких одновременно работающих агентов, причем сначала рассмотрим ситуацию, когда агенты полностью независимы (результаты и тип каждого не зависят от результатов и типов других), а потом проанализируем задачу об обучении зависимых агентов.

Рассмотрим команду N = {1, 2, …, n}, состоящую из n агентов.

По аналогии с выражениями (5) и (6), получим следующие выражения для соответственно объемов успешно выполненных работ и типов агентов:

k l-(11) Zik = yil{1- (1- ri0 )exp(- yim )}, i l=1 m=k -(12) rik = 1 – (1 – ri0 ) exp(– i yil ), k = 2, 3, …, i N.

l=Если результат команды является суммой результатов агентов, то есть:

n k (13) Zk =, k = 1, 2, …, Zi i=то задача об оптимальном обучении команды (ср. с (8)) примет вид:

(14) ZT max, T N {yi1,T | y =Y} i =1 i=то есть:

n T l-(15) yil{1- (1- ri0 )exp(- yim )} max.

i T N i=1 l=1 m={ yi1,T | y =Y} i =1 i=Задача (15) может быть решена методом динамического программирования.

Если кривая научения выпуклая (агент обучается все более и более эффективно), то оптимальная траектория обучения будет убывающей, то есть оптимальной стратегией обучения будет уже не увеличение, а уменьшение объема работ агента со временем.

Легко видеть, что оптимальное решение задачи (15) в общем случае зависит и от индивидуальных скоростей научения агентов {i}, и от их начальных квалификаций { ri0 }.

Утверждение 9.2. Если скорости научения агентов одинаковы, то оптимальным распределением работ является выполнение всего объема работ агентом с максимальной начальной квалификацией.

Если начальные квалификации агентов одинаковы, то оптимальным распределением работ является выполнение всего объема работ агентом с максимальной скоростью научения.

Пример 9.3. Рассмотрим задачу (15) для случая двух агентов при T = 11, r10 = 0,1, r20 = 0,3, 1 = 2 = 0,75, Y = 10. При этом, в соответствии с утверждением 9.2, оптимальным является выполнение всего объема работ вторым агентом, то есть тем, чья начальная квалификация выше (напомним, что в настоящем примере скорости научения агентов одинаковы). На Рис. 23 приведена динамика оптимальных объемов работ (квадратики соответствуют второму агенту, ромбики – первому).

3,2,1,0,0,1 2 3 4 5 6 7 8 9 10 Рис. 23. Динамика оптимальных объемов работ в примере 9.Получили, что первый агент не выполняет никаких работ и не обучается. • Решение задачи об оптимальном обучении в случае, когда все агенты имеют одинаковые скорости научения, получилось «вырожденным» – работает и обучается один агент, а остальные не работают и не обучаются. С одной стороны, такой коллектив вряд ли можно назвать полноценной командой, с другой стороны, необходимо признать, что в жизни такие ситуации встречаются нередко.

Рассмотрим, что произойдет, если агенты различаются и начальными квалификациями, и скоростями научения.

Pages:     | 1 |   ...   | 15 | 16 || 18 | 19 |   ...   | 22 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.