WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 10 | 11 || 13 | 14 |   ...   | 22 |

2. Агенты, зная управление u*(0) и вектор своих типов, выбирают действие x* EN(u*(0), r), являющееся равновесием Нэша;

3. Центр, наблюдая вектор x* действий агентов, вычисляет r(u*(0), x*) в соответствии с (2).

4. Если r(u*(0), x*) = 0, то алгоритм останавливается, если же r(u*(0), x*) 0, то центр корректирует свои пред ставления о множестве возможных значений вектора типов агентов следующим образом:

(3) 0 := 0 r(u*(0), x*) и переходит к пункту 1.

Отметим, во-первых, что использование приведенного выше алгоритма подразумевает, что агенты выбирают действия, являющиеся равновесиями Нэша. Если бы они были дальновидны – максимизировали бы свои выигрыши в повторяющейся игре, зная об использовании центром принципа принятия решений (2)-(3), то для них было бы рациональным выбирать на каждом шаге не соответствующее равновесие Нэша, а такие действия, которые максимизировали бы их выигрыш в суперигре [69, 127], с учетом того, что центр будет корректировать свои представления и выбирать управления в будущих периодах на основании наблюдаемых действий агентов (см. эффект обмена ролями30 в [69]).

Во-вторых, процедура (3) корректировки представлений центра не является единственно возможной (см. модели индикаторного поведения в [48, 80]).

В-третьих, использование процедуры (3) может в ряде случаев (см. примеры ниже) дать центру возможность найти истинный вектор типов агентов за один шаг. В то же время, в ряде случаев процедура (3) может остановиться на представлениях центра, представляющих собой целое множество возможных типов агентов (см. пример 5.3).

Пример 5.1. Пусть n = 1, f(x, u, r) = u x – x2 / 2 r, = [rmin, + ), (x, u) = ( – u) x, X = [0; +), U = [0; +), 0 = [r0; +), r0 rmin, r0 r. Содержательно, целевая функция агента представляет собой разность между доходом и затратами, причем центр управляет «внутренней ценой» единицы продукции, производимой агентом (ставка оплаты в случае, когда агент является работником, внутренняя цена объединения в случае, когда агент является подразде Эффект обмена ролями заключается в том, что более дальновидный субъект, прогнозируя поведение своего оппонента, предпринимает такие действия, чтобы «навязать» последнему принятие наиболее выгодных для первого решений. При этом, если в организационной системе агент более дальновиден, чем центр, то может оказаться, что центр превращается в «агента» (а агент в «центр»), манипулируемого агентом.

лением корпорации или холдинга). Целевая функция центра зависит от разности между рыночной ценой и «внутренней ценой».

ТогдаEN(u, r) = Arg max f(y, u, r) = {u r}.

yA То есть x* = u r, а u* = / 2, занчит в данном примере оптимальное управление не зависит от типа агента и представлений центра об этом типе. При этом r(u*(0), x*) = r, то есть за один шаг, независимо от используемого управления, центр восстанавливает достоверную информацию о типе агента. Отметим, что в рассматриваемом примере дальновидные агенты будут вести себя таким же образом, что и недальновидные. • Пример 5.2. Пусть n = 2, fi(x, u, ri) = u xi – xi2 / 2 (ri + x3-i), (x, u) = ( – u) (x1 + x2), = [rmin, + ), 0 = [r0; +), r0 rmin, Xi = [0; +), i = 1, 2, U = [0; +), 0, > 0, 1. Содержательно, затраты агента зависят не только от его собственных действий, но и от действий других агентов – чем бльшие действия они выбирают, тем меньше его затраты (случай «возрастающей отдачи на масштаб»).

Тогда EN(u, r) = (x1*, x2*), где (4) xi*(u) = (u ri + u2 r3-i) / (1 – 2 u2), i = 1, 2.

( - u) u Из (1) следует, что (x*(u), u, r) = (r1 + r2), тогда 1- u u* = (1 – 1- ) /, то есть оптимальное управление не зависит от типов агентов и представлений центра об этих типах.

При этом r(u*(0), x*) определяется из решения системы уравнений (4) относительно r1 и r2 при известных x1* и x2*, то есть вычисляется однозначно и за один шаг, независимо от используемого управления, центр восстанавливает достоверную информацию о типах агентов:

r1(x*, u) = x1* / u – x2*, r2(x*, u) = x2* / u – x1*. • Пример 5.3. Пусть n = 1, f(x, u, r) = u x – x2 / 2 r, = [rmin, + ), (x, u) = ( – u) x, X = [0; a], U = [0; +), 0 = [r0; +), r0 rmin, r0 r. Содержательно, может интерпретироваться как рыночная, В случае единственного агента равновесие Нэша «вырождается» во множество действий агента, максимизирующих его целевую функцию.

а u – как внутренняя цена единицы продукции, производимой агентом.

Тогда EN(u, r) = Arg max f(y, u, r) = {min (a; u r)}.

yA То есть x* = min (a; u r). Если бы тип агента был достоверно известен центру, то оптимальным было бы управление / 2, r 2a / (5) u*(, r) = a / r, r 2a /.

Если центр использует управление u 0, то, наблюдая выбираемое при этом агентом действие x, центр может восстановить r = x / u, x < a (6) r(u, x) =.

[a / u; + ), x = a Видно, что при определенных соотношениях параметров a, и r0 центр, используя оптимальное управление, не может в силу (5) получить дополнительной информации о типе агента. Качественный вывод таков – не ставя перед агентами задач на пределе их возможностей, центр никогда не узнает реальных возможностей агентов. • В заключение настоящего раздела отметим, что в ситуации, когда приведенный выше алгоритм «зацикливается» на достаточно широком множестве, для дальновидного центра может оказаться более эффективным использовать в течение нескольких первых периодов на каждом шаге не оптимальное в каждом периоде управление, а то, которое позволило бы лучше идентифицировать тип агента. Постановка и решение подобных задач активной идентификации [11] выходит за рамки настоящей работы.

5.3. ЗАДАЧА УПРАВЛЕНИЯ В настоящем разделе рассматриваются две модели, описывающие совместную деятельность членов команды. Первая модель основывается на предположении о том, что агенты выбирают равновесные по Нэшу действия, приводящие к требуемому центром результату их деятельности с минимальными затратами центра на управление (ср. с результатами раздела 2.3). Во второй модели агенты выбирают из множества векторов действий, приводящих к требуемому результату, один из векторов, эффективных по Парето (а именно, максимизирующий сумму их целевых функций).

«Модель 5.3.1». Пусть целевые функции агентов аддитивны по управлению (рассматривается иерархическая игра с побочными платежами [24, 29, 68]), которое персонифицировано (то есть u = (u1, u2, …, un), причем в целевую функцию i-го агента входит только управление ui Ui = 1, U = = n ):

+ U j + jN fi(x, u, ri) = vi(x, ri) + ui, где vi(x, ri) – функция выигрыша i-го агента в отсутствии управления, i N. Будем рассматривать случай, когда известно однозначное отображение Q: X' X0 (при описании моделей коллективного стимулирования в разделе 2.3 считалось, что X0 = 1, однако все + результаты остаются в силе для любого компактного множества размерности, меньшей, чем n – см. [35]) и центр использует управление следующего вида:

i, z = z' (1) w0i(z’, z) = 0, z z', где z = Q(x) – результат деятельности агентов, z’, z X0.

Предположим, что функция агрегирования строго монотонна по всем переменным, тогда (2) i N y-i X-i, yi1, yi2 Xi, yi1 yi2, Q(y-i, yi1) Q(y-i, yi2).

Содержательные интерпретации рассматриваемой модели таковы: выигрыш каждого агента зависит от его действий, от действий его оппонентов, от его типа, а также от вознаграждения, выплачиваемого центром в том случае, если результат команды (совместной деятельности агентов) принадлежит заданному множеству. При этом условие выплаты вознаграждения зависит только от значения результата деятельности (см. (1)) и не зависит явным образом от вектора действий агентов, который может быть и не наблюдаем центром.

Тогда множество равновесий Нэша игры агентов при заданном управлении (1) примет вид (3) EN(z’,, r) = {x X' | i N, yi Xi vi(x, ri) + w0i(z’, Q(x)) vi(x-i, yi, ri) + w0i(z’, Q(x-i, yi))}, где = (1, 2, …, n) – вектор вознаграждений.

Обозначим X(z) = {x A' | Q(x) = z} X’ – множество действий агентов, приводящих к результату z X0 их деятельности.

Тогда можно записать управление (1) в следующем виде:

i, x X (z') (4) wi(z’, x) =, i N, 0, x X (z') а множество равновесий Нэша (3) примет вид:

(5) EN(z’,, r) = {x X' | i N, yi Xi vi(x, ri) + wi(z’, x) vi(x-i, yi, ri) + wi(z’, x-i, yi)}.

Предположим, что вектор типов агентов является общим знанием среди центра и агентов. Фиксируем этот вектор типов агентов и результат z’ X0 деятельности агентов. Рассмотрим, какими должны быть управления со стороны центра, приводящие к тому, что агенты выбирают (как равновесие Нэша своей игры при заданном управлении) действия, приводящие к требуемому центру результату z’ X0. Формально это требование можно записать следующим образом:

(6) EN(z’,, r) X(z’).

Условия (6), совместно с гипотезой благожелательности (заключающейся в том, что из множества равновесий Нэша агенты выберут наиболее предпочтительное для центра равновесие), достаточно для того, чтобы быть уверенным в реализации результата z’ X0.

Определим множество управлений, обеспечивающих выполнение (6). Для этого фиксируем произвольную точку z X0 множества X0 и рассмотрим, при каких управлениях со стороны центра выбор агентами действий, приводящих к данному результату z, будет равновесием Нэша их игры.

В силу строгой монотонности функции агрегирования x X(z) – равновесие Нэша тогда и только тогда, когда (7) i N, yi Ai vi(x, ri) + i vi(x-i, yi, ri).

Отсюда получаем, что i i(x, ri), где (8) i(x, ri) = vi(x-i, yi, ri) – vi(x, ri), i N.

max yiXi Значит, можно найти минимальное суммарное вознаграждение агентов, побуждающее их выбрать как равновесие действия, приводящие к результату z X0:

(9) (z, r) = min).

(x, ri) i xX ( z iN Обозначим (10) x*(z, r) = arg min) (x, ri) i xX ( z iN Утверждение 5.1. [64] При использовании управления i (x*(z', r), ri ), z = z' (11) w0i(z', z, r) =, i N, z z' 0, вектор действий x*(z', r) является равновесием Нэша игры агентов.

Суммарное вознаграждение агентов со стороны центра, равное (z', r), при этом является минимально возможным среди всех управлений, реализующих результат z' X0.

Утверждение 5.1, по существу, является обобщением модели стимулирования с агрегированием информации, описанной в разделе 2.3 и в [70, 74], на случай произвольных целевых функций агентов.

Рассмотренная в настоящем разделе модель может интерпретироваться в терминах команд: деятельность команды (совместная деятельность коллектива взаимосвязанных агентов) оценивается на основании некоторого агрегированного показателя, зависящего от действий всех членов команды. Члены команды поощряются, если команда в целом достигает успеха, то есть если достигается требуемый результат ее деятельности.

В соответствии с выражением (11) согласованной нормой деятельности агентов является выбор из множества X(z) действий, приводящих к заданному результату деятельности, такого вектора действий x*(z, r), на котором достигается минимум суммарных «затрат» (9) центра на стимулирование агентов, или, что то же самое, такого вектора действий, который приводит к требуемому результату с минимальными суммарными затратами членов команды.

Еще раз отметим, что описанная модель удачно отражает автономность однородной команды («артели») – способность агентов самостоятельно распределять работу между собой с тем, чтобы наиболее эффективным способом (с минимальными суммарными затратами) достичь цели (требуемого значения агрегированного результата совместной деятельности).

«Модель 5.3.2». Концепция равновесия Нэша отражает устойчивость исхода взаимодействия (игры) агентов относительно индивидуальных отклонений отдельных агентов [29, 159]. Однако зачастую действия, равновесные по Нэшу, не эффективны по Парето – может существовать вектор действий, приводящий к тому же результату деятельности и обеспечивающий всем агентам не меньшие полезности, а кому-то – строго большие (при этом мы, правда, «забываем» об интересах центра – условно можно считать, что центр заинтересован в реализации того или иного результата деятельности и не различает суммарных затрат различных вариантов его достижения). Поэтому альтернативой описанной выше «модели 5.3.1», основывающейся на гипотезе о выборе агентами равновесных по Нэшу действий, является рассмотрение случая, когда агенты выбирают эффективные по Парето действия, например – максимизирующие сумму их целевых функций на множестве действий, приводящих к требуемому для центра результату.

Обозначим (12) Par(z, r) = Arg max) (x, ri ), z X0, r, v i xX ( z iN – множество векторов действий агентов, максимизирующих сумму их целевых функций на множестве всех действий, приводящих к заданному результату деятельности. Множество агентов (команда) в данном случае описывается вектором r типов своих членов.

Нормой деятельности в рассматриваемой модели можно считать отображение : X0 X’ множества пар результатов деятельности и векторов типов агентов во множество их Паретоэффективных действий. Другими словами, норма предписывает агентам выбирать из множества (12) определенные действия.

Какими должны быть эти действия, можно задавать аксиоматически, используя, например, те или иные механизмы компромисса [46, 72].

Возникает вопрос, а как связаны между собой нормы деятельности в «модели 1» и в «модели 2». Частичный ответ на этот вопрос дает следующее утверждение.

Утверждение 5.2. [64]. Если (13) i N, x-i X-i max vi(x-i, yi, ri) = Li, yiXi то x*(z, r) Par(z, r).

Условие (13) является достаточно сильным требованием (но иногда оно выполнено, например, в задачах стимулирования [67, 70]), и в общем случае может оказаться, что равновесный по Нэшу вектор действий агентов не является Парето-оптимальным.

Завершив краткое описание второй модели, отметим, что до сих пор мы считали, что все существенные параметры (типы агентов) являются среди агентов общим знанием. Понятно, что это достаточно сильное предположение. Поэтому откажемся от него – перейдем к рассмотрению эффектов рефлексии (см. Приложение и [44, 78]) – и исследуем, как члены команды будут себя вести в отсутствии общего знания.

5.4. НОРМЫ И РЕПУТАЦИЯ: ФУНКЦИОНИРОВАНИЕ КОМАНДЫ В соответствии с результатами предыдущего раздела, если выполнено условие (13) (а в ходе дальнейшего изложения будем считать выполненными условия (2) и (13) раздела 5.3), то агенты будут выбирать эффективные по Парето равновесия Нэша своей игры.

Обозначим множество равновесий (1) X(z, r) = Arg max) V(x, r), xX ( z где V(x, r) = (x, ri ).

Pages:     | 1 |   ...   | 10 | 11 || 13 | 14 |   ...   | 22 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.