WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 9 | 10 || 12 | 13 |   ...   | 15 |

В случае дисконтирования будущего справедлива * FTh5: Если n = 2, то (, ) (0; 1): ( ; 1) 1 2 0 cуществует SPE суперигры, в котором игроки получают средние выигрыши и, если их дисконтирующие множители равны.

1 Теорема FTh5 может быть обобщена на случай произвольного конечного числа игроков (достаточно потребовать непустоты внутренности множества *) [104].

На силу наказания (в сравнении выигрыша от одномоментного отклонения и дисконтированного проигрыша от наказания) существенно влияет величина дисконтирующего множителя, конечность [91] (а иногда и величина) или бесконечность T [34], а также информированность игроков. При полной информированности в суперигре может существовать равновесие Нэша, доминирующее по Парето равновесие Нэша однопериодной игры. Если игроки не дисконтируют будущие полезности, то множества равновесных векторов выплат в однопериодной и многопериодной игре совпадают. Если игроки дисконтируют будущие полезности, то все равновесия суперигры, в принципе, могут быть неэффективны (по Парето), хотя, обычно, при условии, что дисконтирующие множители не очень малы, существуют равновесия суперигры, доминирующие по Парето однопериодные.

В случае двух игроков и полной информированности равновесие в суперигре обладает следующим свойством непрерывности:

любой эффективный индивидуально рациональный вектор выплат однопериодной игры может быть сколь угодно точно аппроксимирован равновесным вектором выплат суперигры. В [133] приведен пример неэффективного равновесия при наличии дисконтирования будущего, в [126], напротив, показывается, что при неполной информированности в некоторых случаях FTh оказывается верна. В условиях полной информированности при условии, что игроки не дисконтируют свои полезности (берется средняя полезность), в суперигре существует эффективное равновесие. Если же игроки дисконтируют свои полезности, то равновесие в многопериодной игре будет превосходить (по Парето) равновесие однопериодной игры [132]. В случае полной информированности факт отклонения каким-либо игроком от эффективной стратегии устанавливается тривиально, так как выбор стратегий наблюдаем. В случае неполной информированности все оказывается несколько сложнее – после каждого периода каждый игрок проверяет статистическую гипотезу, что все остальные игроки выбрали эффективные стратегии. Если один из игроков отвергает эту гипотезу, то все игроки переключаются на равновесные в однопериодной игре равновесия Нэша (эта стратегия, в общем случае, неэффективна). После заданного числа шагов (фаза наказания) все игроки возвращаются к эффективным стратегиям и опять проверяют свои гипотезы. Некоторые модели учитывают репутацию игроков если в течение длительного времени они вели себя "хорошо", то для переключения на стратегию наказания при проверке статистических гипотез требуется выполнения более жестких условий [102].

Условия и стратегии суперигры, приводящие к векторам полезностей, доминирующим однопериодное равновесие Нэша и даже более того, эффективным в однопериодной игре, для случая полной информированности приводятся в [132]. Этот же результат имеет место и для неполной информированности при некоторых дополнительных условиях (теорема 7.1 в [132]). К "недостаткам" FTh следует отнести: отсутствие предсказуемости (любой индивидуально рациональный результат может быть равновесием суперигры; FTh утверждает, что в суперигре возможно кооперативное равновесие (Парето), но непонятно каковы механизмы его достижения; наличие угрозы для того игрока, который отклоняется (или собирается отклониться), может привести к тому, что он захочет пересмотреть правила игры и т.д. [85, 92, 99, 120, 129].

Повторяющиеся иерархические игры Особо следует отметить результаты исследования повторяющихся игр в теории иерархических игр1. Наибольший интерес с Исторически сложилось так, что исследования по многим близким направлениям теории игр (в том числе и повторяющимся играм) в СССР и за рубежом велись параллельно, но независимо. Справедливости ради, надо отметить, что относительно многих результатов типа FTh – ср., например, [30, 32, 41] и [115] (не говоря уже о иерархических многошаготочки зрения настоящей работы представляют приведенные в [41] общие результаты (см. там же соответствующий обзор), характеризующие оптимальные стратегии и выигрыш центра при повторениях игр типа Г1 и Г2 [30]. В том числе рассматривались две модели.

В первой модели1 центр (игрок, делающий ход первым) сообщает агенту (второму игроку) свои стратегии – функции ui(y1,i), i = 1,T (при использовании таких стратегий могут быть учтены случаи произвольного запаздывания информации, получаемой первым игроком о стратегии, выбранной вторым игроком), после чего выбор второго игрока становится “одношаговым” и заключается в определении оптимального для него при заданном управлении вектора y1,T. Как и в статическом случае [30, 32], выделяются два режима – за выбор определенных стратегий (действий) агент поощряется, за выбор остальных действий наказывается. Таким образом, оптимальной является следующая стратегия центра – использовать «поощрения» до тех пор, пока агент в первый раз не выберет несогласованное с центром действие, после чего центр до конца игры переключается на использование стратегии наказания.

Этот результат охватывает результаты, полученные для статических игр, как частные случаи, и, кроме того, позволяет получить решение задачи синтеза оптимальных управлений со стороны центра в повторяющихся иерархических играх, в которых целевой функцией агента является суммарная по периодам дисконтированная полезность (при условии, что полезность в каждом периоде зависит только от стратегий, выбранных в этом периоде) [41].

Во второй модели центр сообщает агенту свои стратегии – функции ui(y1,i), i = 1,T – последовательно, то есть только на очередной ход, когда будет выбираться yi. При этом решение может получено применением принципа оптимальности Беллмана – считая известными u1,T-1( ) и y1,T-1, центр решает статическую задачу – определения оптимального управления uT(, u1,T-1, y1,T-1) и т.д., вплоть до первого периода.

вых играх [33, 34, 40]) приоритет принадлежит советским или российским ученым.

Предпочтения игроков в данной модели отражены произвольными непрерывными функциями от векторов всех стратегий за все предыдущие периоды игры.

Многошаговые иерархические игры, описывающие управление динамической системой, состояние которой в момент времени t+зависит от ее состояния в момент времени t и управлений, выбранных центром (стратегия центра – функция от состояния системы) и агентом (агент в каждый момент времени выбирает свою стратегию при известной стратегии центра), рассматривались в [41, 66]. Данная игра сводится к антагонистической игре (определение стратегий наказания) и задаче оптимального управления.

Динамические задачи теории контрактов В настоящем разделе рассматриваются динамические задачи теории контрактов, которые, с одной стороны, используют общие результаты анализа повторяющихся игр, а с другой – достаточно близки к динамическим моделям, исследуемым в теории активных систем (ТАС) – см. ниже.

Если предположить, что результаты деятельности АЭ в различных периодах не связаны, элементы недальновидны и отсутствуют общие ограничения на целевые функции и допустимые множества различных периодов, то получится последовательность базовых моделей теории контрактов [15, 57, 58, 125, 131], каждая из которых может исследоваться независимо.

В случае наличия общих ограничений на целевые функции, допустимые множества, параметры механизма стимулирования и т.д., при несвязанных периодах функционирования, задача стимулирования в динамической системе, по аналогии с задачей стимулирования в системе со слабо связанными элементами, может быть сведена к стандартной задаче условной оптимизации [52, 56-58].

Оба описанных выше случая представляются довольно тривиальными и редко встречаются на практике. Поэтому рассмотрим двухпериодную одноэлементную динамическую задачу теории контрактов и методы ее решения, следуя введенной в [15] терминологии.

Модель теории контрактов относится к моделям систем с внешней вероятностной неопределенностью [15, 58] и качественно заключается в следующем. Агент предпринимает некоторые действия, которые совместно с реализацией внешнего неопределенного (случайного) параметра приводят к определенным результатам деятельности. Принципиальное отличие данной модели от детерминированной заключается в том, что на момент принятия решений о выбираемых стратегиях участники системы (центр и агент) не имеют информации о будущем значении состояния природы, обладая лишь информацией о параметрическом распределении вероятностей результатов деятельности при тех или иных действиях.

Кроме того, считается, что действие агента ненаблюдаемо для центра, поэтому управление может основываться лишь на наблюдаемой реализации случайной величины – результата деятельности, а участники системы предполагаются рациональными в смысле стремления максимизации своих ожидаемых полезностей.

Введем некоторые обозначения: A = {y1, y2,..., yn}, A = {z1, z2,..., zn} (множества возможных действий и результатов деятельности конечны); y1 A – действие АЭ в первом периоде;

y2 A – действие АЭ во втором периоде; zj A0 – результат деятельности АЭ в первом периоде; M – стимулирование АЭ в j первом периоде за результат zj, M – стимулирование АЭ во jl втором периоде за результаты: zj и zl в первом и втором периодах, соответственно; = (, ); (y1 –, y2 – ) – возрастающая и j jl j jl вогнутая по обеим переменным целевая функция центра;

f(,, y1, y2) – возрастающая и вогнутая по и убывающая по y j jl целевая функция АЭ; pj(yk) – вероятность результата zj при действии yk, k = 1, 2, j, l = 1,n. Итак, ожидаемые полезности центра и агента имеют, соответственно, вид:

n (1) E (, y) = p ( y1) pl ( y2 ) ( y1 -, y2 - ), j j jl j,l =n (2) Ef(, y) = p ( y1) pl ( y2) f (,, y1, y2 ) j j jl j,l =где y = (y1, y2), E – оператор математического ожидания. По аналогии с базовой однопериодной моделью [15], задача поиска двухпериодного оптимального контракта (напомним, что контрактом * называется совокупность { ; y*} оптимальной системы стимулирования и реализуемого ей действия АЭ [15, 42, 56]):

(3) E (, y*) max M (4) y* Arg max Ef(, y) yAможет быть решена двушаговым методом1 [15, 56, 125]. Отметим, что рассматриваемая постановка непосредственно обобщается на случай любого конечного числа периодов.

Понятно, что вычислительная сложность даже двухпериодной задачи намного выше, чем статической. Редуцировать динамическую задачу к статической удается лишь в крайне ограниченном числе случаев (см. [140] – использование условий Куна-Таккера и сведение к вариационной задаче, [119] – использование подхода первого порядка [15, 125, 132, 134]).

Так как в рассмотренной выше модели стимулирование во втором периоде зависит и от результатов первого периода, то контракт, являющийся решением задачи (3)-(4) и обладающий этим свойством, называется контрактом с памятью (условия независимости вознаграждений в различных периодах обычно формулируются в терминах свойств функций распределения). Если в каждом периоде АЭ стимулируется только по результатам текущего периода, то контракт называется контрактом без памяти [100]. Основной вопрос, возникающий при изучении динамических контрактов, заключается в выяснении преимуществ, которыми обладает динамический контракт со связанными периодами и памятью, по сравнению с последовательностью обычных однопериодных контрактов2.

Решение однопериодной вероятностной задачи – равновесные по Нэшу платежи (значения целевых функции центра и АЭ, соответственно) – ’ и f’, как правило, неэффективны и доминируются * по Парето другими платежами и f* [95, 132, 138] (см. описание различий FB (first-best) и SB решений (second-best) и роли неопре В двушаговом методе на первом шаге ищутся минимальные системы стимулирования, реализующие заданную пару действий (по одному для каждого периода функционирования). На втором шаге перебором по всем допустимым парам находятся оптимальная с точки зрения центра пара реализуемых действий.

Обычно в моделях рыночной экономики предполагается, что если число АЭ "велико", то игра некооперативная, а если "мало", то – кооперативная. В динамических моделях возможность кооперации появляется именно из-за динамики – элементы имеют время "договориться" и наказать тех, кто отклоняется от соглашений (см. описание стратегий наказания выше).

деленности в [15, 57, 118]). То есть в последовательности одноэлементных контрактов средние платежи равны ’ и f’, а в динамическом контракте, в соответствии с FTh, они могут достигать или * приближаться1 к и f* [140].

В то же время, если в однопериодном контракте центр может достаточно сильно наказывать АЭ (соответствующие условия на ограничения механизма стимулирования приведены в [122]), то последовательное заключение краткосрочных контрактов оказывается не менее эффективно, чем заключение долгосрочного контракта. Иными словами, если долгосрочный контракт реализует некоторую последовательность действий [15], то при "достаточно сильных" штрафах, существует оптимальная последовательность краткосрочных контрактов, реализующая ту же последовательность и дающая всем участникам те же значения ожидаемой полезности.

Содержательно, возможная сила штрафов должна быть такова, чтобы за их счет достаточно сильно наказать АЭ за отклонение именно в однопериодном контракте (в динамике эту роль играют стратегии наказания, используемые в следующих периодах), то есть триггерная стратегия каждого из игроков – выбор равновесной по Парето стратегии до тех пор, пока партнер выбирает равновесную по Парето стратегию, если же партнер «переключается» на равновесие Нэша, то следует тоже переключиться на соответствующую равновесную по Нэшу стратегию. В условиях вероятностной неопределенности возникает задача идентификации – построения оптимальных для центра триггерных стратегий, то есть определения оптимальных моментов переключения на стратегию наказания по наблюдениям результатов деятельности2 в прошлых периодах (истории игры). В [131] доказано, что при достаточно общих предположениях у центра в конечной игре существует стратегия, обес Обычно результаты об оптимальности (достижимости FB решения) требуют бесконечного повторения подыгр, а для конечного числа периодов доказывается -оптимальность [131]. При отсутствии дисконтирования любое IR Парето-оптимальное распределение выигрышей в однопериодной игре (в частности – FB решение) является достижимым Парето-оптимальным распределением выигрышей в суперигре [123, 138].

Напомним, что в задачах теории контрактов результат деятельности АЭ является случайной величиной, зависящей от ненаблюдаемого центром действия АЭ и состояния природы.

печивающая -Парето-оптимальные значения целевых функций.

Идея доказательства этого и подобных утверждений очевидна (см.

Pages:     | 1 |   ...   | 9 | 10 || 12 | 13 |   ...   | 15 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.