WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 11 | 12 || 14 | 15 |   ...   | 22 |

v i iN Предположим, что z X0, r множество X(z, r) состоит из одной точки x*(z, r). Это предположение, которое содержательно означает, что для данного набора агентов (характеризуемого вектором типов r ) существует единственный эффективный (в смысле максимума суммы целевых функций) способ достижения результата z X0 совместной деятельности, имеет место во многих практически важных случаях – см. [70], а также примеры ниже.

В рассматриваемой модели согласованной нормой деятельности i-го агента будет выбор действия xi*(z, r), то есть при условии, что r – общее знание, имеем:

(2) i(z) = xi*(z, r), i N, z X0, r.

Пусть теперь общее знание относительно вектора типов агентов отсутствует.

Обозначим ri = (ri1, ri2, …, rin) – вектор представлений i-го агента о типах оппонентов, rij = (rij1, rij2,..., rijn) – представления i-го агента о представлениях j-го агента о типах оппонентов, i, j N.

Если структура информированности имеет единичную глубину (i-ый агент считает общим знанием вектор ri), то агент i N ожидает от агента j выбора действия xj*(z, ri), i, j N. Следовательно, репутацией j-го агента в глазах i-го агента является (3) ij(z) = xj*(z, ri), i, j N.

Предположим, что каждый агент наблюдает все действия, выбранные своими оппонентами, а также, естественно, знает, какое действие выбрал он сам. Тогда репутация будет оправдываться, если взаимные представления агентов таковы, что (4) i, j N xj*(z, ri) = xj*(z, rj), то есть, если агенты будут выбирать (в соответствии со своими собственными представлениями о векторе типов – см. правую часть выражения (4)) те действия, которых от них ожидают оппоненты. Определение (4) оправданности репутации легко обобщается на случай, когда каждый агент наблюдает значение некоторой функции (называемой функцией наблюдения – см. Приложение) от действий оппонентов, по аналогии с тем, как это делается в [105].

Поэтому командой с точки зрения репутации можно назвать множество агентов, взаимные представления которых удовлетворяют (4). Отметим, что такое понимание команды тесно связано с понятием стабильного информационного равновесия [77], в котором все агенты (реальные и фантомные) наблюдают те выборы оппонентов, которых они и ожидали – см. раздел 2.5 и Приложение.

Если структура информированности имеет глубину, большую, чем единица, то условие оправданности репутации будет определяться соответствующими этой структуре информированности условиями стабильности информационного равновесия [77]. Приведем иллюстративный пример, являющийся «рефлексивным» обобщением рассмотренной выше модели формирования однородной команды.

Пример 5.4. Пусть vi(x, ri) = xi – xi2 / 2 ri, i N, z = (см.

x j jN также пример 3.2). Тогда предположения (2) и (13) раздела 5.выполнены, и (5) xi*(z, r) = z ri /, i N.

rj jN Условия (4) примут вид:

rij rj (6) =, i, j N.

ril rjk lN kN Если n = 2, то (4) можно записать в виде:

r12 r = r1 + r12 r21 + r2, r21 r = + r21 r2 + rrчто эквивалентно следующему условию:

(7) r12 r21 = r1 r2. • Модель, рассмотренная в предыдущем примере, может быть обобщена.

Утверждение 5.3. Если (8) vi(x, ri) = Ci – ri (xi / ri), i N, где () – возрастающая дифференцируемая выпуклая функция, то оптимальные действия агентов удовлетворяю (5), а условие оправданности репутации имеет вид (6).

Пример 5.4 иллюстрирует утверждение 5.3 для случая (t) = t 2/2. Содержательная интерпретация целевой функции (8) такова: агент получает фиксированный доход и несет затраты, зависящие от его действия и его типа.

Таким образом, в настоящем разделе мы рассмотрели рефлексивную модель функционирования команды, в рамках которой устойчивость совместной деятельности коллектива агентов обусловлена «правильными» их взаимными представлениями о существенных характеристиках друг друга. Однако вне рассмотрения остался вопрос – а что произойдет, если взаимные представления агентов не удовлетворяют, например, (4). Для того чтобы ответить на этот вопрос, необходимо рассмотреть модель формирования команды, описывающую в терминах норм деятельности и репутации динамику взаимных представлений агентов на основании наблюдаемой ими информации о действиях оппонентов.

5.5. НОРМЫ И РЕПУТАЦИЯ: ФОРМИРОВАНИЕ КОМАНДЫ Впервые модели динамики иерархии взаимных представлений агентов в приложении к задаче формирования команд рассматривались в [65, 77]. Рассмотрим процесс формирования команды. Для этого введем множество X(Q(x)) X’ таких векторов действий агентов, которые приводят к тому же результату деятельности, что и вектор x X’. Обозначим (1) (x) = {r | x Arg maxx)) V(y, r)} yX (Q( – множество таких векторов r типов агентов, что вектор действий x X’ доставляет максимум суммарной полезности агентов, обладающих этими типами.

Обозначим (2) -i(x, si) = {r (x) | ri = si}, si i, x X’, i N, – множество типов оппонентов, которые i-ый агент, обладающий типом si, может восстановить, наблюдая выбранный агентами вектор действий x X’.

Пусть взаимодействие агентов происходит многократно. На шаге t = 0, 1, 2,.... агенты, имеющие представления { rti }i N, выбирают действия xi*(z, rti ), i N, и каждый агент наблюдает действия, выбранные всеми агентами. Агент i, зная свой тип ri, может «восстановить» следующее множество типов оппонентов:

-i({xi*(z, rti )}, ri).

Для завершения описания динамической модели осталось определить, как агенты будут изменять свои представления, то есть каковы станут представления rti+1 i-го агента на шаге t + 1, i N.

Здесь возможны различные варианты. По аналогии сразделом для описания динамики характеристик агентов можно использовать процедуру индикаторного поведения [10, 19, 48, 62, 80].

В рассматриваемой модели гипотеза индикаторного поведения выглядит следующим образом. Вычислим текущее «положение цели»:

(3) wtij (x, ri, rtij ) = arg min( x,ri ) |s – rtij |, i, j N, t = 1, 2,....

-1 -sPr -i j Если первоначально агенты имели некоторые представления r0i о типах оппонентов, i N, то динамика их представлений описывается следующим образом – агенты делают в каждом периоде времени «шаг» от текущих представлений в сторону «положения цели»32:

(4) rtij = rtij + tij [ wtij ({xk*(z, rtk )}k N, ri, rtij ) – rtij ], -1 -1 -1 -ij где [0; 1] – константы, определяющие «величину шага» t i, j N, t = 1, 2,....

Процедура (4) обладает тем свойством, что любой набор взаимных представлений, удовлетворяющий условию (4) раздела 5.4, является ее стационарной точкой. Сходимость процедуры (4) и области притяжения ее стационарных точек требуют в каждом случае отдельного исследования.

Система (4) описывает динамику представлений агентов о типах оппонентов. Так как эти представления полностью определяют то, каких действий ожидает агент от оппонентов, следовательно, можно считать, что (4) описывает и динамику репутации. Так как выше командой было предложено считать множество агентов с «оправдываемой» репутацией, то стабильной команде соответствует стационарная точка процедуры (4), а динамика репутации, описываемая этой процедурой, отражает процесс формирования команды (команду можно считать сформировавшейся, если взаимные представления ее членов не изменяются со временем в процессе функционирования команды). Примеры динамики взаимных представлений (результаты имитационного моделирования) агентов в процессе формирования команды приведены в [77].

6. АВТОНОМНОЕ ПРИНЯТИЕ РЕШЕНИЙ На качественном уровне идея автономного принятия решений заключается в том, что члены команды должны принимать коллек Отметим, что в рамках процедуры индикаторного поведения предполагается, что агенты не осуществляют стратегическую рефлексию относительно поведения друг друга. В противном случае пришлось бы учитывать, что агент, зная, что его оппоненты следуют принципу принятия решений (4), изменит соответствующим образом свое поведение (см. также сноску с разделе 3).

тивные решения автономно и согласованно на основе имеющейся у них информации.

Рассмотрим множество N = {1, 2, …, n} агентов – членов команды. Ситуация, в которой функционирует команда, описывается параметром, принадлежащим множеству возможных ситуаций.

При этом i-ый агент выбирает действие xi X – то решение, которое он предлагает принять команде в целом, и сообщает другим членам команды свою оценку si(xi, ) 0 эффективности этого решения в ситуации, i N.

Предположим, что каждый агент на момент выбора решения и сообщения оценки его эффективности правильно идентифицирует ситуацию и достоверно знает эффективность Fi(xi, ) предлагаемого им решения, но не знает действительных эффективностей решений, предложенных другими агентами. Если некоторое решение принято, то его действительная эффективность наблюдается всеми агентами. То, что агенты знают все перечисленное, является среди них общим знанием.

С точки зрения команды в целом желательно в любой ситуации принимать наиболее эффективные решения.

Обозначим k() – номер агента, предлагающего в ситуации наиболее эффективное решение:

(1) k() = arg max {Fi(xi, )}.

iN Тогда команде в ситуации следует принимать решение (2) z() = xk(), эффективность которого будет равна (3) G() = Fk()(xk(), ), то есть (4) G() = max {Fi(xi, )}.

iN Принцип принятия решений (1) или (4) хорош тем, что он позволяет в каждой ситуации выбирать наилучшее решение, однако этот принцип нереализуем в рамках существующей информированности, так как эффективности решений агентов {Fi(xi, )}i N не являются общим знанием (см. также обсуждение проблем реализуемости соответствий группового выбора в [84, 155]). Возможным выходом является построение процедуры принятия командой решений на основе сообщаемых агентами оценок эффективностей.

Предположим, что каждый агент в любой ситуации предлагает наиболее эффективное решение и обозначим m() – номер агента, сообщившего в ситуации максимальную оценку эффективности решения:

(5) m() = arg max {si(xi, )}.

iN Тогда команда в ситуации примет решение (6) zs() = xm(), рассчитывая на эффективность (7) Gs() = max {si(xi, )}.

iN В действительности же эффективность решения (6) будет равна Fm()(xm(), ).

Выражение (7) можно интерпретировать как условие автономности принятия командой решений.

Процедуры (1)-(4) и (5)-(7) совпадают, если (8) m() = k().

и агенты сообщают достоверную информацию, то есть (9), i N si(xi, ) = Fi(xi, ).

Так как агенты активны (обладают собственными интересами и самостоятельно принимают решения), то в общем случае они будут сообщать информацию, которая приведет к принятию наиболее выгодных для них коллективных решений. Значит, необходим анализ условий, при которых агентам выгодно сообщать достоверную информацию. Рассмотрим возможный вариант подобных условий.

Для этого введем целевые функции агентов и проанализируем «равновесие их игры», ведь для того, чтобы агенты сообщали достоверную информацию, в рамках гипотезы благожелательности (при прочих равных агент сообщит правду) достаточно, чтобы сообщение правды было равновесием Нэша их игры (условие согласованности принимаемых командой решений), то есть такой ситуацией игры, одностороннее отклонение от которой не выгодно ни одному из агентов.

Обозначим через s(x, ) = (s1(x1, ), s2(x2, ), …, sn(xn, )) – вектор сообщений агентов.

Введем целевую функцию i-го агента fi(Fm()(xm(), )), зависящую от эффективности Fm()(xm(), ) принятого коллективного решения zs(), i N. Отметим, что при этом предполагается, что целевая функция агента не зависит явным образом от ситуации и от принятого решения, а определяется только эффективностью последнего.

Сформулируем условие сообщения агентами достоверной информации.

Утверждение 6.1. Для автономного принятия командой согласованных решений (5)-(7) достаточно, чтобы целевая функция каждого агента была монотонна по эффективности коллективного решения.

Доказательство утверждения 6.1. Фиксируем произвольную ситуацию. Предположим, что все агенты в этой ситуации предлагают наилучшие с их точки зрения решения и сообщают достоверную информацию об эффективности соответствующих решений.

Рассмотрим агента с номером k(), то есть того агента, который в данной ситуации предлагает наиболее эффективное решение (для простоты предположим, что такой агент единственен; если же их несколько, то нужно доопределить процедуру (1)-(2) любым способом, обеспечивающим однозначность принимаемых решений). Если он сообщит оценку, строго большую истинной, то будет принято то же решение, что и ранее, и значение его целевой функции не изменится. Значит, в силу гипотезы благожелательности, завышать свою оценку ему не имеет смысла. Если он сообщит оценку, строго меньшую истинной, то, в зависимости от оценок других агентов, будет принято либо то же решение, либо решение, предлагаемое другим агентом (чья заявленная эффективность окажется выше). Но реальная эффективность нового решения не выше эффективности исходного решения, следовательно, занижать оценку агенту с номером k() не выгодно. Итак, рассматриваемому агенту манипулировать информацией не выгодно.

Рассмотрим теперь произвольного агента j k(), то есть такого, истинная эффективность решения которого ниже максимальной из эффективностей. Если он исказит информацию, сообщая оценку эффективности своего решения ниже истинной его эффективности, то принимаемое коллективное решение, и, следовательно, выигрыш этого агента, не изменятся. Если же он завысит свою оценку выше максимальной из оценок других агентов, то будет принято предлагаемое им решение, эффективность которого не выше эффективности принимаемого ранее решения. То есть, и такое искажение информации j-му агенту не выгодно.

Получаем, что ни одному из агентов не выгодно искажать информацию, если другие агенты сообщают достоверную информацию. Следовательно, сообщение достоверной информации – равновесие Нэша игры агентов. • Содержательно условие утверждения 6.1 (монотонность целевой функции каждого агента по эффективности коллективного решения) означает, что интересы членов команды согласованы между собой и, условно говоря, с «целями команды в целом».

Другими словами, при этом коллективное решение является «командообразующим фактором», и каждый из членов команды должен быть заинтересован в том, чтобы принять наиболее эффективное решение. Тогда возможна автономная и согласованная деятельность команды, и никому из членов команды не выгодно искажать информацию.

Подчеркнем, что рассмотренная модель автономного принятия решений в команде является в некотором смысле «вырожденной» – полноценная игра агентов отсутствует, так как выигрыш каждого монотонен по эффективности итогового решения.

Pages:     | 1 |   ...   | 11 | 12 || 14 | 15 |   ...   | 22 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.