WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     || 2 |
-- [ Страница 1 ] --

РОССИЙСКАЯ АКАДЕМИЯ НАУК Институт проблем управления им. В.А. Трапезникова Д.А. Новиков, А.В. Цветков МЕХАНИЗМЫ ФУНКЦИОНИРОВАНИЯ ОРГАНИЗАЦИОННЫХ СИСТЕМ С РАСПРЕДЕЛЕННЫМ КОНТРОЛЕМ Москва - 2001

УДК 007 ББК 32.81 Н 73 Новиков Д.А., Цветков А.В. Механизмы функционирования организационных систем с распределенным контролем. М.: ИПУ РАН, 2001. – 118 с.

Настоящая работа содержит результаты исследований теоретико-игровых моделей управления организационными системами с распределенным контролем, включающими линейные, матричные и сетевые структуры управления. Значительное внимание уделяется изучению практически важных частных случаев взаимодействия участников системы - задачам стимулирования и др.

Работа рассчитана на специалистов (теоретиков и практиков) по управлению организационными системами.

Рецензент: д.т.н. А.В. Щепкин Утверждено к печати Редакционным советом Института СОДЕРЖАНИЕ Введение……….…………………………………………………........4 1. Система классификаций моделей организационных систем с распределенным контролем……………………………………..10 2. Исследование базовых моделей организационных систем с распределенным контролем……………………………………..16 2.1. Модель организационной системы с унитарным контролем (модель РК1)…..…..........………….16 2.2. Модели первого уровня сложности……………………….....36 2.2.1. Модель РК2……………………………………………..36 2.2.2. Модель РК3…..…………………………………………37 2.2.3. Модель РК5…..…………………………………………58 2.2.4. Модель РК13....…………………………………………59 2.3. Модели второго уровня сложности.........................................64 2.3.1. Модель РК4……………………………………………..64 2.3.2. Модель РК6…..…………………………………………65 2.3.3. Модель РК7…..…………………………………………65 2.3.4. Модель РК9…..…………………………………………65 2.3.5. Модель РК14..…………………………………………..66 2.3.6. Модель РК15..…………………………………………..73 2.4. Модели третьего уровня сложности…………………………74 2.4.1. Модель РК8……………………………………………..74 2.4.2. Модель РК10..…………………………………………..75 2.4.3. Модель РК11..…………………………………………..75 2.4.4. Модель РК16..…………………………………………..76 2.5. Общая модель организационной системы с распределенным контролем (модель РК12)..……………...80 3. Сетевые структуры управления…………………………………..81 3.1. Межуровневое взаимодействие………………………………82 3.2. Ромбовидная структура управления…………………………89 3.3. Сетевое взаимодействие………………………………………95 Заключение…………………………………………………………..111 Литература…………………………………………………………... ВВЕДЕНИЕ Функционирование организационных систем (ОС), характеризуемых целенаправленным поведением участников, действующих в рамках определенной системы правил и процедур1, является объектом исследований экономики, психологии, социологии, теории управления и других отраслей наук

и. В зависимости от рассматриваемого аспекта, то есть для различных предметов исследований, используются различные методы исследований. Одним из распространенных методов синтеза оптимальных управлений является математическое моделирование, позволяющее в условиях отсутствия возможности проведения натурного эксперимента проанализировать возможные реакции управляемой системы на те или иные управляющие воздействия, и выбрать такие допустимые управления, которые приводят к желаемому поведению системы. Формальные модели механизмов функционирования организационных систем исследуются в таких разделах теории управления социально-экономическими системами как теория активных систем (ТАС) [6, 11, 13, 22-26, 57, 61], теория иерархических игр [3034, 45], теория контрактов [83-87] и др. В рамках всех этих научных направлений принимается следующее теоретико-игровое описание ОС. Участники ОС – игроки – подразделяются на управляющие органы (центры) и управляемые субъекты (агенты), причем в многоуровневой системе один и тот же участник может одновременно являться и агентом, то есть подчиняться участникам, принадлежащим более высокому уровню иерархии, и центром (с точки зрения управляемых им участников более низких уровней иерархии).

Напомним, что группой называется объединение субъектов, совместно осуществляющих свою деятельность;

коллективом называется группа, члены которой объединены общностью интересов;

организацией (организационной системой) называется коллектив, функционирующий в рамках определенных заданных извне условий, правил и процедур взаимодействия, называемых механизмом функционирования. Таким образом, системообразующим фактором для группы является совместная деятельность, для коллектива - совместная деятельность и общность интересов, для организации - совместная деятельность, общность интересов и механизм функционирования. Активность (способность к целенаправленному поведению) участников описывается их возможностью самостоятельного принятия решений – выбора стратегий, влияющих на состояния (результаты деятельности, выигрыши и т.д.) всех участников. Предпочтения участников на множестве их состояний, как правило, описываются целевыми функциями, ставящими в соответствие стратегиям участников1 их выигрыши. Рациональность поведения участников – стремление к максимизации своей целевой функции – отражается, в зависимости от их информированности (той информации, которой они обладают на момент принятия решений о выбираемой стратегии2) и порядка функционирования ОС (последовательности получения информации и выбора стратегий), в используемой концепции равновесия: в большинстве случаев считается, что, действуя некооперативно (в настоящей работе рассматриваются только некооперативные модели), то есть, выбирая свои стратегии одновременно и независимо, игроки должны оказаться в точке Нэша (или Байеса - в зависимости от принятого описания и введенных предположений) [26, 27, 31, 61, 65, 67, 86]. Рассмотрим взаимодействие между одним агентом и одним центром, находящимся на следующем (более высоком относительно агента) уровне иерархии. Простейшая3 ОС, включающая этих Целевые функции могут зависеть не только от стратегий участников ОС, но и от неопределенных или неконтролируемых ими факторов. Модели ОС, функционирующих в условиях неопределенности, описаны в [62]. В настоящей работе рассматриваются детерминированные модели, в рамках которых участники ОС принимают решения в условиях полной информированности о всех существенных внешних и внутренних параметрах. 2 Относительно понятия "стратегия" следует сделать следующее терминологическое замечание. В узком смысле стратегия - предмет и результат выбора игрока, в широком смысле - правило, по которому игрок осуществляет свой выбор (то есть отображение его информированности во множество допустимых выборов). В настоящей работе мы будем по умолчанию использовать понятие стратегии в первом (узком) его смысле. 3 Детерминированная организационная система, состоящая из одного агента и одного центра, производящих однократно выбор своих стратегий, действительно является "точкой отсчета", то есть базовой моделью как в теории активных систем, так и в теории иерархических игр и в двух участников, описывается совокупностью множеств допустимых стратегий центра и агента (U и A соответственно) и их целевыми функциями (() и f() соответственно), то есть = {U, A, (), f()} (см. конкретизацию информированности и порядка функционирования ниже). Целевые функции (предпочтения) участников в общем случае являются векторными, то есть : U A n, f: U A f, где n 1 и nf 1 - соответствующие размерности. В целях удобства записи скалярные предпочтения (n = 1, nf = 1) будем иногда r обозначать и f, а векторные (n 2, nf 2) – соответственно и n r f.

Множества допустимых стратегий также могут быть многомерными, то есть A n A, nA 1, u = (u1, u2, …, un u ), nu 1. Векторное управление1 (nu 2) будем обозначать u, скалярное (nu = 1) управление – u. Сделав маленькое отступление, отметим, что двухуровневыми расширениями описываемой базовой модели являются многоэлементные ОС, в которых имеется более одного агента: n > 1 (здесь и далее n обозначает число агентов), и двухуровневые ОС с несколькими центрами2: k > 1 (здесь и далее k обозначает число центров).

теории контрактов, и обычно изучение более сложных классов моделей начинается с обсуждения их отличий от базовой. Расширениями базовой модели являются многоэлементные [63], многоуровневые [59], динамические и др. ОС, не рассматриваемые подробно в настоящей работе. 1 В большинстве рассматриваемых в настоящей работе теоретикоигровых моделей управление является функцией от стратегии управляемого субъекта. В этом случае под скалярным управлением понимается функция, принимающая значения из 1, а под векторным управлением вектор-функция. 2 Несколько забегая вперед, отметим, что критерием отнесения субъекта к множеству центров или множеству агентов, является информированность, порядок функционирования и ограничения на допустимые множества - центр является метаигроком, наделенным правом первого хода и, следовательно, имеющим право выбирать свою стратегию в виде функции от стратегии агента, делающего свой ход вторым (см. также общее описание и классификацию иерархических игр в [31, 34, 45]). r В работах [72, 73] было предложено называть ОС, в которых каждый агент подчинен одному и только одному центру, ОС с унитарным контролем, а ОС, в которых хотя бы один агент подчинен одновременно двум центрам – ОС с распределенным контролем (ОС РК). В более общем случае в класс ОС РК можно условно включить ОС с векторными предпочтениями участников, ОС с многомерными множествами допустимых стратегий и т.д. Именно ОС РК в этом (расширенном) смысле и являются предметом исследования в настоящей работе. Частным случаем ОС РК являются ОС с межуровневым взаимодействием, в которых агент подчинен одновременно двум центрам, находящимся на разных уровнях иерархии [59]. Обобщением ОС РК являются сетевые структуры управления, в которых отсутствует ярко выраженная иерархия и древовидность отношений подчинения [59]. Подробное рассмотрение сетевых структур управления выходит за рамки предмета исследования настоящей работы (краткое их описание приводится в третьем разделе настоящей работы) и является перспективным предметом будущих исследований. Примеры различных структур управления (линейной, матричной и сетевой) и составляющих их элементов (соответственно прямая, треугольная и ромбовидная структуры) приведены на рисунках 1-3 (вертикальные связи между соседними уровнями в рамках древовидной структуры обозначены тонкими линиями, взаимодействие (игра) центров - горизонтальные связи между управляющими органами - обозначены жирными линиями, межуровневое взаимодействие обозначено двойными линиями). Стандартным порядком функционирования одноэлементной1 ОС назовем следующий – центры выбирают одновременно свои стратегии (u1, u2, …, uk), являющиеся функциями от будущего выбора агента, то есть ui = u i(y), i = 1, k, k 1, и сообщают их агенту. Агент при известном управлении выбирает свою стратегию – действие y A, которое становится известным центрам. Множество действий агента, доставляющих при фиксированном управле В настоящей работе исследуются одноэлементные ОС РК. Специфика многоэлементных ОС подробно описана в [21, 58, 63]. нии "максимум" его целевой функции1, называется множеством решений игры или множеством действий, реализуемых данным управлением.

Ц Ц А А … Аi … An Аi Рис. 1. Линейная структура управления и ее элемент (прямая структура управления) Ц Ц … Цj … Цk Ц Ц А А … Аi … An Аi Рис. 2. Матричная структура управления и ее элемент (треугольная структура управления) Употребление кавычек обусловлено следующими причинами. Во-первых, если не оговорено особо (и если на этом не надо акцентировать внимание читателя), будем считать, что все максимумы и минимумы достигаются (в противном случае будут использоваться соответственно Sup и Inf). Во-вторых, не всегда понятно, что означает "максимум" векторной функции, поэтому до тех пор, пока соответствие рационального выбора участника ОС РК не введено корректно (см. ниже), будем ограничиваться интуитивным пониманием рационального поведения. Ц Ц Ц Ц … Цj … Цk Ц Ц А А … Аi … An Аi Рис. 3. Сетевая структура управления и ее элемент (ромбовидная структура управления) При этом стандартная информированность участников следующая: центрам и агенту на момент принятия решений известна модель ОС, кроме того агенту известны стратегии центров. В ходе дальнейшего изложения, если не оговорено особо, по умолчанию будем считать, что имеют место стандартные информированность и порядок функционирования. В ОС с унитарным контролем, то есть в системе, в которой имеется единственный управляющий орган, эффективностью управления (гарантированной эффективностью управления) называется "максимальное" ("минимальное") значение целевой функции центра на множестве решений игры. Следовательно задача управления заключается в поиске допустимого управления, имеющего максимальную (или максимальную гарантированную) эффективность. Теоретико-игровые модели управления исследовались в основном для ОС с унитарным контролем (исключениями, описы вающими частные случаи, являются работы [31, 38, 39, 59, 72, 73, 87]), поэтому в настоящей работе предпринимается попытка систематического исследования ОС РК. Изложение имеет следующую структуру. В первом разделе вводится система классификаций ОС РК и выделяется совокупность базовых моделей, которые подробно исследуются во втором разделе. Следует отметить, что изложение ведется индуктивно – последовательно от самой простой модели (раздел 2.1) к наиболее общей (раздел 2.5), что позволяет наиболее отчетливо представить специфику ОС РК. Раздел 3 содержит описание обобщения ОС РК - сетевых структур управления, а также постановку и обсуждение задачи синтеза оптимальной структуры ОС, решаемой на основании исследования сетевого взаимодействия участников ОС. В заключении обсуждаются основные результаты и перспективы дальнейших исследований. 1. СИСТЕМА КЛАССИФИКАЦИЙ МОДЕЛЕЙ ОРГАНИЗАЦИОННЫХ СИСТЕМ С РАСПРЕДЕЛЕННЫМ КОНТРОЛЕМ Соответственно перечисленным во введении специфическим характеристикам ОС с распределенным контролем, можно выделить следующие основания системы их классификаций (в скобках приводятся возможные значения признаков классификации):

- множество допустимых действий АЭ (одномерное – nA = 1, многомерное – nA 2);

- целевая функция АЭ (скалярная – f, векторная – f );

- число центров (один – k = 1, несколько – k 2);

- управление со стороны центров (скалярное – u, векторное – r u ). Перечисляя все возможные комбинации значений признаков системы классификаций1, получаем шестнадцать базовых моделей ОС РК, описание которых приведено на рисунке 4 и в таблице 1.

r Список оснований системы классификаций может быть расширен, например, за счет рассмотрения возможности наличия у центра векторных предпочтений, однако, учет последних производится по аналогии с ОС Рис. 4. Система классификаций ОС РК учетом векторных предпочтений агента, поэтому предпочтения центра считаются скалярными (см. предположение А.0 ниже) и т.д. Модель Множество допустимых действий агента nA = 1 nA = 1 nA = 1 nA = 1 nA 2 nA 2 nA 2 nA 2 nA 2 nA 2 nA 2 nA 2 nA = 1 nA = 1 nA = 1 nA = Целевая функция агента f f f f f f f Число центров k=1 k=1 k2 k2 k=1 k=1 k2 k2 k=1 k=1 k2 k2 k=1 k=1 k2 k Управление u РК1 РК2 РК3 РК4 РК5 РК6 РК7 РК8 РК9 РК10 РК11 РК12 РК13 РК14 РК15 РК r u u r u u r u u r f r f r f r f r f r f r f r f f r u u r u u r u u r u u r u Таб. 1. Базовые модели ОС РК Из введенной выше системы классификаций видно, что шестнадцать базовых моделей ОС РК (условно обозначенных РК1 – РК16) не являются "независимыми": модель РК12 является наиболее общей, включающей все остальные модели в качестве частных случаев. При этом простейшей моделью (базовой моделью ТАС) является модель РК1, в которой собственно распределенный контроль отсутствует. Процесс генерации моделей ОС РК (в порядке усложнения) можно представить следующим образом (см. усложнения) можно представить следующим образом (см. рисунок 5). В модели РК1 (условно назовем ее моделью нулевого уровня сложности) агент имеет скалярные множество допустимых действий и предпочтения и управляется единственным центром, стратегии которого также скалярны. При изменении одного из четырех параметров, описывающих ОС РК (A, f, k, u), модель РК1 "превращается", соответственно в модели РК5, РК13, РК3 и РК2 (на рисунке 5 переходы изображены стрелками, около которых стоит та переменная, которая изменяется при данном переходе), которые условно назовем моделями первого уровня сложности. Из четырех моделей первого уровня сложности можно, изменяя значения одного из неизмененных параметров, получить шесть различных моделей второго уровня сложности (РК9, РК7, РК6, РК15, РК14, РК4). Изменяя в последних по одному из двух неизмененных (по сравнению с моделью РК1) параметров, получим четыре модели третьего уровня сложности – РК11, РК10, РК8, РК16. И, наконец, изменяя в них единственный неизмененный до сих пор параметр, получаем одну (наиболее общую) модель четвертого уровня сложности – РК12. Таким образом, классы моделей ОС РК различного уровня сложности образуют иерархию, представленную на рисунке 5. Приведенные на рисунке 5 отношения между базовыми моделями ОС РК позволяют систематизировать их изучение, поэтому во втором разделе последовательно рассматриваются базовые модели в порядке увеличения уровня сложности их класса – от нулевого (модель РК1) к максимальному (модель РК12). Следует отметить, что не все шестнадцать определенных выше базовых моделей ОС РК как одинаково сложны для теоретического анализа и необходимы для последовательного перехода от более простых моделей к более сложным, так и представляют одинаковый интерес с точки зрения практических приложений. Как будет видно из последующего изложения, так как в ОС РК имеются два наиболее ярких свойства - наличие игры центров и векторные предпочтения агента, характерными являются четыре модели: РК 1, РК 3, РК 14 и РК 16, выделенные на рисунке 5 жирными линиями.

РК A f k u РК f k u РК A k u РК A f u РК A f k РК РК РК РК РК РК k f A u f A u k A u k f РК РК РК РК u k f A РК Рис. 5. Иерархия классов базовых моделей ОС РК Объяснение сделанным акцентам следующее: модель РК 1, являясь моделью ОС с унитарным контролем, есть та точка отсчета, с которой сравниваются в процессе индуктивного усложнения все модели ОС РК;

в модели РК 3 впервые появляется игра центров;

в модели РК 14 впервые появляются векторные предпочтения агента, а в модели РК 16 - одновременно имеют место как игра центров, так и векторные предпочтения агента. Несколько забегая вперед, можно сделать следующие качественные выводы. Во-первых, размерность множеств допустимых стратегий участников ОС не является существенным фактором - с теоретической точки зрения большинство результатов выглядят одинаково и для одномерных, и для многомерных множеств1, различие обусловлено лишь тем, что отличаются содержательные интерпретации (например, формулировка задачи стимулирования возможна не для всех комбинаций признаков, различающих базовые модели – см. раздел 2). Во-вторых, наличие векторных предпочтений агента вызывает значительные трудности в основном в силу того, что понятие рационального выбора в этой ситуации неоднозначно с точки зрения теории принятия решений. И, наконец, в третьих, наиболее интересные (с субъективной точки зрения авторов) эффекты в ОС РК (по сравнению с ОС с унитарным контролем) возникают при наличии нескольких центров, которые вовлечены в игру на этапе согласованного определения управлений. Перейдем к последовательному описанию базовых моделей ОС РК.

Все результаты, полученные для модели РК 1 справедливы и в модели РК 5, для модели РК 13 - в модели РК 9, для модели РК 3 - в модели РК 7, для модели РК 2 - в модели РК 6 и т.д. - см. рисунок 5 и раздел 2. 2. ИССЛЕДОВАНИЕ БАЗОВЫХ МОДЕЛЕЙ ОРГАНИЗАЦИОННЫХ СИСТЕМ С РАСПРЕДЕЛЕННЫМ КОНТРОЛЕМ 2.1. Модель организационной системы с унитарным контролем (модель РК1) Рассмотрим базовую модель организационной системы с унитарным контролем – модель РК1. Отметим, что данная модель является базовой для теории активных систем (и собственно распределенный контроль в ней отсутствует) - с ее изучения начинается исследование всех моделей ОС (многоэлементных, многоуровневых, динамических и т.д.), то есть она является той "точкой отсчета", с которой сравниваются более сложные модели, обладающие соответствующей спецификой. В общем случае модель одноэлементной, статической, двухуровневой ОС описывается заданием целевых функций и допустимых множеств участников системы – центра и агента (активного элемента (АЭ) в терминах ТАС), то есть = {(), f(), U, A}, а также информированностью участников и порядком функционирования. Относительно информированности и порядка функционирования предположим следующее1. На момент принятия решений и центр, и агент имеют полную и достоверную информацию относительно (условно этот этап отражен "нулевым" шагом на рисунке 6). Центр выбирает свою стратегию u U, являющуюся функцией от действия агента2, то есть u = u (y), и сообщает ее агенту (первый шаг). Затем агент при известной ему стратегии центра выбирает свое действие y A (второй шаг), которое наблюдается центром и определяет значения целевых функций участников: (u, y) и f(u, y) (третий шаг - см. рисунок 6).

Напомним, что выше было введено предположение о том, что имеют место стандартные порядок функционирования и информированность, которые иллюстрируются рисунком 6. 2 Отметим, что в настоящей работе символ "^" над стратегией центра обозначает, что рассматривается функция от стратегий агента. Ц () U f() A Ц Ц Ц (u, y) u y f(u, y) АЭ 0-ой шаг АЭ 1-ый шаг АЭ 2-ой шаг АЭ 3-ий шаг Рис. 6. Стандартный порядок функционирования ОС Относительно целевой функции центра ниже всюду, то есть при рассмотрении всех моделей ОС РК, считается, что выполнено следующее предположение1. А.0. Целевая функция центра (центров в моделях с несколькими управляющими органами) скалярна: : U A 1. Модель РК1, обозначаемая РК1, характеризуется наличием одного центра, выбирающего скалярные управления, то есть u : A 1, а также скалярным множеством допустимых действий агента и скалярными предпочтениями агента. Таким образом, РК1 = {nA = 1, f, k = 1, u}, то есть модель РК1 описывается игрой Г2 (в терминологии теории иерархических игр (ТИИ) [31, 33, 45])2. Будем считать, что при выборе стратегий участники следуют гипотезе рационального поведения, то есть выбирают соответствующие стратегии, стремясь максимизировать значение своей целевой функции. Это, в частности, означает, что агент выбирает Возможность наличия векторных предпочтений центра описывается по аналоги с тем как это делается ниже для агента. 2 Далее по "игрой" будем понимать игру типа Г2 или ее модификации. одно из действий, реализуемых управлением u U, назначенным центром, то есть y P(u), где1 (1) P(u) = Arg max f(u, y).

y A Напомним, что множество P(u) называется множеством решений игры, или множеством действий, реализуемых данным управлением. Для определения эффективности управления необходимо доопределить рациональный выбор агента, то есть указать то конкретное его действие, на выбор которого рассчитывает центр при использовании управления u U. Среди возможных подходов наиболее распространены два "предельных" – гипотеза благожелательности (ГБ), в рамках которой считается, что агент выбирает из множества решений игры наиболее благоприятное для центра действие, и принцип максимального гарантированного результата (МГР), в соответствии с которым центр вправе рассчитывать на выбор агентом наихудшего (с точки зрения центра) реализуемого действия. Следовательно, в рамках ГБ можно определить эффективность управления K(u) (соответственно, в рамках МГР – гарантированную эффективность управления Kg(u)) как максимальное (минимальное) по множеству решений игры значение целевой функции центра: (2) K(u) = max (u, y), yP ( u ) (3) Kg(u) = min (u, y).

yP ( u ) Задача управления (задача синтеза оптимальных управлений) заключается в выборе допустимых управлений, имеющих максимальную эффективность (или максимальную гарантированную эффективность): (4) K(u) max, uU (5) Kg(u) max.

uU В настоящей работе принята независимая внутри каждого подраздела нумерация формул. Обозначим максимальные значения функционалов (4) и (5) соответственно: (6) K* = max max (u, y) uU yP ( u ) и (7) Kg* = max uU yP ( u ) min (u, y), а оптимальные управления соответственно: (8) u* = arg max max (u, y) uU yP ( u ) и (9) ug* = arg max uU yP ( u ) min (u, y).

но:

Управление u U называется -оптимальным, если выполне K* - K(u), 0. Аналогичным образом определяется гарантированная оптимальность. Понятно, что если на величину не наложить никаких ограничений, то при минимальных предположениях для любого допустимого управления в рамках ГБ найдется такое значение 0, что это управление будет -оптимальным [52, 60, 66]. Введем следующее предположение1: А.1. Функции () и f() непрерывны на компактах U и A. Стратегия наказания uн агента центром соответствует минимизации целевой функции агента по стратегии центра: (10) f( uн (y), y) = min f(u, y).

uU Абсолютно оптимальная стратегия центра u0 соответствует максимизации его целевой функции по собственной стратегии: (11) ( u0 (y), y) = max (u, y).

uU Отметим, что предположение А.1 не подразумевает "скалярности" множеств допустимых стратегий участников ОС, то есть результаты теорем 1-4, приводимых ниже, имеют место и для векторных действий агента, и для векторных управлений центра, однако при этом предпочтения участников считаются скалярными. Следуя терминологии и обозначениям [31], введем некоторое малое > 0 и следующие величины и множества: L - максимальное гарантированное значение целевой функции агента: (12) L = max f( uн (y), y);

y A E - множество действий агента, обеспечивающих ему получение выигрыша не менее L: (13) E = {y A | f( uн (y), y) = L};

D - множество пар стратегий центра и агента, при которых значение целевой функции агента строго превышает ее максимальное гарантированное значение: (14) D = {(u, y) U A | f(u, y) > L};

K1 - максимальное на множестве D значение целевой функции центра: (15) K1 = ( u, y )D sup (u, y ), D, D= ;

K2 - максимальное на множестве E значение целевой функции центра: (16) K2 = min max (u, y);

yE uU (u, y) D - пара -оптимальных стратегий центра и агента: (17) (u, y) K1 -. Решение задачи (5) дается следующей теоремой. Теорема 1 [31, 33]. Пусть выполнено предположение А.1. Тогда Kg* = max {K1, K2} -, > 0, а стратегия (18) * u u, если y = y, K1 > K 2 = u0, если y E, K1 K 2 u, в остальных случаях н является гарантированно -оптимальной стратегией центра. Введем в рассмотрение множество D0 - множество пар стратегий центра и агента, при которых значение целевой функции агента не меньше ее максимального гарантированного значения: (19) D0 = {(u, y) U A | f(u, y) L}.

Очевидно, y E (uн, y) D0. Решение задачи (4) дается следующей теоремой. Теорема 2а [31, 33]. Пусть выполнено предположение А.1 и ГБ. Тогда (20) K* = max (u, x), ( u, x )D а стратегия (21) u* = где ~ u *, если y = x *, uн, если y x * ( u, y )D ~ (22) ( u *, x*) = arg max (u, y) является оптимальной стратегией центра. Величина x* A, фигурирующая в утверждении теоремы 2а, является планом - желательным с точки зрения центра состоянием агента [17-19, 23, 53]. Содержательно результат теоремы 2а означает, что агент наказывается в случае выбора им стратегии, отличной от плана, и поощряется при выполнении плана. В последнем случае его выигрыш не меньше того, что он мог бы получить при использовании центром стратегии наказания. Легко видеть, что x* P(u*), то есть план x*, определяемый как решение задачи (19)-(22), является согласованным [23]. В теореме 2а оптимальное управление определялось на множестве (19), то есть рассматривались пары управлений и действий агента, обеспечивающие последнему выигрыш не менее максимального гарантированного. Возможен альтернативный подход, приводящий к тому же результату, который основывается на использовании метода "минимальных затрат" центра на управление1. Этот метод заключается в следующем.

Не очень удачный термин "затраты" обусловлен тем, что впервые этот метод использовался в задачах стимулирования, в которых управление интерпретировалось как затраты центра на стимулирование агента [20, 82, 85]. Определим для каждого действия агента y A множество U(y) U управлений, реализующих эти действия: U(y) = {u U | y P(u)}. Обозначим P(U) = U P (u ) A - множество тех действий агента, uU которые могут быть реализованы при заданных ограничениях на управление. Управление umin, реализующее заданное действие и максимизирующее целевую функцию центра, называется "минимальными затратами" центра на управление по реализации этого действия: umin = arg max (u, y).

uU ( y ) Теорема 2б. Пусть выполнено предположение А.1 и ГБ. Тогда стратегия u, если y = y * * u min = min, uн, если y y * где y* = arg max ( u min ( y ), y), является оптимальной стратегиyP (U ) ей центра1. Доказательство. Докажем, что при использовании подхода "минимальных затрат" на управление эффективность управления не * снижается, то есть покажем, что K( u min ) = K*. Во-первых, в силу ГБ при использовании центром управления * umin агент выбирает действие y*. Во-вторых, так как по определе нию имеет место K* = ( u, x )D * max (u, x), K( u min ) = ( u min ( y * ), y*), то достаточно показать, что есть, что ( u, x )D ( u, x )D max (u, x) = ( u min ( y * ) ), то max (u, y).

max (u, x) = max yP (U ) uU ( y ) Частный случай теоремы 2б (для задач стимулирования) доказан в [46, 62]. Обозначим D' = {(u, y) U A | y P(U), u U(y)} - множество пар стратегий центра и агента, по которым вычисляются макси* мумы при определении эффективности управления u min. * Предположим противное, то есть пусть K( u min ) < K*, следовательно должны найтись управление u* и действие x*, принадлежащие множеству D0, доставляющие максимум по этому множеству целевой функции центра и не принадлежащие множеству D'. Но действие x* при этом непременно должно быть реализуемо, причем именно управлением u*. Следовательно, (u*, x*) D' - противоре ~ чие. Более того, стратегии u * и umin, фигурирующие в теоремах 2а и 2б соответственно, могут быть выбраны совпадающими. •1 Таким образом, в рамках ГБ для решения задачи синтеза оптимальных управлений возможно использование как результата теоремы 2а, так и теоремы 2б. Во многих практически важных частных случаях (см. ниже) применение теоремы 2б менее трудоемко и позволяет приводить более простые содержательные интерпретации. Проведем качественное обсуждение различий ГБ и принципа МГР см. также теорему 4 ниже). Различие между утверждениями теорем 1 и 2 (под теоремой 2 понимаются теоремы 2а и 2б) имеет место, если для оптимального решения (22) выполнено f(u*, x*) = L (в противном случае, то есть при f(u*, x*) > L, единственный оптимальный выбор агента – стратегия x*). В данном случае центр сравнивает два механизма2 (см. теорему 1). В первом механизме назначается -оптимальное управление, являющееся решением задачи (15), (17) и гарантирующее агенту значение целевой функции строго большее, чем L. Эффективность этого механизма равна K1. Во втором механизме центр побуждает агента выбрать одну из стратегий из множества E и назначает абсолютно оптимальную при Символ «•» здесь и далее обозначает окончание доказательства, примера и т.д. 2 Механизмом управления в широком смысле называется совокупность методов, правил, процедур и т.д., регламентирующих взаимодействие участников ОС. В узком смысле механизм управления – правило принятия решений центром [23, 26, 61], то есть – стратегия центра в широком смысле (см. выше). этом выборе агента собственную стратегию. Эффективность этого механизма равна K2. В обоих случаях центр предлагает агенту выигрыш не менее L, угрожая использованием стратегии наказания. Как следует из (18), центр выбирает механизм, обладающий наибольшей эффективностью. Результат теоремы 1 может быть упрощен при введении дополнительных предположений (обеспечивающих выполнение K1 K2). Следствие 3 [31, 33]. Если функция f() не имеет локальных максимумов со значением L на U A и max f(u, y) > L, то ( u, y )U A стратегия u, если y = y * (23) u = uн, если y y является гарантированно -оптимальной стратегией центра. В частности, условия следствия 3 выполнены, если центр может использовать побочные платежи, что достаточно распространено в прикладных моделях управления социальноэкономическими системами [23, 30, 62]. Напомним, что в игре с побочными платежами целевые функции центра и агента имеют соответственно вид: (u, z, y) = (u, y) - z, f(u, z, y) = f(u, y) + z, где z [0;

С], С > 0, то есть z - выплаты центра агенту. При этом стратегией центра является выбор пары (u, z), u U, z [0;

С]. Если появляется возможность использования побочных платежей, то множества L и E, стратегия наказания (uн, 0), абсолютно оптимальная стратегия (u0, 0), а также значение K2, введенные выше, не изменятся, а множество D и значение K1 примут соответственно вид: (24) D(C) = {(u, z, y) | f(u, y) + z > L, 0 z C}, (25) K1(C) = ( u, z, y )D (C ) sup {(u, y) - z} = = max ( u, y ) f ( u, y ) L C min {(u, y) ;

(u, y) + f(u,y) - L}, причем -оптимальной будет стратегия (23), где z = (y), : A [0;

C], и 0 < (y)< C, а (u, y) определяется (15), (17) [30, 31]. Таким образом, в игре с побочными платежами стратегией центра является выбор {u = u ( y ), z = (y)}, что позволяет использовать простые стратегии типа (23). Важным частным случаем рассматриваемой модели управления является модель стимулирования, описываемая игрой Г2 с побочными платежами, в которой целевые функции () и f() не зависят явным образом от управления u U (см. подробное описание и содержательные интерпретации в [46, 62], а также ниже). Обозначим эту игру Г. В модели стимулирования стратегия центра z = (y) называется1 функцией стимулирования (механизмом стимулирования, системой стимулирования - см. обсуждение терминологических различий в [62]), стратегия y A агента называется его действием, а величина C > 0 – ограничением механизма стимулирования2. Для двух практически важных случаев связь между гарантированной оптимальностью и оптимальностью в рамках ГБ устанавливается следующей теоремой (см. также результаты, приведенные в [30, 31, 60]). Теорема 4. Пусть выполнено предположение А.1 и (u*, x*) решение задачи (20), (21), имеющее в исходной игре Г2 с побочными платежами или без них в рамках ГБ эффективность K*. Тогда, если выполнено одно из следующих условий: 1) z* = *(x*) < C;

2) исходная игра является игрой Г, то в соответствующей игре с побочными платежами (С > 0) суще* * * * ствуют > 0 и ( u, z ) U [0;

C] такие, что Kg( u, z ) K* -.

При рассмотрении моделей стимулирования зависимость от стратегии центра в записи целевых функций () и f() будет опускаться. 2 Можно рассматривать и отрицательное по знаку стимулирование (z 0) агента, которое может интерпретироваться как штрафы, выплачиваемые центру. Доказательство. Если P(u*) = {x*}, то, независимо от наличия или отсутствия в исходной игре побочных платежей (условия 1 и * * не требуются!), выбрав u = u*, z = 0, получим, что * * Kg( u, z ) = K*.

Если y' x*, x*, y' P(u*) A, то есть f(u*, y') = f(u*, x*) и (u*, y') < (u*, x*), тогда возможно, что для > 0 выполнено (u, z) K* - Kg(u, z) >. Если в исходной игре отсутствовали побочные платежи, то * * введем их, то есть построим стратегию ( u, z ) следующим образом1:

, y = x * * * (26) u = u*, z = (y) =, * где (0;

C] - произвольное (даже сколь угодно малое!) положительное число. Содержательно предельное значение K1(0) (см. выражение (25)) есть реализация ГБ в исходной игре без побочных платежей. Если в исходной игре имелись побочные платежи, удовлетворяющие первому пункту условий теоремы, то есть z* = *(x*) < C, то в (26) следует выбрать (x*) = *(x*) +, где 0 < C - *(x*).

* * Если x* P(u*), то P( u, z ) = {x*}. При этом имеет место: * * Kg( u, z ) = K* -. Осталось рассмотреть случай, когда в исходной игре, являющейся игрой типа Г (см. второй пункт условий теоремы), присутствовали побочные платежи, причем z* = *(x*) = C (иначе попадаем в условия уже доказанного первого пункта условий теоремы)2.

0, y x Содержательно в (26) производится увеличение степени централизации механизма управления (см. определения и обсуждение в [17-19, 23, 44]). В ТАС известен следующий результат: на множестве согласованных механизмов управления оптимален механизм с максимальной степенью централизации [23]. 2 Более общий случай (когда исходная игра не является игрой типа Г) обсуждается в [31]. В задаче стимулирования целевые функции центра и агента имеют соответственно вид: (27) (z, y) = (y) - z, (28) f(z, y) = f(y) + z. Фиксируем некоторое малое > 0 и введем в рассмотрение следующие множества: (29) B(x*, ) = {y A | (x*) - (y) }, (30) P(C) = {y A | f(y) L - C}. Если функции () и f() монотонны, то в силу предположения А.1 B(x*, ) и P(C) – замкнутые множества. Сделав маленькое отступление, отметим, что содержательно B(x*, ) - множество таких действий агента, на которых значение функции () меньше, чем максимальное значение в исходной игре не более, чем на, то есть, если при некотором y' B(x*, ) (y') = C, то значение целевой функции центра не меньше, чем K*, причем в силу того, что рассматривается случай, при котором выполнено z* = *(x*) = C, последнее значение равно (x*) - C -. Множество P(C) представляет собой множество таких действий агента, которые обеспечивают ему значение функции f() не меньшее, чем L. Как мы увидим в дальнейшем (см. также выражения (19) и (25)) в задаче стимулирования множество P(C) есть максимальное множество действий агента, реализуемых при данном ограничении C механизма стимулирования. Вернемся к доказательству. Из предположения А.1 следует, что (0;

C] x* B(x*, ) P(C). Если (0;

C], y B(x*, ) P(C) выполнено * * f(y) f(x ) = L - C, то z = 0 - противоречие. Таким образом (0;

C] y B(x*, ) P(C): f(y) > f(x*). Отметим, что если функция f() строго монотонна1, то в рамках предположения А.1, величина может быть выбрана сколь угодно малой.

Достаточным является выполнение более слабого условия – отсутствия у функции f() в точке x* локального максимума со значением L - C. Используя систему стимулирования * (31) z = C, y = y, 0, y y центр обеспечивает единственность точки максимума целевой * функции агента, то есть P( z ) = {y}.

Из (29) следует, что потери центра от реализации действия y по сравнением с действием x* не превышают, что и требовалось доказать. • Рекламный вариант теоремы 4 может быть сформулирован следующим образом: 1) за счет увеличения или введения при их отсутствии побочных платежей гарантированная эффективность управления может быть сделана сколь угодно близкой к эффективности управления в рамках гипотезы благожелательности;

2) в задаче стимулирования гарантированная эффективность управления может быть сделана сколь угодно близкой к эффективности управления в рамках гипотезы благожелательности1. Следствие 52. Пусть имеются две игры, отличающиеся лишь ограничениями на размер побочных платежей, а побочные платежи удовлетворяют следующему условию: C1 0, C2 > C1. Тогда для эффективностей управления в этих играх выполнено K1 K2. Следствие 6. При отсутствии ограничений на размер побочных платежей (C = +) результат теоремы 4 справедлив без дополнительных условий типа 1 или 2. Теорема 4 имеет важное методологическое значение, так как она устанавливает связь между эффективностью и гарантированной эффективностью управления (понятно, что при выборе агентом любого действия из множества P(u) эффективность управления u U будет не выше оценки, даваемой выражением (2), и не ниже оценки, даваемой выражением (3)). Из теоремы 4 также следует, что в рамках введенных предположений для любого оптимального в рамках ГБ управления существует сколь угодно мало отличаюЗа исключением случая, когда f(x*) = L - C и x* - точка локального максимума. 2 Аналогичные утверждения, полученные в ТАС [23, 62], формулировались следующим образом: с ростом ограничений механизма стимулирования его эффективность не уменьшается. щееся от него по эффективности гарантированно -оптимальное управление. Поэтому результат теоремы 4 дает нам возможность при рассмотрении моделей ОС РК ограничиться случаем гипотезы благожелательности, то есть предполагать благожелательное отношение агента к центру (следует отметить, что для случая нескольких центров ГБ доопределяется ниже), так как отказ от ГБ, то есть переход к методу МГР при определении выбора агента, слабо изменяет эффективность управления, но иногда существенно затрудняет поиск решения (ср. для примера стратегии (21) и (18)). Итак, в рамках достаточно общих предположений, отражающих специфику рассматриваемых задач управления, эффективность управления (определяемая в рамках гипотезы благожелательности) и гарантированная эффективность управления1 слабо отличаются друг от друга (см. выражения (26), (29) и (31), в которых величина, аддитивно входящая в целевую функцию центра, может быть выбрана сколь угодно малой). Поэтому в ходе дальнейшего изложения результатов исследования теоретико-игровых моделей ОС РК, если не оговорено особо, будем считать, что выполнена гипотеза благожелательности, в рамках которой решение задачи управления для базовой модели дается теоремой 2. Чрезвычайно важным (как с теоретической - см. теорему 4, так и с практической точек зрения2) частным случаем задачи управления ОС РК является задача стимулирования (см. определение выше). Поэтому при рассмотрении всех шестнадцати базовых моделей ОС РК будем, наряду с общими теоретическими результатами (которые иногда настолько сложны и громоздки, что не допускают простых содержательных интерпретаций), рассматривать в качестве примера модель стимулирования в соответствующей ОС.

Необходимо отметить, что речь идет о максимальных значениях функционалов (2) и (3), достигаемых на вообще говоря различных управлениях - см. обсуждение проблем устойчивости решений задач управлений и адекватности моделей в [31, 43, 51, 52, 60, 66]. 2 С теоретической точки зрения задача стимулирования представляет интерес в частности потому, что для нее удается получить простое аналитическое решение. С практической точки зрения она описывает широкий класс прикладных задач мотивации, управления персоналом и т.д. [37, 46, 62, 77, 80-85]. Задача стимулирования в модели РК1. Для того, чтобы различать игру Г как частный случай игры Г2 введем следующие определения: целевые функции участников ОС имеют вид: (32) (z, y) = (y) - z = W(, y) = H(y) - (y), (33) f(z, y) = f(y) + z = w(, y) = (y) - c(y), где H(y) - функция дохода центра, c(y) - функция затрат агента (то есть H(y) = (y), (y) = z (y), f(y) = -c(y)), удовлетворяющие следующему предположению. А.2. A = 1, H() и c() - непрерывные строго возрастающие + функции, H(0) = c(0) = 0. А.2'. A.2 и H() - вогнутая, c() - выпуклая дифференцируемые функции. Содержательно, действием агента могут являться число отработанных часов, объем выпуска и т.д. Доход центра и затраты агента зависят от действия последнего, причем целевая функция центра представляет собой разность между его доходом и стимулированием – вознаграждением, выплачиваемым агенту, а целевая функция агента – разность между стимулированием, полученным от центра и затратами1. Несколько забегая вперед отметим, что при рассмотрении задач стимулирования2 под векторной целевой функцией агента (случай f ) будем понимать векторную функцию затрат, то есть c: A f, nf 2. Аналогично, при векторных управлениях (слуr чай u ) будем считать, что целевая функция центра скалярна и n r Аддитивность" целевых функций подразумевает, что доход центра, затраты агента и стимулирование измеряются в одних и тех же единицах, например, в рублях или каких-либо условных единицах. 2 Необходимость доопределения того, что понимается под векторными целевыми функциями и управлениями (то есть согласования различных значений признаков оснований системы классификаций, введенной в разделе 1.1) возникает из-за того, что выше предполагалось, что целевая функция центра скалярна, а в задаче стимулирования управление аддитивно входит в целевые функции участников ОС, причем остальные слагаемые не зависят от управления. определяется суммарными затратами на стимулирование, определяемыми следующим образом: (y) = nA i = i ( y), где i(y) - стимулирование за i-ю компоненту вектора действий. Введенные выше величины и множества в игре Г имеют следующий вид: н(y) = 0;

L = min c(y) = 0;

E = {0};

K2 = 0.

y A Выражение (24) примет в игре Г вид: (34) D0(C) = {((y), y) | C (y) c(y)}, выражение (25) примет в игре Г вид: (35) K1(C) = max min {(u, y) ;

(u, y) + f(u,y) - L}, C ( y ) c ( y ) ( ( y ), y ) выражение (30) примет в игре Г вид: (36) P(C) = {y A | с(y) С}. В силу предположения А.2 эффективность управления (35) равна: (37) K1(C) = max {H(y) - c(y)}, yP ( C ) оптимальное реализуемое действие y* равно1 (38) y*(C) = arg max {H(y) - c(y)}, yP ( C ) а максимальное множество (36) реализуемых при заданных ограничениях механизма стимулирования действий равно (39) P(C) = [0;

y+(C)], где (40) y+(C) = max {y A | c(y) C}.

Если выполнено предположение А.2', то выражение (38) может быть dH ( y * ) dc( y * ) записано в виде: =. Данное условие в экономике интерdy dy претируется следующим образом: заработная плата является эффективной, если предельный продукт агента равен его предельной производительности [42, 46, 75]. Теорему 2 (см. выражения (24), (25)) для игры Г сформулируем в виде отдельной теоремы, имеющей множество аналогов в [31, 46, 62]. Теорема 7. Пусть выполнены предположения А.1, А.2 и ГБ. Тогда система стимулирования (41) *(y) = c( y ), y = y * (C ), y y * (C ) 0, где y*(C) удовлетворяет (38), является оптимальной системой стимулирования, эффективность которой определяется выражением (37). Легко видеть, что в рамках введенных предположений множество реализуемых действий состоит из двух точек, то есть P(*) = {0} {y*}. В силу гипотезы благожелательности агент выбирает действие y*. Если ориентироваться на метод максимального гарантированного результата, то гарантированная эффективность управления (41) равна Kg(*) = H(0) - c(y*) < K1(C). Используя систему стимулирования (42) (y) = c( y ) + / 2, y = y, y y 0, где > 0, y B(y*, /2) P(С) в силу предположения А.2 и (29) получаем, что Kg() K1(C) - (ср. с доказательством теоремы 4 - в силу ). Строго положительная величина при этом может быть выбрана сколь угодно малой. Система стимулирования (41) в ТАС получила название квазикомпенсаторной (К-типа) [46, 61, 62]. Содержательно, ее использование означает компенсацию центром затрат агента в случае выбора последним наиболее предпочтительного для центра действия. Система стимулирования (43) С(y) = где x P(C), получила название квазискачкообразной [46, 61, 62], а система стимулирования (44) L(y) = y, C, y = x, 0, y x где 0 получила название пропорциональной (или линейной) системы стимулирования [46, 61, 62]. Понятно, что, если (41) оптимальная система стимулирования, то любые другие системы стимулирования (в том числе – (43), (44)) имеют не большую эффективность (см. оценки сравнительной эффективности различных систем стимулирования в [46, 62]). Теорема 7 является непосредственным следствием теоремы 4. В то же время, для игры Г можно доказать справедливость утверждения теоремы 7 используя специфику задачи стимулирования, то есть не прибегая к использованию общих результатов, полученных для игр типа Г2. Для этого введем следующее определение. Минимальными затратами на стимулирование по реализации действия y P(C) в классе допустимых систем стимулирования M (классом систем стимулирования называется подмножество множества U: например, класс пропорциональных систем стимулирования (с параметром 0), класс скачкообразных систем стимулирования (с параметром x P(C)) и т.д.) называется следующая величина: min(y) = min {(y) | y P()}, то есть минимальное допустимое M вознаграждение, которое побудит агента выбрать заданное действие. Для тех действий, которые в рамках предположения А.2 не могут быть реализованы в классе M, положим минимальные затраты на стимулирование равными бесконечности: min(y) = +, y A \ P(С). Минимальные затраты на стимулирование являются чрезвычайно важным понятием. Их анализ позволяет решать задачу синтеза оптимальной функции стимулирования, изучать свойства оптимального решения и т.д. [61, 62]. Обозначим максимальную в классе Mi M эффективность управления KMi = max K(), Mi i = 1, 2. Теорема 8 [46, 61]. Пусть M1 M, M2 M - два класса допустимых систем стимулирования и выполнено: yA min1(y) min2(y). Тогда KM1 KM2.

Таким образом, эффективность стимулирования может быть определена и через минимальные затраты на стимулирование, причем имеет место (ср. с выражением (37)): (45) KM = max {H(y) - min(y)}, y A то есть анализ минимальных затрат на стимулирование является одним из эффективных методов решения задачи стимулирования, которым мы неоднократно будем пользоваться в ходе дальнейшего изложения. Пример 1. Рассмотрим задачу стимулирования в ОС, в которой1 H(y) = y, c(y) = y2/2r, где r > 0 - параметр функции затрат агента. Из выражений (34)-(41) следует, что в данном случае y+(C) = r, при r y + ( C ) 2 rC, y*(C) = +, + y ( C ), при r y ( C ) K1(C) = min {r/2, 2 rC /2}, причем оптимальный размер ограничения C механизма стимулирования, который может трактоваться как максимальная величина фонда заработной платы (ФЗП), равен r/2 (что позволяет сделать интересный с содержательной точки зрения вывод – увеличение ФЗП свыше этой величины нецелесообразно). Если центр использует принцип МГР и y* = y+(C), то, фиксируя произвольное (сколь угодно малое!) > 0 и выбирая y = y* -, при использовании системы стимулирования (y) = C, y = y 0, y y центр реализует единственное действие агента – y. Очевидно, имеет место Kg() = y* - - C и K1(C) = y* - C, то есть разность между эффективностью и гарантированной эффективностью управлений * и сколь угодно мала (равна ). • Как отмечалось выше, составляющие целевых функций участников ОС измеряются в одних и тех же единицах, поэтому заменой переменных (и соответствующим изменением допустимых множеств) иногда возможно "линеаризовать" одну из функций – в рассматриваемом примере линейной считается функция дохода центра. Таким образом, в настоящем подразделе мы привели (точнее – в основном описали известные из литературы результаты) полное решение задачи управления в базовой модели ОС РК, то есть в модели РК1. Перейдем к систематическому1 исследованию расширений базовой модели.

Понятно, что так как модель РК12 является наиболее общей из 16-ти базовых моделей (см. раздел 1), то, исследовав ее, мы автоматически получили бы решения задач управления для всех частных моделей. Однако при таком подходе оказывается, что результаты получаются слишком громоздкими (см. ниже) по сравнению с реализуемым индуктивным подходом, учитывающим специфику той или иной модели по сравнению с моделями предыдущего уровня сложности. 2.2. Модели первого уровня сложности Рассмотрим класс моделей ОС РК первого уровня сложности, отличающихся от базовой модели РК1 наличием одного и только одного из присущих ОС с распределенным контролем характерных признаков: либо векторного множества допустимых действий агента (модель РК5), либо векторной целевой функции агента (модель РК13), либо нескольких центров (модель РК3), либо векторных управлений (модель РК2). Так как специфика ОС РК впервые проявляется именно при переходе от базовой модели к классу моделей первого уровня сложности, рассматривать этот класс моделей мы будем относительно подробно с тем, чтобы при исследовании классов моделей более высоких уровней сложности иметь возможность адаптированно использовать комбинации приведенных в настоящем разделе результатов. 2.2.1. Модель РК2 Отличие модели РК2 от модели РК1 заключается в наличии векторных управлений центра, предпочтительность которых оценивается агентом по значениям скалярной функции полезности (напомним, что во всех моделях, рассматриваемых в настоящей работе, целевая функция центра считается скалярной), то есть r РК2 = {nA = 1, f, k = 1, u }. Все общие результаты, описанные в разделе 2.1 для модели РК1, остаются в силе и для модели РК2 (напомним, что предположение А.1 заключалось в частности только в компактности допустимых множеств, размерность которых не оговаривалась). Следовательно, решение задачи синтеза оптимальных (гарантированно оптимальных) управлений для модели РК2 дается теоремой 2 (соответственно - теоремой 1). Для задач стимулирования векторное управление в модели РК2 соответствует нескольким поощрениям за одни и те же показатели r деятельности, то есть ( y ) = (1(y), 2(y), …, n u (y)), y A.

При этом суммарные затраты на стимулирование (y) определяются следующим образом: (1) (y) = i = i ( y), nu а целевые функции центра и агента могут быть записаны соответr r ственно в виде: W(, y) = H(y) - (y), w(, y) = (y) - c(y), то есть задача стимулирования в модели РК2 заменой (1) полностью сводится (естественно, с учетом ограничений на суммарное стимулиr рование, порождаемых требованием U) к задаче стимулирования в базовой модели РК1, решение которой дается теоремами 2 и 7. 2.2.2. Модель РК3 Отличие модели РК3 от модели РК1 заключается в наличии нескольких управляющих органов, каждый из которых вырабатывает собственное управляющее воздействие, то есть РК3 = {nA =1, f, k 2, u}. Обозначим K = {1, 2, …, k} - множество центров1. Содержательно модель РК3 соответствует, например, матричной структуре управления ОС, в которой имеются несколько управляющих органов, оценивающих скалярное действие агента каждый по своему критерию. Например, деятельность агента может описываться объемом выпускаемой им продукции и оцениваться управляющими органами по различным критериям, например, экономическая эффективность, социальная значимость, влияние на окружающую среду и т.д. Обозначим ui Ui - управление, выбранное i-ым центром2, r i K, u = (u1, u2, …, uk). Так как целевая функция и множество Выше символ "K" был введен для обозначения эффективности K(u) управления u U, в моделях же ОС с несколькими центрами этот же символ традиционно используется для обозначения множества центров. Можно надеяться, что такая не очень удачная, но исторически сложившаяся система обозначений не приведет к путанице. 2 Условимся, что верхние индексы нумеруют центры. допустимых действий агента скалярны, а также скалярно (с точки зрения агента) управление u (также как это имеет место и в базовой модели РК1), то предположим, что это скалярное управление является известной участникам ОС функцией F() от управлений, выr r бранных центрами, то есть u = F( u ), u U = {u | u = F( u ), ui Ui, i K}. Пусть информированность участников стандартная (см. определение выше), а последовательность функционирования следующая: центры одновременно и независимо (коалиционные эффекты в настоящей работе не рассматриваются) выбирают свои управления r {ui}, что приводит к реализации управления u = F( u );

далее агент при известном ему управлении u U выбирает свое действие y A, что однозначно определяет выигрыши участников ОС. r Пусть y( u ) - известная центрам зависимость действия, выбираемого агентом, от управлений, назначенных центрами. Тогда r вектор u N является равновесием Нэша тогда и только тогда, когда (1) i( u N, y( u N )) i( u Ni, ui, y( u Ni, ui)), 2 k где u Ni = ( u1, u N, …, u i 1, u i +1, …, u N ) - обстановка игры ценN N N тров для i-го центра, i K. r Относительно целевых функций центров {i( u, y)} введем следующее предположение. А.3. Целевая функция i-го центра i(ui, y) зависит явным образом только от соответствующего управления и действия агента и непрерывна на компакте Ui A, i K. Таким образом, в модели РК3 имеют место две "игры" - игра между центрами1 (на этапе определения управлений) и "игра", в которой агент выбирает свою стратегию1.

выполнено: i K, ui Ui r r Казалось бы, явного взаимодействия между центрами быть не должно, так как в силу предположения А.3 в целевую функцию каждого центра не входят (по крайней мере явным образом) стратегии других центров. Однако зависимость между центрами существует, так как в целевую r функцию каждого центра входит действие агента y( u ), конкретное значение которого в силу гипотезы рационального поведения агента зависит в общем случае от стратегий всех центров. Обсудим что следует понимать под действием агента, выбираемым им при заданных управлениях со стороны центров, то есть какие значения в рамках гипотезы рационального поведения агента r может принимать y( u ). Множество реализуемых управлением u U действий агента имеет вид: (2) P(u) = Arg max f(u, y).

y A Подставляя u = F( u ) в определение (2), получаем: r r (3) P( u ) = Arg max f(F( u ), y).

y A r Как и в базовой модели, после определения множества реализуемых действий следует оговорить что понимается под рациональным выбором агента, на который рассчитывают центры, в r случае, когда множество P( u ) содержит более одного элемента. В модели РК1 использовались два предельных подхода - ГБ и принцип МГР. В рассматриваемой модели число возможных подходов к определению рационального выбора агента еще более разнообразно. Приведем некоторые из них. Первый подход – предположение об использовании каждым из центров принципа МГР, то есть расчет на выбор агентом наихудr шего (с точки зрения данного центра) действия из множества P( u ). Обозначим это действие i (4) y МГР ( u ) = arg minr i(ui, y), i K. y P ( u ) r Непосредственное обобщение другого предельного подхода гипотезы благожелательности - на случай нескольких центров невозможно [72, 73], так как в общем случае не существует дейстr вия агента, принадлежащего множеству P( u ), которое одновременно максимизировало бы целевые функции всех центров. Поэтоr му обозначим Par(B, u, {i}) - множество недоминируемых по Парето (при критериях {i} центров) элементов множества B A:

Вторая "игра" становится полноценной игрой в случае нескольких связанных агентов (см. подробное описание результатов исследования моделей многоэлементных ОС в [63]). (5) Par(B, u, {i}) = {y B | y' B (i(ui, y') (ui, y), i K) i(ui, y') = (ui, y)}. Представляется естественным считать (что мы и будем делать в ходе дальнейшего изложения при рассмотрении ГБ в моделях ОС РК с несколькими центрами) обобщением ГБ следующее предr положение: агент выбирает из множества P( u ) действия, как минимум, неулучшаемые одновременно с точки зрения всех центров. Рассчитывая на гарантированный результат по множеству Парето, i-ый центр вычисляет действие i (6) y ParМГР ( u ) = arg r r yPar ( P ( u ), u, { }) i min r r i(ui, y), i K.

Аналогично, i-ый центр может надеяться на благожелательное отношение агента именно к нему, в случае, если агент не может одновременно улучшить значения целевых функций всех центров, то есть, рассчитывать на выбор действия i (7) y ParГБ ( u ) = arg r rr yPar ( P ( u ), u, { i }) max i(ui, y), i K.

И, наконец, четвертым (но, естественно, не исчерпывающим все возможные подходы) вариантом является использование i-ым центром гипотезы "абсолютной благожелательности", в рамках r которой центр рассчитывает, что агент выберет из множества P( u ) действие, наилучшее именно с его точки зрения:

i (8) y ГБ ( u ) = arg max i(ui, y), i K. r y P ( u ) r Так как Arg max i(ui, y) Par(P( u ), u, {i}) P( u ), r y P ( u ) r r r i K, то введенные величины удовлетворяют следующему соотношению:

i i i(ui, y ГБ ( u )) = i(ui, y ParГБ ( u )) r r i i i(ui, y ParМГР ( u )) i(ui, y МГР ( u )).

r r Легко видеть, что в рамках введенных предположений множество Par(B, {i}) заведомо включает в себя точки, на которых достигаются максимумы целевых функции центров {i} по множеству B. Обсудив возможные определения рационального выбора y( u ) агента при заданных управлениях, перейдем к описанию игры r центров. Пусть yi( u ) A - представления i-го центра о выборе r агента при управлении u, i K (возможные значения yi( u ) r r r r i i i y ГБ ( u ), y ParМГР ( u ), y МГР ( u ) и т.д.). r 2 k Вектор управлений u N = ( u1, u N, …, u N ) является равновеN (9) i( u i, yi( u N )) i(ui, yi( u Ni, ui)). N Множество равновесий Нэша обозначим EN. Таким образом, характерной особенностью ОС РК является наличие игры центров. Исследуем свойства решений этой игры на примере задачи стимулирования. В задаче стимулирования в модели РК3 скалярное управление u U определяется по управлениям центров следующим образом (напомним, что величина (y) в модели РК1 называлась суммарными затратами центра на стимулирование): (10) u ( y ) = (y) = i ( y). iK сием Нэша тогда и только тогда (см. (1) и предположение А.3), когда i K, ui Ui r Если в модели РК2 замена типа (10) позволяла свести задачу стимулирования к известной (то есть к задаче стимулирования в модели РК1, решение которой описано в разделе 2.1), то подобный переход в модели РК3 невозможен, так как в ней имеются k 2 центров с целевыми функциями1 (11) Wi(i, y) = Hi(y) - i(y), i K. Целевая функция агента имеет вид: (12) w(, y) = (y) - c(y).

Отметим, что модель РК3 качественно эквивалентна модификации модели РК1 или РК2, в которой единственный центр имеет векторные предпочтения на множестве U A (см. также обсуждение взаимосвязи модели РК5 с векторными предпочтениями агента и моделей многоэлементных ОС с агентами, имеющими скалярные предпочтения). Именно по этой причине в настоящей работе рассматриваются управляющие органы со скалярными предпочтениями. Для задачи стимулирования с целевой функцией агента вида (12) в рамках предположения А.2 доказано (см. раздел 2.1 и [61, 62]), что при использовании компенсаторной системы стимулирования (13) (y) = K(y) = c( y * ), y = y * y y* 0, в рамках ГБ агент выберет действие y*. Следовательно, минимальные суммарные затраты центров на стимулирование по реализации действия y A равны (точнее - при отказе от ГБ сколь угодно близки к) соответствующим затратам агента, то есть (14) min(y) = c(y). Из этого следует, что при использовании центрами управлений, удовлетворяющих (13), в рамках предположения А.2 выбор агента однозначен (см. теорему 4) и совпадает с y* A, поэтому r будем считать, что yi( u ) = y*, i K. Свойства стратегий центров в задаче стимулирования определяются следующей леммой. Лемма 9. Пусть выполнены предположения А.1-А.3 и ГБ. Тоr гда в задаче стимулирования для любого вектора стратегий r центров, реализующего действие y* A агента (y* P( )), существует недоминируемый им по Парето вектор стратегий центров r *, который реализует то же действие агента и имеет вид: r i, y = y * * (15) i (, y) =, i K, * 0, y y где величины {i} удовлетворяют следующим условиям: (16) i 0, i K;

i = c(y*).

iK Доказательство. Пусть y* P( ). Из определения реализуемости действия y* A следует, что (17) y A iK r i ( y* ) - c(y*) Переход от системы стимулирования к системе стимулирования (15), в которой, например, i = i ( y * ), i K, оставляет в iK i ( y) - c(y).

r силе условие (17), следовательно действие y* может быть реализовано стратегиями типа (15). Докажем выполнение (16). Неотрицательность стимулирования в (15) следует из предположения А.2, поэтому необходимо показать, что имеет место i = c(y*). Из определения реализуеiK мости следует, что при использовании системы стимулирования (15) выполнено yA iK *i ( y * ) - c(y*) то есть y P( * ). Правая часть последнего выражения в силу (15) и предположения А.2 достигает максимума при y = 0, следовательно: (18) iK r iK *i ( y ) - c(y), *i ( y * ) c(y*).

Если неравенство (18) выполнено как строгое, то всегда найдется такой номер i K, что выбор i-ым центром параметра i < i в стратегии типа (15) оставит в силе условие реализуемости и строго увеличит значение его целевой функции при неизменных стратегиях и значениях целевых функций остальных центров, что противоречит определению эффективности по Парето. • Если выполнено предположение А.2' (см. выше), то существует функция с-1(), обратная к функции затрат агента, и равенство в условии (16) можно записать в виде r (19) y( ) = c-1( i ).

iK Лемма 9 позволяет в ряде случаев (см. теорему 10) при исследовании задачи стимулирования в ОС с несколькими центрами (для решения которой необходимо искать k функций стимулирования и реализуемое ими действие) без потери эффективности ограничиться задачей поиска (k+1)-го скалярного параметра, то есть k чисел {i} и реализуемого действия y*. Итак, лемма 9 описывает вектора стратегий центров, реализующих те или иные действия агента, но ничего не говорит о том являются ли эти вектора равновесиями в игре центров, единственно ли равновесие и как его искать. Для ответа на эти вопросы запишем определение равновесия Нэша в рамках предположения об испольr зовании центрами стратегий типа (15), используя (16) и (19): равновесие Нэша тогда и только тогда, когда (20) i K i 0 Hi(y(-i, i)) - i Hi(y(-i, i)) - i. Пусть действие агента y* A реализуется системой стимулирования1 (21) i(, y) = r i, y = y *, i K. 0, y y * Запишем для задачи стимулирования определение равновесия Нэша (9) в игре центров следующим образом: (22) i K i 0 Hi(yi) - i Hi(y*) - i, где y* P( ), yi P(-i, i), то есть (23) i K i 0, yi P(-i, i) i - c(yi) iK r i - c(y*).

Условия (22), (23) означают, что ни один из центров, отклоняясь по-одиночке от равновесия Нэша и побуждая агента использованием системы стимулирования i(y) = i, y = y ( i, i ) выi i 0, y y (, ) брать действие yi, быть может отличное от действия y* (см. условие (23)), не выигрывает от этого (условие (22)). Из условий реализуемости (17) следует, что условие (24) iK i = c(y*) является необходимым условием равновесия по Нэшу системы стимулирования (21) - в противном случая, уменьшая по-одиночке выплаты агенту, любой из центров может только выиграть. Итак, мы имеем необходимое условие равновесия Нэша (24), и необходимое условие реализуемости2 (18). Требование их одновреОтметим, что скалярное управление при этом определяется выражением (10), в котором управления центров - суть системы стимулирования (21). 2 Равновесиями Нэша будут также все системы стимулирования, при которых центры реализуют действие y*, и предлагают достаточно малое вознаграждение за выбор других действий. Эти равновесия инте менного выполнения сводится к (24). Значит правая часть в (23) равна нулю и условия реализуемости действия yi можно записать в виде (25) i c(yi), i K. Обозначим i (26) Wmax = max {Hi(y) - c(y)}, i K, y A i (27) y max = arg max {Hi(y) - c(y)}, i K. y A Объединяя (22) и (25) получаем с учетом (26) и (27) следующий результат. Теорема 10. Решение игры центров в задаче стимулирования при использовании ими стратегий типа (21) определяется выражениями (24) и i (28) Hi(y*) - i Wmax, i K. Отметим, во-первых, что результат теоремы 10 охватывает и те ситуации, в которых определенное действие агента реализуется некоторой "коалицией" центров S K, а центры, не вошедшие в "коалицию", не принимают участия в компенсации затрат. В этом случае в неравенствах (27) i = 0, i K \ S. Если существует решение соответствующей системы неравенств для "коалиции" и ее дополнения, то, очевидно, существует решение системы неравенств (27). Во-вторых, утверждение теоремы 10 характеризует равновесия Нэша на множестве стратегий центров типа (21). Если хотя бы один реса не представляют, но они есть. Кроме того, если стратегии центров имеют вид (21), то такая реализация требует совместных действий центров. При стратегиях вида (21) имеем задачу коллективного благосостояния [54, 79], где сообщество центров выбирает действие y* и распределение затрат на его реализацию (при этом (28) является условием индивидуальной рациональности и нахождение достаточно узкого решения требует применения гипотез типа утилитаризма или эгалитаризма [54]). При k > 2 и разрешении образовывать коалиции имеем кооперативную игру. Найденное множество равновесий Нэша – это на самом деле ядро для игры двух лиц или ядро (если оно непусто) в игре, в которой разрешена только максимальная коалиция. из центров устанавливает ненулевое вознаграждение агента за выбор им действия, отличного от y*, то необходимо доопределение множества равновесий Нэша, например, за счет использования так называемых условий угроз (см. [13-15, 63, 76] и лемму 11) и т.д. Содержательно условие (24) обеспечивает реализуемость действия y* (см. лемму 9), условие (21) обеспечивает эффективность по Парето (и является необходимым условием равновесия Нэша) стратегий центров (см. лемму 9), а условие (28) гарантирует, что ни одному из центров не выгодно отклоняться от равновесия Нэша, побуждая агента выбирать действие, отличное от y*, и в одиночку компенсировать его затраты (отметим, что из (24) содержательно следует, что центры "скидываются" и совместно компенсируют затраты агента). Необходимо подчеркнуть, что при предельном переходе от модели РК3 к базовой модели РК1 теорема 10 переходит в теорему 8 (если k = 1, то единственный центр компенсирует затраты агента, побуждая его выбирать действие, максимизирующее разность между доходом центра и его затратами на стимулирование, равными затратам агента (при этом (28) обращается в равенство)). Если выполнено предположение А.2', то (24) и (28) могут быть объединены (воспользовавшись (19), можно исключить из условий, определяющих равновесные стратегии центров, действие агента) в следующую систему неравенств: (29) Hi(c-1( iK i i )) - i Wmax, i K.

Условие типа (29) можно записать в виде (j K):

i H i ( y * ) i Wmax, i K \ { j} j (30) H j ( y * ) c( y ) + i Wmax, i j исключив из (28) подстановкой (24) одно из значений стимулирования (j) и оставив действие агента y*.

Пусть - множество векторов 0, удовлетворяющих (24), (28) при всевозможных y* A. Обозначим множество действий агента, реализуемых равновесными по Нэшу стратегиями центров1 (31) PK = {y A | 0: (24), (28)}, то есть множество таких действий агента, для которых система неравенств (24), (28) имеет решение. Рассмотрим пример, иллюстрирующий свойства введенных величин и соотношений между ними. Пример 2. Пусть имеет место совпадение интересов центров, то есть они стремятся реализовать максимально возможное действие агента. Тогда вопрос заключается в определении множества допустимых распределений затрат агента между центрами. Рассмотрим ОС, в которой c(y) = y, Hi(y) = i y, i 1, i K, k = 2 и i A = [0;

A+], A+ < +. Тогда y max = A+, i K, а система неравенств r r (29) может быть записана в виде 2 1. 2 2 2 + ( + ) ( 1) A 1 ( 1 + 2 ) 1 ( 1 1) A+ Множество равновесных по Нэшу стратегий центров заштриховано на рисунке 7. • Таким образом, теорема 10 дает характеризацию множества равновесий Нэша в игре центров. Однако, это множество может оказаться достаточно большим (см. в качестве иллюстрации этого утверждения пример 2), поэтому необходимо дополнительное исследование его свойств. Рассмотрим несколько примеров. Очевидно, что имеет место: Par(PK, {Wi}) = PK K j K j U { y max } (то, что все точки множества P не доминируют друг друга по Парето следует из леммы 9 и теоремы 10;

кроме того, множество Парето содержит точки максимумов каждого из критериев). Содержательно любое равновесие Нэша в игре центров, определяемое теоремой 10, не доминируется по Парето ни одним другим равновесием и, кроме того, реализуемыми являются такие (но в общем Из (29) следует, что в рамках предположения А.2' максимальное мноr жество реализуемых действий есть PK = U c 1 ( i ).

i K случае не только такие) действия агента, которые доставляют максимум хотя бы одной из функций: Wi(i, y) = Hi(yi) - c(y), i K (отметим, что при этом не обязательно стратегии типа (21), реализующие это действие, будут равновесными по Нэшу - см. следствие 12), что иногда значительно упрощает поиск и исследование равновесий в игре центров.

2 A+ (1-1/1)A+ 1 0 (1-1/2)A+ A+ Рис. 7. Равновесные по Нэшу стратегии центров в примере Исследуем случай, когда множество пусто, то есть когда не существует равновесных по Нэшу стратегий центров типа (21). В доказательстве леммы 9 установлен тот факт, что для любого вектора стратегий центров, реализующих действие y* A агента, можно построить стратегию (15), реализующую то же действие агента, но этот вектор стратегий не обязательно является равновесием Нэша, например, в случае, когда = и, следовательно, (16) не имеет места. Следующая лемма характеризует равновесные по Нэшу стратегии центров для этого случая.

i Упорядочим центры в порядке убывания величин Wmax, i K, относительно которых не снижая общности будем считать, что все они различны. Первого в этом упорядочении центра назовем диктатором. Если равновесия Нэша (при использовании центрами Парето эффективных стратегий типа (21)) не существует, то необ ходимо ослабление концепции равновесия для того, чтобы иметь возможность определить решение игры (см. для примера соревновательные системы стимулирования [13, 23, 63, 76]). Одним из возможных путей является использование "условий угроз", в соответствии с которыми решением игры считается такая обстановка игры, при который каждый из игроков уверен, что ни один из других игроков не может угрожать ему изменением своей стратегии (понятно, что если равновесие Нэша существует, то оно удовлетворяет этим условиям). Лемма 11. Если множество пусто, то равновесные1 стратегии центров удовлетворяют следующим условиям: (32) *i(, y) = (33) y* = y*1, где 2 (34) 1 = c( y1 ) + Wmax +, y*1 = y1, max max а y*i, i и - любые, удовлетворяющие следующим условиям: 1 2 (35) y*i A, i [0;

Hi(y*i)], i = 2, k, (0;

Wmax - Wmax ]. Доказательство. Ограничимся тезисным изложением основных пунктов доказательства. Если множество пусто, то под равновесием в игре центров будем понимать такой вектор стратегий, что каждый из центров может быть уверен, что ни один из других центров не сможет, изменяя свою стратегию, реализовать другое действие агента ("условие угроз" - см. [63]). Какое действие ни пытался бы реализовать любой из k-1 центров (за исключением диктатора), диктатор всегда сможет предложить агенту большую оплату за выбор наиболее выгодного для r i, y = y *i, i K, *i 0, y y него действия y1. max Равновесие понимается в смысле "условий угроз" [63] при минимальном 2 Wmax в 2 y max, то получаем, что выражения (32)-(35). Кроме того, если второй центр предлагает агенту выплаты случае выбора им действия будут задавать слабое -равновесие Нэша.

Для удовлетворения "условию угроз" диктатору достаточно оплатить агенту, помимо компенсации затрат, величину строго превышающую (на > 0) ту доплату (опять-же по сравнению с компенсацией затрат), которую ему могут предложить другие 2 центры. Максимум из этих доплат равен Wmax. • Отметим, во-первых, что можно расширить множество равновесных стратегий центров в условиях леммы 11, предположив, что соревноваться могут произвольные коалиции центров, и определять равновесие, записывая неравенства типа (32)-(35) уже для коалиций. Однако, при этом приходится вводить дополнительные предположения об информированности центров и их возможностях обмениваться информацией и предпринимать согласованные действия. Получающаяся в результате игра может рассматриваться либо как игра с «равновесием Нэша», либо как кооперативная игра с нетрансферабельной полезностью [68, 69, 86]. Так как исследование коалиционных эффектов выходит за рамки настоящей работы, то в ходе дальнейшего изложения под равновесием в игре центров будем понимать равновесия, определяемые теоремой 10 и леммой 11. Во-вторых, при предельном переходе от модели с несколькими центрами (модель РК13) к модели с одним центром (модель РК1), который, естественно, и является диктатором, система стимулирования (32)-(35) переходит в оптимальную квазикомпенсаторную систему стимулирования (см. теорему 7). Таким образом, при предельном переходе в случае непустого множества эффективность стимулирования в модели РК13 стремится к эффективности стимулирования в соответствующей модели РК1 "сверху", а в случае пустого множества - "снизу". Пример 3. Рассмотрим ОС, в которой интересы центров противоположны. Пусть k = 2, c(y) = y2, H1(y) = - 1y, H2(y) = 2 y, то есть первый центр заинтересован в выборе агентом минимального (нулевого) действия, а второй центр - некоторого действия, отличного от нуля (см. рисунок 8).

Вычислим следующие величины:

y1 = 0, max 2 y max = 2/2, 1 2 Wmax =, Wmax = (2)2/4. Условия (22) примут вид:

1 + 1 + 2 0 1. 2 1 + 2 2 ( 2 ) 2 / В силу неотрицательности выплат от центров агенту последняя система неравенств не имеет решения, то есть =. Следовательно, не существует равновесия Нэша типа (21) в игре центров, реализующего действия агента с минимальными затратами, то есть условие (24) не выполнено. Следовательно, в соответствии с леммой 11, если (2)2/4, то первый (в рамках обозначений настоящего примера) центр является диктатором и реализует нулевое действие, выплачивая агенту вознаграждение (2)2/4 +. Если же выполнено (2)2/4, то диктатором является второй центр, который в этом случае реализует действие 2/2, выплачивая агенту вознаграждение +. • 1(y) (2)2/4 2(y) y 0 2/2 Рис. 8. Целевые функции центров в примере Полная характеризация (в оговоренном выше смысле, то есть без учета коалиционных эффектов) равновесных (либо по Нэшу в случае непустоты множества, либо относительно «условий угроз»стратегий центров дается следствием 12, объединяющим результаты лемм 9 и 11, а также теоремы 10. Следствие 12. Если, то множество равновесий в игре центров определяется выражениями (21), (24) и (28);

если =, то множество равновесий в игре центров определяется выражениями (32)-(35). Содержательно, в игре центров имеются два режима - режим сотрудничества и режим конкуренции. Режим сотрудничества имеет место когда множество не пусто (для этого интересы центров должны различаться не очень сильно). При этом центры совместно компенсируют затраты агента (множество недоминирующих друг друга по Парето допустимых дележей затрат при этом может оказаться достаточно широким) и получают полезность, превышающую полезность, получаемую каждым из них в случае индивидуального управления агентом (см. модель РК1). Режим конкуренции появляется когда множество пусто (для этого интересы центров должны быть почти антагонистичны). При этом один из центров (содержательно - обладающий наибольшими ресурсами управления) единолично не только компенсирует затраты агента, но и переплачивает ему ровно столько, чтобы обезопасить себя от возможности соглашения агента на другие (более выгодные для него) условия, которые может предложить любой другой центр. Интересно отметить, что режим конкуренции невыгоден ни одному из центров (даже диктатору, который "переплачивает" агенту 2 + ), так как любая точка из множества (если max оно непусто) доминирует его Парето. Тем не менее этот режим является "равновесным", то есть при сильно различающихся интересах и отсутствии возможности согласовать свои действия (напомним, что мы рассматриваем некооперативное взаимодействие центров) неэффективная ситуация является единственной ситуацией, устойчивой относительно индивидуальных отклонений. Следует отметить, что результат следствия 12 описывает достаточно широкий круг прикладных задач, включающий в том числе и задачу стимулирования в ОС РК, для которой первоначально эта модель и разрабатывалась. Примером может служить задача найма на работу (см. модели рекрутинга и формирования состава ОС в [47, 63]). Представим себе следующую ситуацию: пусть имеются один агент, ищущий работу, и k центров - потенциальных работодателей. Не имея возможности (по информационным, нормативным и пр. причинам) договориться о сотрудничестве (никто из работодателей не будет оплачивать работу агента на другого работодателя), центры попадают в режим конкуренции, то есть конкурируют за привлечение агента. В соответствии с результатом леммы 11 величина i Wmax характеризует максимально возможную эффективность найма агента i-ым центром, поэтому без учета информационных и транзакционных издержек агент примет предложение того центра, который сможет наиболее эффективно использовать результаты его 2 деятельности. Величина Wmax (аукционное решение - см. выше) характеризует ту доплату, которую получает агент сверх компенсации своих затрат за счет имеющейся на рынке труда конкуренции. Аналогично может рассматриваться конкуренция между агентами (см. модели многоэлементных ОС в [63]) при найме их на работу единственным центром, и в общем случае - конкуренция между центрами с одной стороны и агентами с другой стороны. Поэтому можно констатировать, что полученные результаты позволяют формулировать и исследовать не только задачи стимулирования в ОС с фиксированным составом, но и модели рынка труда. Выше мы привели два примера, иллюстрирующих предельные случаи - полного совпадения (пример 2) и полного антагонизма (пример 3) интересов центров. При этом оказалось, что в первом случае и существует достаточно широкая область сотрудничества центров, во втором случае область сотрудничества пуста ( = ) и в соответствии с леммой 11 имеет место конкуренция между центрами. В приводимом ниже примере интересы центров не антагонистичны, но и не полностью совпадают, что приводит к возможности обсуждения различных подходов к описанию их поведения в процессе сотрудничества. Пример 4. Пусть k = 2, c(y) = y, Hi(y) = y - y2/2ri, i K. Вычисi ляем y max = 0, i K, то есть затраты агента настолько велики по сравнению с доходом каждого из центров, что деятельность агента (выбор им ненулевых действий) невыгодна ни одному из центров при условии, что они управляют агентом по-одиночке (отметим, что в этом примере мы нарушаем предположение А.2, требующее монотонного возрастания функции дохода центра). Введем функцию "дохода центров", определяемую как сумма их индивидуальных доходов: (36) H(y) = iK H i ( y).

Множество центров может в определенных случаях (см. содержательные интерпретации ниже) рассматриваться как один игрок, имеющий целевую функцию r (37) W(, y) = H(y) - (y). Обозначим (38) ymax = arg max H(y).

y A В рассматриваемом примере ymax = 2 r1r2. Запишем условия (29): r1 + r Исключая 1 или 2 и вводя реализуемое действие (см. представление (30)), систему неравенств (39) можно записать либо в виде1: (40) 2r12 (1 + 2 ) 2 0 (39) 2 1 1 22 2 r ( + ) 2r1 ( y 1 ) y 2 0, 2r 2 1 y 2 либо в виде: (41) 2 r 2 ( y 2 ) y 2 0. 2 r12 y 2 В случае двух центров представление (30) за счет того, что стимулирование аддитивно входит в целевую функцию центра, позволяет упростить и наглядно представить на плоскости вид решения системы неравенств, описывающих множество равновесий Нэша (ср. (40), (41) и (39)). Системы неравенств (40) и (41) задают соответственно множества допустимых значений 1 и 2 выплат первого и второго центров (см. рисунок 9).

1 r2/2 r1/ 2 y 0 r y 0 r ymax 2r ymax 2r Рис. 9. Множества 1 и 2 в примере Таким образом, даже в случае двух центров для фиксированного действия агента, которое центры хотят реализовать, существует целое множество комбинаций выплат со стороны центров (сумма платежей фиксирована, а распределяться между центрами эти платежи могут разными способами). Все эти комбинации принадлежат множеству Парето, следовательно априори (и не вводя дополнительных предположений) сказать что-либо о конкретной реализации точки Нэша нельзя. Поэтому рассмотрим возможные дополнительные предположения о поведении центров. Первая группа предположений относится к последовательности выбора стратегий центрами, то есть их априорному упорядочению по времени выбора стратегий и взаимным обязательствам следовать установленным правилам игры. Например, игра центров может производиться в два этапа - сначала они согласованно выби рают1 действие агента, которое в дальнейшем необходимо реализовать, а затем последовательно (например, по-одному) выбирают свои платежи агенту. Если принято решение реализовать действие y* A, и центры, обязанные подчиниться этому решению, упорядочены в порядке возрастания их номеров, то, очевидно, что имеет место: k = min {c(y*);

Hk(y*)}, k-i= min {c(y*) j > k i j ;

Hk-1(y*)}, i = 1, k 1. Содержательная интерпретация такого механизма прозрачна: представим себе k-уровневую иерархическую систему управления, которая должна побудить управляемый субъект совершить некоторые действия, то есть, как минимум, компенсировать ему затраты по совершению этих действий. Если ресурс нижнего уровня управления (с номером k, отсчитываемым от самого верхнего уровня иерархии) достаточен для этого (то есть c(y*) Hk(y*)), то он осуществляет управление самостоятельно, не затрагивая более высоких уровней иерархии. Если ресурс недостаточен (то есть c(y*) > Hk(y*)), то он полностью использует свой ресурс и обращается за разницей c(y*) - Hk(y*) к представителю более высокого уровня, который поступает аналогично и т.д. Понятно, что для более адекватного отражения специфики иерархических многоуровневых ОС можно приписывать различные "ценности" единицам ресурсов различных уровней и т.д. (см. модели иерархических ОС в [59]). Вторая группа предположений относится к информационному взаимодействию центров (кооперативные игры с нетрансферабельной полезностью), а также к их возможности обмениваться полезностью (кооперативные игры с трансферабельной полезностью) [54, 56, 68]. Если центры могут принимать решения сообща и обладают возможность осуществлять побочные платежи (условно можно считать, что в классе стратегий вида (21) игра центров уже является игрой с трансферабельной полезностью - центры могут в широких пределах "передавать" друг другу полезность, варьируя В случае, если функция дохода каждого из центров известна только ему самому, то на этом этапе игры центров может оказаться целесообразным использование механизмов с сообщением информации [21, 35]. {i}), то возникает кооперативная игра центров. Для поиска решений этой игры (например для исследования условий непустоты Сядра или существования и свойств какого-либо иного решения) необходимо (но не достаточно!) использование представления (32)(34). Содержательно последнее утверждение означает, что в первую очередь центры могут, например, в первую очередь попробовать образовать максимальную (включающую все центры) коалицию и максимизировать суммарную полезность, побуждая агента выбрать соответствующее действие (см. выражение (34)), а затем обменяться платежами, компенсировав тем центрам, которым выбор агентом именно этого действия не очень выгоден, "потери" в полезности. • В заключение настоящего раздела сделаем три общих замечания. Во-первых, в зависимости от степени близости интересов центров в их игре существуют два возможных режима - режим сотрудничества и режим конкуренции, характеризуемый аукционным решением (см. выражение (34) и [13, 63, 86]). В первом случае они совместно компенсируют агенту затраты и получают полезности, большие, чем в случае управления данным агентом по-одиночке. Во втором случае выигравший конкуренцию центр (сумевший предложить агенту более выгодные условия) вынужден не только единолично компенсировать агенту затраты, но и переплачивать ему, чтобы не дать возможность другому центру предложить более выгодные условия. Во-вторых, несмотря на то, что исследование игры центров в модели РК3 проводилось для частного случая задачи стимулирования, результаты, аналогичные леммам 9, 11, теореме 10 и следствию 12, могут быть получены и для более общего случая игры Г2 с побочными платежами (см. раздел 2.1). В то же время, исследование самого общего случая игры Г2 (см. опять же раздел 2.1) с несколькими центрами представляется достаточно трудоемкой и выходящей за рамки настоящего исследования задачей. В-третьих, так как в настоящей работе исследуется некооперативное взаимодействие участников ОС, то характеризация множества равновесий Нэша, даваемая теоремой 10, может считаться исчерпывающей только условно. Поэтому, как с точки зрения формального анализа, так и с точки зрения содержательных интерпретаций (см. пример 4), напрашивается введение допущения о возможности образования коалиций центрами, что, очевидно, позволит сузить множество решений игры центров. Поэтому исследования кооперативного взаимодействия центров в ОС РК представляется актуальной и чрезвычайно перспективной задачей будущих исследований. 2.2.3. Модель РК5 Отличие модели РК5 от модели РК1 заключается в наличии векторного множества допустимых действий агента, предпочтительность которых оценивается по значениям скалярной функции полезности, то есть РК5 = {nA 2, f, k = 1, u}. Содержательно модель РК5 соответствует, например, ОС, в которой имеются несколько бизнес-процессов, результаты которых оцениваются по некоторому единому критерию, например, времени, или объему выпуска, или маржинальной прибыли, или затратам и т.д. Все общие результаты, описанные в разделе 2.1 для модели РК1, остаются в силе и для модели РК5 (напомним, что предположение А.1 заключалось в частности только в компактности допустимых множеств, размерность которых не оговаривалась, а в предположении А.2 достаточно потребовать, чтобы выполнялось A = n A, и строгой монотонности функций дохода и затрат по + всем переменным). Следовательно, решение задачи синтеза оптимальных (гарантированно -оптимальных) управлений для модели РК5 дается теоремой 2 (соответственно - теоремой 1). Единственное отличие заключается в том, что в случае многомерного множества допустимых действий в задаче стимулирования понятие "правой границы" y+(C) максимального множества реализуемых действий теряет смысл. Для задач стимулирования существует глубокая взаимосвязь между моделями ОС с векторными действиями агента и многоэлементной ОС, в которой агенты выбирают скалярные действия, а их вознаграждение основывается на наблюдаемом агрегированном результате их деятельности, являющемся известной функцией от их действий (подробное описание решения этой задачи и соответствующие примеры приведены в [4, 5, 59, 63]).

2.2.4. Модель РК13 Отличие модели РК13 от модели РК1 заключается в наличии векторной целевой функции агента, по значениям компонент которой он оценивает предпочтительность скалярного (описываемого одним показателем) действия, то есть РК13 = {nA = 1, f, k = 1, u}. Содержательно модель РК13 соответствует, например, ОС, в которой имеется один бизнес-процесс, результаты которого оцениваются агентом, реализующим этот процесс, по нескольким критериям, например, времени, объему выпуска, затратам и т.д. В теории принятия решений получено значительное число результатов [3, 12, 29, 40, 41, 50, 55, 64, 70, 71, 74, 78], посвященных методам поиска множества Парето, исследованию его свойств и т.д., описывать которые подробно мы не будем. Отметим лишь, что вся трудность исследования моделей ОС с векторными предпочтениями участников заключается в отсутствии для этого случая единой универсальной концепции рационального выбора. Если в случае скалярных предпочтений участников (то есть предпочтений, описываемых целевыми функциями, отображающими декартово произведение допустимых множеств всех участников в 1) их рациональное поведение заключалось в стремлении к максимизации целевой функции выбором собственной стратегии (при этом, правда, приходится доопределять выбор в случае, когда множество максимумов содержит более одной точки - см. ГБ и принцип МГР выше), то в случае векторных предпочтений понятие рационального поведения определяется не столь однозначно. Понятно, что следует потребовать, чтобы участник ОС выбирал стратегию которая не ухудшала бы одновременно значения всех критериев (аксиома Парето), однако в большинстве случаев это требование является слишком слабым. Поэтому при построении конкретной модели исследователь операций вынужден конкретизировать закладываемые в модель предположения о поведении центров и агента, то есть вводить допущения, в рамках которых моделируемая ОС описывается наиболее адекватно (с его субъективной точки зрения с учетом всей имеющейся объективной информации). Перейдем к формальным определениям.

r Обозначим Nf = {1, 2, …, nf} - множество критериев и определим множество действий, оценки которых при данном управлении u U эффективны по Парето1: (1) Par(A, u, {fi}) = {y A | y' A (fi(u, y') fi(u, y), i Nf) fi(u, y') = fi(u, y)}, то есть множество таких действий агента, что выбор любых других действий приводит к ухудшению оценок хотя бы по одному из критериев. Определим также множество полуэффективных (оптимальных по Слейтеру) при данном управлении u U действий агента: (2) Sl(A, u, {fi}) = {y A | y' A i Nf: fi(u, y') fi(u, y)}. Естественно считать2, что множество реализуемых действий содержится в соответствующем множестве типа (1), то есть агент заведомо выбирает действия, недоминируемые по Парето. Множество (1) может оказаться слишком широким для того, чтобы конструктивно его использовать как определение множества реализуемых действий P(u), следовательно, хотелось бы определить P(u) таким образом, чтобы выполнялось (3) P(u) Par(u). Итак, при попытке определения множества решений игры в модели ОС РК, в которой агент имеет векторные предпочтения, мы сталкиваемся с традиционной для многокритериальной оптимизации и теории принятия решений при нескольких критериях проЕще раз подчеркнем глубокую взаимосвязь (с точки зрения методов описания и исследования) между многоэлементными ОС с унитарным контролем и ОС РК. В многоэлементных ОС УК имеет место игра агентов и считается, что агенты выбирают вектор действий, принадr лежащий множеству равновесий Нэша EN( u ), в ОС РК единственный агент выбирает вектор действий принадлежащий множеству Парето (1). Если интерпретировать критерий агента в ОС РК как самостоятельного агента, то получим многоэлементную ОС УК, причем множеr r ства Парето и Нэша могут не совпадать. Если же EN( u ) Par( u ), то можно считать, что модели в определенном смысле эквивалентны. 2 Отметим, что в скалярном случае (nf = 1) множества (1) и (2) оптимальных по Парето и по Слейтеру действий агента совпадают с множеством максимумов его целевой функции: Par(A, u, f) = Sl(A, u, f) = P(u) = Arg max f(u, y).

y A блемой – проблемой определения рационального выбора. Единственное требование, относительно необходимости удовлетворения которому согласны подавляющее большинство исследователей, это - аксиома Парето. Таким образом, помимо описанной выше игры центров (см. модель РК3), в ОС РК существует еще одна характерная особенность - многокритериальность предпочтений агентов, порождающая (как и наличие нескольких центров) необходимость корректного доопределения рационального выбора. Не претендуя на полноту охвата всех известных в многокритериальной оптимизации моделей и методов, рассмотрим несколько подходов, представляющих в контексте настоящего исследования наибольший интерес. Пусть предпочтительность действий и управлений оценивается агентом по nf критериям: {f1(u, y), f2(u, y),..., f n f (u, y)}. Функция f N f (u, y) называется возрастающей по системе критериев1 агента, если из выполнения системы неравенств fi(u1, y1) fi(u2, y2), i Nf, u1, u2 U, y1, y2 A следует справедливость неравенства f N f (u1, y1) > f N f (u2, y2). Максимизация функции f N f () по y A при заданном u U является достаточным условием Парето оптимальности соответствующего действия при данной системе критериев агента. Если предположить, что имеет место ГБ, то есть считать, что агент выбирает при заданном управлении действие из множества недоминируемых по Парето действий, то можно рассматривать функцию f N f (u, y) в качестве целевой функции агента и воспользоваться для нее общими теоремами 1 и 2. Однако, при этом эффективность не будет максимальной, так как целевая функция центра будет максимизироваться не на множестве Парето, а на его подмножестве (максимизация функции, возрастающей по системе критериев является достаточным2, но не необходимым условием).

Свойства подобных функций, их примеры, а также необходимые условия оптимальности по Парето, сформулированные их терминах, приведены в [64, 70, 79]. 2 Можно воспользоваться также и другими достаточными условиями, например - максимизировать один из критериев, также обеспечивая при Для достижения максимальной эффективности следует использовать необходимые условия эффективности по Парето [70], которые, к сожалению, на сегодняшний день не позволяют получить простого аналитического решения и требуют значительных вычислительных затрат. Другой возможный подход основывается на полученном в [8, 9] результате о взаимосвязи задач многокритериальной оптимизации и задач согласованного планирования. Для системы критериев агента введем следующую функцию1: (4) f(u, x, y) = min {fi(u, y) - fi(u, x)}.

iN f Множество S(A, u, f) A называется множеством согласованных планов и определяется следующим образом: (5) S(A, u, f) = {x A | y A f(u, x, x) f(u, x, y)}. В [9] доказано, что множество согласованных планов для функции (4) совпадает с множеством эффективных по Слейтеру (при заданной системе критериев агента) действий агента, то есть Sl(A, u, {fi}) = S(A, u, f). Этот результат позволяет свести задачу определения множества полуэффективных точек к задаче согласованного планирования, методы решения которой детально исследованы и подробно описаны в [2, 10, 16, 23]. Однако, этот подход не намного проще, чем непосредственное использование общих результатов характеризации множества Парето в многокритериальных задачах. Перейдем к рассмотрению задачи стимулирования в модели РК13. Содержательные интерпретации подобных моделей затруднительны со следующей точки зрения. Если скалярным управлением единственного центра является выбор системы стимулирования, то при нескольких критериях неясно как стимулирование должно учитываться в векторной целевой функции агента. Если оно аддитивно входит (например, в определенной пропорции) одновременно в несколько критериев агента, то это уже векторное управление (см. описание соответствующих моделей более высокого уровня сложэтом эффективность по Парето, и т.д. Этот подход позволяет добиться «субъективного» максимума целевой функции центра, если последняя зависит только от одной из компонент вектора действий агента. 1 В качестве управления в выражении (4) можно использовать оптимальную в модели РК1 квазикомпенсаторную систему стимулирования. ности ниже), если стимулирование входит только в один из критериев, то остальные критерии "неуправляемы", то есть получаем базовую модель РК1, подробно описанную выше. По этим причинам рассматривать задачи стимулирования в модели РК13 мы не будем, отложив изучение специфики задач стимулирования при векторных предпочтениях управляемых субъектов до этапа описания моделей более высокого уровня сложности, то есть моделей, в которых присутствуют векторные предпочтения и либо векторные управления со стороны единственного центра, либо несколько центров (либо, естественно, и то и другое). В целом можно сделать заключение, что на сегодняшний день (ни в теории принятия решений и многокритериальной оптимизации, ни в теории управления социально-экономическими системами) не существует универсальных методов формализации рационального многокритериального выбора управляемых субъектов в задачах управления, и как следствие не существует общих эффективных аналитических методов решения задач управления. Поэтому, наверное, целесообразна разработка простых методов решения для набора практически важных и содержательно интерпретируемых задач управления для того, чтобы на их основе пытаться делать более общие выводы.

2.3. МОДЕЛИ ВТОРОГО УРОВНЯ СЛОЖНОСТИ При изучении моделей ОС РК второго уровня сложности мы имеем возможность адаптированно использовать полученные в предыдущих разделах результаты исследования ОС с унитарным контролем (раздел 2.1) и ОС РК первого уровня сложности, поэтому при изложении материала этого и последующих двух разделов основное внимание будет уделяться тем синергетическим эффектам, которые возникают за счет наличия одновременно нескольких характерных для ОС РК признаков - игры центров, многокритериальности предпочтений агентов и т.д. 2.3.1. Модель РК4 Отличие модели РК4 (РК4 = {nA = 1, f, k 2, u }) от модели РК3 (см. рисунок 5) заключается в том, что каждый центр выбирает собственное управление, и в целевой функции агента явным образом фигурируют все управления центров, а не их агрегат как это имело место в модели РК3. Кроме того, откажемся от предположения А.3, которое гласило, что целевая функция каждого центра явным образом зависит только от его собственных управлений и действия агента, и допустим, что выигрыш каждого центра в общем случае может зависеть от стратегий всех центров. Тогда равновесие Нэша в игре центров примет вид: i K, ui Ui (1) i( u i, u Ni, yi( u i, u Ni )) i(ui, u Ni, yi(ui, u Ni )). N N В задаче стимулирования в силу аддитивности стимулирования и скалярности действий агента целевая функция i-го центра r r имеет вид: Wi(, y) = Hi(y) - i(y), y P( ), i K, а целевая функция агента1: r w(, y) = i ( y) - c(y). iK r Напомним, что в модели РК3 целевая функция агента имела вид r w(, y) = (y) - c(y), где (y) = i ( y) - суммарные затраты центров iK на стимулирование, являющееся их "общим" скалярным управлением. Поэтому задача стимулирования в модели РК4 совпадает с задачей стимулирования в модели РК3, решение которой дается теоремами 10-12. 2.3.2. Модель РК6 Характерной особенностью модели РК6 (РК6 = {nA 2, f, r k = 1, u }) является наличие векторных действий агента и векторных управлений со стороны единственного центра (см. рисунок 5). Так как целевые функции участников скалярны, то решение задачи управления в модели РК6 дается теоремами 1 и 2, а решение задачи стимулирования в этой модели определяется теоремами 7 и 8 (см. раздел 2.1 и описание моделей РК2 и РК5 в разделах 2.2.1 и 2.2.4 соответственно). 2.3.3. Модель РК7 В модели РК7 (РК7 = {nA 2, f, k 2, u}) присутствуют несколько центров, выбирающих совместно скалярные управления, а векторные действия агента оцениваются им по значениям скалярной целевой функции, поэтому для данной модели применимы все результаты, полученные в разделе 2.2.2 для модели РК3 (напомним, что при доказательстве утверждений 9-12 размерность множества допустимых действий агента не оговаривалась). 2.3.4. Модель РК9 В модели РК9 РК9 = {nA 2, f, k = 1, u} агент имеет векторное множество допустимых действий, предпочтительность которых оценивается по нескольким критериям, то есть в общем случае fi: n A 1, i Nf. Множество реализуемых действий P(u) агента и множество его Парето оптимальных действий Par(A, u, {fi}) практически ничем не отличаются от соответствующих множеств, фигурирующих в модели РК13 (см. также более общую, чем модель r РК13, модель РК14, детально описываемую ниже), поэтому подробно рассматривать данную модель мы не будем, тем более, что в силу скалярности управления содержательные интерпретации задачи стимулирования в ней затруднительны. 2.3.5. Модель РК14 Отличие модели РК14 РК14 = {nA = 1, f, k = 1, u } от модели РК13 (см. рисунок 5) заключается в наличии векторных управлений со стороны единственного центра, а отличие от модели РК2 заключается в наличии векторных предпочтений агента. Будем считать, что выполнено следующее предположение: А.4. nf = nu;

fi = fi(ui, y), i Nf, то есть каждая компонента управления соответствует одному и только одному критерию оценки агентом своих действий. С содержательной точки зрения можно считать, что каждому критерию (отражающему определенный аспект деятельности агента) соответствует некоторое управление и только оно. В рамках предположения А.4 возможно обобщение теорем 1 и 2 (см. теорему 13 ниже). Пусть ограничения на управление имеют следующий вид. А.5. ui Ui, i Nu = {1, 2, …, nu}. Введем следующие обозначения. Стратегия наказания uнi агента центром соответствует минимизации соответствующей компоненты целевой функции агента по стратегии центра: (1) fi( uн i(y), y) = min fi(ui, y), i Nu.

u i U i r r Абсолютно оптимальная стратегия центра u0 соответствует максимизации его целевой функции по собственной стратегии: r v (2) ( u0, y) = max ( u, y), r где U= v r u = (u1, u2, …, un u ) U. В рамках предположения А. i N u uU Ui.

Обозначим Li - максимальное гарантированное значение i-ой компоненты целевой функции агента: (3) Li = max fi( uн i(y), y), i Nf;

y A Ei - множество действий агента, обеспечивающих ему получение по соответствующему критерию выигрыша Li: (4) Ei = {y A | fi( uн i(y), y) = Li}, i Nf;

E= i N f I Ei - множество действий агента, обеспечивающих ему получение по каждому из критериев выигрыша (3);

Di - множество пар стратегий центра и агента, при которых значение соответствующей компоненты целевой функции агента строго превышает максимальное гарантированное значение:

(5) Di = {( u, y) U A | fi(ui, y) > Li}, i Nf;

r D= i N f I Di - множество пар стратегий центра и агента, при которых значения всех компонент целевой функции агента строго превышают соответствующие максимальные гарантированные значения;

K1 - максимальное на множестве D значение целевой функции центра:

r r sup (u, y ), D ;

(6) K1 = ( u, y )D, D= K2 - максимальное на множестве E значение целевой функции центра: r (7) K2 = min max ( u, y);

r r ( u, y) D - пара -оптимальных стратегий центра и агента, > 0: r (8) ( u, y) K1 -. Решение задачи синтеза управления, обладающего максимальной гарантированной эффективностью, дается следующей теоремой.

yE uU Теорема 13а. Пусть для каждой из компонент целевой функции агента и для целевой функции центра выполнено предположение А.1, а также выполнены предположения А.4 и А.5. Тогда Kg* = max {K1, K2} -, > 0, а стратегия r u, если y = y, K1 > K 2 r* r (9) u = u0, если y E, K1 K 2 r u, в остальных случаях н является гарантированно -оптимальной стратегией центра. Доказательство теоремы 13а полностью аналогично доказательству теоремы 1 с учетом того, что так как максимумы и минимумы компонент целевой функции агента вычисляются независимо (используя управление (9) центр обеспечивает выполнение Ei = E, Di = D = {y}, i Nf), рассматриваемая задача распадается на nf задач, решение каждой из которых дается теоремой 1. Содержательно центр фиксирует действие, которое он хочет реализовать, и наказывает агента (независимо по каждому критерию!) при выборе других действий (при этом агент получает выигрыши {Li}), поощряя за выбор реализуемого действия (выигрыши агента при этом строго превышают {Li}). В результате множество Парето состоит из единственной точки - реализуемого действия1. Введем в рассмотрение множество D0 - множество пар стратегий центра и агента, при которых значение каждой из компонент целевой функции агента не меньше соответствующего максимального гарантированного значения: r (10) D0 = {( u, y) U A | fi(ui, y) Li, i Nf}. Решение задачи синтеза оптимального в рамках ГБ управления дается следующей теоремой. Теорема 13б. Пусть для каждой из компонент целевой функции агента и для целевой функции центра выполнено предположение А.1, а также выполнены предположения А.4, А.5 и ГБ. Тогда r (11) K* = r max ( u, x), ( u, x )D Еще раз отметим, что возможность независимого поощрения и наказания агента обусловлена предположениями А.4 и А.5. а стратегия r ~ r * u *, если y = x * (12) u = r, * uн, если y x r ( u, y )D где ~ (13) ( u *, x*) = arg rmax ( u, y) r является оптимальной стратегией центра1. Доказательство теоремы 13б аналогично доказательству теоремы 2 с учетом замечаний, сделанных выше в настоящем разделе при обсуждении отличий теоремы 13а и теоремы 1. Итак, теоремы 13а и 13б дают решение задачи управления в модели РК 14 в случае, когда каждая компонента управления соответствует одному и только одному критерию оценки агентом своих действий (см. предположение А.4) и отсутствуют общие ограничения на управления (см. предположение А.5). Сложнее дело обстоит в общем случае игры Г2, когда предположения А.4 и А.5 не выполr нены. При этом возможна ситуация, в которой nf nu и fi = fi( u, y), i Nf, то есть каждая компонента целевой функции агента может зависеть от всех компонент управления, выбираемого центром, а размерности вектора управления и предпочтений агента могут различаться. Понятно, что в этом случае результат теоремы 13 не имеет места, так как может не существовать управления, минимизирующего или максимизирующего одновременно значения всех критериев оценки агентом своих действий. Та же проблема возникает и в случае, когда существуют общие ограничения на компоненты управления, то есть ограничения на управление имеют вид r u U. Исследование этих задач представляет существенный интерес для развития теоретико-игровых моделей управления, однако, выходит за рамки настоящей работы. Перейдем к рассмотрению задачи стимулирования, в которой целевая функция агента имеет вид: (14) wi(i, y) = i(y) - ci(y), i Nf, Отметим, что в теоремах 13а и 13б не требуется скалярности множества допустимых действий агента, то есть полученные результаты справедливы и для модели РК 10 (см. раздел 2.4.2 ниже). где ci() - i-я компонента затрат агента, а целевая функция центра в рамках предположения А.4 имеет вид: r (15) W(, y) = H(y) - i ( y).

i N f Рассмотрим два случая. Случай 1. В первом случае (для которого справедливы теоремы 13а и 13б) выполнено предположение А.5, следовательно стимулирование агента за каждую компоненту деятельности может выбираться независимо от стимулирования других компонент, то есть i Ui, i Nf. Если для каждой из компонент целевой функции агента выполнено предположение А.2, то возможна декомпозиция стимулирования (по аналогии с принципом декомпозиции игры агентов в [63]), которая реализуется следующим образом. Из теорем 13а и 13б вытекают соответственно два следующих утверждения. Следствие 14. Система стимулирования c ( y ) + i, y = y * * (16) K i ( y *, y ) = i, y A, i Nf 0, y y* реализует действие y* и является -оптимальной, где = i N f i.

При использовании центром системы стимулирования (16) действие y* A является единственной Парето-оптимальной точкой. Следствие 15. В рамках ГБ система стимулирования (16) с = 0 реализует действие y* и является оптимальной. Случай 2. Во втором случае предположение А.5 не выполнено, следовательно стимулирование агента за каждую компоненту деятельности не может выбираться независимо от стимулирования по другим компонентам, то есть ограничение на стимулирование v имеет вид: M. Тем не менее, в отличие от общего результата теоремы 13, задача стимулирования за счет своей специфики допускает простое решение и в этом случае. Введем следующее предположение относительно множества допустимых управлений M.

А.6. Если M, то i [0;

1], i Nf выполнено: (1 1, 2 2, …, n f n f ) M. Содержательно, предположение А.6 означает, что множество допустимых управлений (имеющее вид конусного отрезка с вершиной в нуле) обладает следующим свойством: если допустимо некоторое управление (некоторый вектор выплат агенту), то допустимо любое другое управление, при котором вознаграждение агента за каждую из компонент его деятельности не ниже исходного. Определим множество (17) PK(M) = {y A | (c1(y), c2(y), …, cn f ( y ) ) M}, то есть множество действий агента, реализуемых в рамках ГБ1 системами стимулирования типа (16) с = 0, принадлежащими множеству M. v Обозначим P(M) = U Par(A,, {fi}) - множество действий, r M v которые могут быть реализованы (то есть сделаны эффективными по Парето) при использовании центром функций стимулирования из множества M. Покажем, что класс систем стимулирования (16) (с параметром y* A) характеризуется максимальным множеством реализуемых действий. Лемма 16. Пусть выполнены предположения А.1-А.4 и А.6. Тогда PK(M) = P(M). Доказательство. Пусть y' P(M): y' PK(M). Тогда (c1(y'), c2(y'), …, cn f ( y ' ) ) M. Фиксируем систему стимулирования M такую, что y' Par(A,, {fi}). В силу предположения r r ' ( y ), y = y ' r А.6 выполнено y' Par(A, 1, {fi}), где 1i(y) = i, i Nf. В силу условий реализуемости 1i(y') ci(y'), i Nf, что противоречит предположению А.6. • 0, y y' При отказе от ГБ множество гарантированно реализуемых действий агента (являющееся внутренностью множества PK(M)) будет незамкнутым, что приведет к "техническим" проблемам при постановке и решении соответствующих оптимизационных задач (см. также раздел 2.1). Следствие 17. Пусть выполнены предположения А.1-А.4 и А.6. Тогда в рамках гипотезы благожелательности система стимулирования (16) с = 0 является оптимальной в классе M. Доказательство. Эффективность класса систем стимулирования типа (16) равна (18) KK = max {H(y) - ci ( y ) }.

yPK ( M ) i N f Эффективность оптимальной в классе M системы стимулироr вания равна (19) K( ) = max yP ( M ) r {H(y) i N f i' ( y) }.

В силу введенных предположений выполнено r y' Par(A, 1, {fi}), где ' ( y ), y = y ' (20) 1i(y) = i, i Nf. 0, y y' Из условий реализуемости следует, что для оптимального дейr ствия y' A, реализуемого системой стимулирования, должно выполняться (21) 1i(y') ci(y'), i Nf. Сравнивая (18) и (19), с учетом (20) и (21), а также результата r леммы 16, получаем, что KK = K( ). • Оптимальное реализуемое действие в обоих случаях определяется из условия максимума целевой функции центра: (22) y* = arg max {H(y) - ci ( y ) }.

yPK ( M ) i N f Итак, в рамках введенных предположений оптимальное решение задачи стимулирования в модели РК 14 имеет вид (16), (22). Еще раз отметим, что одним из преимуществ систем стимулирования вида (16) с i > 0, i Nf, является то, что при их использовании центром множество Парето оптимальных стратегий агента состоит из единственной точки. В результате рассмотрения задачи стимулирования в ОС с агентом, имеющим векторные предпочтения, можно сделать следующий общий качественный вывод: в силу аддитивности каждой из компонент целевой функции агента по стимулированию, а также в силу аддитивности целевой функции центра по стимулированию, набор целевых функций, отражающий предпочтения агента, может с точки зрения центра (см. (22)) быть заменен единственной целевой функцией, являющейся их суммой (c(y) = ci ( y ), i N f (y) = i N f i ( y) = (y)). При этом один агент с векторными пред почтениями может рассматриваться как nf агентов, имеющих скалярные предпочтения и выбирающие одно и то же действие. Таким образом, в модели РК 14 (то есть в ОС, в которой имеется агент с векторными предпочтениями, на каждую из компонент которых влияет соответствующая компонента вектора управлений) возможно аналитическое решение задачи управления. Напомним, что при обсуждении модели РК 13 (модели первого уровня сложности, в которой впервые появляются векторные предпочтения - см. раздел 2.2.4) отмечалось, что на сегодняшний день в общем случае не решена проблема определения рационального выбора агента при его многокритериальных предпочтениях. В задаче стимулирования при отсутствии "сильных" ограничений на взаимосвязь критериев агента (см. предположение А.4) и взаимозависимость управлений (см. предположение А.5) удается добиться единственности Парето оптимального действия агента, что позволяет конструктивно определить его рациональный выбор и исследовать зависимость последнего от выбираемых центром управлений. 2.3.6. Модель РК15 В модели РК15 РК15 = {nA = 1, f, k 2, u} управление со стороны центров скалярно, поэтому ее отличие от "ближайшей" модели первого уровня сложности - модели РК3 (см. рисунок 5) - заключается в том, что скалярные действия агента оцениваются им по нескольким критериям. Задача стимулирования при этом бес r смысленна1 (см. также описание модели РК13 в разделе 2.2.4), а в общем случае основная проблема заключается в определении рационального (с учетом многокритериальности предпочтений) выбора агента при заданных управлениях (см. обсуждение в разделе 2.2.4). 2.4. МОДЕЛИ ТРЕТЬЕГО УРОВНЯ СЛОЖНОСТИ В моделях третьего уровня сложности (модели: РК 8, РК 10, РК 11, РК 16 - см. рисунок 5) отсутствует только один из четырех присущих ОС РК характерных признаков: в модели РК 8 агент имеет скалярные предпочтения, в модели РК 10 имеется один центр, в модели РК 11 управление, выбираемое несколькими центрами, скалярно, в модели РК 16 скалярно множество допустимых действий агента. В то же время, именно в моделях третьего уровня сложности в полной мере проявляются все специфические для распределенного контроля эффекты (см. также описание наиболее общей модели ОС РК - модели РК 12 - в разделе 2.5). 2.4.1. Модель РК8 Отличие модели РК 8 (РК8 = {nA 2, f, k 2, u } - см. рисунок 5) от модели РК 4 заключается в наличии многомерного множества допустимых действий агента, от модели РК 6 - в наличии нескольких центров, от модели РК 7 - в наличии векторных управлений. Решение задачи стимулирования для этого случая дается теоремами 10-12, так как при их доказательстве никаких предположе r Если считать, что компенсаторная система стимулирования должна компенсировать агенту суммарные затраты (где суммирование производится по компонентам целевой функции, то есть предпочтения считаются аддитивными), то решение задачи стимулирования дается теоремами 10-12, если предположить, что {yi( u )}, y( ) Par(A, u, {fi}) известные зависимости. Однако, содержательные интерпретации результатов применения такого подхода затруднительны. r r r ний относительно размерности множества A не вводилось (см. также описание модели РК 7 в разделе 2.3.3). 2.4.2. Модель РК10 Отличие модели РК 10 (РК10 = {nA 2, f, k =1, u } - см. рисунок 5) от модели РК 6 заключается в наличии векторных предпочтений агента, от модели РК 9 - в наличии векторных управлений, от модели РК 14 - в наличии многомерного множества допустимых действий агента. Так как при исследовании модели РК 14 никаких предположений относительно размерности множества A не вводилось (см. утверждения 13-17), то все полученные в разделе 2.3.5 результаты остаются в силе и для модели РК 10. 2.4.3. Модель РК11 Отличие модели РК 11 (РК11 = {nA 2, f, k 2, u} - см. рисунок 5) от модели РК 7 заключается в наличии векторных предпочтений агента, от модели РК 9 - в наличии нескольких центров, от модели РК 15 - в наличии многомерного множества допустимых действий агента. В данной модели одновременно имеют место, как игра центров, так и векторные предпочтения агента, то есть оба характерных для ОС РК признака, поэтому для нее справедливы полученные в разделах 2.2.2 и 2.3.5 результаты, независимо справедливые для моделей РК 3 и РК 14 соответственно. В силу скалярности управления содержательные интерпретации задачи стимулирования для модели РК 11 затруднительны (см. также предположения А4, А.5 и комментарии к теореме 13).

r r r 2.4.4. Модель РК16 Отличие модели РК 16 (РК16 = {nA = 1, f, k 2, u } - см. рисунок 5) от модели РК 4 заключается в наличии векторных предпочтений агента, от модели РК 14 - в наличии нескольких центров, от модели РК 15 - в наличии векторных управлений. В данной модели наиболее ярко проявляются все характерные для ОС РК признаки - и игра центров, и векторные предпочтения агентов при векторных управлениях. Несколько забегая вперед, отметим, что, несмотря на то, что данная модель принадлежит классу моделей третьего уровня сложности (существует более общая модель - модель РК 12, принадлежащая максимальному четвертому - уровню сложности), все результаты, приведенные в настоящем разделе, справедливы и в самом общем случае, то есть применимы для модели РК 12, так как множество допустимых действий агента не предполагается одномерным (см. ниже). Общая постановка задачи управления в модели РК 16 практически повторяет постановку задачи управления в модели РК 3 (равновесие Нэша в игре центров определяется аналогично выражению (1) раздела 2.2.2), отличие заключается в том, что вводятся дополнительные предположения относительно множества действий, реализуемых данными управлениями центров, например, может считаться, что действие агента принадлежит множеству r недоминируемых по Парето действий Par( u ), и т.д. Исследуем задачу управления на примере модели стимулирования. Введем следующее предположение1. А.7. Функции ci(y), i Nf;

Hi(y), i K, удовлетворяют предположению А.2. Целевая функция i-го центра в рассматриваемой модели стимулирования имеет вид: (1) Wi( i, y) = Hi(y) r r r j N f ij ( y), i K Для простоты изложения будем считать, что ограничения на стимулирование отсутствуют (если они присутствуют, то их учет производится по полной аналогии с тем как это делалось в разделе 2.3.5 при исследовании модели РК 14). i i i где i = ( 1, 2, …, n f ) - вектор стимулирований, выбранный i-ым центром. Предпочтения агента в общем случае описываются векторфункцией с компонентами1:

r (2) wi(, y) = r jK i j ( y) - ci(y), i Nf.

В соответствии с результатами утверждений 14-17, минимальные суммарные затраты центров на стимулирование по реализации действия y A равны: (3) (y) = ci ( y ).

i N f Введем в рассмотрение систему стимулирования r ij, y = y * (4) i ( i, y ) =, i Nf, j K, * 0, y y r 2 k где i = ( 1, i, …, i ), i Nf. Величины i j (5) i = (6) j = j N f iK ij, i K, ij, j Nf, определяют соответственно сумму затрат на стимулирование, выплачиваемых по всем компонентам i-ым центром, и выплачиваемых всеми центрами по j-ой компоненте целевой функции агента. Из результатов разделов 2.1 и 2.3.5 следует, что в рамках гипотезы благожелательности система стимулирования (4), для которой выполнено (7) j = cj(y*), j Nf, является минимальной системой стимулирования, реализующей действие y* A.

Напомним, что в соответствии с принятой системой обозначений центры нумеруются верхними индексами, а компоненты целевой функции агента - нижними индексами. Рассмотрим теперь условие того, что система стимулирования, описываемая матрицей = || ij ||, i Nf, j K, является равновесием Нэша в игре центров. Определим максимальный выигрыш i-го центра при условии, что он самостоятельно побуждает агента выбирать те или иные действия:

i (8) Wmax = max {Hi(y) y A i N f ci ( y ) }, i K.

Наиболее выгодное для i-го центра действие агента в этом случае есть i (9) y max = arg max {Hi(y) y A i N f ci ( y ) }, i K.

Условие выгодности для i-го центра использования системы стимулирования (4) имеет вид i (10) Hi(y*) - i Wmax, i K. По аналогии с моделью РК 3 можно доказать, что равновесие Нэша в игре центров определяется следующим утверждением. Лемма 18. Пусть выполнены предположения А.3 и А.7. Тогда множество равновесий Нэша в игре центров имеет вид:

(11) = {, y* | ij 0, y* A, (7), (10)}. Следовательно, если множество, определяемое выражением (11) не пусто, то при использовании минимальных систем стимулирования (4) существует равновесие Нэша в игре центров, определяемое выражениями (7) и (10).

i Упорядочим центры в порядке убывания величин Wmax, i K, и введем следующее предположение относительно рационального выбора агента. А.8. При заданной системе стимулирования агент выбирает из недоминируемых по Парето действий то действие, которое обеспечивает максимум суммарного стимулирования.

Лемма 19. Пусть выполнены предположения А.3, А.7 и А.8. Тогда, если множество пусто, то равновесные1 стратегии центров определяются следующими выражениями: (12) i* j (, ij, y = y *i y) =, i Nf, j K, *i 0, y y (13) y* = y*1 = y1, max 2 (14) 1 0, 1 = ( y1 ) + Wmax +, i max а y*i, ij и - любые, удовлетворяющие следующим условиям:

1 2 (15) y*i A, i [0;

Hi(y*i)], i = 2, k, (0;

Wmax - Wmax ]. Доказательство леммы 19 повторяет доказательство леммы 11 с учетом многокритериальности предпочтений агента и опускается. Содержательно диктатор обеспечивает агенту максимальное стимулирование, определяемое выражением (14). Предположение А.8 нужно для доопределения рационального выбора агента, иначе при фиксированном суммарном выигрыше агента, равном 2 Wmax +, может оказаться, что множество Парето содержит точки, отличные от y1. В силу этого, предположение А.8 может быть max заменено на любое другое предположение, однозначно опредеr ляющее действие y( ), выбираемое агентом при заданной системе стимулирования типа (12). Результат леммы 19 при этом практичеr ски не изменится (необходимо заменить y* на y( ) и т.д.), так как r действие y( ) всегда может быть реализовано диктатором. Объединяя результаты лемм 18 и 19, получаем следующее утверждение. Теорема 20. Пусть выполнены предположения А.3, А.7 и А.8. Тогда, если множество, определяемое выражением (11), не пусто, то решение задачи стимулирования определяется выражениями (7) и (10), если =, то решение задачи стимулирования определяется выражениями (12)-(15).

Напомним, что выше мы условились в случае отсутствия равновесия Нэша считать равновесными те стратегии центров, которые устойчивы в смысле "условия угроз" (см. раздел 2.2.2). В предельных случаях теорема 20 переходит: при nf=1 - в следствие 12, при k=1 - в теорему 17, при nf=1 и k=1 - в теорему 7. 2.5. ОБЩАЯ МОДЕЛЬ ОРГАНИЗАЦИОННОЙ СИСТЕМЫ С РАСПРЕДЕЛЕННЫМ КОНТРОЛЕМ (МОДЕЛЬ РК12) В общей модели ОС РК (модель РК 12 - РК12 = {nA 2, f, r k 2, u } - см. рисунок 5) имеют место одновременно все характерные для распределенного контроля признаки: агент имеет векторные предпочтения на многомерном множестве своих допустимых действий, а несколько центров совместно выбирают векторные управления. Поэтому все остальные базовые модели ОС РК, описываемые в настоящей работе могут рассматриваться как частные случаи этой модели. В то же время, для модели РК 12 справедливы все результаты, полученные в разделе 2.4.4 для модели РК 16 (см. теорему 20), так как при исследовании последней не предполагалась скалярность множества допустимых действий агента, поэтому дублировать рассуждения мы не будем, а перейдем к обсуждению межуровневого взаимодействия участников многоуровневых организационных систем.

Pages:     || 2 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.