WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 |

Аналогично9 определяются законы управления первого и второго игроков: Z(, 1, 1) и Z(U, 2, 2) для варианта 1 и Z(u, 1, 1), Z(U, 2, 2) для варианта 2. Закон управления игрока 2 и реализация помехи порождают ломаную Эйлера траекторию системы (1).

Тогда гарантированные результаты первого и второго игроков в варианте 1 будут:

(1)(, U, v[·]) = lim inf 1(Z(, k, k), Z(U, k, k), v[·], tk, xk), (4) 1 1 1 2 2 0 k при k 0, tk t0, xk x0, (k) i(k), если k, (5) i 0 0 i i (1)(, U, v[·]) = lim sup 2(Z(, k, k), Z(U, k, k), v[·], tk, xk), 2 1 1 2 2 0 k при условии (5).

Для варианта 2 результат (2)(u, U, v[·]) аналогичный варианту 1 (4), (5) и (2)(u, U) = sup lim sup 2(Z(u, k, k), Z(U, k, k), v[·], tk, xk), 2 1 1 2 2 0 v[·]V k при условии (5).

Выполнены следующие предположения:

А. Игрок 1 (лидер) выбирает стратегию (во втором варианте контрстратегию u) до начала игры и сообщает ее игроку 2.

Б. Игрок 2 (ведомый), зная стратегию (контрстратегию u), действует рационально выбирает стратегию U из условия (1)(, U, v[·]) min, для варианта U и из условия (2)(u, U) min, U и условия невозрастания (2) вдоль траекторий для варианта 2.

Гарантированный результат лидера при объявлении им стратегии зависит от того, какую стратегию выберет ведомый из множества рациональных стратегий K1(, v[·]). Для второго варианта объявленной стратегии u при реализации помехи v[·] соответствует множество рациональных стратегий K2(u). Рассматриваются два случая.

Случай 1, когда ведомый выбирает произвольную рациональную стратегию:

11(, v[·]) = inf (1)(, U, v[·]), 1 UK1(,v[·]) 21(u, v[·]) = inf (2)(u, U, v[·]);

1 UK2(u) Случай 2, когда ведомый выбирает стратегию, наилучшую для лидера (доброжелательный ведомый):

12(, v[·]) = max (1)(, U, v[·]), (6) 1 UK1(,v[·]) 22(, v[·]) = max (2)(u, U, v[·]). (7) 1 UK2(u) Задача 1i, (i = 1, 2). Найти стратегию лидера 1,i такую, что 1i(1,i, v[·]) = max 1i(, v[·]), i = 1, 2.

1 Задача 2i, (i = 1, 2). Найти контрстратегию лидера u такую, что 2,i 2i(u, v[·]) = max 2i(u, v[·]), i = 1, 2.

1 2,i u Для первого варианта, пару стратегий (1,1, U1,1), где 1,1 решает задачу 11, а U1,1 K1(1,1, v[·]) назовем решением Штакельберга в дифференциальной иерархической игре, а пару стратегий (1,2, U1,2), где 1,2 решает задачу 12, а U1,2 доставляет максимум в (6), при = 1,2, назовем решением Штакельберга в дифференциальной иерархической игре с доброжелательным ведомым. Для второго варианта решения Штакельбега определяются аналогично, с понятными изменениями.

Раздел 1.3 содержит основной результат первой главы. Для нахождения решений задач 1i и 2i рассматриваются следующие нестандартные задачи оптимального управления, (индекс i обозначает номер варианта игры).

Задача 3i, (i = 1, 2). При фиксированной помехе v[·] найти кусочнонепрерывные функции (t) и u(t), t0 t, доставляющие решение задачи max ( ()u2()d), (·),u(·) tпри условии (для i = 1) t 1(t, x(t)) + ()u2()d 1(, x()) + ()u2()d, (8) t0 tt0 t, при условии (для i = 2) t1 t2(t1, x(t1)) + ()u2()d 2(t2, x(t2)) + ()u2()d, (9) t0 tt0 t1 < t2, где x(·) траектория уравнения (1), порожденная управлением u(·) и реализацией помехи v[·] из начальной позиции (t0, x0).

В условиях (8), (9) фигурируют непрерывные функции цены1,1(t, x(t)), 2(t1, x(t1)) вспомогательных антагонистических игр (1), (2), со1 ответственно, в которых ведомый стремится минимизировать свой показатель, а лидер ему противодействует.

Пусть 0(·) и u0(·), решение 31 при фиксированной помехе v[·], а x0(·) траектория (1), порожденная управлениями u0(·) и v[·] из пози ции (t0, x0). Рассматриваются стратегии 0 = 0(t, x, ), 1() и U0 = u0(t, x, ), 2(), где 0(t), x - x0(t) 0(t, x, ) =, (10) (1)(t, x, ), x - x0(t) > u0(t), x - x0(t) u0(t, x, ) =, (11) произвольная, x - x0(t) > t0 t, (1)(·, ·, ·) универсальная оптимальная стратегия лидера в игре (1), а функция 2() выбрана так, чтобы обеспечить выполнение условия, что соответствующие ломаные Эйлера при условии (2) 2() не выходят за пределы -окрестности движения x0(·).

Пусть 0(·) и u0(·) решение задачи 32 при фиксированной помехе v[·]. Рассматривается контрстратегия u = {0(t, x, u, ), 1()} и стратегия U0 = u0(t, x, ), 2(), где 0(t), u - u0(t) 0(t, x, u, ) =, (12) (2)(t, x, u, ), u - u0(t) > u0(t, x, ) = u0(t), (13) t0 t, (2)(t, x, u, ) универсальная оптимальная стратегия лидера в игре (2), а функция 2(·) выбрана аналогично варианту 1.

Справедливы следующие теоремы, определяющие структуру решения задач 1i и 2i.

Теорема Пусть для решения задачи 31 в условии (8) имеет место строгое неравенство для всех t [t0, ), тогда пара стратегий (0, U0) (10),(11) есть решение Штакельберга в иерархической дифференциальной игре. Если же хотя бы при одном t [t0, ) условие (8) выполняется со знаком равенства, то пара (0, U0) (10),(11) есть решение Штакельберга в иерархической дифференциальной игре с доброжелательным ведомым.

Теорема Пусть для решения задачи 32: (·) и u0(·) в условии (9) имеет место строгое неравенство для всех t [t0, ), тогда пара контрстратегия лидера (u, U0) (12),(13) есть решение Штакельберга в иерархической дифференциальной игре. Если же хотя бы при одном t [t0, ) условие (9) выполняется со знаком равенства, то пара (u, U0) (12),(13) есть решение Штакельберга в иерархической дифференциальной игре с доброжелательным ведомым.

В разделе 1.4 выписываются функции цены антагонистических игр (1), (2), находятся решения задач 3i и тем самым, согласно теоремам 1 и 2, находятся решения задач 1 и 2.

Заметим, что для второго варианта функция цены игры (2) строилась на основе метода вспомогательных программных конструкций, с проверкой условия регулярности11. Приводятся результаты численного расчета при некоторых значениях параметров, которые иллюстрируют теоретические положения.

Вторая глава посвящена разработке алгоритма построения решений в линейной иерархической игре Штакельберга двух лиц с цилиндрическими показателями, динамика которой описывается уравнением = Ax + Bu + Cv, x[t0] = x0. (14) Здесь время t [t0, ], фазовый вектор x Rn; A [n n], B [n k], C [n l] постоянные матрицы. Значения управляющих векторов u и v первого и второго игроков ограничены условиями u(t) µ(t)P, v(t) (t)Q, (15) Красовский А. Н. Некоторые задачи игрового управления: Учеб. пособие. Свердловск: УрГУ, где множества P, Q выпуклые компактные многогранники в пространствах Rk и Rl с конечным числом вершин, а µ(t) = a + bt, (t) = c + dt скалярные линейные функции.

Зафиксируем две некоторые координаты x, x фазового вектора x.

Предположим, что первый игрок, распоряжающийся выбором управления u, стремится максимизировать терминальный цилиндрический показатель вида I1 = 1(x(), x()), (16) а второй игрок, распоряжающийся выбором управления v, стремится максимизировать терминальный цилиндрический показатель вида I2 = 2(x(), x()). (17) Предполагается, что функция 1 : R2 R1 непрерывная, а 2 : R2 R гладкая и вогнутая.

Предполагается, что игрокам известны уравнения динамики системы, ограничения на управляющие множества, показатели качества управления, момент окончания игры и фазовый вектор в любой момент игры. Это позволяет формализовать действия игроков в классах чистых позиционных стратегий. Аналогично главе 1 формализуются законы управления, движения и гарантированные результаты игроков. Первый игрок лидер объявляет свою стратегию до начала игры, а второй игрок ведомый, выбирает свою стратегию из условия рациональности.

Следуя подходу9, для построения решений Штакельберга используется сведение задачи к нестандартной задаче оптимального управления, как задачи нахождения кусочно-непрерывных функций управлений игроков, максимизирующих показатель лидера, на траекториях системы, для которых максимум функции цены антагонистической игры, достигается на конце траектории. Такие траектории называем допустимыми. Допустимую траекторию, на которой достигается максимум показателя лидера, назовем оптимальной.

Структура стратегий, доставляющих решение Штакельберга, по сути дела описана в главе 1 (см. стр. 12 автореферата). Основная идея этой структуры состоит в том, что оба игрока стремятся согласованно обеспечить нахождение текущей позиции игры в пределах -трубки, построенной вокруг оптимальной траектории. Таким образом, построение решения Штакельберга сводится к нахождению оптимальной траектории в нестандартной задаче оптимального управления и последующему нахождению порождающих ее управлений. Сложность задачи заключается в том, что для указанного класса задач функция цены антагонистической игры, вообще говоря, не находится в явном виде.

То обстоятельство, что показатели игроков зависят только от двух фазовых координат, позволяет применить известное преобразование фазового вектора с использованием фундаментальной матрицы Коши для исходной системы1, после чего задача сводится к эквивалентной ей задаче на плоскости.

Показатели игроков при этом преобразовании не изменяются. Допустимая траектория будет оптимальной, тогда и только тогда, когда соответствующая ей траектория в задаче на плоскости доставляет максимум показателю лидера на множестве концов допустимых траекторий в задаче на плоскости.

В диссертации предлагается следующий алгоритм построения решений последней задачи, основанный на приведении динамической системы к системе конечно-разностных уравнений для сетки по оси времени (ti, i = 0,..., n), и использовании методов вычислительной геометрии для приближенного построения границ сечений D(ti) R2 множества допустимых траекторий плоскостями ti = const.

Граница сечения представляется плоским многоугольником общего вида, который может быть невыпуклым и не обязательно связным. Получаются такие многоугольники в результате циклической последовательности теоретико-множественных операций алгебраической суммы, разности или объединения, повторяющихся на каждом шаге алгоритма по оси времени. Эти самодостаточные алгоритмы оформлены как модули и последовательность их вызовов определяется программой-оболочкой, использующей для хранения сечений дисковые файлы.

Финальное множество D() аппроксимируется совокупностью его приближенных “дуг”, получаемых в результате работы алгоритма. Сопоставление рисунков 1 (a) и 1 (b), а также рисунков 2 (а) и 2 (б) дает наглядное представление о том, как дуги, получающиеся в результате работы алгоритма, “заполняют” соответствующие множества D().

Для построения каждой дуги сначала с помощью попятной процедурыИсакова Е. А., Логунова Г. В., Пацко В. С. Построение стабильных мостов в линейной дифферен(а) (б) Рис. 1.

(а) (б) Рис. 2.

приближенно вычисляются сечения стабильного моста в задаче сближенияуклонения1,2 с лебеговым множеством, границей которого является одна из линий уровня функции 2(x) = c.

Для каждого моста, определенного значением c, в прямом времени для моментов t = ti строится последовательность многоугольников, аппроксимирующих сечения множества траекторий системы, не попадающих внутрь указанного моста, плоскостями t = ti. Эту последовательность многоугольников, называем трубкой достижимости Алгоритм построения трубки достижимости предполагает выполнение следующих операций, повторяющихся для каждого момента времени ti. Пусть сечение трубки достижимости (текущий многоугольник) построено для момента ti. Далее строится множество достижимости системы в следующий момент времени ti+1, для которого начальными состояниями являются точки текущего многоугольника. Затем полученное множество достижимости пересекается13 с дополнением сечения моста для момента ti+1. Результирующий многоугольник и будет сечением трубки достижимости для момента ti+1. На последнем шаге вершины сечения трубки достижимости, лежащие на границе последнего сечения моста, берутся в качестве искомой дуги.

Следует отметить, что для построения множеств достижимости в текущий момент времени используется разработанный автором алгоритм построения алгебраической суммы выпуклого многоугольника и многоугольника общего вида. Достоинство алгоритма в том, что он, в отличие от аналогов, корректно обрабатывает границы множеств, а так же работает быстрее триангуляционных алгоритмов.

С его помощью текущий многоугольник общего вида складывается с выпуклым многоугольником, аппроксимирующим множество достижимости системы из произвольного начального состояния, принадлежащего плоскости t = ti.

Для построения кусочно непрерывных управлений игроков, доставляющих решение нестандартной задачи оптимального управления, используется циальной игре с фиксированным моментом окончания // Алгоритмы и программы решения линейных дифференциальных игр. Свердловск: УНЦ АН СССР, 1984. С. 127–158.

Вахрушев В. А., Тарасьев А. М., Ушаков В. Н. Алгоритм построения пересечения и объединения множеств на плоскости // Управление с гарантированным результатом, Свердловск: УНЦ АН СССР, 1987. С. 28–36.

следующая процедура. Сначала на сетке, состоящей из точек, равноотстоящих друг от друга вдоль дуг, аппроксимирующих множество D(), находится максимум показателя первого игрока. После чего попятной процедурой, использующей алгоритм перебора управлений игроков, находится порожденная этими управлениями допустимая траектория, соединяющая найденную точку максимума с начальной точкой. На каждом шаге попятной процедуры управления подбираются так, чтобы строящаяся траектория не покидала трубки достижимости, соответствующей найденному максимуму показателя первого игрока.

Глава 2 состоит из 6 разделов. Раздел 2.1 содержит математическую постановку задачи и ее формализацию. Раздел 2.2 содержит определение структуры решений и включает два подраздела. Подраздел 2.2.1 содержит формулировку вспомогательной антагонистической игры 2. Подраздел 2.2.содержит формулировку вспомогательной задачи нестандартного оптимального управления.

Раздел 2.3 содержит общее описание алгоритма, содержит четыре подраздела. Подраздел 2.3.1 содержит принципиальную схему алгоритма. Подраздел 2.3.2 содержит описание алгоритма построения оптимальной траектории.

Подраздел 2.3.3 содержит обсуждение геометрических конструкций, используемых при работе алгоритма. Подраздел 2.3.4 содержит основные определения и обозначения, связанные с описанием плоских многоугольников в алгоритме.

Раздел 2.4 содержит описание процедуры построения моста для игры сближения-уклонения с лебеговым множеством показателя качества управления второго игрока, состоит из 3 подразделов. Подраздел 2.4.1 содержит постановку задачи. Подраздел 2.4.2 содержит описание алгоритма. Подраздел 2.4.3 содержит краткое описание реализации.

Раздел 2.5 содержит описание алгоритма построения алгебраической суммы многоугольника общего вида и выпуклого, состоит из 7 подразделов.

Pages:     | 1 || 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»