WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 3 | 4 || 6 | 7 |   ...   | 10 |

Однако начальный и конечный моменты времени t0, t1, начальное и конечное значения вектора фазовых координат x0 = (x10,..., xn0 ), x1 = (x11,..., xn1), начальное и конечное значения вектора сопряженных переменных 0 = (1, 10,..., n0 ), 1 = (1, 11,..., n1), постоянный вектор µ = (µ1, µ2,..., µl ) и вектор управляющих параметров a = (a1, a2,..., ar ) для оптимального решения заранее неизвестны. Они могут быть определены из условий трансверсальности (28) – (32) и граничных условий (12). В самом деле, для определения (2 + 4n + l + r) неизвестных t0, t1, x0, x1, 0, 1, µ, a имеется два условия (28), (29), 2n условий (30), (31), r условий (32) и l условий (12); кроме того, 2n соотношений вида x(t1) = 1(t0, t1, 0, x0), (t1) = 2(t0, t1, 0, x0 ) будут получены в результате интегрирования системы (23). Таким образом, для полученной краевой задачи имеется достаточное число соотношений, позволяющих считать ее, по крайней мере теоретически, разрешимой. Необходимо также отметить, что принцип максимума дает глобальный минимум.

Численные методы решения краевых задач приведены в [20, 23].

4.4 Некоторые следствия принципа максимума 1 Непосредственным следствием системы (23) и условия (24) является выполнение между точками разрыва функции u(t) соотношения dH H =. (34) dt t Это условие для автономных систем (т.е. систем, не зависящих явно от t) приводит к первому интегралу: H = const вдоль всей оптимальной траектории, хотя в общем случае условие (34) неверно, условия скачка обоснованы и получены.

2 В большинстве практических случаев 0 > 0 (так называемый нормальный случай) и поэтому без нарушения общности в силу однородности функции H по переменным i можно принять 0 = 1.

Примечание. Из-за однородности H по i управление u из (25) определяется не самими величинами i, а их отношениями к одной из них, например, к 0. Это эквивалентно принятию 0 = 1. Случай 0 = 0 является особым (анормальным) и здесь не рассматривается.

3 Условия (24), (25) принципа максимума позволяют найти оптимальные значения всех m компонент вектора u.

Если минимум H по u достигается во внутренней точке множества Um и функции fi дифференцируемы по u, то u* определяются из условия j H = 0 ( j = 1, m). (35) u j u=u* Это условие совместно с (23) образует условие Эйлера-Лагранжа классического вариационного исчисления для задачи (11) – (13) [24 – 27].

Примечание. Минимум H по u далеко не всегда достигается во внутренней точке множества m U, а в тех случаях, когда он достигается во внутренней точке, последняя не обязательно является стационарной (рис. 7). Типы минимизирующих точек довольно разнообразны. Из них особо следует отметить случаи нестрогого минимума, так как принцип максимума не позволяет для них однозначно определить u*. Этот случай в теории оптимального управления является особым.

H(u) H(u) H* H* u* umin u* umax u umin 0 umax u б) а) H(u) H(u) H* H* u* u* umin umax u umin uс1 0 uс2 umax u в) г) H(u) H(u) 2 H* umin H* u* uс0 u* u u* 0 umax u umin umax д) е) H(u) 4 H* 6 Рис. 7 Примеры зависимостей гамильтониана H от управления u и umin u* 0 u* u типы минимизирующих точек u* на umax множестве U:

ж) umin u umax ;

а – внутренний min H(u) в стационарной точке; б, в – граничный min H(u);

г – граничный min H(u); uс1, uс2 – стационарные точки локальных max и min;

д – внутренний min H(u) в угловой точке; uс3 – точка перегиба;

е – две изолированные минимизирующие точки 2 и 3; ж – нестрогий min H(u) на отрезке 4 – 5 и изолированный min H(u) в точке m Если функция H достигает минимального значения в точке на границе ГU m области U, то условие (35) не является более необходимым в этой точке. При этом возможны три случая:

m а) множество U описывается системой связей в виде равенств S (u1, u2,..., um ) = 0 (s = 1, 2,..., < m) ; (36) тогда минимум H при условиях (36) находится методом неопределенных множителей Лагранжа;

m б) множество U задано системой неравенств s1 (u1, u2,..., um ) 0 (s1 = 1, 2, 3,...) ; (37) тогда задача сводится на каждом шаге интегрирования к проблеме нелинейного программирования;

m в) множество U является ограниченной областью, не имеющей границ (например, замкнутой двумерной поверхностью типа сферы или эллипсоида в трехмерном пространстве). Для всякой непрерывной функции H(u), имеющей непрерывные частные производные, заданной на замкнутой поверхности и выраженной через параметрические координаты этой поверхности, точка максимума H по этим параметрическим координатам принадлежит к числу решений (35), где роль u играют параметрические коj ординаты поверхности.

Пример. Пусть H (u1, u2, u3) задана на сфере. Тогда замена u1 = r sin cos, u2 = r sin sin, u3 = r cos ~ приводит к H (u1, u2, u3) = H (,, r) – периодической функции с периодом 2 по и и в точке миниму~ ма H = H имеют место равенства ~ ~ H H = = 0.

4 Условия (35) определяют лишь внутреннюю стационарную точку функции H. Если u* = u удовлетворяет системе (35) и доставляет минимум функции H(u), то должны быть выполнены необходимые условия второго порядка: матрица частных производных второго порядка функции H(u) 2H Huu = (i, j = 1, m) (38) uiu j должна быть неотрицательно определенной в точке u* минимума функции H(u).

Положительная определенность матрицы Нuu при выполнении условий (35) в точке u* является достаточным условием для относительного (но не абсолютного!) минимума H(u) в этой точке. Условие (38) неотрицательной определенности матрицы Нuu представляет собой условия Лежандра-Клебша классического вариационного исчисления [25 – 27].

Проверка положительной определенности матрицы Нuu может проводиться по критерию Сильвестра: для положительной определенности матрицы Нuu необходимо и достаточно, чтобы ее угловые миноры были положительными. В частности, для положительно определенной матрицы Нuu выполняется условие 2H det > 0, (39) uiu j u* являющееся аналогом условия Гильберта неособенности (невырожденности) вариационной задачи (см.

п. 9.4).

5 Приведенная формулировка принципа максимума остается справедливой и для случая, когда обm ласть U зависит явным образом от времени t:

m m U = U (t).

Замечание. Принцип максимума является, вообще говоря, лишь необходимым условием. Любое допустимое оптимальное управление, если оно существует, удовлетворяет принципу максимума. Однако не всякое допустимое управление, удовлетворяющее принципу максимума, является оптимальным.

Поэтому после определения управления на основе необходимых условий следует убедиться в его оптимальности. Для этого служат достаточные условия оптимальности.

В некоторых случаях принцип максимума является не только необходимым, но и достаточным условием оптимальности управления u(t). Пусть, например, найдено допустимое управление u*(t), которое переводит заданное начальное состояние x(t0) = x0 линейной относительно фазовых координат системы m & x = A(t)x + h(u, t), u U, (40) m где U – замкнутое ограниченное множество; A(t), h(u, t) – непрерывные функции t, u; x = (x1, x2,..., xn ), u = (u1, u2,..., um ) в заданное конечное состояние x(t1) = x1. Введем такую систему начальных значений сопряженных переменных (t0 ) = (00,10,..., n0 )T, 00 > 0, что u*(t) минимизирует в каждый момент t функцию H = 00h0 (u, t) + T (t)h(u, t) m по всем u U, f0T (x*(t), t) & где (t) = -AT (t)(t) - 00.

x Тогда управление u*(t) минимизирует на траекториях x*(t) системы (40), проходящих через x0, x1, критерий качества tJ[u(t)] = f0 (x,t) + h0 (u,t)]dt, [ tесли только f0 (x, t) является однозначной выпуклой вниз функцией x для всех t [t0, t1].

Замечание. Функция f0 (x, t) называется выпуклой вниз по x при t [t0, t1], если для всех x Rn, x Rn f0 (x, t) (x - x) + f0 (x, t) f0 (x, t).

x КОНТРОЛЬНЫЕ ВОПРОСЫ 1 Приведите формулировку принципа максимума.

2 Расскажите о следствиях принципа максимума.

3 Каким условием является принцип максимума Глава НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ ДЛЯ ОСНОВНОЙ ЗАДАЧИ СИНТЕЗА ЗАКОНА УПРАВЛЕНИЯ.

МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 5.1 Задача синтеза оптимального закона управления Для синтеза оптимального закона управления систем с обратной связью, оптимальных замкнутых контуров управления, оптимальных законов наведения и т.д. более естественен другой подход, чем использованный при решении задач, описанных в гл. 4, 9.

В отличие от уравнений Эйлера–Лагранжа и принципа максимума Понтрягина, использующих временное представление оптимального управления [в форме u* = u(t)] для единичного объекта управления, этот подход рассматривает оптимальное управление в форме закона u* = v*(x, t) (координатное управление, управление в форме обратной связи) для множества однородных объектов, отличающихся различными начальными состояниями.

С точки зрения механики этот подход соответствует рассмотрению распространения «волн возбуждения» от некоторого источника в неоднородной среде. Общность обоих подходов устанавливает проективная геометрия, с точки зрения которой траектория точки в фазовом пространстве может рассматриваться и как последовательность точек и как огибающая своих касательных.

Последовательное применение описываемого подхода к задачам оптимального управления приводит для непрерывных процессов к дифференциальному уравнению (нелинейному) в частных производных первого порядка типа уравнения Гамильтона–Якоби [25 – 27].

Один из возможных способов получения этого уравнения состоит в использовании принципа оптимальности динамического программирования. Динамическое программирование является довольно общим методом, разработанным для решения общих задач многоэтапного выбора (т.е. задач, в которых результаты предыдущих операций можно использовать для управления ходом будущих операций).

5.2 Принцип оптимальности динамического программирования Принцип оптимальности. В основе динамического программирования лежит сформулированный Р. Беллманом принцип оптимальности: «Оптимальная политика обладает тем свойством, что каковы бы ни были начальное состояние и первоначально принятое решение, последующие решения должны составлять оптимальную политику относительно состояния, получившегося в результате первоначально принятого решения» [19, 28]. Или, оптимальное управление не зависит от того, каким образом пришла система к данному состоянию при t = t (т.е. не зависит от «предыстории» движения) и для будущих моментов времени полностью определяется лишь состоянием системы в рассматриваемый момент времени.

Как частный случай в динамическом программировании рассматриваются задачи управления непрерывными процессами (основная задача оптимального координатного управления).

Краткая формулировка задачи. Пусть дана система уравнений движения dx = f (t, x, u), (41) dt m где u = (u1, u2,..., um )T U ;

n x = (x1, x2,..., xn )T X ;

f = ( f1(t, x, u), f2 (t, x, u),..., fn (t, x, u))T, и граничные условия x(t0 ) = x0; x(t1) = x1. (42) Требуется синтезировать закон оптимального управления u* = v*(x, t), минимизирующий значение функционала tJ[t0, x0, u] = f0 (t, x, u)dt. (43) tn Необходимые условия. Пусть в (n + 1)-мерном пространстве (X, T ) имеется некоторая область G(x, t) начальных значений x0, t0 ((x0, t0 ) G(x, t)), для каждой точки которой существует оптимальное (в смысле минимума J[t0, x0, u] управление u*(t), переводящее эти начальные точки в некоторую фиксированную точку (x(t1) = x1, t1) ; x1, t1 – заданы. На таких оптимальных управлениях минимальное значение критерия качества (43) будет зависеть лишь от начальных значений x0, t0. Таким образом, * Jmin = J = V (t0, x0 ), где V (t0, x0 ) – некоторая функция (n + 1) переменного t0, x10,..., xn0.

Имея в виду произвольную точку области G(x, t), в дальнейшем, в целях упрощения записи, нижний индекс «0» будем опускать.

Таким образом, функция V(t, x) – минимальное значение критерия качества (43) на оптимальных траекториях системы (41), начинающихся в точке (t, x) и заканчивающихся в фиксированной точке (t1, x1):

tV (t, x) = min f0 (t, x, u)dt (44) m uU t на траекториях (1) из (t, x) в (t1, x1).

Функция V(t, x) является аналогом «действия» в аналитической механике и «экстремального интеграла» в классическом вариационном исчислении.

Если функция V(t, x) существует и является непрерывно дифференцируемой по (t, x), то она удовлетворяет основному уравнению динамического программирования, которое является необходимым и достаточным условием, – дифференциальному уравнению в частных производных первого порядка (уравнению Гамильтона–Беллмана) V V + min H (t, x,, u) = 0 (45) m t x uU с граничным условием V (t1, x1) = 0 ; (46) здесь H (t, x, Vx, u) = f0 (t, x, u) +Vxf (t, x, u), (47) где V V = (см. табл. 2).

x x Уравнение (45) аналогично уравнению Гамильтона–Якоби классического вариационного исчисления – достаточное условие:

V V + H(t, x, ) = 0, (48) t x где функция H получена в результате подстановки в функцию H (t, x, Vx, u) управления u0 = u0 (t, x, Vx ), найденного из условия стационарности этой функции:

H = 0 ( j = 1, m). (49) u j Из (45) можно определить оптимальный закон управления V V t, u* = v*(t,x) = arg min H x,, u = u*t, x,. (50) m x x uU Геометрический смысл условия (50) пояснен на рис. 3.8. Если функция V(t, x) найдена путем решения уравнения (45) с условием (46), то проблема синтеза решена, так как для известной функции V(t, x) имеем V (t, x) u* = u*t, x, = v*(t, x). (51) x Рис. 3.8 Геометрический смысл условия :

min H (t, x, Vx, u) = min [Vx f (t, x, u)] m m uU uU V V (t, x) = min J[u(t)], Vx =, n = m = 2, f0 = 0, m x uU & x* – оптимальная фазовая скорость: & ;

x* = f (t, x, u*) ;

u*(t, x) – оптимальное управление: u* = arg min H (t, x, Vx, u) m uU x* – оптимальная траектория Подобно тому, как принцип максимума Понтрягина придает удобную форму и уточняет условие Вейерштрасса (см. п. 9.3) для основной задачи оптимального программного управления в случае замкm нутой области значений управления U, так и уравнение Гамильтона–Беллмана является уточнением и обобщением уравнения Гамильтона–Якоби. Уточнение состоит в том, что вместо условия стационарности H u = 0 там, где оно не отвечает существу дела, в (45) используется условие V min Ht, x,, u.

m x uU В приведенном условии (45) требование непрерывной дифференцируемости (гладкости) функции V(t, x) является существенным. Но в отличие от принципа максимума, где утверждается существование необходимой для него вектор-функции (t), существование гладкого потенциала V(t, x) в методе динамического программирования не доказывается. Это снижает ценность необходимого условия (45), так как для негладкой функции V(t, x) трудно сохранить необходимость его в полном объеме.

Pages:     | 1 |   ...   | 3 | 4 || 6 | 7 |   ...   | 10 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.