WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

МОСКОВСКИЙ ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ФИЗИКОТЕХНИЧЕСКИЙ ИНСТИТУТ (ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ)

На правах рукописи

НАУМОВ ГЕОРГИЙ ВАСИЛЬЕВИЧ АНАЛИЗ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ С УЧАЩАЮЩИМИСЯ

ПЕРЕКЛЮЧЕНИЯМИ ИНВАРИАНТНО-ГРУППОВЫМИ И ЧИСЛЕННЫМИ МЕТОДАМИ Диссертация на соискание ученой степени кандидата физико-математических наук

(специальность 01.01.09 – дискретная математика и математическая кибернетика) Научный руководитель член-корреспондент РАН, профессор А.А. Меликян Москва – 2005 СОДЕРЖАНИЕ Введение……………………………………………………………………………3 1. Оптимальный синтез в двухмерной задаче оптимального управления с несимметричными ограничениями на управление и функционалом, зависящим от параметра………...……………………………………………….18 1.1. Постановка задачи……………………………………………………………19 1.2. Принцип максимума………………………………………………………….20 1.3. Метод динамического программирования………………………………….23 1.4. Ограничения разного знака………………………………………………….27 1.5. Ограничения одного знака…………………………………………….……..35 2. Численное построение кривой переключения для задач оптимального управления с учащающимися переключениями……………………….……….41 2.1. Постановка задачи……………………………………………………………41 2.2. Принцип максимума………………………………………………………….43 2.3. Уравнение Беллмана…………………………………………………………45 2.4. Алгоритм численного определения параметров кривой переключения…………………………………………………………………47 2.5. Алгоритм построения интегральной поверхности уравнения Беллмана………………………………………………………………………50 2.6. Алгоритм определения параметров кривой переключения при наличии режима с особой дугой первого порядка…………………………………...52 2.7. Примеры………………………………………………………………………54 3. Инвариантно-групповой анализ уравнения Беллмана в трехмерной задаче Фуллера……………………………………………………………………………56 3.1. Постановка задачи……………………………………………………………56 3.2. Анализ на основе метода динамического программирования и оптимальный синтез задачи………………………………………………….57 3.3. Определение параметров кривой переключения инвариантного цикла и построение функции Беллмана на ней……………………………………...63 4. Список литературы……………………………………………………………….68 5. Рисунки…………………………………………………………………………… ВВЕДЕНИЕ В настоящей диссертации рассматриваются инвариантно-групповые и численные подходы к анализу задач оптимального управления с учащающимися переключениями. Режимы с учащающимися переключениями [1-14] (так называемые четтеринг режимы) являются одними из интересных режимов, встречающихся в задачах оптимального управления. При таких режимах управление, будучи релейным, подвергается бесконечному (счетному) числу переключений на конечном интервале времени. При этом моменты переключений имеют точку сгущения либо внутри, либо на границе интервала времени, на котором рассматривается задача. Любая задача с учащающимися переключениями характеризуется некой кривой (или поверхностью - в зависимости от размерности задачи), называемой кривой (поверхностью) переключения, на которой управляющий параметр испытывает разрыв (происходит переключение управления). Хотя режимы с учащающимися переключениями на практике не реализуемы и в реальных условиях приходится ограничиваться режимами управления с конечным числом переключений, тем не менее, практическая квазиоптимальная реализация таких режимов предполагает построение неких приближений режимов с учащающимися переключениями, что делает изучение четтеринг режимов крайне важным для теории оптимального управления. Задачи, в которых возникают режимы с учащающимися переключениями, можно найти во многих источниках, и в частности хотелось отметить работы Фуллера (Fuller A.T.) [15-20], Маршала (Marshal C.) [24-26], Осипова С.Н. и Формальского А.М. [10]. Обширное монографии [42] Борисова В.Ф. и системное исследование четтеринг режимов приведено в работе [1] Зеликина М.И. и Борисова В.Ф., а также Первым, и наиболее известным, примером задачи управления с учащающимися переключениями, является двухмерная задача Фуллера [15-20]:

x = y, y = u x(0 ) = x 0, y (0 ) = y 0, u (0.1) J [u ] = x 2 (t )dt min (0.2) Физический смысл данной задачи, возникшей в области радиоэлектроники, состоит в таком погашении шумов, возникших в радиоэлектронной системе, при котором интегральная ошибка будет минимальной. Относительно данной задачи Фуллером были сформулированы и доказаны следующие утверждения: 10 Кривая переключения задачи (0.1, 0.2) состоит из двух полупарабол (рис. 1):

x = ey 2, y > 0, e (1 / 2, 0) x = ey 2, y < 20 Оптимальное управление равно -1 справа от кривой переключения и 1 слева от нее 30 Вращаясь вокруг начала координат, оптимальная траектория достигает его за конечное время и пересекает при этом КП счетное число раз, причем промежутки времени между последовательными переключениями управления образуют геометрическую прогрессию Метод, при помощи которого Фуллер определил параметр кривой переключения ( e =-0,4446), довольно специфичен. Немного позже Вонэм (Wonham W.M.) в своей работе [20] продемонстрировал довольно элегантный способ решения задачи (0.1, 0.2) при помощи инвариантно-группового анализа исходной задачи и уравнения Беллмана [21] для нее. Данный метод, помимо параметров кривой переключения, позволил еще построить и саму функцию оптимального результата. Метод, при помощи которого Вонэм решил задачу (0.1, 0.2), основан на определении структуры функции Беллмана данной задачи исходя из существования у задачи некой группы инвариантности: группы преобразований, переводящей уравнения движения (0.1) в себя же, приводя при этом к простому масштабированию функционала (0.2), т.е. возникновению некого положительного множителя перед ним, при сохранении его структуры. Вслед за появлением задачи Фуллера, была рассмотрена ее модификация, отличающаяся от исходной задачи тем, что на управляющий параметр накладываются несимметричные, но разные по знаку, ограничения. Данная задача была решена Маршалом [24-26]. Было показано, что при любых ограничениях на управляющий параметр (но разного знака) имеет место режим с учащающимися переключениями и что асимметрия ограничений на управляющий параметр влечет за собой асимметрию кривой переключения относительно начала координат. Еще одним примером задачи, в которой возникают режимы с учащающимися переключениями, является задача о наибыстрейшем повороте манипулятора [10], решенная Осиповым С.Н. и Формальским А.М. При решении данной задачи численно было установлено, что оптимальным режимом управления для данной задачи является режим, предполагающий учащение переключений управления с наличием точки сгущения переключений, т.е. четтеринг режим. Подробную информацию о четтеринг режимах, условиях их существования и примеры задач, в которых возникают данные режимы, можно найти в [1]. Как уже говорилось выше, в настоящей работе рассматриваются инвариантно-групповые и численные подходы к анализу задач оптимального управления с учащающимися переключениями. При помощи инвариантногрупповых методов решены задачи, приведенные в первой и третьей главах. Во второй главе приведен алгоритм численного определения параметров кривых переключения для ряда задач с учащающимися переключениями. Двухмерная задача с несимметричными ограничениями на управляющий параметр и функционалом, зависящим от параметра Смысл задачи состоит в погашении отклонения (приведении в начало координат), возникшего в динамической системе x = y, y = u, a u b, 0 t T x ( 0 ) = x 0, y ( 0 ) = y 0, x (T ) = 0, y (T ) = так, чтобы значение функционала T (0.3) J [u ] = x 2 ( t )( Lu + 1) dt min (0.4) было при этом минимально, при следующих ограничениях ab < 0 : 1 / b L 1 / a a > 0 : L 1 / b;

b < 0 : L 1 / a (0.5) Здесь T – нефиксированный момент окончания процесса, u – скалярный управляющий параметр, a и b - его предельные значения. Ограничения (0.5) гарантирует неотрицательную определенность функционала (0.4). Особенностью данной задачи и ее отличие от задач Фуллера и Маршала является асимметричный функционал. Асимметрия функционала порождает асимметрию кривой переключения даже при симметричных ограничениях на управляющий параметр. Но основной особенностей данной асимметризации задачи является качественная перестройка режима управления при значительных изменениях параметра L : при определенных изменениях параметра режим с учащающимися переключениями сменяется режимом с не более чем двумя переключениями и особой дугой первого порядка.

Результаты решения задачи: 1. При ab < 0 и значениях параметра L ( 1 / 4b, 1 / 4a ) имеет место режим с учащающимися переключениями, и синтезом, относительно которого справедливы следующие утверждения 1.1. Кривая переключения задачи (0.3 - 0.5) состоит из двух полупарабол (рис. 2):

x = ey 2, y > 0, e (1 / 2b, 0) x = gy 2, y < 0, g (0, 1 / 2a) 1.2. Оптимальное управление равно a справа от кривой переключения и b слева от нее 1.3. Вращаясь вокруг начала координат, оптимальная траектория достигает его за конечное время и пересекает при этом КП счетное число раз, причем промежутки времени между последовательными переключениями с u = a на u = b (или с u = b прогрессию на u = a ) образуют убывающую геометрическую Отметим, что при L = 0 задача (0.3), (0.4) совпадает с задачей Маршала. Кривая переключения, в данном случае не обладает центральной симметрией при a 1. При L 0 кривая переключения не обладает центральной симметрией b даже при a = b. 2. При ab < 0 и значениях параметра L 1/ b, 1/ ( 4b ) 1/ ( 4a ), 1/ a ( )( ) имеет место режим не более чем с двумя переключениями и сингулярной траекторией [27-39] первого порядка. При данном режиме траектория, стартовавшая из некоторой точки, достигает особой дуги, испытав при этом не более одного переключения управляющего параметра, после чего следует еще одно переключение и далее осуществляется движение вдоль особой дуги (рис. 3). Существование режима с учащающимися переключениями при одних соотношениях между параметрами задачи с возникновением режима с особой дугой первого порядка при конечных изменениях этих соотношений является принципиально новым фактом, не встречавшимся в других задачах оптимального управления. 3. При ab > 0 область достижимости (область начальных значений, из которой систему можно привести на терминальное многообразие, используя допустимые управления), не совпадает со всей плоскостью ( x, y ) (см. рис. 4): систему можно привести в начало координат, стартуя из точки ( x 0, y 0 ), только при выполнении соотношения y 02 / ( 2b ) x 0 y 02 / ( 2a ) a > 0 : y0 < 0 b < 0 : y0 > 3.1. При значениях параметра L ( 1 / 4a, 1 / a ) или L ( 1 / b, 1 / 4b ) имеет место режим, подразумевающий выход на границу области достижимости и движение по ней (рис. 4). 3.2. При значениях параметра 1 1 L имеет место режим с особой 4b 4a дугой первого порядка: оптимальный режим включает участок движения вдоль особой дуги (рис. 5). В данном случае приведенные ограничения на параметр L имеют простую геометрическую интерпретацию: как только соотношение между параметрами задачи становится таким, что полупарабола x = 2 Ly 2, y = sign (b ) оказывается внутри области управляемости, имеет место режим с особой дугой первого порядка. Обоснование указанных режимов дается с помощью метода динамического программирования. Инвариантно-групповой анализ уравнения Беллмана позволяет построить функцию Беллмана для задачи и определить параметры кривой переключения.

Численное построение кривой переключения Алгоритму численного построения кривой переключения для задач оптимального управления вида x = g1 ( x, y ) + ug 2 ( x, y ), y = r1 ( x, y ) + ur2 ( x, y ), 0 t T, a u b, ab < 0 x ( 0 ) = x 0, y ( 0 ) = y 0, x (T ) = 0, y ( T ) = (0.8) J [u ] = f1 ( x ( t ), y ( t ) ) + u ( t ) f 2 ( x ( t ), y ( t ) ) dt min T ( ) (0.9) с учащающимися переключениями посвящена глава 2. При решении предполагается, что оптимальный синтез задачи имеет сравнительно простую структуру (рис. 6): решение задачи характеризуется некоторой кривой переключения, которая разделяет области N, N, в которых управление принимает значения a b u = a, u = b, соответственно.

Также предполагается, что кривая переключения может быть задана как комбинация двух кривых вида x = Cy (0.10) Алгоритм, приведенный в данной главе, основан на интегрировании характеристической системы уравнения Беллмана задачи с требованием выполнения условий метода динамического программирования в точках пересечения траектории с кривой переключения:

- на нулевой итерации задается начальное приближение кривой переключения – то есть начальные значения коэффициентов С1, С2 кривых (0.10);

- с одной из ветвей (далее «ветвь 1» кривой переключения выпускается характеристика уравнения Беллмана задачи и в момент пересечения проекции данной характеристики со второй ветвью (далее «ветвь 2») кривой переключения проверяется выполнение соотношений метода динамического программирования: невыполнение соотношений данного метода означает, что хотя бы один из параметров С1, С 2 не совпадает с его истинным значением;

с ветви 2 также выпускается характеристика уравнения Беллмана задачи и в момент пересечения проекции данной характеристики ветвью 1 проверяется выполнение соотношений метода динамического программирования: невыполнение соотношений данного метода означает, что хотя бы один из параметров С1, С 2 не совпадает с его истинным значением;

-в случае невыполнения соотношений метода динамического программирования на нулевой итерации, организуется итерационный процесс, основанный на неком аналоге метода секущих, который позволяет, в конечном итоге, определить значения параметров кривой переключения с любой заданной точностью. Приведенный алгоритм реализован в системе MAPLE: на вход программы подается уравнение Беллмана задачи и результатом расчетов программы являются параметры кривой переключения. Реализация произведена для случаев, когда кривая переключения является параболой ( = 2 ), но легко может быть модифицирован для расчета параметров кривой переключения для любых значений. При помощи указанной программы найдены параметры кривых переключения для задач:

A. Задача Фуллера x = y, y = u x(0 ) = x 0, y (0 ) = y 0, u 1 J [u ] = x 2 (t )dt min В. Модификация задачи Фуллера x = y, y = u x(0 ) = x 0, y (0) = y 0, u 1 J [u ] = x 4 (t )dt min С. Задача Маршалла x = y, y = u x(0 ) = x 0, y (0) = y 0, 0.5 u 1 J [u ] = x 2 (t )dt min D. Задача с несимметричными функционалом и ограничениями на управление x = y, y = u x(0) = x 0, y (0 ) = y 0, 0.5 u 1 1 J [u ] = x 2 (t ) u (t ) + 1dt min 5 Также построен качественный вид интегральных поверхностей уравнения Беллмана для рассмотренных случаев (рис.7). Трехмерная задача Фуллера Анализу данной задачи [41] посвящена глава 3. Исходная постановка задачи заключается в минимизации функционала, имеющего смысл интегрального квадратичного отклонения, на движениях системы x = u :

x = y, y = z, z = u x(0 ) = x 0, y (0 ) = y 0, z (0) = z (0.11) x (t )dt min 2 (0.12) Оптимальный синтез данной задачи характеризуется наличием поверхности + 3 переключения (рис.19), разделяющей пространство R на две области N и N в которых значение управляющего параметра u принимает значения +1 и –1, соответственно. В силу центральной задачи симметрии задачи (0.11), что (0.12) при поверхность замене переключения задачи также обладает центральной симметрией. Центральная симметрия подразумевает, x x, y y, z z, u u уравнения движения (0.11) переходят сами в себя и значение функционала (0.12) не меняется при этом. Инвариантность задачи (0.11), (0.12) относительно группы преобразований g ( x, y, z, t ) = 3 x, 2 y, z, t ( ) (0.13) позволяет выявить структуру функции Беллмана, содержащую неизвестную функцию скалярного аргумента x + 1 3y 11 7 11 5 7 2y 3 y 1 1 z2 V = x 2 z + xz 4 2 y 2 z 3 z + yz z 1 + 2 F z 3 420 60 z z 4 3 2y 2 1 + z 2 3y x 7 2 y 2 z3 + 1 + z 2 y 1 1 2 3 11 7 11 5 7 V + = x 2 z + xz 4 2 + + y z + z + yz + z 1 + 2 F 3 420 60 z z 4 3 2y 2 1+ 2 z 7 + где V иV - сужение функции Беллмана на области N+ и N, соответственно, а функция F является неизвестной функцией скалярного аргумента.

Из инвариантности задачи относительно группы (0.13), что поверхность переключения задачи состоит из кривых вида 0 0 x = µ 3 x, y = µ 2 y, z = µ (0.14) причем вдоль каждой из кривых (0.15) значение функции Беллмана меняется следующим образом:

V+ = µ 7V0 +, V = µ 7V0, 0+ 0 где V и V - значения в точке (x 0, y, ) + функций V иV, соответственно. Оптимальный синтез задачи обладает следующими свойствами:

- траектория, стартовавшая из некоторой точки (x, y, z ) 0 0 с определенным управлением ( u = 1 или u = 1 ), достигает поверхности переключения в некоторой точке (µ x, µ 3 2 y, µ1 ), после чего происходит смена знака управления и движение вдоль следующего участка траектории, а затем 3 2 достижение поверхности в следующей точке µ 2 x2, µ 2 y2, µ ( ) и т.д., причем, точек вообще говоря, xi y i, xi +1 yi + и, таким образом, множество переключения не лежит в одной плоскости;

при определенных значениях ( x0, y0, z0 ) траектория, стартовавшая из данной точки, достигает 2 поверхности переключения в некоторой точке (µ x, µ 3 y, µ1 ), после чего происходит смена знака управления и движение вдоль следующего участка траектории, а затем достижение поверхности в следующей точке (µ x, µ 3 2 y2, µ 2 ) и т.д., причем xi y = i, т.е. точки xi +1 yi + последовательных переключений в данном случае будут лежать на одной кривой и движение будет происходить в одной плоскости - такое движение будем называть инвариантным циклом (см. рис.20). Для нахождения параметров кривой переключения инвариантного цикла используются производных: условия непрерывности функции Беллмана, ее частных V + ( x 0, y 0,1) = V ( x 0, y 0,1) Vx+ ( x 0, y 0,1) = Vx ( x 0, y 0,1) Vy+ ( x 0, y 0,1) = Vy ( x 0, y 0,1) (0.15) В системе (0.15) не записано условие непрерывности производной Vz, следующее из условий непрерывности функции Беллмана и ее производных по переменным x, y, а также условие переключения, являющееся следствием уравнения Беллмана и непрерывности частных производных функции Беллмана.

0 0 Решение системы (0.15) позволяет определить параметры x, y кривой переключения и параметры функции Беллмана и, в конечном итоге, построить как кривую переключения, так и функцию Беллмана на ней. Результаты, выносимые на защиту

На защиту выносятся следующие результаты: 1. Построен оптимальный синтез для задачи управления с несимметричными ограничениями на управление и функционалом, зависящим от параметра: 1.1. показано, что при определенных соотношениях между параметрами задачи имеет место режим с учащающимися переключениями;

построен данный режим 1.2. показано, что режим с учащающимися переключениями сменяется режимом с не более чем двумя переключениями и особой дугой первого порядка, при конечных изменениях соотношений между параметрами задачи;

построен данный режим 1.3.

при помощи инвариантно-группового анализа построена функция оптимального результата задачи: определена ее структура, содержащая две неизвестных константы, численно определены данные константы и дано обоснование вышеуказанных режимов 2. Построен и реализован алгоритм численно-аналитического построения кривой переключения для ряда задач оптимального управления с учащающимися переключениями 3. Построен и реализован алгоритм численно-аналитического построения кривой переключения для задач с не более чем двумя переключениями и особой дугой первого порядка 4. Построена кривая переключения инвариантного цикла для трехмерной задачи Фуллера и определено значение функции Беллмана на ней Доклады и публикации по теме диссертации Результаты данной диссертации опубликованы в [43-53] и представлены автором на следующих семинарах и конференциях:

- Доклад «Анализ уравнения Беллмана в однопараметрическом семействе задач с учащающимися переключениями»// XLII научная МФТИ. Москва-Долгопрудный: МФТИ, ноябрь 1999 - Доклад «Бифуркация фазового портрета в однопараметрическом семействе задач оптимального управления»// XLIII научная Москва-Долгопрудный: Меликяном) - Доклад «Phase portrait bifurcation in one-parameter family of optimal control problems»// 5th IFAC Symposium “Nonlinear Control Systems”, July 4-6, 2001, St. Petersburg, Russia (совместно с А.А. Меликяном) МФТИ, ноябрь 2000 конференция МФТИ. (совместно с А.А. конференция - Доклад «Оптимальный синтез в двумерной задаче со знакоопределенным управлением»// XLIV научная конференция МФТИ. Москва Долгопрудный: МФТИ, ноябрь 2001 - Доклад «Оптимальный синтез в двумерной задаче с несимметричными ограничениями на управление»// XLV научная Москва-Долгопрудный: МФТИ, ноябрь 2002 - Доклад «Оптимальный синтез в двумерной задаче с несимметричными ограничениями на управление»// семинар кафедры проблем управления механико-математического факультета МГУ. Москва: МГУ, ноябрь 2002 - Доклад «Аналитические и численные методы решения задач оптимального управления с учащающимися переключениями»// семинар кафедры управляемых и гироскопических систем ИПМ РАН. Москва: ИПМ РАН, ноябрь 2002 - Доклад «Алгоритм численного построения кривой переключения в задачах управления с учащающимися переключениями»// XLVI научная конференция МФТИ.

конференция МФТИ. Москва-Долгопрудный: МФТИ, ноябрь 2003 - Доклад «Определение поверхности переключения для трехмерной задачи Фуллера инвариантно-групповым методом»// XLVII научная конференция МФТИ. Москва-Долгопрудный: МФТИ, ноябрь 2004 (совместно с А.Р. Ахметжановым) - Доклад «Анализ задач оптимального управления с учащающимися переключениями инвариантно-групповыми и численными методами»// семинар кафедры управляемых и гироскопических систем ИПМ РАН. Москва: ИПМ РАН, апрель 2005 - Доклад «Анализ задач оптимального управления с учащающимися переключениями инвариантно-групповыми и численными методами»// семинар кафедры оптимального управления факультета ВМиК МГУ им. М.В. Ломоносова. Москва: МГУ им. Ломоносова, апрель ГЛАВА 1 ОПТИМАЛЬНЫЙ СИНТЕЗ В ДВУМЕРНОЙ ЗАДАЧЕ С НЕСИММЕТРИЧНЫМИ ОГРАНИЧЕНИЯМИ НА УПРАВЛЕНИЕ И ФУНКЦИОНАЛОМ, ЗАВИСЯЩИМ ОТ ПАРАМЕТРА В данной главе рассматривается двумерная задача оптимального управления с нефиксированным временем окончания Исследуются процесса два и интегральным ограничения функционалом, зависящим от параметра. На управляющий параметр наложены несимметричные ограничения. случая: одинакового знака и ограничения разных знаков. В случае ограничений разных знаков при выполнении определенных соотношений между параметрами задачи имеет место режим с учащающимися переключениями, сменяющийся режимом с двумя переключениями и особой дугой первого порядка при нарушении этих соотношений. В случае знакоопределенного управления область управляемости – часть плоскости, ограниченная двумя полупараболами. Здесь оказываются возможными три режима, два из которых соответствуют выходу на границу области управляемости и движению по ней, а третий – режим с особой дугой первого порядка. При изменении параметров задачи фазовый портрет претерпевает эволюцию и один из этих трех режимов сменяется другим. Обоснование оптимальности упомянутых режимов дается с помощью метода динамического программирования. Режимы с учащающимися тем, что переключениями параметр (четтеринг за режимы) время характеризуются управляющий конечное претерпевает счетное число переключений, причем моменты переключений сгущаются к некоторой точке. Как уже отмечалось, впервые явление четтеринга было обнаружено Фуллером при исследовании проблемы погашения шумов в электронных устройствах. Данная проблема была сведена к задаче минимизации функционала, имеющего смысл интегрального квадратичного отклонения и обладающего определенной симметрией [15-20].

Подобная симметрия в некоторых случаях может отсутствовать. За период, прошедший с появления классической задачи Фуллера, были рассмотрены такие ее модификации, как задача Маршалла [24-26] и трехмерная задача Фуллера [41]. В частности в задаче Маршалла на управляющий параметр наложены несимметричные ограничения. В рассматриваемом здесь случае асимметрия содержится также и в функционале, имеющем смысл интегрального квадратичного отклонения, взятого с некоторым весом. Принципиально новым фактом в задаче с несимметричным функционалом является появление особых режимов первого порядка, не возникавших в других модификациях задачи Фуллера. 1.1. Постановка задачи система задается уравнениями движения, ограничениями, Управляемая начальными и терминальными условиями x = y, y = u, 0 t T, a u b x (0) = x 0, y (0) = y 0, x (T ) = 0, y (T ) = (0.1) Здесь T – нефиксированный момент окончания процесса, u – скалярный управляющий параметр, a и b - его предельные значения. На движениях системы (1.1) рассматривается функционал J [u ] = x 2 (t ) [ Lu (t ) + 1] dt T (0.2) где L – вещественный параметр, на который накладываются следующие ограничения в зависимости от знаков a и b :

ab < 0 : 1/ b L 1/ a a > 0 : L 1/ b b < 0 : L 1/ a (1.3) В задаче Фуллера функционал (функционал (1.2) при L = 0 ) имеет смысл среднеквадратичного отклонения. Функционал (1.2) соответствует минимизации среднеквадратичного отклонения, взятого с некоторым весом h ( u ), линейным по параметру u.

Допустимыми управлениями считаются интегрируемые на любом интервале [0, ] функции u(t ), удовлетворяющие ограничениям (1.1). Рассматривается задача минимизации функционала (1.2) в классе допустимых управлений и соответствующих движений системы (1.1). Ограничения (1.3) на параметр L обеспечивают неотрицательную определенность функционала. При значениях параметров L = 0 в (1.2) и b = a = 1 в (1.1) задача (1.1)(1.2) переходит в задачу Фуллера, исследованную ранее [1, 15-20]. Задача со значениями параметров L 0 и b = a = 1 также была исследована [42] и было показано, что в этом случае кривая переключения является асимметричной относительно начала координат. Ниже будет показано, в частности, что асимметрия ограничений на управление влечет за собой асимметрию кривой переключения уже при значении параметра L = 0. 1.2. Принцип максимума Предварительный анализ задачи будет проводиться на основе принципа максимума. Будем полагать, что сопряженые переменные p, q взяты с обратным знаком, что позволит сохранить систему обозначений, принятую в методе динамического программирования. Итак, p =, q =, где сопряженные переменные принципа максимума. Гамильтониан и его экстремальные значения имеют вид, H ( x, y, p, q) = py + qu + x 2 ( Lu + 1) min H = min[ F a, F b ] = py + x 2 + ( q + Lx 2 )u* u F c = py + x 2 + c( q + Lx 2 ), u* = Здесь и всюду далее a+b ab + sign( q + Lx 2 ) 2 (1.4) c = a, b ;

операция максимизации заменена на операцию * минимизации вследствие изменения знака переменных p, q ;

u - оптимальное управление. Из выражений (1.4) видно, что управление является релейным, и таким образом, решение задачи a характеризуется b кривой переключения (КП), разделяющей области N, N, в которых управление принимает значения u = a, u = b, соответственно. Как будет показано, области N a и N b являются односвязными, а КП представляет собой две полупараболы, гладко сопрягающиеся в начале координат. На ветвях кривой переключения должно быть выполнено равенство q + Lx 2 = (1.5) При этом необходимо, чтобы выражение q + Lx не обращалось тождественно по времени в нуль ни на каком подынтервале ( t1, t2 ) интервала ( 0,T ).

В противном случае, как показано ниже, имеет место режим с особой дугой первого порядка. На особом участке тождественно по времени выполнены два равенства: (1.5), а также равенство py + x 2 = (1.6) Равенство (1.6) следует из (1.5) и обращения в нуль гамильтониана на оптимальной траектории: H ( t ) = H x ( t ), y ( t ), u ( t ) 0. Дифференцирование равенства (1.5) вдоль решений гамильтоновой системы ( ) x = H p = y, y = H q = u, p = H x = 2 x ( Lu + 1), q = H y = p приводит к соотношению (1.7) p + 2 xyL = (1.8) Вместе с равенством (1.6) равенство (1.8) дает уравнение (параболы) для особой дуги:

x = 2 Ly (1.9) Дифференцирование по времени равенства (1.8) в силу системы (1.7) с использованием уравнения (1.9) приводит к равенству, из которого определяется особое управление (управление вдоль особой траектории) u s = 1/ 4 L (1.10) Из равенства (1.10) следует, что особой дугой является часть параболы (1.9), на которой выполнено соотношение Ly > 0, так как другая часть данной параболы «уводит» от нуля. Используя гамильтониан (1.4) и особое управление (1.10), можно показать, что условие Келли [27] выполнено на особой дуге (1.9) 2 H = 8L2 y 2 0 2 u t u Изменение знака неравенства в условии Келли здесь вызвано изменением знака сопряженных переменных.

1.3. Метод динамического программирования Обозначим через V ( x, y ) функцию оптимального результата (функцию Беллмана) задачи (1.1), (1.2), т.е. минимальное значение функционала (1.2) на траекториях системы (1.1), начинающихся в точке ( x, y ). Функция V ( x, y ) во всех внутренних точках области управляемости удовлетворяет следующему уравнению:

yVx + x 2 + (V y + Lx 2 ) u* = 0, u* = В областях a+b ab + sign (V y + Lx 2 ) 2 (1.11) N a, N b функция Беллмана удовлетворяет уравнениям (1.12) (1.13) F a ( x, y,Vx,V y ) = 0, ( x, y ) N a, V y + Lx 2 > 0, u* = a F b ( x, y,Vx,Vy ) = 0, ( x, y ) N b, Vy + Lx 2 < 0, u* = b Здесь F c ( x, y,Vx,Vy ) = yVx + cVy + cLx 2 + x 2, c = a, b Обозначим через V c ( x, y ) сужение функции Беллмана на области N c (1.14) V c ( x, y ) = V ( x, y ), ( x, y ) N c Таким образом, функция V a ( x, y ) (функция V b ( x, y ) ) удовлетворяет уравнению (1.12) (уравнению (1.13)). Для уравнений (1.11)-(1.13) необходимы граничные условия. Терминальные условия в (1.1) задают следующее значение функции Беллмана в начале координат:

V ( 0,0 ) = (1.15) Это равенство и будет рассматриваться в качестве граничного условия к уравнениям (1.11)-(1.13). Вообще говоря, граничные условия должны быть заданы не в одной точке, а на некоторой линии. Однако некоторые свойства функции Беллмана позволяют получить единственное решение, для которого условие (1.15) будет выполнено автоматически. Решение задачи (1.11)-(1.15) будем искать в классе непрерывно дифференцируемых функций. Свойства функции Беллмана, о которых говорилось выше, имеют инвариантно-групповой характер: легко проверить, что уравнения движения и ограничения (1.1) инвариантны относительно группы преобразований x = µ 2 x, y = µ y, t = µ t, u = u, µ > где µ - скалярный параметр. Смысл указанной инвариантности состоит в следующем:

(1.16) если 0 0 ( ( x(t ), y (t ), u(t ) ) - решение системы (1.1) с начальной точкой x, y, то тройка ( ) ( µ x ( t / µ ), µ y ( t / µ ), u ( t / µ ) ) - решение той же системы с начальной точкой ( µ x, µ y ). При замене (1.16) в функционале (1.2) возникает множитель µ, 2 0 т.е. имеет место соотношение V ( µ 2 x, µ y ) = µ 5V ( x, y ) (1.17) Дифференцируя равенство (1.17) по параметру µ и полагая затем µ = 1, получим следующее дополнительное уравнение, которому должна удовлетворять функция Беллмана:

2 xVx + yV y 5V = (1.18) Уравнение (1.18) является именно дополнительным уравнением (по отношению к основному (1.11)), возникшим в результате наложения ограничений (1.17) на функцию оптимального результата, что в свою очередь является следствием инвариантности задачи относительно группы (1.16). Общее решение уравнения (1.18) представимо в следующем виде:

V ( x, y ) = y 5 ( xy 2 ) Обозначим через c (1.19) ветви функции ( z ), соответствующие ветвям V c ( x, y ) функции Беллмана, согласно соотношению (1.19):

V c ( x, y ) = y 5 c ( xy 2 ), Подставив ( x, y ) N c (1.20) в уравнения (1.12), c (1.20) (1.13), выражения получим обыкновенные дифференциальные уравнения для функций ( z = xy ) ( z )(1 2cz ) + 5c ( z ) + z 2 (1 + cL ) = Общие решения уравнений (3.11) имеют вид 1 ( z ) = Ac z 2c c 5/ (1.21) 2 2 1 + L z 2 z + 3c 15c 2 c (1.22) где Ac - постоянные интегрирования. Предполагается, что точки z = 1/ ( 2c ) не входят в интервал определения c решения ( z ). Это сингулярные точки уравнений (1.21): в них исчезает коэффициент при старшей производной. Если такая точка – внутренняя точка области определения соответствующего уравнения, то общее решение двухпараметрическое, но имеющее структуру (1.22). Это означает, например, что по разные стороны от точки z = 1/ ( 2a ) нужно использовать разные постоянные * Aa, скажем, Aa и Aa. При этом две ветви функции (1.22), соответствующие двум указанным постоянным, гладко сопрягаются в точке z = 1/ ( 2a ), представляя непрерывно-дифференцируемую функцию.

Эта ситуация встречается ниже, при рассмотрении задачи с ограничениями различного знака. Используя соотношения (1.20), (1.22), получаем следующие выражения для c c значений V функции V в областях N :

12 V ( x, y ) = Ac y x 2c c 5/ 2 2 5 1 + L x 2 y xy 3 + y, ( x, y ) N c (1.23) 2 3c 15c c c Здесь, вообще говоря, для каждой из подобластей y > 0, y < 0 области N должна использоваться своя постоянная Ac. Однако требования непрерывности функции V c ( x, y ) при значении переменной y = 0 приводит к общему значению этой постоянной. Таким образом, построение гладкой функции V ( x, y ) сводится к нахождению постоянных Ac. Зная данные константы, мы можем из (1.23) найти области определения каждой из функций V c ( x, y ), исследуя знаки выражения V y + Lx 2, и, таким образом, найти КП.

Случай, когда знаки параметров a, b разные, и случай, когда данные параметры одинакового знака, ниже рассматриваются раздельно. Это связано уже с тем, что в случае, когда ab < 0, область управляемости (область, из точек которой, используя допустимые управления, систему можно привести в начало координат) совпадает со всей плоскостью ( x, y ), а при соотношении параметров ab > 0 область управляемости, как будет показано далее, представляет собой часть плоскости ( x, y ), ограниченную двумя полупараболами.

1.4. Ограничения разного знака Рассмотрим случай, когда ограничения на управление имеют разные знаки, т.е. рассмотрим задачу минимизации семейства функционалов (1.2) на движениях системы (1.1) при следующих соотношениях между параметрами:

a b < 0, 1/ b L 1/ a (1.24) Вследствие ограничений (1.1) на управление, режим с особой дугой (1.9) в данном случае возникает только при следующих значениях параметра L :

L ( 1/ b, 1/ ( 4b ) ) ( 1/ ( 4a ), 1/ a ) Режим, соответствующий значениям параметра (1.25) L из интервала ( 1/ ( 4b ), 1/ ( 4a ) ), будем называть основным, в отличие от особого, соответствующего значениям (1.25) параметра L. Относительно основного режима справедливы следующие утверждения:

1 КП задачи (1.1), (1.2), (1.24) состоит из двух полупарабол (рис.8):

x = ea y 2, y > 0, ea (1/ ( 2a ), 0 ) и x = eb y 2, y < 0, eb (0,1 / (2b )) 2 Вращаясь вокруг начала координат, оптимальная траектория достигает его за конечное время и пересекает при этом КП счетное число раз. Промежутки времени между последовательными переключениями с u = a на u = b (или с u = b на u = a ) образуют геометрическую прогрессию 30 Оптимальное управление равно a справа от КП и b слева от нее Доказательство. Из инвариантности задачи относительно группы (1.16) следует, что КП состоит из набора парабол. Далее, пусть L = 0 и ( x (t ), y (t )) - допустимое решение системы (1.1) с управлением u ( t ), таким, что y ( t ) > 0, t (t1, t2 ). Тогда функция x(t ) монотонна и кривая ( x (t ), y (t )) может быть задана как y = y ( x).

Следовательно, функционал (1.2) можно переписать в виде J = x dt = 2 t t x ( t2 ) x ( t1 ) x dx y (1.26) Чем больше y = y ( x ), тем меньше интеграл в правой части равенства (1.26). Пусть A = ( x ( t1 ), y ( t1 ) ), B = ( x ( t2 ), y ( t2 ) ) две граничные точки.

Существует траектория с единственным переключением (со значения параметра u = b на значение u = a ), которая лежит выше кривых, соответствующим любым другим допустимым решениям, проходящим через точки A и B в верхней полуплоскости (рис.9). Таким образом, если ( x (t ), y (t )) оптимальная траектория, то либо нет переключений, либо есть одно: с b на a при значениях t ( t1, t2 ). Аналогичные рассуждения показывают, что при значениях y ( t ) < 0 ( t ( t1, t2 ) ) либо нет переключений, либо есть одно: с a на b.

Пусть L 0. Предположим, что в верхней полуплоскости расположена одна из ветвей КП. На ней должны выполняться соотношения (1.5), (1.6). Если система находится на этой ветви КП, необходимо включить управление u = a или u = b и продолжать движение с данным управлением до тех пор, пока соотношение (1.5) не окажется выполненным вновь. Проинтегрировав систему (1.7) с начальными условиями ( y ( 0 ) без ограничения общности можно положить равным единице) x2 (0) y ( 0 ) = 1, x ( 0 ) = hy ( 0 ), p ( 0 ) =, q ( 0 ) = Lx 2 ( 0 ) y (0) получаем, что выражение q ( t ) + Lx степени относительно переменной t (t ) является многочленом четвертой 1 2 1 1 f ( t ) = q ( t ) + Lx 2 ( t ) = Lu 2t 4 Lut 3 + ut 4 + t 3 + ht 2 + h 2t 6 3 12 3 2 Lh 2 Lt 2 2 Lht Исследование многочлена f ( t ) для разных наборов ( u, L, h ), проведенное с помощью системы MAPLE, показало, что в случае отрицательных u у данного многочлена нет действительных неотрицательных корней, не превосходящих 1/ u ;

при u > 0 многочлен f ( t ) не имеет действительных неотрицательных корней (при этом соответствующий режим уводит систему на бесконечность). Таким образом, в верхней полуплоскости имеется не более одной ветви КП, причем u = a < 0 справа от нее. Аналогичные рассуждения показывают, что в нижней полуплоскости имеется не более одной ветви КП, причем u = b > 0 слева от нее. Из существования у задачи (1.1), (1.2), (1.24) следующей симметрии L L, a b, b a : V ( x, y ) V ( x, y ), ea eb, eb ea (1.27) вытекает, что полупараболы, составляющие КП, расположены в квадрантах, симметричных относительно начала координат. Из соотношения x = y следует, что движение происходит по часовой стрелке. Если выполнено соотношение ea < 1/ ( 2a ) (соотношение eb > 1/ ( 2b ) ), то траектория, стартующая на верхней (нижней) части КП больше не пересекает кривую переключения (рис.10). Если один из коэффициентов ec равен нулю, то из соотношений симметрии (1.27) следует, что второй коэффициент также равен нулю и имеет место движение по замкнутой траектории. Следовательно, 1 / (2a ) ea < 0, 0 < eb 1 / (2b ). Если e = 1/ ( 2a ), то верхняя часть КП является траекторией системы x = y, y = u с u = a. Как следует из соотношений (1.4), в каждой точке данной траектории значение выражения q + Lx меняет знак, а значит, на ней самой выполнено соотношение q + Lx = 0, которое должно выполняться тождественно по времени при движении вдоль этой траектории. Таким образом, движение вдоль параболы x = y 2 / ( 2a ) удовлетворяет принципу максимума только в случае, когда эта парабола является особой дугой. Следовательно, в основном режиме ea > 1/ ( 2a ). Аналогичные рассуждения показывают, что eb < 1/ ( 2b ). Если КП расположена в первой и третьей четвертях, то соответствующая траектория уводит от нуля (рис.11).

Таким образом, полупараболы, составляющие КП, расположены во втором и четвертом квадрантах. Тем самым, 0 доказаны утверждения 1, 3.

Пусть C1 ea y1, y1, C2 eb y2, y2, C3 ea y3, y3, C4 ea y4, y ( ) ( ) ( ) ( ) - точки (1.28) последовательных переключений управления. Тогда в силу условий (1.1) имеем y2 = y1 + at1, eb y2 = ea y1 + y1t1 + at1 / 2 y3 = y2 + bt2, ea y3 = eb y2 + y2 t2 + bt2 / 2 2 Здесь t1 - время перехода из точки C1 в точку C2, t2 - время перехода из точки C2 в точку C3. Из соотношений (1.28) получаем равенства y y2 = ga, 32 2 y1 y 2 e 1/ ( 2c ) 1 = ;

gc = a gb eb 1/ ( 2c ) 1/ (1.29) из которых следует, что yn + 2 / yn = g a / g b < 1, и множество точек переключения оказывается счетным.

Пользуясь равенствами (1.29) получаем отношение:

t2 a y 3 y 2 a 1 + 1/ g b = = = t1 b y2 y1 b 1 + 1/ g a Аналогично получаем (1.30) t3 b 1 + ga = t2 a 1 + gb Из (1.30), (1.31) следует, что (1.31) t3 t3 t2 1 1 = = q < 1, ea,0, eb 0, t1 t2 t1 2a 2b (1.32) Можно показать, что соотношение (1.32) – частный случай общего соотношения tn + 2 / t n = q < Таким образом, время, необходимое для достижения начала координат, равно сумме геометрической прогрессии T = t1 (1 + ) (1 + q + q 2 +... ) = t1 (1 + ) / (1 q ) 0 Тем самым доказано утверждение 2.

При соотношении параметров L ( 1/ b, 1/ ( 4b ) ) ( 1/ ( 4a ), 1/ a ) имеет место режим с двумя переключениями и особой дугой первого порядка. Характер оптимального синтеза для значений L 1/ ( 4a ), 1/ a представлен на рис.12. Обоснование указанных режимов дается с помощью метода динамического программирования. Структура функции Беллмана, зависящей от двух постоянных, получена в разделе 1.3 (см. (1.23)).

( ) Для построения функции Беллмана и определения параметров КП необходимо определить постоянные Ac и коэффициенты ec полупарабол, составляющих кривую переключения. Тем самым будет дано полное решение задачи. При вычислении Ac, ec параметры a, b и L считаются заданными. Вообще говоря, объем вычислений может быть уменьшен благодаря соотношениям симметрии (1.27). В интервале значений L 1/ ( 4b ), 1/ ( 4a ) четырех уравнений ( ) рассматривается система V a ( x, y ) = V b ( x, y ), V yc + Ly 2 = При подстановке значений x = ec y множитель y (x = e y ) c (1.33) в уравнения (1.33) возникает общий или y, после сокращения на который получаются следующие равенства в терминах Ac, ec и a, b, L 1 ec Aa 2a 5/ 2 2 1 + c + L ec2 ec + = a 3a 15a2 2 2 1 + c + L ec2 ec + 3b 15b2 b 3/ 1 = Ab ec 2b 5/ (1.34) 5 1 c Ac ec 2c 2c где 2 2 1 1 sign ec + L ec2 ec + 2 + Lec2 = 0 c 3c 2c c (1.35) a = 1, b = 1.

Эти равенства представляют собой систему трансцендентных уравнений относительно неизвестных Ac, ec, которая для определенных a, b и L решалась численно с помощью системы MAPLE. В полном виде система (1.34), (1.35) записывается в следующем виде 1 eа Aa 2a 5/ 2 1 2 2 + L eа ea + = a 3a 15a2 2 1 2 2 + L ea ea + 3b 15b2 b (1.36) 1 = Ab ea 2b 1 Aa eb 2a 5/ 5/ 2 1 2 2 + + L eb eb + = 3a 15a2 a 2 1 2 2 + + L eb eb + 3b 15b2 b 3/ 1 = Ab eb 2b 5/ (1.37) 5 1 Aa ea 2a 2a 5 1 Ab eb 2b 2b 1 1 2 2 2 2 sign ea + L ea ea + 2 + Lea = 0 a 2a a 3a 2 1 1 2 2 2 sign eb + L eb eb + 2 + Leb = 0 b 3b 2b b (1.38) 3/ (1.39) Для значений L 1/ ( 4a ) и L 1/ ( 4b ), согласно (1.9) имеем ec = 2 L. Подставив это значение в уравнение (1.35), получим следующее значение постоянной Ac = Ac :

* Ac = * ( 3Lc + 1) 82 c 15 c ( 4 Lc + 1) (1.40) При L 1/ ( 4a ) функция Va* ( x, y ), равная V a ( x, y ) в (1.23) с постоянной (1.40), задает функцию Беллмана в части области N a, лежащей 2 между полупараболами x = 2 Ly и x = y / ( 2a ). В остальной части области a N a в функцию V ( x, y ) входит постоянная Aa, которая вместе с Ab и eb отыскивается из системы трех уравнений, включающей (1.37), (1.39) и модифицированное уравнение (1.36), в которое подставлены * Aa = Aa и ea = 2 L.

Отметим, что при L = 1/ ( 4a ) имеем ea = 1/ ( 2a ), и для нахождения Aa, Ab и eb используется система, состоящая из (1.36), (1.37) и (1.39).

2 Надобность в постоянной Aa пропадает, так как кривая x = 2 Ly совпадает с * кривой x = y / ( 2a ). Соотношение (1.38) при этом обращается в тождество.

* Хотя Aa при L 1/ ( 4a ) + 0, величина Va ( x, y ) стремится при * этом к конечному пределу для x = y / ( 2a ) :

Va* = 3 y 5 / (80a 3 ) Случай L 1 рассматривается аналогично. 4b Результаты расчетов для значений a = 1/ 2, b = 1 представлены ниже L -1,0 -0,5 -0,2 0 0,2 0,5 1,0 2, A 1,539601 1,319933 1,172062 1,069586 0,966684 0,812002 0,553777 0, A* 0,533333 1, B 0,178926 0,485939 0,669066 0,790456 0,910983 1,088662 1,349238 1, B* 0,870930 0,377124 e -0,826835 -0,849528 -0,869900 -0,888965 -0,916104 -1,000000 -2,000000 -4, g 2,000000 1,000000 0,480468 0,445100 0,427993 0,413418 0,400000 0, и соответствующие кривые показаны на рис.13.

1.5. Ограничения одного знака Рассмотрим теперь задачу минимизации семейства функционалов (1.2) на движениях системы (1.1) в случае, когда интервал допустимых значений управляющего параметра не содержит начала координат:

ab > 0;

a > 0 : L 1/ b;

b < 0 : L 1/ a (1.41) В данном случае область управляемости (область начальных значений, из которой систему можно привести на терминальное многообразие, используя допустимые управления), не совпадает со всей плоскостью можно привести в начало координат, стартуя из точки выполнении соотношения ( x, y ) :

систему (x, y ), только при y 0 / ( 2b ) x 0 y 0 / ( 2a ) ;

a > 0 : y 0 < 0;

b < 0 : y 0 > 2 (1.42) верхней Область управляемости для случая a> ограничена ( x = y / ( 2a ) ) и нижней ( x = y / ( 2b ) ) полупараболами (штриховые линии на рис.14). Далее везде будем полагать, что ограничения на управление имеют положительный знак. Случай, когда интервал допустимых значений управления целиком лежит на отрицательной полуоси, рассматривается аналогично. Если система оказывается за пределами области управляемости, то никакой режим, использующий допустимые управления, не позволяет привести ее в начало координат. Заметим, что когда система оказывается на границе области управляемости, скажем верхней (нижней) полупараболе, единственным режимом управления, не выводящим за пределы области управляемости, оказывается движение вдоль данной полупараболы с управлением u = a (управлением u = b ). Данный режим обеспечивает приведение системы в начало координат.

Все прочие режимы выводят ее за пределы области управляемости.

В соответствии со сказанным в разделе 1.2 имеем следующие значения управления, удовлетворяющие принципу максимума:

a при q + Lx 2 > u= b при q + Lx 2 < 1/ ( 4L ) при q + Lx 2 0, t ( t1, t2 ) t (1.43) Последнее значение соответствует движению по особой дуге (1.9). Вследствие ограничений на управление соответствующий режим имеет место только при выполнении соотношения 1/ ( 4a ) L 1/ ( 4b ) (1.44) Ограничения (1.44) имеют простую геометрическую интерпретацию: как только соотношение между параметрами задачи становится таким, что полупарабола x = 2 Ly 2, y < 0 оказывается внутри области управляемости, имеет место режим с особой дугой первого порядка. Отметим, что помимо особой дуги внутри области управляемости не существует КП. Действительно, предположим обратное, и внутри области управляемости существует КП, на которой происходит изменение значения управления с u = a ( u = b ) на u = b ( u = a ). Такая КП должна разделять две области с положительными и отрицательными значениями q + Lx. Пусть в 2 области, в которой q + Lx > 0, было начато движение с управлением u = a (см.

формулу (1.43)). При достижении КП и изменении значения управления на u = b, система продолжает движение в той же области, в которой оно было начато (см. рис.14, где КП показана штрих-пунктиром), и значит, значение управления меняться не должно. Полученное противоречие доказывает тот факт, что единственно возможной КП является особая дуга (на особой дуге управление меняет значение с u = a или u = b на u = 1/ ( 4 L ) ). Таким образом, при L 1/ b, 1/ ( 4b ) 1/ ( 4a ), ( )( ) возможными оказываются два режима, использующие экстремальные значения управления (см. рис.15): движение с управлением u = a (управлением u = b ) вплоть до нижней (верхней) границы области управляемости x = y / ( 2b ) ( x = y / ( 2a ) ) 2 и затем движение по границе с управлением u = b (с управлением u = a ). Вопросы обоснования вышеуказанных режимов и оптимальности того или иного режима, так же как и в случае ограничений разных знаков, разрешаются при помощи метода динамического программирования. Для любой точки A ( x, y ) на границе области управляемости значение функции Беллмана в ней может быть найдено путем прямого интегрирования функционала (1.2) вдоль соответствующего участка границы (поскольку любой сход с границы означает выход за пределы области управляемости). При интегрировании (1.2) вдоль полупарабол x = y 2 / ( 2a ), y < и x = y 2 / ( 2b ), y < 0 получаются следующие значения функции Беллмана на нижней (индекс минус) и верхней (индекс плюс) границах 1 Lb + 1 5 1 2 V ( y) = V y, y = y 20 b3 2b 1 La + 1 5 1 2 V + ( y) = V y, y = y 2a 20 a (1.45) Используя первое (второе) из соотношений (1.45) можно определить значение постоянной Aa (постоянной Ab ) в выражении (1.23). Имеем 2 2 1 2 ( La + 1) (8b 12ab) + 3a 2 Aa = 15 (b a) ab(b a) 2 2 1 2 ( Lb + 1) (8a 12ab) + 3b 2 Ab = 15 (b a) ab(b a) (1.46) Для установления характера синтеза были исследованы знаки выражений W c = Vyc + Lx (1.47) с целью установления оптимальных режимов в зависимости от значений параметров a, b, L и координат начальной точки. На параболах вида x = ry, y < 0 выражения (1.47) можно представить как функции переменных y и r W c = c ( r ) y исследовать знаки функций c ( r ), r 1/ ( 2b ),1/ ( 2a ).

(1.48) Таким образом, для исследования знаков выражений (1.47) достаточно ( ) Исследования с помощью системы MAPLE показали, что при соотношении параметров L < 1/ ( 4a ) (при L > 1/ ( 4b ) ) области значений функций c ( r ) целиком лежат на отрицательной (положительной) полуоси действительной оси. Отсюда следует, что значения выражения (1.47) отрицательны (положительны) во всех внутренних точках области управляемости, откуда, учитывая соотношение (1.43), получаем, что при L < 1/ ( 4a ) (при L > 1/ ( 4b ) ) оптимальный режим управления состоит в следующем: стартовать из любой точки A ( x, y ) области управляемости необходимо с управлением u = b (с управлением u = a ) и, достигнув верхней (нижней) границы области управляемости, прийти по ней в начало координат, используя управление u = a (управление u = b ). На рис.15 этому режиму соответствует верхняя (нижняя) траектория. В интервале значений L (1.44) области значений функций c ( r ) включают нуль и наряду с интервалами значений r, в которых они имеют одинаковые знаки, существуют интервалы, в точках которых функции c ( r ) имеют различные знаки. Данное обстоятельство заставляет предположить, что при условии (1.44) оптимальный режим включает участок движения вдоль особой дуги (1.9) (см. рис.16). Значения постоянных Ac в формуле (1.23) определяются по значениям функции Беллмана на особой дуге. Значения функции Беллмана в точках особой дуги определяется путем прямого интегрирования функционала (1.2) вдоль особой дуги (1.9) V s ( y ) = V ( 2 Ly 2, y ) = 12 3 5 Ly (1.49) На особой дуге должны быть выполнены равенства V c ( 2 Ly 2, y ) = 12 3 5 Ly (1.50) Приравнивая (1.23) и правую часть (1.50) получаем значения констант Ac = 8 2 c ( 3Lc + 1) 1 + 4 Lc (1.51) Исследования показали, что в области над особой дугой (см. рис.17) выполнены соотношения Vya + Lx 2 > 0, x > 2 Ly 2 ;

Vya + Lx 2 = 0, x = 2 Ly (1.52) а в области под особой дугой имеет место соотношение Vya + Lx 2 < 0, x < 2 Ly Также оказалось, что в области под особой дугой выполнены соотношения Vyb + Lx 2 < 0, x < 2 Ly 2 ;

Vyb + Lx 2 = 0, x = 2 Ly а в области над особой дугой знак выражения Vy + Lx меняется:

a (1.53) Vyb + Lx 2 > 0, x > 2 Ly 2 ;

Vyb + Lx 2 = 0, x = 2 Ly Из соотношений (1.43), (1.52) и (1.53) следует оптимальность синтеза, изображенного на рис.16. Таким образом, дано полное исследование характера оптимального синтеза задачи (1.1)-(1.3) при различных соотношениях параметров задачи, а также построены соответствующие функции оптимального результата.

ГЛАВА 2 ЧИСЛЕННОЕ ПОСТРОЕНИЕ КРИВОЙ ПЕРЕКЛЮЧЕНИЯ ДЛЯ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ С УЧАЩАЮЩИМИСЯ ПЕРЕКЛЮЧЕНИЯМИ Рассматривается класс задач оптимального управления с учащающимися переключениями, кривые переключения для которых состоят из двух полупарабол. Классическими примерами такого рода задач являются задачи Фуллера и Маршалла. Другим примером такого рода задач являются задача, приведенная в [42], и задача (1.1)-(1.3), решение которой приведено в предыдущей главе. Предлагаемый алгоритм позволяет определить параметры кривой переключения и построить интегральную поверхность уравнения Беллмана. 2.1. Постановка задачи Рассматривается управляемая система, которая задается следующими уравнениями условиями движения, ограничениями, начальными и терминальными x = g1 ( x, y ) + ug 2 ( x, y ), y = r1 ( x, y ) + ur2 ( x, y ) 0 t T, a u b, ab < 0 x ( 0 ) = x, y ( 0 ) = y, x (T ) = 0, y (T ) = 0 (2.1) Здесь u - скалярный управляющий параметр, T - нефиксированный момент окончания процесса. На движениях системы (2.1) рассматривается функционал J [u ] = f1 ( x ( t ), y ( t ) ) + u ( t ) f 2 ( x ( t ), y ( t ) ) dt T ( ) (2.2) Допустимыми управлениями считаются интегрируемые на любом интервале [0, ] функции u(t ), удовлетворяющие ограничениям (2.1). Рассматривается задача минимизации функционала (2.2) в классе допустимых управлений и соответствующих движений системы (2.1). Одним из возможных оптимальных режимов для задачи (2.1), (2.2) является режим с учащающимися переключениями. Предполагается, что в данном случае функции gi, ri, f i в (2.1), (2.2) таковы, что имеет место именно данный режим, причем кривая переключения состоит из двух полупарабол. Необходимые условия существования режимов с учащающимися переключениями можно найти в [1]. Для того чтобы кривая переключения состояла из полупарабол, достаточно потребовать выполнения двух следующих условий:

- уравнения движения (2.1) должны быть инвариантны относительно группы преобразований x = µ 2 x, y = µ y, t = µ t, u = u, µ > где µ - скалярный параметр.

(2.3) - функционал (2.2) при подстановке в него (2.3) должен приобретать множитель f ( µ ), положительный в некоторой окрестности единицы, сохраняя при этом структуру подинтегральной функции:

( f ( µ x ( µt ), µ y ( µt )) + u ( µt ) f ( µ x ( µt ), µ y ( µt ))) d µt = 2 2 1 2 T = f (µ ) (T / µ ) ( f ( x ( t ), y ( t ) ) + u ( t ) f ( x ( t ), y ( t ) ) ) dt, f (1) > 1 (2.4) Смысл указанной инвариантности уравнений движения (2.1) относительно группы (2.3) состоит в следующем: если (2.1) с начальной точкой ( x(t ), y (t ), u(t ) ) - решение системы ( x, y ), то 0 тройка µ 2 x t ( µ ), µ y ( t µ ), u ( t µ ) ( 2 0 является решением той же системы с начальной точкой µ x, µ y ).

При выполнении данных условий кривая переключения задачи будет инвариантна относительно группы преобразований g µ ( x, y ) = µ x, µ y, и, таким образом, будет состоять из некоторого набора парабол. 2.2. Принцип максимума Будем полагать, что сопряженые переменные p, q взяты с обратным знаком, что позволит сохранить единую систему обозначений с методом динамического программирования. Итак ( ) p =, q =, где, сопряженные переменные принципа максимума. Для задачи (2.1), (2.2) имеют место следующие представления для неминимизированного F ( x, y, p, q, u ) = G ( x, y, p, q ) + uR ( x, y, p, q ) G ( x, y, p, q ) = pg1 ( x, y ) + qr1 ( x, y ) + f1 ( x, y ) R ( x, y, p, q ) = pg 2 ( x, y ) + qr2 ( x, y ) + f 2 ( x, y ) и минимизированного (2.5) H ( x, y, p, q ) = min H a ( x, y, p, q ), H b ( x, y, p, q ) u* = b+a ba + signR ( x, y, p, q ) 2 (2.6) гамильтонианов, где H a = G + aR, H b = G + bR bH a aH b Hb Ha G=,R= ba ba (2.7) Как уже говорилось выше, будем предполагать, что функции gi, ri, f i в (2.1), (2.2) таковы, что решение задачи имеет сравнительно простую структуру. Решение характеризуется некоторой кривой переключения, которая разделяет области N, N, в которых управление принимает значения u = a, u = b, a b соответственно, причем кривая переключения состоит из двух полупарабол, и имеет место режим с учащающимися переключениями (см. рис.2). В задачах Фуллера и Маршалла касательная к кривой переключения в начале координат совпадает с осью y. В общем же случае можно показать, что коэффициент наклона касательной к линии переключения в начале координат (общий для обеих ветвей) определяется следующей формулой:

k = tg = H b ( 0,0,0,0 ) p b H q ( 0,0,0,0 ) = a H p ( 0,0,0,0 ) a H q ( 0,0,0,0 ) (2.8) Формула (1.8) означает, что касательная к линии переключения в начале координат параллельна вектору фазовой скорости вдоль исчезающе малого участка траектории. В целях унификации приведенного здесь алгоритма удобно перейти в систему координат, в которой касательная к кривой переключения в начале координат была бы вертикальна. При таком переходе сопряженные переменные и гамильтониан задачи преобразуются неким образом – соответствующие преобразования приведены в следующем разделе.

2.3.

Уравнение Беллмана Запишем для задачи (2.1), (2.2) основные через соотношения метода функцию динамического программирования, обозначив V ( x, y ) оптимального результата (функцию Беллмана) задачи, т.е. минимальное значение функционала (2.2) вдоль траекторий системы (2.1), начинающихся в точке ( x, y ). Функция V ( x, y ) во всех внутренних точках области управляемости удовлетворяет уравнению V V V V b V V H x, y,, = min H a x, y,,, H x, y,, =0 x y x y x y b+a ba V V u= signR x, y, +, 2 2 x y * (2.9) Для уравнения (1.9) необходимы граничные условия. Терминальные условия в (2.1) задают следующее значение функции Беллмана в начале координат V ( 0,0 ) = (2.10) Как уже говорилось, для уравнений типа (2.9) граничные условия должны задаваться на некоторой кривой, но инвариантность задачи относительно группы (2.3) позволяет, найти единственное решение уравнения, для которого условие (2.10) выполнено автоматически. В областях N a, N b функция Беллмана и оптимальное управление удовлетворяют соотношениям V V, H a x, y, 0 x y V V ( x, y ) N, R x, y,, < 0, u* = a x y a (2.11) V V, H b x, y, 0 x y V V ( x, y ) N, R x, y,, > 0, u* = b x y b (2.12) Как уже говорилось выше, в целях унификации приведенного в данной главе алгоритма определения параметров кривой переключения, удобно перейти в систему координат, в которой касательная к кривой переключения в начале координат была бы вертикальна. Для этого произведем замену переменных, совмещающую ось y с касательной к кривой переключения в начале координат. Прямая и обратная замена переменных имеют следующий вид (значение определяется из (2.8)):

x = x sin + y cos, y = x cos + y sin x = x sin y cos, y = x cos + y sin функции w ( x, y ) переменных ( x, y ) преобразуются следующим образом:

(2.13) (2.14) Заметим, что при преобразованиях (2.13) частные производные любой w w x w y w w = + = sin + cos x x x y x x y w w x w y w w = + = cos + sin y x y y y x y (2.15) В новых переменных уравнение (2.9) имеет вид V V b V V min F a x, y,,,, F x, y, = 0 x y x y u* = b+a ba V V, signK x, y, + 2 2 x y (2.16) V V V V V V +, +, K x, y, = R x + y, x + y, x y x y x y V V V V V V +, +, F a,b x, y, = H a,b x + y, x + y, y x y x y x = sin, = cos После проведения преобразований (2.16) можно переходить к определению параметров кривой переключения в соответствии с приведенным в пункте (2.4) алгоритмом, не зависящим от угла наклона касательной к кривой переключения в начале координат. 2.4. Алгоритм численного определения параметров кривой переключения Пусть ветви кривой переключения задаются следующими уравнениями:

x = ey 2, y 0 x = gy 2, y Предлагаемый здесь алгоритм определения величин e, g (коэффициентов полупарабол, составляющих кривую переключения), состоит из следующих шагов: 1. Выбираются начальные приближения для e, g : e 1 0 1,0, g 0 0, 2a 2b 2. На полупараболе x = e0 y выбирается начальная точка (e y, y ) 0 0 2 0 (без ограничения общности можно положить y0 = 1 ) и в ней находятся значения ( p0, q0 ) сопряженных переменных из системы уравнений 02 F a ( x0, y0, p0, q0 ) = 0, F b ( x0, y0, p0, q0 ) = 0 ( x0 = e0 y0 ) 3. Численно интегрируется гамильтонова система уравнений x = Fpa, y = Fqa, p = Fxa, q = Fya c начальными условиями x ( 0 ) = x0, y ( 0 ) = y0, p ( 0 ) = p0, q ( 0 ) = q 4. При интегрировании на каждом шаге проверяется выполнение условия ( x ( t ) g y ( t ) ) ( x ( t ) g y ( t ) ) < 0, y ( t ) < n 1 0 0 2 n 1 n 0 0 2 n n 0 (2.17) Если при некотором n = n0 условие (2.17) окажется выполненным (это означает, что траектория пересекла кривую x = g0 y, y < 0 ), вычисляется значение 0 0 F b ( e0, g0 ) = F b x ( tn0 ), y ( tn0 ), p ( tn0 ), q ( tn0 ) ( ) (g 02 5. На полупараболе x = g0 y выбирается начальная точка y, y1 ) (можно сопряженных положить y1 = 1 ) и в ней находятся значения a ( p1, q1 ) переменных из системы уравнений F ( x1 = g0 y1 ) 0 ( x1, y1, p1, q1 ) = 0, F b ( x1, y1, p1, q1 ) = 6. Численно интегрируется система уравнений x = Fpb, y = Fqb, p = Fxb, q = Fyb c начальными условиями x ( 0 ) = x1, y ( 0 ) = y1, p ( 0 ) = p1, q ( 0 ) = q 7. При интегрировании на каждом шаге проверяется выполнение условия ( x ( t ) e y ( t ) ) ( x ( t ) e y ( t ) ) < 0, y ( t ) > k 1 0 0 2 k 1 k 0 0 2 k k (2.18) Если при некотором k = k0 условие (2.18) окажется выполненным (это означает, 02 что траектория пересекла кривую x = e0 y, y > 0 ), вычисляется значение 0 0 F a ( e0, g0 ) = F a x ( tk0 ), y ( tk0 ), p ( tk0 ), q ( tk0 ) ( ) (e, g ).

0 1 0 0 0 0 8. Коэффициенту e задается малое приращение e = e1 e0 и затем шаги 2- повторяются для пары начальных приближений После этого вычисляются значения следующих частных производных 0 0 F a ( e0, g 0 ) e 0 0 0 F a ( e10, g 0 ) F a ( e0, g 0 ) e, 0 0 F b ( e0, g 0 ) e 0 0 0 F b ( e10, g 0 ) F b ( e0, g 0 ) e 0 9. Коэффициенту g задается малое приращение g = g1 g0 и затем шаги 27 повторяются для пары начальных приближений вычисляются значения следующих частных производных 0 0 F a ( e0, g 0 ) (e, g ).

0 0 0 После этого g 0 0 0 F a ( e0, g10 ) F a ( e0, g 0 ) g, 0 0 F b ( e0, g 0 ) g 0 0 0 F b ( e0, g10 ) F b ( e0, g 0 ) g 10. Далее, вычисляются значения следующих приближений коэффициентов e, g по формулам метода Ньютона:

1 0 0 1 0 0 e0 = e0 + e0, g0 = g0 + g0 0 0 F a ( e0, g0 ) 0 e 0 e0 = 0 0 0 0 g0 F b ( e0, g0 ) 0 0 F a ( e0, g0 ) 1 0 0 F a ( e0, g0 ) g F b (e, g ) 0 0 0 F b (e, g ) 0 0 0 (2.19) e g Шаги 2-10 повторяются для новой пары начальных приближений e0, g 0 далее, пока при каких-то значениях e0, g 0 числа ( )и ( i i ) для некоторого наперед заданного данной a i i b i i 1 не окажется выполненным равенство F ( e0, g0 ) + F ( e0, g0 ).

При условии сходимости данного алгоритма, результатом итерационнной процедуры будет нахождение коэффициентов e, g кривой переключения. Приведенный здесь алгоритм был реализован в среде MAPLE (примеры расчетов приведены в разделе 2.7.). На входе программы задаются выражения H a, H b, а результатом обработки программой заданных данных являются значения параметров кривой переключения. Были проведены соответствующие вычисления для задач Фуллера, Маршалла и их модификаций: алгоритм для данных задач сходится и результаты расчетов посредством данного алгоритма совпадают с результатами, полученными другими способами [17,18,20,24-26,42]. 2.5. Алгоритм построения интегральной поверхности уравнения Беллмана После того, как коэффициенты кривой переключения определены, можно построить интегральную поверхность уравнения Беллмана задачи (2.1), (2.2). Для построения интегральной поверхности на полупараболе выбирается семейство начальных точек x = ey ( ey, y ), 2 i i yi = 1 ih, h = const, i = 0...i max, i max = int [1/ h], и в них находятся значения ( pi, qi ) сопряженных переменных из системы уравнений F a ( xi, yi, pi, qi ) = 0, F b ( xi, yi, pi, qi ) = 0.

Также задаются значения Vi функции Беллмана в точках eyi, yi : Vi = ( pi / 2 ) xi + ( qi / 2 ) yi.

( ) После определения набора троек ( pi, qi, Vi ) для каждого i проводится следующая последовательность операций: 1. Интегрируется система x = Fpa, y = Fqa, p = Fxa, q = Fya, V = pFpa + qFqa x ( 0 ) = xi, y ( 0 ) = yi, p ( 0 ) = pi, q ( 0 ) = qi, V ( 0 ) = Vi и на каждом шаге интегрирования вычисляются значения троек (2.20) ( x ( t ), y ( t ),V ( t ) ) l l l 2. При интегрировании (2.20) на каждом шаге проверяется выполнение условия ( x ( t ) gy ( t ) ) ( x ( t ) gy ( t ) ) < 0, y ( t ) < n n n n n (2.21) Если при некотором n = n0 условие (2.21) окажется выполненным (это означает, что траектория пересекла ветвь кривой переключения x = gy 2, y < 0 ), вычисляются xi = x tn0, yi = y tn0, pi = p tn0, qi = q tn0, Vi = V tn0 3. Интегрируется система () () () () () x = Fpb, y = Fqb, p = Fxb, q = Fyb, V = pFpb + qFqb x ( 0 ) = xi, y ( 0 ) = yi, p ( 0 ) = pi, q ( 0 ) = qi, V ( 0 ) = Vi и на каждом шаге интегрирования вычисляются значения троек (2.22) ( x ( t ), y ( t ),V ( t ) ) l l l 4. При интегрировании (2.22) на каждом шаге проверяется выполнение условия ( x ( t ) ey ( t ) ) ( x ( t ) ey ( t ) ) < 0, y ( t ) > k k k k k (2.23) Если при некотором k = k0 условие (2.23) окажется выполненным (это означает, что траектория пересекла ветвь кривой переключения x = ey, y > 0 ), данная итерация завершается и вышеуказанные действия повторяются для следующего i и т.д. вплоть до i max, после чего по тройкам значений ( x ( tl ), y ( tl ),V ( tl ) ) строится интегральная поверхность уравнения Беллмана. 2.6. Алгоритм определения параметров кривой переключения при наличии режима с особой дугой первого порядка В некоторых задачах при изменении параметров происходит перестройка режима управления, и режим с учащающимися переключениями сменяется режимом, подразумевающим движение вдоль особой дуги первого порядка. Пример такой задачи приведен в первой главе данной работы, а соответствующий синтез приведен на рис.18. При наличии режима с особой дугой первого порядка коэффициент e особой дуги x = ey 2 находится из соотношений принципа максимума.

2 Неизвестным остается коэффициент g кривой переключения x = gy. Для нахождения данного коэффициента можно использовать следующую модификацию вышеприведенного алгоритма:

1 0 g : g 0 0, 1. Выбирается начальное приближение для 2b 2. На полупараболе x = g0 y 0 выбирается начальная точка (g 0 2 y0, y0 ) (без ограничения общности можно положить y0 = 1 ) и в ней находятся значения ( p0, q0 ) сопряженных переменных из системы уравнений 02 F a ( x0, y0, p0, q0 ) = 0, F b ( x0, y0, p0, q0 ) = 0 ( x0 = g0 y0 ) 3. Численно интегрируется гамильтонова система уравнений x = Fpb, y = Fqb, p = Fxb, q = Fyb c начальными условиями x ( 0 ) = x0, y ( 0 ) = y0, p ( 0 ) = p0, q ( 0 ) = q 4. При интегрировании на каждом шаге проверяется выполнение условия ( x ( t ) ey ( t ) ) ( x ( t ) ey ( t ) ) < 0, y ( t ) > n n n n n (2.24) Если при некотором n = n0 условие (2.24) окажется выполненным (это означает, что траектория пересекла кривую x = ey 2, y > 0 ), вычисляется значение 0 F a ( g0 ) = F a x tn0, y tn0, p tn0, q tn ( ( ) ( ) ( ) ( )) 0 0 5. Коэффициенту g задается малое приращение g = g1 g0 и затем шаги 24 повторяются для начального приближения g1. После этого вычисляется значение частной производной 0 F a ( g0 ) g = 0 F a ( g10 ) F a ( g0 ) g по 6. Вычисляются значение следующего приближения коэффициента g формуле метода Ньютона:

g =g 1 0 0 0 F a ( g0 ) g 0 F a ( g0 ) Шаги 2-6 повторяются для нового начального приближения g0 и далее, пока при каком-то значении g0 для некоторого заданного числа i 1 не окажется a i i выполненным равенство F g0. Данное значение g0 и будет искомым () коэффициентом g. 2.7. Примеры 2.7.1. Задача Фуллера Основные соотношения задачи:

x = y, y = u, 0 t T, 1 u 1 x(0) = x 0, y (0) = y 0, x(T ) = 0, y (T ) = 0 J [u ] = x 2 (t )dt min 0 T H = py + x 2 q, H b = py + x 2 + q a a b На входе программы были заданы выражения для H, H и на выходе были получены значения коэффициентов кривой переключения g = e =0,444623782, что совпадает с результатами, приведенными в [1,17,18,20,42]. 2.7.2. Модификация задачи Фуллера Основные соотношения:

x = y, y = u, 0 t T, 1 u 1 x(0) = x 0, y (0) = y 0, x(T ) = 0, y (T ) = 0 J [u ] = x 4 (t )dt min 0 T H = py + x 4 q, H b = py + x 4 + q a Для данной задачи были получены значения коэффициентов кривой переключения g = e =0,389735922.

2.7.3. Задача Маршалла Основные соотношения:

x = y, y = u, 0 t T, a u b x(0) = x 0, y (0) = y 0, x(T ) = 0, y (T ) = 0 J [u ] = x 2 (t )dt min 0 T H a = py + x 2 + aq, H b = py + x 2 + bq Для значений a = 0, 5, b= получены значения коэффициентов g = 0.445100870, e = 0.888964892, что совпадает с результатами, полученными в предыдущей главе. 2.7.4. Задача с несимметричными функционалом и ограничениями на управление Основные соотношения:

x = y, y = u, 0 t T, a u b x(0) = x 0, y (0) = y 0, x(T ) = 0, y (T ) = 0 1 J [u ] = x 2 (t ) u ( t ) + 1 dt min 5 0 1 1 H a = py + x 2 + a q + x 2, H b = py + x 2 + b q + x 2 5 Для значений T a = 0,5, b= получены значения коэффициентов g = 0.427993894, e = 0.916103725, что также совпадает c результатами предыдущей главы. Качественный вид интегральных поверхностей уравнения Беллмана для всех рассмотренных случаев приведен на рис. 7.

ГЛАВА 3 ИНВАРИАНТНО-ГРУППОВОЙ АНАЛИЗ УРАВНЕНИЯ БЕЛЛМАНА В ТРЕХМЕРНОЙ ЗАДАЧЕ ФУЛЛЕРА 3.1. Постановка задачи Рассматривается управляемая система, заданная уравнениями движения, ограничениями, начальными и терминальными условиями x = y, y = z, z = u, u 1 x ( 0) = x0, y ( 0) = y 0, z ( 0) = z 0 x (T ) = 0, y (T ) = 0, z (T ) = (0.3) Здесь u - управляющий параметр, а T - нефиксированный момент окончания процесса. На движениях системы (3.1) рассматривается функционал J [u ] = x 2 ( t ) dt T (3.2) Допустимыми управлениями в (3.1) считаются любые функции u ( t ), абсолютно интегрируемые на любом подинтервале интервала [ 0,+ ). Ставится задача манимизации фунционала (3.2) в классе допустимых управлений и соответствующих движений системы (3.1). Один из подходов к анализу данной задачи можно найти в [41]. Другой подход приведен в [43]. В данной работе проведен инвариантно-групповой анализ задачи, позволивший определить параметры кривой переключения инвариантного цикла задачи (см. пункт 3.2) и построить функцию Беллмана на ней.

3.2. Анализ на основе метода динамического программирования и оптимальный синтез задачи Обозначим через V ( x, y, z ) функцию оптимального результата задачи (3.1), (3.2), т.е. минимальное значение функционала (3.2) на траекториях системы (3.1) стартующих из точки ( x, y, z ). Функция V ( x, y, z ) удовлетворяет уравнению Беллмана min yVx + zVy + uVz + x 2 = u (3.3) или min F, F + = yVx + zVy Vz + x 2 = 0 F = yVx + zVy Vz + x 2 F + = yVx + zVy + Vz + x 2 u * = sign (Vz ) Таким образом, оптимальный синтез задачи характеризуется (3.1), (3.2) характеризуется наличием поверхности переключения, разбивающей + 3 пространство R на две области N, N, в которых u = 1, u = 1 (см. [41,43]). + В областях N, N функция Беллмана удовлетворяет уравнениям (3.4) F ( x, y, z, Vx, Vy, Vz ) = 0, ( x, y, z ) N, Vz > 0, u = 1 F + ( x, y, z, Vx, Vy, Vz ) = 0, ( x, y, z ) N +, Vz < 0, u = (3.5) (3.6) + Обозначим через V ( x, y, z ), V ( x, y, z ) сужения функции Беллмана на + области N, N V ( x, y, z ) = V ( x, y, z ), ( x, y, z ) N (3.7) V + ( x, y, z ) = V ( x, y, z ), ( x, y, z ) N + (3.8) + Таким образом, функция V ( x, y, z ) (функция V ( x, y, z ) ) удовлетворяет уравнению (3.5) (уравнению (3.6)). Единственное граничное условие, которое можно сформулировать для уравнений (3.3)-(3.6), следует из терминальных условий (3.1) и заключается в требовании равенства нулю функции Беллмана в начале координат V ( 0, 0, 0 ) = (3.9) Вообще говоря, граничные условия должны задаваться на некоторой поверхности. Но инвариантность позволяет задачи относительно некой группы Беллмана, преобразований определить структуру функции содержащую неизвестную функцию скалярного аргумента и определить параметры кривой переключения инвариантного цикла. Как уже говорилось, решение задачи основывается на инвариантногрупповом анализе. Заметим что уравнения x = y, y = z, z = u инвариантны относительно группы преобразований (3.10) g ( x, y, z, t, u ) = ( 3 x, 2 y, z, t, u ) (3.11) Данный факт означает, что группа преобразований (3.11) переводит любую траекторию системы (3.10), проходящую через точку траекторию этой же системы, проходящую через точку этом значение функции Беллмана в точке ( x, y, z ), в другую ( x, y, z ). При 0 0 0 30 2 0 0 ( x, y 0, z 0 ) связано со 0 0 0 значением функции Беллмана в точке x, y, z соотношением:

( ) V ( 3 x 0, 2 y 0, z 0 ) = 7V ( x 0, y 0, z 0 ) (3.12) Дифференцируя (3.12) по, а затем подставляя = 1, получаем следующее дополнительное уравнение (по отношению к уравнению Беллмана), которому удовлетворяет функция оптимального результата:

3 xVx + 2 yVy + zVz 7V = Соотношение (3.12) позволяет ввести функцию (3.13) x y (, ) = V 3, 2,1 z z x y V ( x, y, z ) = z 7 3, 2 z z Второе представление в (3.14) является решением уравнения (3.13).

(3.14) Из инвариантности задачи относительно группы преобразований (3.11) следует, что поверхность переключения соткана из кривых вида x = µ 3 x0, y = µ 2 y0, z = µ При этом, в силу центральной симметрии задачи, если точка (3.15) (x, y,z ) 0 0 принадлежит поверхности переключения, то точка (x, y, z ) 0 0 также принадлежит поверхности переключения. Это означает, что если кривая x = µ 3 x0, y = µ 2 y0, z = µ, µ лежит на поверхности переключения, то и кривая (3.16) x = µ 3 x0, y = µ 2 y0, z = µ, µ лежит на поверхности переключения.

(3.17) Точки, лежащие на кривых (3.16), (3.17) при заданных x0, y0, будем считать принадлежащими одной кривой. Оптимальный синтез задачи обладает следующими свойствами:

- траектория, стартовавшая из некоторой точки (x, y, z ) 0 0 с определенным управлением ( u = 1 или u = 1 ), достигает поверхности переключения в некоторой точке (µ x, µ 3 2 y, µ1 ), после чего происходит смена знака управления и движение вдоль следующего участка траектории, а затем 3 2 достижение поверхности в следующей точке µ 2 x2, µ 2 y2, µ ( ) и т.д., причем, x1 y 1, т.е. точки последовательных переключений лежат вообще говоря, x2 y на разных кривых (см. рис. 19);

- при определенных значениях ( x0, y0, z0 ) траектория, стартовавшая из данной точки, достигает 2 поверхности переключения в некоторой точке (µ x, µ 3 y, µ1 ), после чего происходит смена знака управления и движение вдоль следующего участка траектории, а затем достижение поверхности в следующей точке (µ x, µ 3 2 y2, µ 2 ) и т.д., причем xi y = i, т.е. точки xi +1 yi + последовательных переключений в данном случае будут лежать на одной кривой и движение будет происходить в одной плоскости. Такое движение будем называть инвариантным циклом (см. рис. 20). Пример расчета параметров кривой переключения инвариантного цикла, основанного на принципе максимума, можно найти в [41]. В данной работе реализован подход к определению параметров кривой переключения, основанный на методе динамического программирования. Данный подход позволил также построить функцию Беллмана на кривой переключения инвариантного цикла. Подстановка (3.14) в (3.4) приводит к следующему уравнению для функции :

+ + 7 3 2 + 2 = Обозначим через (3.18) ветви функции (, ), + (, ) (, ), соответствующие ветвям V соотношению (3.14):

( x, y, z ), V + ( x, y, z ) функции Беллмана, согласно x y V ( x, y, z ) = z 7 3, 2 z z x y V + ( x, y, z ) = z 7 + 3, 2 z z Решение уравнения (3.18) представимо в виде 7 1 1 11 11 + (, ) = 2 + + + 2 + + + 2 + 1 2 F1 ( + ) 4 3 60 420 7 1 1 11 11 (, ) = 2 + 2 + + 2 1 2 F2 ( ) 4 3 60 (3.19) (3.20) (3.21) (3.22) где (+) = 3 + 1 + 3 3 2 + 3, ( ) = 3 + 1 3 3 2 3 а F1 ( ), F2 ( ) - произвольные функции своего аргумента.

Учет центральной симметрии задачи позволяет связать функции F1 ( ) и F2 ( ), а именно: при замене ( x, y, z ) ( x, y, z ) решение переходит в + в силу того, что при данной замене функция V должна перейти V +, и из этого следует, что F1 ( ) = F2 ( ) = F ( ), то есть функции F1 ( ) и F2 ( ) являясь идентичными функциями своего аргумента отличаются только знаком. Действительно, при замене ( x, y, z ) ( x, y, z ) переменные (, ) преобразуются следующим образом:

, и аргументы функций F1 ( ) и F2 ( ) в (3.21), (3.22) преобразуется следующим образом (+) = ( ) = 3 + 1 + 3 3 2 + 1 3 2 3 3 + 1 3 3 2 1 3 2 + 3 = () = (+) (3.23) 3 + 1 3 3 + 1 + 3 В силу центральной симметрии задачи имеет место равенство V ( x, y, z ) = V ( x, y, z ) Равенства (3.19) - (3.24) влекут за собой цепочку равенств (3.24) V ( x, y, z ) = V + ( x, y, z ) (, ) = + (, ) F1 ( + ) = F2 ( + ), F1 ( ) = F2 ( ) F1 ( ) = F2 ( ) На основании (3.14), (3.21), (3.22) можно записать следующее выражение функции Беллмана, содержащее неизвестную функцию скалярного аргумента:

1 y 2 z 3 11 5 11 7 2 4 y V = x z + xz 2 yz z 2 y z2 + 4 3 60 420 z (3.25а) 23 y 1 y z 11 5 11 7 + V = x z + xz 2 + + yz + z + 2 y + z2 4 3 60 420 z + 2 4 3 x + z 3 3 yz 2 F 3 3 2 y z2 2 3 x + z 3 + 3 yz F 3 3 2 y + z2 2 (3.25б) Здесь, вообще говоря, для каждой из подобластей z > 0, z < 0 областей N, N + должна использоваться своя функция F. Однако требования непрерывности функций V ( x, y, z ), V + ( x, y, z ) при значении переменной z = 0 приводит к общему виду данной функции.

3.3. Определение параметров кривой переключения инвариантного цикла и построение функции Беллмана на ней Пусть кривая переключения инвариантного цикла (далее просто «кривая переключения») параметрически задается следующим образом:

x = µ 3 x0, y = µ 2 y0, z = µ Для определения параметров кривой переключения потребуем выполнения следующих условий непрерывности на ней:

V = V +, Vx = Vx+, Vy = Vy+ Условие Vz = Vz (3.26).

+ (3.26) является излишним, так как является следствием условий перейдя от первого из равенств (3.26) к Действительно, соответствующему равенству в терминах дифференциалов, получим:

V = V + dV = Vx dx + Vy dy + Vz dz = Vx+ dx + Vy+ dy + Vz+ dz = dV + Vx = Vx+, Vy = Vy+ Vz = Vz+ Условия (3.26) достаточно записать на одной из ветвей кривой переключения, так как их запись на второй из ветвей в силу центральной симметрии задачи приводит к тем же уравнениям. Производные функции Беллмана V ( x, y, z ) выражаются через производные функции (, ) ( = x y, = 2 ) следующим образом: z3 z 1 2 Vx = z 4, = 2 + ( 2 1) F ( ) 4 1 2 + + Vx+ = z 4, = 2 + + + ( 2 + 1) F ( + ) 4 5 2 11 Vy = z 5, = + 7 F ( ) 2 1 2 sign ( 2 1) + F ( )( 2 1)( 3 ) 3 60 5 2 11 + + Vy+ = z 5, = + + + 7 F ( + ) 2 + 1 2 sign ( 2 + 1) F ( + )( 2 + 1)( 3 + ) 3 (3.27) Производные по третьей переменной выражаются через функцию (, ) и ее производные по формулам + + Vz = z 6 ( 7 3 2 ), Vz+ = z 6 ( 7 + 3 2 ) Вводя обозначения F ( + ) = A, F ( ) = B F ( + ) = a, F ( ) = b запишем условия сшивки 7 7 1 2 11 V = V + : 2 2 + + 2 + + A 2 + 1 2 + B 2 1 2 = 0 2 3 (3.28) (3.29) Vx = Vx+ : 4 + 1 2 2 + a ( 2 + 1) + b ( 2 1) = 0 (3.30) 5 5 4 Vy = Vy+ : + 7 A 2 + 1 2 sign ( 2 + 1) + 7 B 2 1 2 sign ( 2 1) 3 a ( 2 + 1)( 3 + ) b ( 2 1)( 3 ) = (3.31) Из центральной симметрии задачи и (3.25) следует, что при замене ( x, y, z ) ( x, y, z ) имеет место следующий переход:

3 3 3 x + z 3 yz F 3 x + z + 3 yz F 3 3 3 2 y z2 2 3 2 y + z2 2 С другой стороны, произведя формальную замену (3.25) получим (3.32) ( x, y, z ) ( x, y, z ) в 3 3 3 3 x + z 3 yz F 3 x z 3 yz = F 3 x + z + 3 yz F 3 3 3 3 2 y z2 2 3 2 y + z2 2 3 2 y + z2 2 Из (3.32), (3.33) следует, что функция F аргументу, т.е.

(3.33) является нечетной по своему F ( ) = F ( ) и как следствие (3.34) F ( ) = F ( ) (3.35) Можно показать, что на кривой переключения выполнено соотношение 3 + 1 + 3 3 2 + 3 = 3 + 1 3 3 2 3 (3.36) и, соответственно, в силу (3.34), (3.35) параметры собой следующим образом:

A, B, a, b связаны между A = B, a = b (3.37) При этом система (3.29)-(3.31) замыкается, и условия сшивки переписываются в виде 7 7 1 2 11 2 2 + + 2 + + A 2 + 1 2 2 1 2 = 0 2 3 420 1 4 + + 2a ( 4 2 + 1) = 0 (3.38) 2 5 5 4 + 7 A 2 + 1 2 sign ( 2 + 1) 2 1 2 sign ( 2 1) 2a ( 6 + 1) = 0 Система (3.38) решается численно и результатом решения являются четыре набора значений ( A, a,, ) :

Решение 1 = { A = 0, 016228, a = 0, 060298, = 0,162749, = 0, 251048} Решение 2 = { A = 0, 028362, a = 0, 233024, = 0, 314678, = 0,832718} Решение 3 = { A = 0, 030322, a = 0, 280121, = 0,144353, = 0, 480396} (3.39) Решение 4 = { A = 0, 032995, a = 0, 297312, = 0, 224002, = 0,580455} Дополнительный анализ показывает, что единственным решением, + соответствующим правильным знакам u = sign Vz () в областях N, N и режиму управления, приводящим в начало координат, а не уводящим от него, является решение 1 и кривая переключения инвариантного цикла задается как объединение двух кривых, параметрически заданных уравнениями КП = {( 0,162749 z ;

0, 251049 z ;

z ), z < 0} {( 0,162749 z ;

0, 251049 z ;

z ), z > 0} 3 2 3 Здесь соответствие значений параметров кривой переключения и знака переменной z (см. (3.16), (3.17)) определяется, исходя из требования неотрицательности значений функции Беллмана.

Функция Беллмана на кривой переключения инвариантного цикла в соответствии с (3.19)-(3.22) задается следующим образом:

x y V ( x, y, z ) = z 7 3, 2 = z z 7 1 1 11 11 = z 7 2 + 2 + + 0, 016228 2 1 2 4 3 60 420 x y V + ( x, y, z ) = z 7 + 3, 2 = z z 7 1 1 11 11 = z 7 2 + + + 2 + + + 0, 016228 2 + 1 2 4 3 60 420 Окончательно, подставив найденные (3.40) (, ) в (3.40) получим следующее значение функции Беллмана на кривой переключения:

V = 0, 0711 z (3.41) Тем самым определены кривой переключения инвариантного цикла задачи (3.1), (3.2) и определены значения функции Беллмана на ней.




© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.