Реферат: Метод динамічного програмування
.(16)
Останнє співвідношення називається
рівнянням Беллмана. Воно є аналогом рекурентних рівнянь Беллмана дискретної
задачі оптимального керування для випадку неперервної системи.
Замінивши на , де – оптимальна траєкторія, одержимо
з (16)
.(17)
До рівняння Беллмана додаються крайові
умови, що випливають безпосередньо з визначення функції Беллмана:
.(18)
Рівняння Беллмана – це диференціальне
рівняння в частинних похідних відносно функції . Але це рівняння не є лінійним
через наявність у (17) операції мінімізації. Фактично це означає підстановку в
рівняння такого , на якому досягається мінімум і
яке змінюється в залежності від значень і .
5 Рівняння Беллмана в задачі з фіксованими кінцями
та вільним часом
Додамо до задачі (2), (6), (9) умову
закріплення правого кінця траєкторії , де – задано, а – невідомо. У цьому
випадку функція Беллмана залежатиме тільки від поточного стану системи. Дійсно,
згідно з визначенням функції Беллмана
.
Якщо підінтегральна функція не залежить від
, то
значення інтеграла при фіксованих і залежить тільки від
довжини інтервалу інтегрування , який можна визначити з
автономної системи (6), якщо відомі точки і фазової траєкторії. Тому різниця – це функція
від аргументів і , а не залежить явно від . У цьому
випадку і
рівняння Беллмана для задачі із закріпленими кінцями набуває вигляду
.
6 Рівняння Беллмана в задачі швидкодії
Розглянемо задачу оптимальної швидкодії з
фіксованими кінцями і вільним часом, закон руху якої має вигляд (6) і задані
початковий стан та кінцевий стан . Час невідомий і його
потрібно знайти з умови мінімізації цільового функціонала
.
У задачі з фіксованими кінцями і вільним
часом функція Беллмана залежить тільки від поточного стану системи і не
залежить від моменту, починаючи з якого розглядається її еволюція (доведення
аналогічно п. 5), тобто .
Вважатимемо, що функція неперервна на будь-якому
відрізку і
для будь-якої точки фазового простору і будь-якого моменту часу існує
оптимальна траєкторія, а функція неперервно диференційована за
своїми аргументами. Тоді необхідна умова оптимальності у вигляді рівняння
Беллмана (17), (18) для даної задачі матиме вигляд:
,
або

за заданих крайових умов .
Очевидно, що якщо процес – оптимальний, то,
будучи підставленим у рівняння Беллмана, він дасть тотожність
.
Зауваження. Оскільки функція Беллмана дорівнює
мінімальному значенню цільового функціонала, що характеризує перехід системи в
кінцевий стан зі стану , то в задачі оптимальної
швидкодії ця функція показує оптимальний час переходу зі стану у фіксований стан .
7 Зв'язок методу динамічного програмування із
принципом максимуму
Розглянемо задачу оптимального керування з
фіксованими кінцями та вільним часом (6) з цільовим функціоналом , і крайовими умовами
, . Вважатимемо,
що час невідомий.
Оптимальне керування будемо вибирати серед
кусково-неперервних вектор-функцій . За принципом динамічного
програмування для оптимального процесу існує такий розв’язок рівняння
Беллмана
,(19)
що – значення, на якому досягається
мінімум у лівій частині рівняння (19).
Доведемо, що з рівняння (19) випливає
існування деякого вектора , який задовольняє співвідношенням
принципу максимуму. Нехай – функція Беллмана, що відповідає
оптимальному процесу . Розглянемо нову змінну

і нову функцію
,
де .
Використовуючи ці позначення, перетворимо
рівняння Беллмана. Очевидно, що
, , ,
тому

Оскільки , то останнє співвідношення можна
привести до вигляду:
.(20)
Позначимо
, .
Тоді формула (20) стає аналогом функції
Понтрягіна
,
де .
Це означає, що на оптимальному процесі функція
Понтрягіна набуває максимального значення, рівного 0. Очевидно, що функція
Понтрягіна не залежить від , тому що і , не залежать від .
Доведемо, що спряжені змінні задовольняють спряженій
системі
, .(21)
Для цього припустимо, що функція Беллмана має неперервні
частинні похідні другого порядку. Позначимо
.(22)
Оскільки оптимальне керування однозначно
визначає оптимальну траєкторію , то функція досягає на кожному
фіксованому по
змінній максимального
значення, рівного 0, у точці , що відповідає оптимальному
керуванню в
цій точці. У цьому випадку для функції в будь-який момент часу для
процесу буде
виконана умова
Страницы: 1, 2, 3, 4 |