Dynamiczna optymalizaja - E-SGH

Transkrypt

Dynamiczna optymalizaja - E-SGH
Handout z dynamicznej optymalizacji
Lukasz Woźny∗
8 lutego 2006
Spis treści
1 Optymalizacja statyczna a dynamiczna
1.1 Ekstrema lokalne funkcji wielu zmiennych - statyka . . . . . .
1.2 O naturze dynamicznej optymalizacji . . . . . . . . . . . . . .
2
2
3
2 Przypadek ciag
ly - teoria sterowania optymalnego
,
2.1 Najprostszy problem sterowania optymalnego . . . . . . . . .
2.2 Hamiltonian i zasada maksimum . . . . . . . . . . . . . . . .
2.3 Problem z wieloma zmiennymi stanu i zmiennymi sterujacymi
,
2.4 Alternatywne warunki końcowe . . . . . . . . . . . . . . . . .
2.5 Dyskontowanie i hamiltonian wartości bieżacej
. . . . . . . .
,
2.6 Zagadnienie z nieskończonym horyzontem czasowym . . . . .
4
4
4
5
5
6
6
3 Przypadek dyskretny - programowanie dynamiczne
3.1 Definicje . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Przyklad i schemat . . . . . . . . . . . . . . . . . . . .
3.3 Równanie Belmanna bez i z dyskontowaniem . . . . .
3.4 Twierdzenie o obwiedni . . . . . . . . . . . . . . . . .
3.5 Zagadnienie z nieskończonym horyzontem czasowym .
6
6
7
7
8
8
Literatura
∗
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
[email protected].
1
1
Optymalizacja statyczna a dynamiczna
1.1
Ekstrema lokalne funkcji wielu zmiennych - statyka
Rozpatrzmy funkcje, f : X → R, gdzie X ⊂ Rn jest zbiorem otwartym:
Definicja 1.1 Mówimy, że funkcja f ma w punkcie x0 ∈ X minimum (maksimum) lokalne wtt, gdy
∃r > 0 ∀x ∈ K(x0 , r)
f (x0 ) ≤ f (x)
(f (x0 ) ≥ f (x))1 .
Twierdzenie 1.1 Jeżeli funkcja f ma w otoczeniu punktu x0 ∈ X ciag
, le
0 (x ) = 0, to:
pochodne czastkowe
drugiego
rz
edu
i
f
0
,
,
• f ma minimum (maksimum) lokalne w x0 , gdy macierz f 00 (x0 ) jest
dodatnio (ujemnie) określona,
• f nie ma ekstremum lokalnego w x0 , gdy macierz f 00 (x0 ) jest nieokreślona.
Definicja 1.2 Niech f, g1 , g2 , . . . , gm : X → R, gdzie X ⊂ Rn jest zbiorem
otwartym a n > m. Niech ponadto:
G = [g1 , g2 , . . . , gm ]T ,
M = {x ∈ X : G(x) = 0}.
Mówimy, że funkcja f ma w punkcie x0 ∈ M minimum (maksimum) lokalne
warunkowe na zbiorze M wtt, gdy:
∃r > 0 ∀x ∈ M ∩ K(x0 , r)
f (x0 ) ≤ f (x)
(f (x0 ) ≥ f (x))2 .
Definicja 1.3 Punkt x0 ∈ M nazywamy punktem regularnym ograniczeń
0
wtt rz G0 (x0 ) = m a wiec
, wiersze macierzy G (x0 ) sa, liniowo niezależne.
Definicja 1.4 Funkcja, Lagrange’a dla problemu ekstremum warunkowego
zadanego przez f i G nazywamy funkcje, L : X → R o wartościach
L (x, λ) = f (x) + λT G(x),
gdzie x ∈ X ⊂ Rn jest wektorem zmiennych, a λ ∈ Rm jest wektorem
parametrów (mnożników Lagrange’a).
Twierdzenie 1.2 W problemie zadanym przez różniczkowalne f, g1 , g2 , . . . , gm
funkcja f może mieć ekstremum lokalne na M tylko w takim x0 , że:
1
Jeżeli nierówność jest spelniona dla wszystkich argumentów x ∈ X, to x0 nazywamy
minimum (maksimum) globalnym f na X
2
Jeżeli nierówność jest spelniona dla każdego x ∈ M , to x0 nazywamy minimum (maksimum) globalnym f na M
2
• x0 jest punktem nieregularnym w M ,
• x0 wraz z wektorem λ0 spelnia uklad:
L 0 (x, λ) = 0,
G(x)
= 0.
Twierdzenie 1.3 Jeśli w problemie na ekstremum warunkowe zadanym przez
f i G funkcje f, g1 , g2 , . . . , gm maja, ciag
drugiego rzedu,
, le pochodne czastkowe
,
,
0
x0 jest punktem regularnym w M i L (x0 , λ0 ) = 0 to:
• f ma minimum (maksimum) lokalne na M , jeśli forma kwadratowa
zadana macierza, L 00 (x0 , λ0 ) jest dodatnio (ujemnie) określona na H =
Ker G0 (x0 ),3
• f nie ma ekstremum lokalnego na M , jeśli forma kwadratowa zadana
macierza, L 00 (x0 , λ0 ) jest nieokreślona na H = Ker G0 (x0 )
Przypomnijmy: H = Ker G0 (x0 ) = {h ∈ Rn : G0 (x0 )h = 0} a dodatnia
(ujemna) określoność L 00 (x0 , λ0 ) na jadrze
H oznacza, że (L 00 (x0 , λ0 )h|h) >
,
(<)0 dla h ∈ H \ {0}.
1.2
O naturze dynamicznej optymalizacji
Intuicja i przyklady dla podstawowych pojeć:
,
• funkcjonal,
• zmienne warunki końcowe (pionowa i pozioma linia końcowa, krzywa
końcowa),
• warunek transwersalności.
Alternatywne podejścia do dynamicznej optymalizacji:
• rachunek wariacyjny,
• teoria optymalnego sterowania,
• programowanie dynamiczne.
Twierdzenie 1.4 (Zasada Leibniza) Rozważmy calke, oznaczona:
, I(x) ≡
Rb
0
a F (t, x)dt, gdzie Fx (t, x) jest ciag
, le na przedziale [a, b] wtedy:
dI
=
dx
3
Z
b
Fx0 (t, x)dt,
a
W szczególności, gdy macierz L 00 (x0 , λ0 ) jest dodatnio (ujemnie) określona.
3
ponadto oznaczajac:
J(b, a) ≡
,
Rb
a
F (t, x)dt mamy reguly czastkowe:
,
∂J
= F (b, x),
∂b
∂J
= −F (a, x).
∂a
2
Przypadek ciag
ly - teoria sterowania optymal,
nego
2.1
Najprostszy problem sterowania optymalnego
max
przy warunkach
oraz
RT
V = 0 F (t, y, u)dt,
ẏ = f (t, y, u),
y(0) = A, y(T ) swodobne (A,T - dane)
u(t) ∈ U dla wszystkich t ∈ [0, T ].
Zakladamy, że funkcje F i f sa, ciag
, le i maja, ciag
, le pochodne pierwszego
rzedu
wzgl
edem
t
i
y.
Przyjmiemy,
iż
U
=
R.
,
,
2.2
Hamiltonian i zasada maksimum
Definicja 2.1 Funkcje, Hamiltona (hamiltonian) dla problemu (2.1) definiujemy jako:
H(t, y, u, λ) ≡ F (t, y, u) + λf (t, y, u),
gdzie λ jest tzw. zmienna, dualna.
,
Twierdzenie 2.1 (Zasada maksimum) Dla problemu (2.1) warunki zasady maksimum sa, nastepuj
ace:
,
,
maxu H(t, y, u, λ)
ẏ = ∂H
∂λ ,
λ̇ = − ∂H
∂y ,
λ(T ) = 0
dla każdego t ∈ [0, T ],
[równanie ruchu dla y]
[równanie ruchu dla λ]
[warunek transwersalności].
Twierdzenie 2.2 (Mangasariana) Dla problemu
max
przy warunkach
RT
V = 0 F (t, y, u)dt,
ẏ = f (t, y, u),
y(0) = y0 (y0 , T dane).
warunki zasady maksimum sa, wystarczajace
do globalnej maksymalizacji V
,
o ile
• obie funkcje F i f sa, różniczkowalne i wkles
, le oraz różniczkowalne
lacznie
wzgledem
zmiennych (y, u) oraz
,
,
4
• jeśli f jest nieliniowe wzgledem
y lub u to dla rozwiazania
optymalnego
,
,
zachodzi: λ(t) ≥ 0 dla każdego t ∈ [0, T ].
Jest to szczególny przypadek twierdzenia Arrowa:
Twierdzenie 2.3 (Arrowa) Niech u∗ = u∗ (t, y, u) maksymalizuje hamiltonian w każdej chwili, przy danych wartościach zmiennej stanu y i zmiennej
dualnej λ. Stwórzmy zmaksymalizowany hamitlonian:
H 0 (t, y, u) = F (t, y, u∗ ) + λf (t, y, u∗ ),
dla problemu z poprzedniego twierdzenia warunki zasady maksimum sa, wystarczajace
, na globalna, maksymalizacje, V , o ile zmaksymalizowany hamiltonian H 0 jest wkles
y dla wszystkich t ∈ [0, T ] dla danego λ.
, ly wzgledem
,
2.3
Problem z wieloma zmiennymi stanu i zmiennymi sterujacymi
,
max
przy warunkach
oraz
RT
V = 0 F (t, y1 , y2 , . . . , u1 , u2 , . . . , um )dt,
ẏj = f j (t, y1 , y2 , . . . , u1 , u2 , . . . , um ),
yj (0) = yj0 , yj (T ) = yjT ,
ui (t) ∈ Ui (i = 1, . . . m, j = 1, . . . n).
Dla takiego problemu otrzymujemy hamiltonian:
H ≡ F (t, y1 , y2 , . . . , u1 , u2 , . . . , um ) +
n
X
λj f j (t, y1 , y2 , . . . , u1 , u2 , . . . , um ),
j=1
zasada maksimum przybiera postać:
Twierdzenie 2.4 (Zasada maksimum) Dla problemu wielowymiarowego
warunki zasady maksimum sa, nastepuj
ace:
,
,
maxu H(t, y, u, λ),
∂H
ẏ = ∂λ
T ,
T
λ̇ = − ∂H
gdzie λ̇T to transpozycja λ̇,
∂y
Ht=T = 0 (lub λj (T ) = 0) jeśli T (lub yjT ) jest swobodne,
gdzie y = [y1 , y2 , . . . , yn ]T , u = [u1 , u2 , . . . , um ]T i λ = [λ1 , λ2 , . . . , λn ]T .
2.4
Alternatywne warunki końcowe
Wróćmy do problemu jednowymiarowego (2.1). Dla alternatywnych warunków końcowych pierwsze trzy warunki zasady maksimum pozostaja, niezmienione, zmianie podlega warunek transwersalności:
• ustalony punkt końcowy: y(T ) = yT ((T, yT ) - dane),
5
• pozioma linia końcowa: [H]t=T = 0,
• krzywa końcowa postaci yT = φ(T ): [H − λφ0 ]t=T = 0,
• obcieta
pionowa linia końcowa (yT ≥ ymin , T i ymin dane): λ(T ) ≥ 0,
,
yT ≥ ymin , (yT − ymin )λ(T ) = 0,
• obcieta
pozioma linia końcowa (T ∗ ≤ Tmax ): [H]t=T ≥ 0, T ≤ Tmax ,
,
(T − Tmax )[H]t=T = 0.
2.5
Dyskontowanie i hamiltonian wartości bieżacej
,
Gdy funkcja podcalkowa F zawiera czynnik dyskontujacy
e−ρt : F (t, y, u) =
,
−ρt
G(t, y, u)e
wtedy hamiltonian można przeksztalcić do postaci hamiltonianu wartości bieżacej:
,
Definicja 2.2 (Hamiltonian wartości bieżacej
definiujemy jako:
,
Hc (t, y, u, λ) ≡ Heρt = G(t, y, u) + mf (t, y, u),
gdzie m = λeρt jest tzw. zmienna, dualna.
,
Twierdzenie 2.5 (Skorygowana zasada maksimum) Dla problemu z czynnikiem dyskontujacym
warunki skorygowanej zasady maksimum sa, nastepu,
,
jace:
,
maxu Hc (t, y, u, λ) dla każdego t ∈ [0, T ]
c
ẏ = ∂H
[równanie ruchu dla y]
∂m
∂Hc
[równanie ruchu dla λ]
ṁ = − ∂y + ρm
m(T )e−ρT = 0
[warunek transwersalności].
2.6
Zagadnienie z nieskończonym horyzontem czasowym
Uwaga na zbieżność calki!! Dalej jak wyżej, zmieniamy tylko warunek transwersalności:
limt→∞ λ(t) = 0,
[dla swobodnego stanu końcowego]
limt→∞ λ(t) ≥ 0 oraz limt→∞ λ(t)[y(t) − ymin ] = 0, [dla ograniczonego stanu końcowego].
Przyklad: model Ramseya
3
3.1
Przypadek dyskretny - programowanie dynamiczne
Definicje
Definicja 3.1 Weźmy odwzorowanie f : X → R. M = maxx∈X {f (x)}
definiujemy (jeżeli istnieje) jako:
∀x ∈ X f (x) ≤ M oraz ∃x0 ∈ X f (x0 ) = M,
a arg maxx∈X {f (x)} ≡ {y ∈ X : f (y) = maxx∈X {f (x)}}.
6
Analogicznie dla min.
Twierdzenie 3.1 Dla a > 0 zachodzi (jeżeli istnieja):
,
maxx∈X {af (x)} = a maxx∈X {f (x)},
arg maxx∈X {af (x)} = arg maxx∈X {f (x)},
dla a < 0 zachodzi:
minx∈X {af (x)} = a maxx∈X {f (x)},
arg minx∈X {af (x)} = arg maxx∈X {f (x)}.
Twierdzenie 3.2 Weźmy f : X → R oraz g : X × Y → R. Przyjmijmy, że
istnieja:
, maxy∈Y {g(x, y)} oraz max(x,y) {f (x) + g(x, y)} wtedy:
max{f (x) + g(x, y)} = max{f (x) + max{g(x, y)}}.
x
(x,y)
3.2
y
Przyklad i schemat
Schemat:
• maksymalizacja ”prawej strony” równania Belmanna po zmiennej sterujacej,
,
• stosujemy twierdzenie o obwiedni dla równania Belmanna i zmiennej
stanu,
• zapisujemy równanie Eulera,
• dodajemy warunek transwersalności,
• rozwiazujemy.
,
3.3
Równanie Belmanna bez i z dyskontowaniem
Funkcja celu bez dyskontowania:
PT
t=0 Ft (yt , ut )
+ FT +1 (yT +1 ).
Definicja 3.2 Funkcja, wartości Vτ (yτ ) nazywamy odwzorowanie przyporzadkowuj
ace
ecia
wyplate:
,
, każdemu stanowi maksymalna, możliwa, do osiagni
,
,
,
( T
)
X
max
Ft (yt , ut ) + FT +1 (yT +1 ) .
t=τ
Zinterpretuj: V0 (y0 ) i VT +1 (yT +1 ).
Twierdzenie 3.3 Równanie Belmanna dla problemu bez dyskontowania:
Vt (yt ) = max {Ft (yt , ut ) + Vt+1 (yt+1 (yt , ut ))} ,
ut ∈U (yt )
gdzie U (yt ) oznacza zbiór możliwych sterowań w stanie yt a yt+1 (yt , ut ) stan
osiagany
po wybraniu ut w yt .
,
7
Twierdzenie 3.4 Optymalna polityka opisana jest równaniem:
u∗t (yt ) = arg max {Ft (yt , ut ) + Vt+1 (yt+1 (yt , ut ))} .
ut ∈U (yt )
Funkcja celu z dyskontowaniem:
PT
t=0 β
tF
t (yt , ut )
+ β T +1 FT +1 (yT +1 ).
Definicja 3.3 Funkcja, wartości Vτ (yτ ) dla problemu z dyskontowaniem nazywamy odwzorowanie przyporzadkowuj
ace
każdemu stanowi maksymalna,
,
,
możliwa, do osiagni
ecia
wyp
lat
e:
,
,
,
( T
)
X
t−τ
T +1−τ
max
β Ft (y, u) + β
FT +1 (yT +1 ) .
t=τ
Twierdzenie 3.5 Równanie Belmanna dla problemu z dyskontowaniem:
Vt (yt ) = max {Ft (y, u) + βVt+1 (yt+1 (yt , ut ))} ,
ut ∈U (yt )
a równanie polityki:
u∗t (yt ) = arg max {Ft (y, u) + βVt+1 (yt+1 (yt , ut ))} .
ut ∈U (yt )
Dodajemy warunek transwersalności: VT +1 (y) = 0 czyli: VT (yT ) = F (uT ).
3.4
Twierdzenie o obwiedni
Twierdzenie 3.6 Weźmy funkcje, f (x, α) różniczkowalna, po x i α oraz, że
dla każdego α istnieje maxx {f (x, α)} wtedy zachodzi:
d
F (α) = f2 (x̄(α), α),
dα
gdzie F (α) ≡ maxx {f (x, α)} a x̄(α) ≡ arg maxx {f (x, α)} sa, różniczkowalne.
3.5
Zagadnienie z nieskończonym horyzontem czasowym
P
t
Funkcja celu: +∞
t=0 β F (yt , ut ). Pomijamy indeks czasu przy funkcji wartości. Mamy jedna, funkcje, wartości i polityki:
V (yt ) = max {F (yt , ut ) + βV (yt+1 (yt , ut ))} ,
ut ∈U (yt )
u∗ (yt ) = arg max {F (y, u) + βV (yt+1 (yt , ut ))} .
ut ∈U (yt )
Zmieniamy też warunek transwersalności: limt→+∞ β t V 0 (yt )yt = 0.
8
Literatura
[1] Chiang A.C., Elementy dynamicznej optymalizacji, Warszawa 2002.
[2] Dubnicki W., J. Klopotowski, T. Szapiro, Analiza matematyczna. Podrecznik
dla ekonomistów , Warszawa 1999.
,
[3] Judd, K.L., Numerical methods in economics, Cambridge 1998.
[4] Ljungqvist L., T.J. Sargent, Recursive macroeconomic theory, Cambridge 2000.
[5] Sargent T., Dynamic macroeconomic theory, London 1994.
[6] Stokey, N., R.E. Lucas i E.C. Prescott, Recursive methods in economic
dynamics, Cambridge 1989.
[7] Walsh C., Monetary theory and policy, London 2003.
9

Podobne dokumenty