Dynamiczna optymalizaja - E-SGH
Transkrypt
Dynamiczna optymalizaja - E-SGH
Handout z dynamicznej optymalizacji Lukasz Woźny∗ 8 lutego 2006 Spis treści 1 Optymalizacja statyczna a dynamiczna 1.1 Ekstrema lokalne funkcji wielu zmiennych - statyka . . . . . . 1.2 O naturze dynamicznej optymalizacji . . . . . . . . . . . . . . 2 2 3 2 Przypadek ciag ly - teoria sterowania optymalnego , 2.1 Najprostszy problem sterowania optymalnego . . . . . . . . . 2.2 Hamiltonian i zasada maksimum . . . . . . . . . . . . . . . . 2.3 Problem z wieloma zmiennymi stanu i zmiennymi sterujacymi , 2.4 Alternatywne warunki końcowe . . . . . . . . . . . . . . . . . 2.5 Dyskontowanie i hamiltonian wartości bieżacej . . . . . . . . , 2.6 Zagadnienie z nieskończonym horyzontem czasowym . . . . . 4 4 4 5 5 6 6 3 Przypadek dyskretny - programowanie dynamiczne 3.1 Definicje . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Przyklad i schemat . . . . . . . . . . . . . . . . . . . . 3.3 Równanie Belmanna bez i z dyskontowaniem . . . . . 3.4 Twierdzenie o obwiedni . . . . . . . . . . . . . . . . . 3.5 Zagadnienie z nieskończonym horyzontem czasowym . 6 6 7 7 8 8 Literatura ∗ . . . . . . . . . . . . . . . . . . . . 8 [email protected]. 1 1 Optymalizacja statyczna a dynamiczna 1.1 Ekstrema lokalne funkcji wielu zmiennych - statyka Rozpatrzmy funkcje, f : X → R, gdzie X ⊂ Rn jest zbiorem otwartym: Definicja 1.1 Mówimy, że funkcja f ma w punkcie x0 ∈ X minimum (maksimum) lokalne wtt, gdy ∃r > 0 ∀x ∈ K(x0 , r) f (x0 ) ≤ f (x) (f (x0 ) ≥ f (x))1 . Twierdzenie 1.1 Jeżeli funkcja f ma w otoczeniu punktu x0 ∈ X ciag , le 0 (x ) = 0, to: pochodne czastkowe drugiego rz edu i f 0 , , • f ma minimum (maksimum) lokalne w x0 , gdy macierz f 00 (x0 ) jest dodatnio (ujemnie) określona, • f nie ma ekstremum lokalnego w x0 , gdy macierz f 00 (x0 ) jest nieokreślona. Definicja 1.2 Niech f, g1 , g2 , . . . , gm : X → R, gdzie X ⊂ Rn jest zbiorem otwartym a n > m. Niech ponadto: G = [g1 , g2 , . . . , gm ]T , M = {x ∈ X : G(x) = 0}. Mówimy, że funkcja f ma w punkcie x0 ∈ M minimum (maksimum) lokalne warunkowe na zbiorze M wtt, gdy: ∃r > 0 ∀x ∈ M ∩ K(x0 , r) f (x0 ) ≤ f (x) (f (x0 ) ≥ f (x))2 . Definicja 1.3 Punkt x0 ∈ M nazywamy punktem regularnym ograniczeń 0 wtt rz G0 (x0 ) = m a wiec , wiersze macierzy G (x0 ) sa, liniowo niezależne. Definicja 1.4 Funkcja, Lagrange’a dla problemu ekstremum warunkowego zadanego przez f i G nazywamy funkcje, L : X → R o wartościach L (x, λ) = f (x) + λT G(x), gdzie x ∈ X ⊂ Rn jest wektorem zmiennych, a λ ∈ Rm jest wektorem parametrów (mnożników Lagrange’a). Twierdzenie 1.2 W problemie zadanym przez różniczkowalne f, g1 , g2 , . . . , gm funkcja f może mieć ekstremum lokalne na M tylko w takim x0 , że: 1 Jeżeli nierówność jest spelniona dla wszystkich argumentów x ∈ X, to x0 nazywamy minimum (maksimum) globalnym f na X 2 Jeżeli nierówność jest spelniona dla każdego x ∈ M , to x0 nazywamy minimum (maksimum) globalnym f na M 2 • x0 jest punktem nieregularnym w M , • x0 wraz z wektorem λ0 spelnia uklad: L 0 (x, λ) = 0, G(x) = 0. Twierdzenie 1.3 Jeśli w problemie na ekstremum warunkowe zadanym przez f i G funkcje f, g1 , g2 , . . . , gm maja, ciag drugiego rzedu, , le pochodne czastkowe , , 0 x0 jest punktem regularnym w M i L (x0 , λ0 ) = 0 to: • f ma minimum (maksimum) lokalne na M , jeśli forma kwadratowa zadana macierza, L 00 (x0 , λ0 ) jest dodatnio (ujemnie) określona na H = Ker G0 (x0 ),3 • f nie ma ekstremum lokalnego na M , jeśli forma kwadratowa zadana macierza, L 00 (x0 , λ0 ) jest nieokreślona na H = Ker G0 (x0 ) Przypomnijmy: H = Ker G0 (x0 ) = {h ∈ Rn : G0 (x0 )h = 0} a dodatnia (ujemna) określoność L 00 (x0 , λ0 ) na jadrze H oznacza, że (L 00 (x0 , λ0 )h|h) > , (<)0 dla h ∈ H \ {0}. 1.2 O naturze dynamicznej optymalizacji Intuicja i przyklady dla podstawowych pojeć: , • funkcjonal, • zmienne warunki końcowe (pionowa i pozioma linia końcowa, krzywa końcowa), • warunek transwersalności. Alternatywne podejścia do dynamicznej optymalizacji: • rachunek wariacyjny, • teoria optymalnego sterowania, • programowanie dynamiczne. Twierdzenie 1.4 (Zasada Leibniza) Rozważmy calke, oznaczona: , I(x) ≡ Rb 0 a F (t, x)dt, gdzie Fx (t, x) jest ciag , le na przedziale [a, b] wtedy: dI = dx 3 Z b Fx0 (t, x)dt, a W szczególności, gdy macierz L 00 (x0 , λ0 ) jest dodatnio (ujemnie) określona. 3 ponadto oznaczajac: J(b, a) ≡ , Rb a F (t, x)dt mamy reguly czastkowe: , ∂J = F (b, x), ∂b ∂J = −F (a, x). ∂a 2 Przypadek ciag ly - teoria sterowania optymal, nego 2.1 Najprostszy problem sterowania optymalnego max przy warunkach oraz RT V = 0 F (t, y, u)dt, ẏ = f (t, y, u), y(0) = A, y(T ) swodobne (A,T - dane) u(t) ∈ U dla wszystkich t ∈ [0, T ]. Zakladamy, że funkcje F i f sa, ciag , le i maja, ciag , le pochodne pierwszego rzedu wzgl edem t i y. Przyjmiemy, iż U = R. , , 2.2 Hamiltonian i zasada maksimum Definicja 2.1 Funkcje, Hamiltona (hamiltonian) dla problemu (2.1) definiujemy jako: H(t, y, u, λ) ≡ F (t, y, u) + λf (t, y, u), gdzie λ jest tzw. zmienna, dualna. , Twierdzenie 2.1 (Zasada maksimum) Dla problemu (2.1) warunki zasady maksimum sa, nastepuj ace: , , maxu H(t, y, u, λ) ẏ = ∂H ∂λ , λ̇ = − ∂H ∂y , λ(T ) = 0 dla każdego t ∈ [0, T ], [równanie ruchu dla y] [równanie ruchu dla λ] [warunek transwersalności]. Twierdzenie 2.2 (Mangasariana) Dla problemu max przy warunkach RT V = 0 F (t, y, u)dt, ẏ = f (t, y, u), y(0) = y0 (y0 , T dane). warunki zasady maksimum sa, wystarczajace do globalnej maksymalizacji V , o ile • obie funkcje F i f sa, różniczkowalne i wkles , le oraz różniczkowalne lacznie wzgledem zmiennych (y, u) oraz , , 4 • jeśli f jest nieliniowe wzgledem y lub u to dla rozwiazania optymalnego , , zachodzi: λ(t) ≥ 0 dla każdego t ∈ [0, T ]. Jest to szczególny przypadek twierdzenia Arrowa: Twierdzenie 2.3 (Arrowa) Niech u∗ = u∗ (t, y, u) maksymalizuje hamiltonian w każdej chwili, przy danych wartościach zmiennej stanu y i zmiennej dualnej λ. Stwórzmy zmaksymalizowany hamitlonian: H 0 (t, y, u) = F (t, y, u∗ ) + λf (t, y, u∗ ), dla problemu z poprzedniego twierdzenia warunki zasady maksimum sa, wystarczajace , na globalna, maksymalizacje, V , o ile zmaksymalizowany hamiltonian H 0 jest wkles y dla wszystkich t ∈ [0, T ] dla danego λ. , ly wzgledem , 2.3 Problem z wieloma zmiennymi stanu i zmiennymi sterujacymi , max przy warunkach oraz RT V = 0 F (t, y1 , y2 , . . . , u1 , u2 , . . . , um )dt, ẏj = f j (t, y1 , y2 , . . . , u1 , u2 , . . . , um ), yj (0) = yj0 , yj (T ) = yjT , ui (t) ∈ Ui (i = 1, . . . m, j = 1, . . . n). Dla takiego problemu otrzymujemy hamiltonian: H ≡ F (t, y1 , y2 , . . . , u1 , u2 , . . . , um ) + n X λj f j (t, y1 , y2 , . . . , u1 , u2 , . . . , um ), j=1 zasada maksimum przybiera postać: Twierdzenie 2.4 (Zasada maksimum) Dla problemu wielowymiarowego warunki zasady maksimum sa, nastepuj ace: , , maxu H(t, y, u, λ), ∂H ẏ = ∂λ T , T λ̇ = − ∂H gdzie λ̇T to transpozycja λ̇, ∂y Ht=T = 0 (lub λj (T ) = 0) jeśli T (lub yjT ) jest swobodne, gdzie y = [y1 , y2 , . . . , yn ]T , u = [u1 , u2 , . . . , um ]T i λ = [λ1 , λ2 , . . . , λn ]T . 2.4 Alternatywne warunki końcowe Wróćmy do problemu jednowymiarowego (2.1). Dla alternatywnych warunków końcowych pierwsze trzy warunki zasady maksimum pozostaja, niezmienione, zmianie podlega warunek transwersalności: • ustalony punkt końcowy: y(T ) = yT ((T, yT ) - dane), 5 • pozioma linia końcowa: [H]t=T = 0, • krzywa końcowa postaci yT = φ(T ): [H − λφ0 ]t=T = 0, • obcieta pionowa linia końcowa (yT ≥ ymin , T i ymin dane): λ(T ) ≥ 0, , yT ≥ ymin , (yT − ymin )λ(T ) = 0, • obcieta pozioma linia końcowa (T ∗ ≤ Tmax ): [H]t=T ≥ 0, T ≤ Tmax , , (T − Tmax )[H]t=T = 0. 2.5 Dyskontowanie i hamiltonian wartości bieżacej , Gdy funkcja podcalkowa F zawiera czynnik dyskontujacy e−ρt : F (t, y, u) = , −ρt G(t, y, u)e wtedy hamiltonian można przeksztalcić do postaci hamiltonianu wartości bieżacej: , Definicja 2.2 (Hamiltonian wartości bieżacej definiujemy jako: , Hc (t, y, u, λ) ≡ Heρt = G(t, y, u) + mf (t, y, u), gdzie m = λeρt jest tzw. zmienna, dualna. , Twierdzenie 2.5 (Skorygowana zasada maksimum) Dla problemu z czynnikiem dyskontujacym warunki skorygowanej zasady maksimum sa, nastepu, , jace: , maxu Hc (t, y, u, λ) dla każdego t ∈ [0, T ] c ẏ = ∂H [równanie ruchu dla y] ∂m ∂Hc [równanie ruchu dla λ] ṁ = − ∂y + ρm m(T )e−ρT = 0 [warunek transwersalności]. 2.6 Zagadnienie z nieskończonym horyzontem czasowym Uwaga na zbieżność calki!! Dalej jak wyżej, zmieniamy tylko warunek transwersalności: limt→∞ λ(t) = 0, [dla swobodnego stanu końcowego] limt→∞ λ(t) ≥ 0 oraz limt→∞ λ(t)[y(t) − ymin ] = 0, [dla ograniczonego stanu końcowego]. Przyklad: model Ramseya 3 3.1 Przypadek dyskretny - programowanie dynamiczne Definicje Definicja 3.1 Weźmy odwzorowanie f : X → R. M = maxx∈X {f (x)} definiujemy (jeżeli istnieje) jako: ∀x ∈ X f (x) ≤ M oraz ∃x0 ∈ X f (x0 ) = M, a arg maxx∈X {f (x)} ≡ {y ∈ X : f (y) = maxx∈X {f (x)}}. 6 Analogicznie dla min. Twierdzenie 3.1 Dla a > 0 zachodzi (jeżeli istnieja): , maxx∈X {af (x)} = a maxx∈X {f (x)}, arg maxx∈X {af (x)} = arg maxx∈X {f (x)}, dla a < 0 zachodzi: minx∈X {af (x)} = a maxx∈X {f (x)}, arg minx∈X {af (x)} = arg maxx∈X {f (x)}. Twierdzenie 3.2 Weźmy f : X → R oraz g : X × Y → R. Przyjmijmy, że istnieja: , maxy∈Y {g(x, y)} oraz max(x,y) {f (x) + g(x, y)} wtedy: max{f (x) + g(x, y)} = max{f (x) + max{g(x, y)}}. x (x,y) 3.2 y Przyklad i schemat Schemat: • maksymalizacja ”prawej strony” równania Belmanna po zmiennej sterujacej, , • stosujemy twierdzenie o obwiedni dla równania Belmanna i zmiennej stanu, • zapisujemy równanie Eulera, • dodajemy warunek transwersalności, • rozwiazujemy. , 3.3 Równanie Belmanna bez i z dyskontowaniem Funkcja celu bez dyskontowania: PT t=0 Ft (yt , ut ) + FT +1 (yT +1 ). Definicja 3.2 Funkcja, wartości Vτ (yτ ) nazywamy odwzorowanie przyporzadkowuj ace ecia wyplate: , , każdemu stanowi maksymalna, możliwa, do osiagni , , , ( T ) X max Ft (yt , ut ) + FT +1 (yT +1 ) . t=τ Zinterpretuj: V0 (y0 ) i VT +1 (yT +1 ). Twierdzenie 3.3 Równanie Belmanna dla problemu bez dyskontowania: Vt (yt ) = max {Ft (yt , ut ) + Vt+1 (yt+1 (yt , ut ))} , ut ∈U (yt ) gdzie U (yt ) oznacza zbiór możliwych sterowań w stanie yt a yt+1 (yt , ut ) stan osiagany po wybraniu ut w yt . , 7 Twierdzenie 3.4 Optymalna polityka opisana jest równaniem: u∗t (yt ) = arg max {Ft (yt , ut ) + Vt+1 (yt+1 (yt , ut ))} . ut ∈U (yt ) Funkcja celu z dyskontowaniem: PT t=0 β tF t (yt , ut ) + β T +1 FT +1 (yT +1 ). Definicja 3.3 Funkcja, wartości Vτ (yτ ) dla problemu z dyskontowaniem nazywamy odwzorowanie przyporzadkowuj ace każdemu stanowi maksymalna, , , możliwa, do osiagni ecia wyp lat e: , , , ( T ) X t−τ T +1−τ max β Ft (y, u) + β FT +1 (yT +1 ) . t=τ Twierdzenie 3.5 Równanie Belmanna dla problemu z dyskontowaniem: Vt (yt ) = max {Ft (y, u) + βVt+1 (yt+1 (yt , ut ))} , ut ∈U (yt ) a równanie polityki: u∗t (yt ) = arg max {Ft (y, u) + βVt+1 (yt+1 (yt , ut ))} . ut ∈U (yt ) Dodajemy warunek transwersalności: VT +1 (y) = 0 czyli: VT (yT ) = F (uT ). 3.4 Twierdzenie o obwiedni Twierdzenie 3.6 Weźmy funkcje, f (x, α) różniczkowalna, po x i α oraz, że dla każdego α istnieje maxx {f (x, α)} wtedy zachodzi: d F (α) = f2 (x̄(α), α), dα gdzie F (α) ≡ maxx {f (x, α)} a x̄(α) ≡ arg maxx {f (x, α)} sa, różniczkowalne. 3.5 Zagadnienie z nieskończonym horyzontem czasowym P t Funkcja celu: +∞ t=0 β F (yt , ut ). Pomijamy indeks czasu przy funkcji wartości. Mamy jedna, funkcje, wartości i polityki: V (yt ) = max {F (yt , ut ) + βV (yt+1 (yt , ut ))} , ut ∈U (yt ) u∗ (yt ) = arg max {F (y, u) + βV (yt+1 (yt , ut ))} . ut ∈U (yt ) Zmieniamy też warunek transwersalności: limt→+∞ β t V 0 (yt )yt = 0. 8 Literatura [1] Chiang A.C., Elementy dynamicznej optymalizacji, Warszawa 2002. [2] Dubnicki W., J. Klopotowski, T. Szapiro, Analiza matematyczna. Podrecznik dla ekonomistów , Warszawa 1999. , [3] Judd, K.L., Numerical methods in economics, Cambridge 1998. [4] Ljungqvist L., T.J. Sargent, Recursive macroeconomic theory, Cambridge 2000. [5] Sargent T., Dynamic macroeconomic theory, London 1994. [6] Stokey, N., R.E. Lucas i E.C. Prescott, Recursive methods in economic dynamics, Cambridge 1989. [7] Walsh C., Monetary theory and policy, London 2003. 9