1 Pochodne wyższych rzędów

Transkrypt

1 Pochodne wyższych rzędów
1
Pochodne wyższych rzędów
Definicja 1.1 (Pochodne cząstkowe drugiego rzędu) Niech f będzie odwzorowaniem o
wartościach w Rm , określonym na zbiorze G ⊂ Rk . Załóżmy, że zbiór tych x ∈ G, dla których
istnieje pochodna cząstkowa Di f (x) jest niepusty. Wówczas, jeśli istnieje pochodna cząstkowa
Dj (Di f )(x0 ), to nazywamy ją drugą pochodną cząstkową (pochodną cząstkową drugiego rzędu)
odwzorowania f w punkcie x0 względem i-tej i j-tej zmiennej i oznaczamy ją przez Dj Di f (x0 ),
(i, j = 1, . . . , k).
Inne stosowane oznaczenia:
∂2f
(x0 ),
∂xj ∂xi
lub
fx00i xj (x0 ).
Cząstkowe pochodne drugiego rzędu dla i 6= j nazywa się pochodnymi mieszanymi. Pochodną
2
Di Di f (x0 ) oznaczamy również Di2 f (x0 ), lub ∂∂xf2 (x0 ).
i
Przykład: Oblicz pochodne cząstkowe drugiego rzędu funkcji f (x, y) = xp y q , dla (x, y) ∈ R2 ,
(p, q ∈ N).
Definicja 1.2 (Pochodna drugiego rzędu) Odwzorowanie f o wartościach w Rm określone w otoczeniu G punktu x0 ∈ Rk nazywamy dwukrotnie różniczkowalnym w tym punkcie,
jeśli:
1) jest ono różniczkowalne w każdym punkcie pewnego otoczenia punktu x0 ;
2) przy każdym ustalonym h ∈ Rk odwzorowanie
x 7→ Df (x)h
(określone w pewnym otoczeniu punktu x0 , o wartościach w Rm ) jest różniczkowalne w
punkcie x0 . Wówczas dwuliniowe (tzn. liniowe ze względu na każdą z dwóch współrzędnych przy drugiej ustalonej) odwzorowanie:
(h0 , h) 7→ D(Df (x)h)h0
określone na produkcie Rk × Rk ( o wartościach w Rm ) nazywamy pochodną drugiego
rzędu odwzorowania f w punkcie x0 i oznaczamy D2 f (x0 ):
D2 f (x0 )h0 h.
Twierdzenie 1.1 Warunkiem dostatecznym dwukrotnej różniczkowalności odwzorowania f
w punkcie x0 jest istnienie w pewnym otoczeniu punktu x0 ciągłych pochodnych cząstkowych
pierwszego rzędu oraz istnienie w pewnym otoczeniu tego punktu drugich pochodnych cząstkowych i ich ciągłość w punkcie x0 .
1
Twierdzenie 1.2 Jeśli odwzorowanie f jest dwukrotnie różniczkowalne w punkcie x0 , to
istnieją drugie pochodne cząstkowe Dj Di f (x0 ) (i, j = 1, . . . , k) oraz zachodzi wzór
D2 f (x0 )h0 h =
k
X
h0j hi Dj Di f (x0 )
i,j=1
dla dowolnych h0 = (h01 , . . . , h0k ), h = (h1 , . . . , hk )
Dotąd zrobiłem na ostatnim wykładzie
Twierdzenie 1.3 (Schwarza o symetrii drugiej pochodnej) Jeśli odwzorowanie f (przy
oznaczeniach jak poprzednio) jest dwukrotnie różniczkowalne w punkcie x0 to pochodna jest
odwzorowaniem dwuliniowym symetrycznym, tzn zachodzi:
D2 f hh0 (x0 ) = D2 f k 0 h(x0 ),
w szczególności: Di Dj f (x0 ) = Dj Di f (x0 )
przy dowolnych h, h0 ∈ Rk .
Twierdzenie 1.4 (Wzór Taylora drugiego rzędu) Jeśli odwzorowanie f : G → Rm jest
dwukrotnie różniczkowalne w punkcie x0 ∈ Rk , to zachodzi wzór:
1
f (x0 + h) = f (x0 ) + Df (x0 )h + D2 f (x0 )hh + α(h)
2
gdzie α(h) = o(h2 ), tzn limh→0
kα(h)k
khk2
= 0.
Uwaga:
Pochodne cząstkowe wyższych rzędów definiujemy indukcyjnie jako pochodne cząstkowe pochodnych cząstkowych rzędu o jeden mniejszego. Odwzorowanie nazywamy n krotnie różniczkowalnym jeśli jego pochodna rzędu n − 1 jest różniczkowalna przy ustalonych wektorach na
których obliczamy wartość tej pochodnej. Zachodzą analogiczne twierdzenia dotyczące zależności między różniczkowalnością a istnieniem i ciągłością pochodnych cząstkowych. Zachodzi
twierdzenie Schwarza o symetrii.
Twierdzenie 1.5 (Wzór Taylora) Jeśli odwzorowanie f jest n krotnie różniczkowalne (przy
danym n ∈ N) w punkcie x0 , to zachodzi wzór:
f (x0 + h) = f (x0 ) +
gdzie α(h) = o(hn ), tzn limh→0
kα(h)k
khkn
1
1
Df (x0 )h + . . . + Dn f (x0 )hn + α(h)
1!
n!
= 0.
Macierz drugiej pochodnej
Załóżmy, że funkcja rzeczywista f określona w otoczeniu G punktu x0 ∈ Rk jest dwukrotnie
różniczkowalna w tym punkcie oraz oznaczamy aij = Di Dj f (x0 ), (i, j = 1, . . . , k). Niech
A : Rk → Rk oznacza odwzorowanie liniowe o macierzy (aij ). Odwzorowanie to jest symetryczne i nazywamy je odwzorowaniem liniowym drugiej pochodnej funkcji f w punkcie x0
a macierz A macierzą tej pochodnej. Mamy:
D2 f (x0 )hh0 = hT Ah0 ,
2
(h, h0 ∈ Rk ).
Twierdzenie 1.6 (Warunek konieczny ekstremum lokalnego) Niech G ⊂ Rk będzie
otoczeniem punktu p. Wówczas jeśli funkcja f : G → R przyjmuje w tym punkcie ekstremum lokalne oraz istnieje pochodna kierunkowa ∂f
(p), to jest ona równa zeru; dotyczy to w
∂h
szczególności pochodnej cząstkowej Di f (p).
Dowód Przeprowadzimy dowód nie wprost. Załóżmy, że f ma w punkcie p ekstremum lokalne. Załóżmy ponadto, że istnieje w p niezerowa pochodna kierunkowa.Bez straty ogólności
załóżmy, że
∂f
(p) > 0.
(1)
∂h
Z definicji pochodnej kierunkowej oznacza to iż
lim
t→0
f (p + th) − f (p)
> 0.
t
Skoro tak, to dla t dostatecznie bliskich 0 (zarówno ujemnych jak i dodatnich) mamy
f (p + th) − f (p)
> 0.
t
Stąd wynika, że dla t jak wyżej mamy
f (p + th) − f (p) > 0 dla t > 0 oraz f (p + th) − f (p) < 0 dla t < 0
a to przeczy istnieniu ekstremum lokalnego w punkcie p.
Definicja 1.3 Formą kwadratową B na Rk nazywamy wielomian
B(x) =
k X
k
X
aij xi xj ,
gdzie
aij = aji .
i=1 j=1
Zauważmy, że symetryczna macierz drugiej pochodnej A zadaje formę kwadratową:
h → hT Ah.
Definicja 1.4 Forma kwadratowa B na Rk jest dodatnio (ujemnie) określona, jeśli
B(h) > 0 (B(h) < 0) dla każdego h 6= 0, h ∈ Rk . Forma jest nieokreślona jeśli przyjmuje
zarówno ujemne jak i dodatnie wartości.
Uwaga: nie zapominamy o ważnym narzędziu służącym do badania określoności formy
kwadratowej jakim jest Twierdzenie Sylwestera omówione dokładnie na I roku!
Uwaga: wiedząc, że macierz drugiej pochodnej zadaje formę kwadratową możemy mówić o
określoności macierzy drugiej pochodnej.
Twierdzenie 1.7 (Warunek wystarczający ekstremum lokalnego) Niech f będzie
funkcją rzeczywistą określoną w otoczeniu G punktu p ∈ Rk , dwukrotnie różniczkowalną w
tym punkcie, przy czym Df (x0 ) = 0. Wówczas jeśli forma kwadratowa zadana macierzą
drugiej pochodnej jest w p dodatnio (ujemnie) określona, to funkcja f przyjmuje w punkcie
p minimum (maksimum) lokalne. Jeśli forma ta jest nieokreślona to f nie ma ekstremum w
tym punkcie.
3
Dowód Załóżmy, że f spełnia założenia twierdzenia. Niech B(h) = D2 f hh oznacza formę
kwadratową wyznaczoną przez drugą pochodną w punkcie p. Załóżmy, że B jest dodatnio
określona, tzn B(h) > 0 dla h 6= 0. Wynika stąd, że dla h 6= 0 mamy
B(
h
)>0
||h||
h
Ponieważ dla h 6= 0 wektory ||h||
należą do sfery jednostkowej, która jest zwarta, B jest
ciągła, istnieje więc M > 0 takie, że
B(
h
) > M.
||h||
Stąd dla wszystkich h ∈ Rk mamy B(h) ­ M ||h||2 . Rozwińmy funkcję f w szereg Taylora
rzędu 2 w otoczeniu punktu p, uwzględniając zerowanie się pierwszej pochodnej
1
f (p + h) = f (p) + B(h) + α(h)
2
gdzie α(h) = o(h2 ). Stąd dla dowolnego h ∈ Rk mamy
1
1
α(h)
M
α(h)
f (p + h) − f (p) = B(h) + α(h) ­ M ||h||2 + ||h||2 +
= ||h||2 ( +
)>0
2
2
2
||h||
2
||h||2
dla ||h|| dostatecznie małego (wynika to z własności α(h)).
Zadanie Zbadaj ekstrema lokalne f (x, y) = 4xy +
√
3
√
3
1
x
+ y1 . (Odp: minimum lokalne równe
3
√
3
2
w punkcie ( 22 , 22 ).)
Ekstrema związane Zajmiemy się teraz zagadnieniem istnienia ekstremów warunkowych
(związanych). Przyjmijmy następujące oznaczenia: U ⊂ Rn - zbiór otwarty, f : U → R funkcja, której ekstremum warunkowe chcemy zbadać.Zakładamy, że f jest klasy C 1 w
otoczeniu pewnego punktu p. Warunek przy którym będziemy badać ekstremum związane
określamy jako zbiór M składający się z zer pewnego przekształcenia G : U → Rl , tzn
M = G−1 (0). Zauważmy że w ten sposób mamy l warunków ograniczających - zakładamy,
że l < n. Zakładamy, że p ∈ M - stąd dostaniemy l równań pozwalających odnaleźć punkty
w których może istnieć ekstremum warunkowe. Ponadto konieczne jest założenie że
rzDG(p) = l - tzn rząd pochodnej G w p jest maksymalny i równy l. Wówczas prawdziwe
jest następujące
Twierdzenie 1.8 (Lusternika) Przy powyższych oznaczeniach i założeniach, jeśli funkcja
f ma w punkcie p ekstremum lokalne związane, to istnieje wektor
Λ = [λ1 , . . . , λl ]T
taki, że
L(x, Λ) := f (x) − hΛ, G(x)i
spełnia
Di L(p, Λ) = 0
dla i = 1, 2 . . . , n.
4
Podamy od razu
warunek dostateczny istnienia ekstremum związanego. Przyjmiemy
2
oznaczenie D L(p, Λ) - oznacza to drugą pochodną odwzorowania L obliczoną jedynie w
X
kierunku przestrzeni X - tzn w macierz drugich pochodnych uwzględniamy jedynie
pochodne po zmiennych x (a nie po λi ). KerDG(p) oznacza jądro pochodnej odwzorowania
G w punkcie p (czyli zbiór tych wektorów h ∈ Rn na których DG(p) się zeruje.
Twierdzenie 1.9 (Warunek dostateczny istnienia ekstremum związanego)
Zachowujemy powyższe oznaczenia. Niech ponadto spełnione będą założenia Twierdzenia
Lusternika
oraz zarówno f jak i G są klasy C 2 w otoczeniu punktu p. Wówczas jeśli
D2 L(p, Λ) jest dodatnio (ujemnie) określona na KerDG(p) to f ma minimum
X
(maksimum) związane w punkcie p.
Dowody ze względu na ich złożoność pomijamy.
Zadanie Znajdź ekstrema lokalne funkcji f (x, y, x) = xyz na zbiorze
M = {(x, y, z) ∈ R3 : x + y + z = x2 + y 2 + z 2 = 1}.
5