Rachunek Różniczkowy i Całkowy 3
Transkrypt
Rachunek Różniczkowy i Całkowy 3
Wojciech Kryszewski Rachunek Różniczkowy i Całkowy 3 Wykład kursowy Wydział FTIMS Politechnika Łódzka Łódź 2013 ISBN xxxx c Copyright by Wojciech Kryszewski – 2013 Skład komputerowy LATEX w wykonaniu autora Spis treści Wstęp 1 Bibliografia 2 1 Przestrzeń Euklidesowa 1.1 Podstawowe definicje . . . . . . . . . . . . . . . . 1.2 Elementy algebry liniowej . . . . . . . . . . . . . 1.2.A Macierze i wektory . . . . . . . . . . . . . 1.2.B Przekształcenia liniowe . . . . . . . . . . 1.2.C Wyznaczniki . . . . . . . . . . . . . . . . . 1.2.D Układy równań liniowych . . . . . . . . . 1.2.E Przekształcenia wieloliniowe . . . . . . . 1.2.F Formy kwadratowe i ich określoność . 1.3 Elementy topologii przestrzeni euklidesowych 1.3.A Zbieżność ciągów . . . . . . . . . . . . . . 1.3.B Zbiory otwarte, domknięte i inne . . . . 1.4 Funkcje i odwzorowania wielu zmiennych . . . 1.4.A Granica funkcji w punkcie . . . . . . . . 1.4.B Ciągłość funkcji . . . . . . . . . . . . . . . 1.4.C Ciągłość odwzorowań liniowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 7 7 10 15 17 18 21 23 23 25 28 28 32 35 2 Rachunek różniczkowy 2.1 Pochodne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.A Pochodne funkcji wektorowych jednej zmiennej . . . . . . . . 2.1.B Pochodne kierunkowe i cząstkowe funkcji wielu zmiennych 2.1.C Różniczkowalność i pochodna funkcji wielu zmiennych . . . 2.1.D Pochodne odwzorowań . . . . . . . . . . . . . . . . . . . . . . . . 2.1.E Komentarz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.F Reguła łańcucha . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.G Twierdzenia o wartości średniej . . . . . . . . . . . . . . . . . . . 2.1.H Różniczkowalność i funkcje klasy C 1 . . . . . . . . . . . . . . . 2.2 Pochodne wyższych rzędów . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.A Pochodne drugiego rzędu . . . . . . . . . . . . . . . . . . . . . . 2.2.B Pochodne wyższych rzędów funkcji . . . . . . . . . . . . . . . . 2.2.C Pochodne wyższych rzędów odwzorowań . . . . . . . . . . . . . 2.2.D Funkcje i odwzorowania klasy C n . . . . . . . . . . . . . . . . . 2.2.E Wzór Taylora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.F Ekstrema funkcji wielu zmiennych . . . . . . . . . . . . . . . . . 2.3 Teoria odwzorowań . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.A Twierdzenie o funkcji uwikłanej . . . . . . . . . . . . . . . . . . 2.3.B Twierdzenie o lokalnym odwracaniu odwzorowań . . . . . . . 2.3.C Odwzorowania regularne, dyfeomorfizmy . . . . . . . . . . . . 2.3.D Różniczkowanie funkcji na zbiorach nieotwartych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 39 40 43 48 50 51 52 53 54 54 60 64 65 66 68 70 70 73 74 76 3 Całka Riemanna funkcji wielu zmiennych 3.1 Całka na prostokącie . . . . . . . . . . . . . . . . . . . . . . . 3.1.A Zbiory nieistotne i kryterium całkowalności . . . . 3.2 Miara Jordana i ogólna całka . . . . . . . . . . . . . . . . . . 3.2.A Całka na zbiorach mierzalnych w sensie Jordana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 79 83 86 92 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii SPIS TREŚCI 3.3 Metody obliczania całek . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.A Całka iterowana na kostce . . . . . . . . . . . . . . . . . . . . . 3.3.B Twierdzenie Fubiniego i zasada Cavalieriego . . . . . . . . . 3.3.C Zastosowania twierdzenia Fubiniego i zasady Cavalieriego . 3.3.D Twierdzenie o zamianie zmiennych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 . 94 . 98 . 102 . 103 4 Całkowanie form różniczkowych 4.1 Pola wektorowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.A Zachowawcze pola wektorowe . . . . . . . . . . . . . . . . . . . . 4.2 Całka krzywoliniowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.A Całka krzywoliniowa I-go rodzaju . . . . . . . . . . . . . . . . . 4.2.B Całka krzywoliniowa II-go rodzaju . . . . . . . . . . . . . . . . . 4.2.C Całka krzywoliniowa i zachowawczość pól wektorowych . . . 4.2.D Całka zorientowana vs. całka podwójna - twierdzenie Greena 4.3 Algebra zewnętrzna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Formy różniczkowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.A Podstawowe definicje . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.B Pochodna zewnętrzna . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.C Przeciwobraz formy różniczkowej . . . . . . . . . . . . . . . . . 4.5 Kostki singularne i łańcuchy . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 Całka form różniczkowych . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6.A Całka na kostkach . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6.B Całka na k-łańcuchach i twierdzenie Stokesa . . . . . . . . . . 4.6.C k-Bryły i twierdzenie Stokesa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 108 109 110 110 113 116 119 119 123 123 125 127 128 129 129 131 133 Wstęp Ten skrypt przeznaczony jest dla studentów II roku studiów matematycznych i dotyczy rachunku różniczkowego funkcji i odwzorowań wielu zmiennych, całki Riemanna funkcji wielu zmiennych oraz elementów analizy wektorowej w przestrzeniach euklidesowych. Materiał przewidziany jest na semestr. W tekście, oprócz definicji i twierdzeń dołączono pewne ćwiczenia, a także – w kilku miejscach – zagadnienia uzupełniające dotyczące, na przykład, algebry liniowej. Szczerze zachęcam Czytelników do uważnej lektury również tego uzupełniającego materiału. Poniżej podano literaturę do wykładu. Charakter uzupełniający mają pozycje oznaczone gwiazdką (∗), a Czytelnikom chcącym istotnie rozszerzyć wiedzę w zakresie analizy polecam pozycje oznaczone (∗∗). W spisie brak zbiorów zadań; Czytelnicy znajdą te pozycje samodzielnie. Bibliografia [1] Andrzej Birkholc, Analiza matematyczna. Funkcje wielu zmiennych, PWN Warszawa 1986. [2] (∗) Ryszard Engelking, Topologia ogólna, PWN Warszawa 1975. [3] Grigorij. M. Fichentholz, Rachunek Rózniczkowy i Całkowy , PWN Warszawa 1976. [4] B. R. Gelbaum, J. M. Olmsted, Counterexamples in Analysis, London 1964. [5] (∗) Stanisław Gładysz, Wstęp do topologii, PWN Warszawa 1981. [6] Lech Górniewicz, Roman Ingarden, Analiza matematyczna dla fizyków, Wydawnictwo UMK 1995. [7] Witold Kołodziej, Analiza Matematyczna, PWN Warszawa 1978. [8] (∗∗) Witold Kołodziej, Wybrane rozdziały analizy matematycznej, PWN Warszawa 1982. [9] Wojciech Kryszewski, Wykłady analizy matematycznej; funkcje jednej zmiennej, Wydwnictwo UMK 2009. [10] Franciszek Leja, Rachunek rózniczkowy i całkowy, Wydawnictwo Naukowe PWN Warszawa 2008. [11] (∗∗) Elliott Lieb, Michael Loss, Analysis, GSM AMS 1997. [12] (∗∗) Stanisław Łojasiewicz, Wstęp do teorii funkcji rzeczywistych, PWN Warszawa 1973. [13] (∗∗) Krzysztof Maurin, Analiza, PWN Warszawa 1976. [14] (∗) Andrzej Mostowski, Marceli Stark, Elementy algebry wyższej, PWN Warszawa 1972. [15] (∗∗) Raghavan Narasimhan, Analysis on real and complex manifolds, Masson et Cie Paris 1968. [16] Roman Sikorski, Rachunek różniczkowy i całkowy. Funkcje wielu zmiennych, PWN Warszawa 1977. [17] (∗) Helena Rasiowa, Wstęp do matematyki współczesnej, PWN Warszawa 1979. [18] Walter Rudin, Podstawy analizy matematycznej, PWN Warszawa 1969. [19] (∗∗) Walter Rudin, Analiza rzeczywista i zespolona, PWN Warszawa 1985. [20] Ryszard Rudnicki, Wykłady z analizy matematycznej, PWN Warszawa 2006. [21] (∗∗) E. T. Whittaker, G. N. Watson, A Course in Modern Analysis, Cambridge University Press 1927. Rozdział 1 Przestrzeń Euklidesowa 1.1 Podstawowe definicje Dla dowolnego naturalnego N ∈ N kładziemy RN := {x = (x1 , ..., xN ) | xi ∈ R, i = 1, ..., N}. Innymi słowy RN jest iloczynem kartezjańskim N egzemplarzy zbioru liczb rzeczywistych: RN = |R × {z ... × R} . N Elementy x ∈ RN nazywa się punktami lub wektorami, zaś liczby xi , i = 1, ..., N, są współrzędnymi wektora x = (x1 , ..., xN ). To dość subtelne rozróżnienie (punkty – wektory) zależy od tego czy RN traktować jako przestrzeń afiniczną lub wektorową. RN JAKO PRZESTRZEŃ WEKTOROWA Jeśli x, y ∈ RN , przy czym x = (x1 , ..., xN ), y = (y1 , ..., yN ), oraz α ∈ R, to kładziemy x + y := (x1 + y1 , ..., xN + yN ), αx := (αx1 , ..., αxN ). Oczywiście x + y, αx ∈ RN . Podane działania dodawania i mnożenia zewnętrznego przez skalary rzeczywiste maja własności łączności, przemienności, zaś mnożenie jest rozłączne względem dodawania (sprawdzić). W związku z tym zbiór RN wraz z tymi działaniami jest przestrzenią wektorową (lub liniową) nad ciałem R liczb rzeczywistych. Elementem zerowym jest wektor 0, którego wszystkie współrzędne są równe 0. Przestrzeń RN – jako przestrzeń liniowa – ma bazę, tzn. maksymalny układ wektorów liniowo niezależnych. Najczęściej używaną bazę w RN stanowi zbiór tzw. wersorów osi {ej }N j=1 , 1 ). Tak więc, dla j = 1, ..., N, e = (0, ..., 0, 1, 0, ..., 0), gdzie ej = (δkj )N , tzw. baza kanoniczna ( j k=1 gdzie 1 występuje na j-tym miejscu. N ĆWICZENIE: Sprawdzić, że zbiór {ej }N j=1 jest bazą w R . Oczywiście wymiar RN (jako przestrzeni wektorowej nad R) wynosi N: dim RN = N. 1 Przypomnijmy, że tzw. delta Kroneckera δkj := 1 0 gdy gdy k = j; k 6= j. 4 1. PRZESTRZEŃ EUKLIDESOWA ILOCZYN SKALARNY I NORMA Dla wektorów x, y ∈ RN określamy iloczyn skalarny tych wektorów N X hx, yi = x · y := xi yi i=1 oraz normę wektora x !1/2 kxk := X xi2 √ = x · x. i=1 1.1.1 TWIERDZENIE: Iloczyn skalarny i norma mają następujące własności: dla x, y, z ∈ RN oraz α ∈ R (i) hx, yi = hy, xi; (ii) hαx, yi = αhx, yi; (iii)hx + y, zi = hx, zi + hy, zi; (iv) kxk ≥ 0, kxk = 0 wtedy i tylko wtedy, gdy x = 0; (v) kαxk = |α|kxk; (vi) |x · y| ≤ kxkkyk (nierówność Cauchy’ego-Schwarza); (vii) kx + yk ≤ kxk + kyk (nierówność trójkąta lub nierówność Minkowskiego); (viii) kx − zk ≤ kx − yk + ky − zk. DOWÓD: Własności (i), (ii), (iii), (iv) oraz (v) są natychmiastowe własność (vi) jest innym zapisem P 2 P P N N N 2 2 nierówności Cauchy’ego-Schwarza (która mówi, że a b ≤ a b dla i i i=1 i=1 i i=1 i dowolnych układów a1 , ..., aN , b1 , ..., bN liczb rzeczywistych). Własność (vii) wynika z nierówności Cauchy’ego-Schwarza oraz własności (ii) – (iii): kx + yk2 = (x + y) · (x + y) = x · x + 2x · y + y · y ≤ kxk2 + 2kxkkyk + kyk2 = (kxk + kyk)2 . Wreszcie (viii) wynika z (vii) jeśli zastąpić x przez x − y, zaś y przez y − z. ĆWICZENIE: Sprawdzić, że równość |hx, yi| = kxkkyk zachodzi wtedy i tylko wtedy, gdy istnieje stała λ ∈ R taka, że x = λy, zaś równość hx, yi = kxkkyk zachodzi wtedy i tylko wtedy, gdy istnieje λ ≥ 0 taka, ze x = λy. Własności (i) – (iii) pozwalają nazywać RN przestrzenią z iloczynem skalarnym, zaś własności (iv) – (vii) pozwalają nazywać te przestrzeń przestrzenią unormowaną (skończonego wymiaru), tzn. przestrzenią euklidesową. RN JAKO PRZESTRZEŃ METRYCZNA Własności normy pozwalają uważać, że RN jest przestrzenią metryczną wraz z odległością (metryką): d(x, y) := kx − yk, x, y ∈ RN . Mamy bowiem: (1) d(x, y) = 0 wtedy i tylko wtedy x = y; (2) d(x, y) = d(y, x); (3) d(x, z) ≤ d(x, y) + d(y, z) dla dowolnych x, y, z ∈ RN . Własność (1) wynika wprost z (iv), (2) wynika z (v), zaś (3) to nic innego niż (viii). Wielkość kx − yk mierzy odległość pomiędzy x i y (wykonać ilustrację). 1.1. PODSTAWOWE DEFINICJE 5 Podaną normę (i metrykę) w RN nazywa się euklidesową; Czytelnik (przy pomocy np. internetu) powinien przekonać się, że nie są one jedynymi użytecznymi normami i metrykami w RN : są inne – niekiedy znacznie wygodniejsze. Jednak jedynie ta norma jest „kompatybilna”z iloczynem skalarnym. ĆWICZENIE: Zinterpretować metrykę euklidesową i na przykład nierówność trójkąta w języku geometrycznym. PROSTOPADŁOŚĆ WEKTORÓW Wektory x, y ∈ RN są prostopadłe (piszemy też x⊥y), jeśli hx, yi = 0. Dla A ⊂ RN , definiujemy A⊥ := {x ∈ RN | x⊥a dla dowolnego a ∈ A}. ĆWICZENIE: Jeśli A ⊂ B ⊂ RN , to A ⊂ A⊥⊥ := (A⊥ )⊥ oraz A⊥ ⊃ B⊥ . Ma miejsce twierdzenie Pitagorasa: jeśli x, y ∈ RN są prostopadłe, to kx + yk = kxk2 + kyk2 . Dowód jest natychmiastowy: kx + yk2 = hx + y, x + yi = hx, xi + 2hx, yi + hy, yi = kxk2 + kyk2 . ĆWICZENIE: Podać interpretację (szkolną) geometryczną twierdzenia Pitagorasa. Nierówność Cauchy’ego-Schwarza pozwala interpretować cosinus kąta pomiędzy wektorami x, y ∈ RN , x 6= 0 6= y. Mianowicie kładziemy cos ^{x, y} := hx, yi . kxkkyk Z nierówności Cauchy’ego-Schwarza wynika, że | cos ^{x, y}| ≤ 1 i cos ^{x, y} = 1, wtedy i tylko wtedy, gdy istnieje λ > 0 taka, że x = λy, czyli wtedy i tylko wtedy, gdy wektory x i y mają ten sam kierunek i zwrot. Zauważmy, że układ (ej )j=1,...,N tworzy bazę ortonormalną w RN , tzn. kej k = 1 i hej , ei i = δji dla dowolnych j, i = 1, ..., N. Zauważmy też, że jeśli x = (x1 , ..., xN ), to dla j = 1, ..., N * N + N X X hx, ei i = xj ej , ei = xj hej , ei i = xi , j=1 j=1 PN PN czyli x = j=1 hx, ej iej . Jeśli więc x = j=1 aj ej (tzn. aj , j = 1, ..., N, są współczynnikami rozwinięcia x w postaci kombinacji liniowej wersorów (ej )N j=1 ), to aj = hx, ej i (przypomnieć definicję bazy w przestrzeni liniowej). Zbiór A ⊂ Rn jest prostą przechodzącą przez punkt a ∈ RN o wektorze kierunkowym v= 6 0, gdy A = {x ∈ Rn | x = a + tv, t ∈ R}. W takim razie prosta przechodząca przez dwa punkty a, b ∈ Rn , a 6= b, to zbiór A = {x = a + t(b − a) | t ∈ R} = {x = (1 − t)a + tb | t ∈ R}. Zauważmy, że gdy a = 0, to A⊥ = {y ∈ RN | y⊥v} 6 1. PRZESTRZEŃ EUKLIDESOWA jest hiperpodprzestrzenią prostopadłą do A. Odcinkiem domkniętym (odp. odcinkiem otwartym) łączącym punkty a, b ∈ R, a 6= b, nazywa się zbiór [a; b] := {x = (1 − t)a + tb | t ∈ [0, 1] (odp. (a; b) := {x = (1−t)a+tb | t ∈ (0, 1)}). Gdy N = 1 to odcinki są domkniętymi przedziałami (prostej), zaś odcinki otwarte przedziałami otwartymi. Mówimy, że zbiór A ⊂ RN jest wypukły, gdy dla dowolnych a, b ∈ A, a 6= b, [a; b] ⊂ A (uwaga: zbiory wypukłe w R nazywa się przedziałami). Zbiór A ⊂ RN jest ograniczony, gdy istnieje M ≥ 0 takie, że kxk ≤ M dla dowolnego x ∈ A. W ramach ćwiczeń należy umieć przedstawiać graficznie podzbiory R2 , R3 itp. ĆWICZENIE: Zilustrować zbiór A punktów (x, y, z) ∈ R3 , których współrzędne spełniają następujące warunki: (1) x 2 + y 2 < z2 ; |z| > 1; (2) x 2 + y 2 + z2 < 2x; 2|z| < 1; (3) x 2 − y 2 − z2 > 1; z > 0. Czy zbiory te są ograniczone? czy są wypukłe? FUNKCJE I ODWZOROWANIA Przedmiotem naszego zainteresowania będą funkcje rzeczywiste lub odwzorowania wektorowe wielu zmiennych. Chodzi o funkcje (odwzorowania) postaci f : A → RM , gdzie dziedzina A ⊂ RN oraz N, M ≥ 1. Jest to funkcja N-zmiennych, przyjmująca wartości w RM . Gdy M = 1,to mowa jest o funkcjach rzeczywistych, zaś gdy M > 1, o funkcjach wektorowych. Funkcje wektorowe nazywa się też odwzorowaniami, przekształceniami lub operatorami (2 ). Mówiąc poglądowo, są to funkcje które punktom (wektorom) x = (x1 , ..., xN ) ∈ A przyporządkowują punkty (wektory) y = (y1 , ..., yM ) = f(x) ∈ RM . Niech πi : RM → R będzie rzutowaniem na i-tą współrzędną, i = 1, ..., M, tzn. funkcją zadaną wzorem πi (y) = πi (y1 , ..., yM ) := yi , które punktowi y ∈ RM przyporządkowuje jego i-tą współrzędną. Niech fi := πi ◦ f : A → R dla i = 1, ..., M. Zatem, dla dowolnego x ∈ A, f(x) = (f1 (x), ..., fM (x)). Piszemy wtedy f = (f1 , ..., fM ). Funkcje fj nazywa się (funkcjami) współrzędnymi funkcji (odwzorowania lub przekształcenia) f. Na ogół badanie f przeprowadza się w oparciu o funkcje współrzędne. PROBLEM DZIEDZINY NATURALNEJ (LUB INTEGRALNEJ) Często mamy do czynienia z odwzorowaniem (funkcją) zadaną konkretnym wzorem: np. r x f(x, y) = − 1. 2 x + y 2 + 2x W takiej sytuacji obowiązkiem Czytelnika jest wyznaczenie dziedziny naturalnej Df funkcji f, tzn. maksymalnego zbioru punktów (x, y) ∈ R2 , dla których wyrażenie f(x, y) ma sens. W 2 Ta terminologia jest niesprecyzowana: w gruncie rzeczy odzwierciedla „geometrię” kryjącą się za danym przyporządkowaniem. 1.2. ELEMENTY ALGEBRY LINIOWEJ 7 powyższej sytuacji widzimy ( Df = ) 1 1 2 2 2 2 + y ≥ , (x + 1) + y < 1 . (x, y) ∈ R | x + 2 4 2 Należy umieć również zilustrować graficznie dziedzinę Df . ĆWICZENIE: Wyznaczyć dziedzinę naturalną funkcji: x (1) f(x, y) = arc cos 2x+y ; 1+ln(x−y) (2) f(x, y) = √ ; 2 2 1−x −y p (3) f(x, y, z) = arc sin(x 2 + y 2 + z2 − 2z) 2 − x 2 − y 2 − z2 . Wykresem (lub grafem) funkcji f : A → RM nazywa się zbiór Gr (f) := {(x, y) ∈ A × RM | y = f(x)}. POJĘCIE KRZYWEJ Krzywą w RN nazywamy odwzorowanie γ : [a, b] → Rn , gdzie a ≤ b i γ = (γ1 , ..., γN ), którego wszystkie współrzędne γj , j = 1, ..., N, są ciągłe (przypomnieć definicję ciągłości funkcji rzeczywistych jednej zmiennej). Krzywa γ zwana jest łukiem zwykłym, gdy jej obcięcie γ|(a,b) jest odwzorowaniem różnowartościowym. Krzywa jest zamknięta, gdy γ(a) = γ(b). Krzywa jest regularna, gdy dla każdego j = 1, ..., N, γj ∈ C 1 (przypomnieć pojęcie różniczkowalności funkcji rzeczywistych jednej zmiennej i pojęcie klasy C 1 gładkości) oraz qP N 0 0 0 2 kγ 0 (t)k := j=1 [γj (t)] 6= 0 dla t ∈ [a, b], gdzie pochodna γ (t) := (γ1 (t), ..., γN (t)), t ∈ [a, b] (w krańcach a, b mamy na myśli odpowiednie pochodne jednostronne – przypomnieć pojęcie pochodnych jednostronnych (lewo i prawostronnych) dla funkcji rzeczywistych jednej zmiennej). Nośnikiem krzywej γ : [a, b] → RN nazywa się zbiór Γ = {γ(t) | t ∈ [a, b]}, czyli obraz odwzorowania γ. UWAGA: Niekiedy nośnik Γ utożsamia się z krzywą. Wtedy odwzorowanie γ nazywa się parametryzacją krzywej Γ. ĆWICZENIE: (1) Podaj dwie różne parametryzacje odcinka [p; q], gdzie p = (p1 , ..., pN ), q = (q1 , ..., qN ) ∈ RN (pierwsza to np. γ = (γ1 , ..., γn ) : [0, 1] → RN , gdzie γj (t) = pj + t(qj − pj ), j = 1, ..., N, t ∈ [0, 1] (syntetycznie γ(t) = p + t(q − p), t ∈ [0, 1]). Należy wymyślić jeszcze przynajmniej dwie inne parametryzacje. (2) Co jest nośnikiem krzywej γ : [0, 2π] → R2 , gdzie γ1 (t) = 2 cos t, γ2 (t) = 3 sin t, t ∈ [0, 2π]? UWAGA: Byłoby wskazane, by Czytelnik przyzwyczaił się do robienia ilustracji na płaszczyźnie R2 i w przestrzeni R3 ! 1.2 Elementy algebry liniowej (do czytania w razie potrzeby) 1.2.A Macierze i wektory Przypomnijmy, że macierzą A o M-wierszach i N-kolumnach (M, N ∈ N) (lub macierzą (M × N)-wymiarową) o współczynnikach rzeczywistych nazywamy funkcję A : {1, , ..., M} × {1, ..., N} → R. 8 1. PRZESTRZEŃ EUKLIDESOWA Jeżeli aij := A(i, j) dla 1 ≤ i ≤ M, 1 ≤ j ≤ N, to liczby aij nazywamy współczynnikami macierzy A i piszemy A = [aij ] i=1,...M lub j=1,...,N a11 a12 ... a1N a21 a22 ... a2N A= . .. .. ; .. .. . . . aM1 aM2 ... aMN wyrażenia a1j .. . i [ai1 , ai2 , ..., aiN ], i = 1, ..., M, j = 1, ..., N, aMj nazywamy odpowiednio j-tą kolumną i i-tym wierszem macierzy A. Zbiór macierzy (M × N)-wymiarowych oznaczamy symbolem MM×N lub MMN (R), jeśli chcemy podkreślić, że mamy do czynienia z macierzami o współczynnikach rzeczywistych (oczywiście MMN (C) oznacza zbiór macierzy (M × N)-wymiarowych o współczynnikach zespolonych). Jak dobrze wiadomo zbiór MMN jest (rzeczywistą) przestrzenią liniową: dla macierzy A, B ∈ MMN , A = [aij ] i=1,...,M , B = [bij ] i=1,...,M oraz λ ∈ R, j=1,...,N j=1,...,N A + B := [aij + bij ] ∈ MMN oraz λA := [λaij ] ∈ MMN . Macierzą transponowaną (lub sprzężoną) do macierzy A = [aij ] i=1,...,M ∈ MMN nazywamy j=1,...,N macierz AT := [bij ] i=1,...,N ∈ MNM , gdzie bij = aji dla wszystkich i = 1, ..., N i j = 1 = 1, ..., M. j=1,...,M Tak więc a11 a21 ... aM1 a12 a22 ... aM2 AT = . .. .. . .. .. . . . a1N a2N ... aMN ĆWICZENIE: Znaleźć macierz transponowaną do macierzy 3 4 5 −1 1 0 4 2 Macierze można mnożyć: jeśli A = [aij ] i=1,...,M i B = [bjk ] j=1,...,N (tzn. A jest macierzą (M ×N)j=1,...,N k=1,...,K wymiarową, zaś B – macierzą (N×K)-wymiarową), to iloczyn (tzw. iloczyn Cauchy’ego) C = A·B jest macierzą (M × K)-wymiarową, C = [cik ] i=1,...,M , gdzie k=1,...,K cik := ai1 b1k + ai2 b2k + ... + aiN bNk = N X aij bjk , i = 1, ..., M, k = 1, ..., K. j=1 Mnożenie macierzy ilustruje poniższy zapis a11 a12 ... a1N .. .. .. b11 ... . . . b21 ... ai1 a ... a 12 iN · . .. .. .. .. . . . bN1 ... aM1 aM2 ... aMN b1k b2k .. . bNk b1K b2K .. . . ... bNK ... ... 1.2. ELEMENTY ALGEBRY LINIOWEJ 9 Tak więc, ażeby otrzymać wyraz cik należy pierwszy wyraz ai1 z i-tego wiersza macierzy A pomnożyć przez pierwszy wyraz b1k z k-tej kolumny, drugi wyraz tego wiersza przez drugi wyraz tej kolumny i tak dalej. Wreszcie ostatni wyraz i-tego wiersza mnożymy przez ostatni wyraz k-tej kolumny i uzyskane iloczyny należy dodać. ĆWICZENIE: Pomnożyć macierze A i B, gdzie 1 1 3 4 5 −1 A= ; B= 2 1 0 4 2 −9 3 9 −3 0 4 2 . 3 −1 0 3 1 0 Dość szczególną rolę odgrywają macierze wymiaru (N × 1), czyli macierze o N-wierszach i jednej kolumnie. Od tej pory zawsze będziemy utożsamiać wektory (punkty) x = (x1 , ..., xN ) z „wektorami”, czyli macierzami, jednokolumnowymi x1 x2 x := . . .. xN Zauważmy, że taka macierz (wektor) jest macierzą sprzężoną do macierzy jednowierszowej [x1 , ..., xN ], czyli x1 x2 x := . = [x1 , ..., xN ]T . .. xN Opisane utożsamienie jest izomorfizmem przestrzeni liniowej RN oraz MN1 Jeśli A = [aij ] i=1,...,M ∈ MMN oraz x = [x1 , ..., xN ]T ∈ RN , to iloczyn j=1,...,N (1.2.1) A · x = y = [y1 , ..., yM ]T ∈ RM , gdzie (1.2.2) yi := N X aij xj , i = 1, ..., M. j=1 Łatwo dostrzec, że (A · B)T = BT · AT ; a zatem, w szczególności (A · x)T = xT · AT . Zauważmy wreszcie, że dla x, y ∈ RN , hx, yi = xT · y. Symbol · mnożenia macierzy często opuszcza się pisząc AB lub Ax. W świetle przyjętych oznaczeń ma sens następująca (i dość wygodna notacja). Niech A = [aij ] i=1,...,M ∈ MMN i niech j=1,...,N a1j aj = ... , j = 1, ..., N, aMj 10 1. PRZESTRZEŃ EUKLIDESOWA tzn. aj = [a1j , ..., aMj ]T ∈ RM , będzie j-tą kolumną A, j = 1, ..., N. Piszemy wtedy A = [a1 |a2 |....|aN ]. (1.2.3) Tak więc zapis ten uwzględnia wektorowy charakter kolumn: macierz A powstaje poprzez „ułożenie” obok siebie N-kolumn (wektorów) aj , j = 1, ..., N. Ma wobec tego sens następująca definicja. Rzędem kolumnowym macierzy A ∈ MMN nazywa się maksymalną liczbę rank A jej liniowo niezależnych kolumn. Podobnie można mówić o rzędzie wierszowym macierzy A. Każdy jej wiersz można traktować jako wektor [ai1 , ai2 , ..., aiN ]T ∈ RN i, wobec tego, rzędem wierszowym macierzy A nazywa się maksymalną liczbę jej liniowo niezależnych wierszy. Tzw. twierdzenie o rzędzie orzeka, że rząd wierszowy i kolumnowy są równe. Stąd wspólną ich wartość nazywa się rzędem macierzy. Oczywiście rank A ≤ min{M, N}. ĆWICZENIE: Znaleźć rząd macierzy: 3 4 5 −1 A = 1 0 4 2 2 8 0 2 1.2.B Przekształcenia liniowe Wśród odwzorowań wielu zmiennych określonych na przestrzeni RN i o wartościach w RM szczególną rolę odgrywają przekształcenia liniowe, stanowiące główny przedmiot zainteresowania algebry liniowej (a także analizy funkcjonalnej). Przypomnijmy, że przekształcenie (operator, odwzorowanie) A : RN → RM jest liniowe, jeżeli jest jednorodne, tzn. dla dowolnego x ∈ RN i λ ∈ R, A(λx) = λA(x) oraz addytywne, tzn. dla dowolnych x, y ∈ RN , A(x + y) = A(x) + A(y). Łatwo zobaczyć, że przekształcenie A : RN → RM jest liniowe wtedy i tylko wtedy, gdy dla dowolnych x, y ∈ RN , λ, µ ∈ R, A(λx + µy) = λA(x) + µA(y). Zbiór przekształceń liniowych RN → RM oznaczamy symbolem L(RN , RM ). Zbiór ten jest przestrzenią liniową nad ciałem R wraz z dodawaniem i mnożeniem przez skalary rzeczywiste określonymi następująco: dla A, B ∈ L(RN , RM ) i λ ∈ R, (A + B)(x) := A(x) + B(x), (λA)(x) := λA(x), x ∈ RN ; łatwo zobaczyć, że tak określone przekształcenia A + B i λA są liniowe. Złożenie B ◦ A : RN → RK przekształceń liniowych A : RN → RM , B : RM → RK jest przekształceniem liniowym. Jeśli A : RN → RM jest przekształceniem liniowym, to jądrem A nazywamy zbiór Ker A := {x ∈ RN | A(x) = 0} (czasem stosowany jest też symbol N(A)), zaś obrazem lub zakresem nazywa się zbiór Im A = {y = A(x) | x ∈ RN } 1.2. ELEMENTY ALGEBRY LINIOWEJ 11 (czasem używa się symbolu R(A)). Jest jasne, że Ker A i Im A są podprzestrzeniami liniowymi odpowiednio w RN i RM ; stąd dim Ker A ≤ N i dim Im A ≤ M. Dobrze znane i bardzo ważne twierdzenia Kroneckera-Capelliego orzeka, że dim Ker A + dim Im A = N, z którego wynika, że przekształcenie A jest injekcją wtedy i tylko wtedy, gdy N ≤ M i dim Im A = N (lub równoważnie: Ker A = {0}) oraz A jest surjekcją wtedy i tylko wtedy, gdy N ≥ M i dim Im A = M (lub równoważnie: dim Ker A = N − M). Przekształcenia liniowe injektywne nazywa się monomorfizmami, surjektywne – epimorfizmami, zaś bijektywne – izomorfizmami. Zauważmy, że jeśli przekształcenie liniowe A ∈ L(RN , RM ) jest bijekcją (izomorfizmem), to N = M i przekształcenie odwrotne A−1 : RN → RN jest także liniowe (sprawdzić). Jeśli A : RN → RM jest przekształceniem liniowym, to przekształcenie transponowane AT : RM → RN zdefiniowane jest następująco: dla y ∈ RM , AT (y) := x ∈ RN ⇐Ñ dla dowolnego z ∈ RN , hz, xi = hA(z), yi. Łatwo zobaczyć, że AT jest poprawnie zdefiniowanym przekształceniem liniowym i Im AT = (Ker A)⊥ , Ker AT = (Im A)⊥ . Pokażemy dla przykładu pierwszą równość. Jeśli x = AT (y), gdzie y ∈ RM , oraz z ∈ Ker A, to hz, xi = hA(z), yi = 0, czyli x ∈ (Ker A)⊥ . To dowodzi, że Im AT ⊂ (Ker A)⊥ . Pokażemy teraz, że (Im AT )⊥ ⊂ Ker A; to wystarczy, gdyż wówczas Im AT = (Im AT )⊥⊥ ⊃ (Ker A)⊥ . Niech z ∈ (Im AT )⊥ ; zatem dla każdego y ∈ RM , hA(z), yi = hz, AT (y)i = 0. Stąd A(z) = 0 i z ∈ Ker A. Z podanych wzorów i twierdzenia Kroneckera-Capelliego wynika, że (1.2.4) dim Im AT = dim(Ker A)⊥ = N − dim Ker A = dim Im A (3 ). Poza tym widzimy, że A jest monomorfizmem (odp. epimorfizmem) wtedy i tylko wtedy, gdy AT jest epimorfizmem (odp. monomorfizmem). Przypomnijmy, że już powyżej zdefiniowaliśmy rzutowanie πj : RN → R, j = 1, ..., N, na j-tą współrzędną, tzn. πj (x) = xj dla x = (x1 , ..., xN ) ∈ RN . Jest to oczywiście przekształcenie liniowe oraz πj (x) = hx, ej i, x ∈ RN , j = 1, ..., N, gdzie – jak zwykle – ej jest j-tym wektorem z bazy kanonicznej w RN . PRZYKŁAD: Jeśli A = [aij ] i=1,...,M ∈ MMN , to przekształcenie A : RN → RM dane, dla x = j=1,...,N (x1 , ..., xN ) ∈ RN , wzorem A(x) =: y = (y1 , ..., yM ), gdzie y := A · x, P tzn. yi = N j=1 aij xj , j = 1, ..., M, jest przekształceniem liniowym (byłoby wskazane, by Czytelnik to dokładnie sprawdził). Powyższy przykład jest uniwersalny w tym sensie, że dla dowolnego przekształcenia A ∈ L(RN , RM ) istnieje (dokładnie jedna) macierz A = [aij ] i=1,...,M ∈ MMN taka, że A(x) = A · x j=1,...,N 3 W tym miejscu trzeba zauważyć, że RN = Ker A ⊕ (Ker A)⊥ , więc N = dim Ker A + dim(Ker A)⊥ . 12 1. PRZESTRZEŃ EUKLIDESOWA dla każdego x ∈ RN (utożsamionego z x = [x1 , ..., xn ]T ). W tym celu wystarczy przyjąć, że dla i = 1, ..., M i j = 1, ..., N aij := πi ◦ A(ej ), (1.2.5) gdzie ej jest j-tym wektorem z bazy kanonicznej w RN , zaś πi : RM → R jest rzutowaniem na i-tą współrzędną. Innymi słowy j-tą kolumnę macierzy A tworzy wektor A(ej ), j = 1, ..., N. Pozostawiamy Czytelnikowi sprawdzenie, że wówczas rzeczywiście A(x) = A · x P dla każdego x ∈ RN , tzn. A(x) = y, gdzie yi = N j=1 aij xj dla i = 1, ..., M. Warto też zwrócić uwagę na następujący wzór (1.2.6) πi ◦ A(x) = N X aij xj , x = (x1 , ..., xN ), i = 1, ..., M. j=1 Można również (będąc ostrożnym jeśli chodzi o notację) napisać aij = hei , A(ej )i, i = 1, ..., M, j = 1, ..., N, gdzie „pierwsze” ei oznacza i-ty wektor z bazy kanonicznej w RM , zaś „drugie” ej oznacza j-ty wektor z bazy kanonicznej w RN (tego typu „błąd” notacyjny, czy raczej nonszalancja, nie powinien jednak prowadzić do nieporozumień dla uważnego Czytelnika; nieraz jeszcze będziemy mieć do czynienia z taką sytuacją). Tak skonstruowaną macierz A nazywamy stowarzyszoną z przekształceniem A i, na odwrót, przekształcenie liniowe A wyznaczone przez macierz A nazywamy stowarzyszonym z macierzą. Na przykład przekształcenie identycznościowe I : RN → RN (I(x) := x dla każdego x ∈ RN ) jest stowarzyszone z macierzą jednostkowa I := [δij ] i=1,...,n (jest to macierz kwadratowa, która j=1,...,n ma na „przekątnej” jedynki, zaś pozostałe współczynniki są zerami). ĆWICZENIE: Znaleźć macierz przekształcenia: A : R3 → R2 danego wzorem A(x, y, z) = (x − y + z, x + 3z), (x, y, z) ∈ R3 . Pokazaliśmy więc, że istnieje wzajemnie jednoznaczna odpowiedniość pomiędzy zbiorami (a właściwie izomorfizm pomiędzy przestrzeniami liniowymi) L(RN , RM ) przekształceń liniowych i MMN macierzy (M × N)-wymiarowych. Odpowiedniość ta jest bijekcją a nawet – jak łatwo zobaczyć – izomorfizmem liniowym, tzn. dla przekształceń A, B ∈ L(RN , RM ), z którymi stowarzyszone są macierze A, B ∈ MMN , sumie A+B odpowiada macierz A+B, zaś iloczynowi λA, gdzie λ ∈ R, odpowiada macierz λA. Izomorfizm ten pozwala utożsamiać przekształcenie A ∈ L(RN , RM ) z macierzą A ∈ MMN z nim stowarzyszoną. W dalszym ciągu często będziemy dokonywać tego utożsamienia bez specjalnych komentarzy i nawet niekiedy używać tego samego symbolu A dla oznaczenia przekształcenia i macierzy z nim stowarzyszonej (należy jednak pamiętać, że formalnie rzecz biorąc, są to różne obiekty). Jest jeszcze jedna miła okoliczność. Otóż, jeżeli B : RK → RN i A : RN → RM są przekształceniami liniowymi, z którymi stowarzyszone są macierze B ∈ MNK i A ∈ MMN , to ze złożeniem A ◦ B : RK → RM stowarzyszony jest iloczyn macierzowy A · B ∈ MMK . Warto też zauważyć, że jeśli z przekształceniem A ∈ L(RN , RM ) stowarzyszona jest macierz 1.2. ELEMENTY ALGEBRY LINIOWEJ 13 A ∈ MMN , to obraz Im A jest podprzestrzenią w RM rozpiętą przez wektory A(ej ), j = 1, ..., N, czyli kolumny macierzy A. Stąd wynika, że dim Im A = rank A; dlatego też można mówić o rzędzie przekształcenia liniowego kładąc rank A = rank A. Niech A ∈ L(RN , RM ) i niech macierz B ∈ MNM będzie stowarzyszona z przekształceniem transponowanym AT ∈ L(RM , RN ). Wtedy, dla dowolnego y ∈ RM i z ∈ RN , hz, AT (y)i = zT · (B · y) = (BT · z)T · y. Z drugiej strony, z definicji przekształcenia transponowanego hz, AT (y)i = hA(z), yi = (A · z)T · y. Stąd B = AT ; czyli z przekształceniem transponowanym AT stowarzyszona jest macierz transponowana AT . Stąd, między innymi, z równości (1.2.4) wynika, że rank AT = dim Im AT = dim Im A = rank A, co stanowi dowód wspomnianego twierdzenia o rzędzie. Przekształcenie liniowe A ∈ L(RN , RM ) jest monomorfizmem wtedy i tylko wtedy, gdy N ≤ M i rząd przekształcenia rank A = rank A jest maksymalny, tzn. równy N; A jest epimorfizmem, wtedy i tylko wtedy, gdy N ≥ M i rank A = M. W konsekwencji przekształcenie A jest izomorfizmem wtedy i tylko wtedy, gdy N = M i rank A = rank A = N. W takiej sytuacji istnieje przekształcenie odwrotne A−1 : RN → RN (tzn. A−1 ◦A = I = A ◦A−1 ) i jest ono liniowe. Odpowiada mu (stowarzyszona z nim jest) macierz B ∈ MNN taka, że B · A = I = A · B. Tę macierz nazywamy macierzą odwrotną do A i oznaczamy symbolem A−1 . W takim razie macierz A ∈ MMN jest odwracalna (tzn. ma macierz odwrotną) wtedy i tylko wtedy, gdy M = N i rank A = N (mówimy wtedy też, że macierz A jest nieosobliwa). Wykorzystując powyższą zależność rzędu macierzy i wymiaru obrazu przekształcenia liniowego z nią stowarzyszonego łatwo pokazać, że jeśli A ∈ MMN , B ∈ MNK , to rank (A · B) ≤ min{rank A, rank B}; jeżeli rank B = N, to rank (A · B) = rank A, zaś jeśli rank A = N, to rank (A · B) = rank B (stąd wynika znane stwierdzenie, mówiące że tzw. operacje elementarne na kolumnach lub wierszach nie zmieniają rzędu macierzy). Jeśli A, B ∈ MMN , to rank (A + B) ≤ rank A + rank B, a jeśli M = N, to rank A + rank B − N ≤ rank (A + B). Przekształcenia liniowe φ : RN → R (czyli elementy przestrzeni L(RN , R) nazywamy funkcjonałami lub formami liniowymi. Jeżeli φ ∈ L(RN , R) jest funkcjonałem liniowym, to stowarzyszona z nim macierz ma wymiar (1 × N), tzn. jest to macierz jedno wierszowa [a1 , ..., aN ], w której (zgodnie ze wzorem (1.2.5)) aj = φ(ej ), j = 1, ..., N. Wobec tego, dla dowolnego x ∈ RN (wykorzystując wzory (1.2.1) i (1.2.2)) mamy x1 N x2 X φ(x) = [a1 , ..., an ] · . = aj xj = ha, xi, .. j=1 xN gdzie a = (a1 , ..., an ). Na odwrót, dla dowolnego a ∈ RN , funkcja φ : RN → R dana wzorem φ(x) := ha, xi, x ∈ RN , jest funkcjonałem liniowym. Istnieje wobec tego kolejna, już trzecia, wzajemnie jednoznaczna 14 1. PRZESTRZEŃ EUKLIDESOWA odpowiedniość (izomorfizm): tym razem pomiędzy przestrzenią L(RN , R) funkcjonałów liniowych a przestrzenią RN (4 ). Formalnie rzecz biorąc zdefiniowaliśmy wzajemnie jednoznaczną odpowiedniość U, w której każdemu funkcjonałowi φ ∈ L(RN , R) odpowiada takie wektor U(φ) = a ∈ RN , że φ(x) = hx, ai = hx, U(φ)i. Nietrudno zobaczyć, że U jest (wzajemnie jednoznacznym) przekształceniem liniowym (tzn. U(φ1 + φ2 ) = U(φ1 ) + U(φ2 ) i U(λφ) = λU(φ) dla dowolnych φ1 , φ2 , φ ∈ L(RN , R) oraz λ ∈ R). UWAGA: Zwyczajowo przestrzeń L(RN , R) funkcjonałów (form) liniowych oznacza się symbolem (RN )∗ i nazywa przestrzenią sprzężoną lub dualną do RN . Jest to przestrzeń liniowa. Dla przekształcenia A ∈ L(RN , RM ) można rozważyć przekształcenie A∗ : (RM )∗ → (RN )∗ zadane wzorem: dla dowolnego ψ ∈ (RM )∗ , A∗ (ψ) := φ ∈ (RN )∗ gdzie φ(x) = ψ(A(x)), x ∈ RN . Ponieważ U : (RN )∗ → RN , można więc określić złożenie U ◦ A∗ ◦ U −1 : RM → RM (ale uwaga: tutaj „pierwsze” z lewej U działa z (RN )∗ do RN , zaś „drugie” – z (RM )∗ do RM ). Sprawdzimy, że AT = U ◦ A∗ ◦ U −1 : RM → RM . Oznaczmy P := U ◦ A∗ ◦ U −1 . Rzeczywiście, jeśli y ∈ RM , to U −1 (y) := ψ ∈ (RM )∗ , gdzie ψ(z) = hz, yi dla z ∈ RM . Następnie A∗ (ψ) := φ ∈ (RN )∗ , gdzie φ(x) = ψ(A(x)) dla dowolnego x ∈ RN . Wreszcie U(φ) := a ∈ RN , gdzie dla dowolnego x ∈ RN , hx, ai = φ(x). Zatem P(y) = a, gdzie hx, ai = φ(x) = ψ(A(x)) = hA(x), yi dla każdego x ∈ RN . Tak więc P(y) = AT (y). Uznając, że odpowiedniość U jest „ukryta” w utożsamieniu (RN )∗ z RN , często nie rozróżnia się przekształceń AT i A∗ (nazywając je przekształceniem sprzężonym). 1.2.1 LEMAT (o anulatorze): Załóżmy, że φ ∈ L(RN , R), A ∈ L(RN , RM ). Wówczas Ker A ⊂ Ker φ wtedy i tylko wtedy, gdy istnieje funkcjonał Λ ∈ L(RM , R) taki, że φ = Λ ◦ A. DOWÓD: Dostateczność jest oczywista. Wykażemy konieczność. Przypuśćmy, że φ 6= 0 (jeśli φ = 0, to teza jest oczywista, o ile przyjąć, że Λ = 0). Identyfikujemy φ z niezerowym wektorem a ∈ RN taki, że φ(x) = hx, ai dla dowolnego x ∈ RN . Przypuśćmy, że a 6∈ X := Im AT = AT (RM ), gdzie AT ∈ L(RM , RN ) jest operatorem sprzężonym (transponowanym) do A. Wówczas RN = X ⊕ X ⊥ (suma prosta) i a = a1 + a2 , gdzie a1 ∈ X i a2 ∈ X ⊥ . Zauważmy, że a2 6= 0, bo gdyby a2 = 0, to a = a1 ∈ X. Skoro a2 ∈ X ⊥ , to ha2 , xi = 0 dla dowolnego x ∈ X; a więc dla każdego z ∈ RM , 0 = ha2 , AT (z)i = hA(a2 ), zi. W takim razie A(a2 ) = 0, czyli a2 ∈ Ker A ⊂ Ker φ i 0 = φ(a2 ) = ha2 , ai = ha2 , a1 + a2 i = ka2 k2 . Wobec tego a2 = 0: sprzeczność. Pokazaliśmy, że a ∈ AT (RM ). Istnieje wobec tego z ∈ RM takie, że a = AT (z). Stąd, dla 4 Podczas pierwszej identyfikacji utożsamiamy RN z przestrzenią macierzy MN1 , podczas drugiej: przestrzeń L(RN , RM ) z MMN , a podczas trzeciej RN z M1N . Istnieje bardzo formalna metoda pozwalająca zrobić porządek w przyjmowanych przez nas utożsamieniach. Otóż biorąc pod uwagę drugą z identyfikacji, utożsamiając RN z MN1 de facto utożsamiamy RN z przestrzenią L(R, RN ), zaś utożsamiając RN z M1N de facto utożsamiamy RN z przestrzenią L(RN , R). Ja widać formalne znaczenie obu identyfikacji jest zasadniczo różne. Wyjaśnienie tej istotnej różnicy będzie zrozumiałe dla wszystkich znających przynajmniej elementy teorii kategorii i funktorów. Ponieważ nie mamy zamiaru wchodzić głębiej w tę teorię, powiemy tylko tyle: przyporządkowanie identyfikacyjne, w którym przestrzeń RN identyfikujemy z MN1 jest funktorem kowariantnym, zaś przyporządkowanie identyfikacyjne, w którym RN identyfikujemy z M1N jest funktorem kontrawariantnym. 1.2. ELEMENTY ALGEBRY LINIOWEJ 15 dowolnego x ∈ RN , φ(x) = hx, ai = hx, AT (z)i = hA(x), zi = Λ ◦ A(x) gdzie Λ(y) = hy, zi dla y ∈ RM . 1.2.C Wyznaczniki Przypomnijmy notację (1.2.3). Zgodnie z tą notacją, dla macierzy A = [aij ] i=1,...,N ∈ MNN piszej=1,...,N my A = [a1 |a1 |...|aN ], gdzie aj jest j-tą kolumną macierzy A. Wyznacznikiem nazywamy funkcję det : MNN → R spełniającą następujące własności: (i) (Liniowość ze względu na kolumny) Dla dowolnych kolumn (wektorów) a, b ∈ RN oraz λ ∈ R, det[...|a ± b|...] = det[...|a|...] ± det[...|b|...], det[...|λa|...] = λ det[...|a|...]; (ii) (Skośna symetryczność) dla dowolnych wektorów a, b ∈ RN , det[...|a|b|...] = − det[...|b|a|...](5 ) (iii) (Normalizacja) det I = 1, gdzie I jest macierzą jednostkową. Z własności (ii) wynika, że jeśli macierz A ma dwie jednakowe kolumny, to det A = 0; ogólniej z własności (i), (ii) oraz (iii) wynika, że det A = 0 wtedy i tylko wtedy, gdy rank A < N (tzn. wtedy i tylko wtedy, gdy macierz jest nieosobliwa). Można wykazać, że istnieje tylko jedna funkcja o podanych własnościach, a wyznacznik macierzy A = [aij ] można wyliczyć posługując się następującym wzorem rekurencyjnym Laplace’a. Niech Mij (A) oznacza macierz wymiaru (N −1)×(N −1) powstałą poprzez wykreślenie i-tego wiersza i j-tej kolumny w macierzy A, tzn. a11 ... a1,j−1 a1,j+1 ... a1N . .. .. .. .. .. . . . . . . . a i−1,1 ... ai−1,j−1 ai−1,j+1 ... ai−1,N Mij (A) = . ai+1,1 ... ai+1,j−1 ai+1,j+1 ... ai+1,N .. .. .. .. . . . . . . . . . . aN1 ... aN,j−1 aN,j+1 ... aNN Wtedy, dla dowolnego j = 1, ..., N, ma miejsce tzw. rozwinięcie Laplace’a względem j-tej kolumny N X det A = (−1)i+j aij det Mij (A) i=1 5 Równoważnie: dla dowolnej permutacji σ ∈ SN (6 ) i dowolnych wektorów aj , j = 1, ..., N, det[a1 |a2 |...|aN ] = sgn σ det[aσ(1) |aσ(2) |...|aσ(N) ]. 16 1. PRZESTRZEŃ EUKLIDESOWA lub, dla dowolnego i = 1, ..., N, rozwinięcie względem i-tego wiersza det A = N X (−1)i+j aij det Mij (A). j=1 Wyrażenie (−1)i+j det Mij (A) nazywa się dopełnieniem algebraicznym wyrazu aij macierzy A. Warto zauważyć, że jeśli det A 6= 0, to dla dowolnego i = 1, ..., N (odp. dla j = 1, ..., N) istnieje j = 1, ..., N (odp. i = 1, ..., N) takie, że aij det Mij (A) 6= 0. Inny ważny wzór (który często przyjmuje się jako definicję wyznacznika) orzeka, że X (1.2.7) det A = sgn σ a1σ(1) a2σ(2) ...aNσ(N) , σ∈SN gdzie SN oznacza zbiór permutacji zbioru {1, ..., N}, zaś sgn σ jest znakiem permutacji σ ∈ SN . Wiadomo (i jest to oczywiste w świetle podanych wzorów), że dla każdej macierzy A ∈ MNN , det A = det AT oraz ma miejsce tzw. wzór Cauchy’ego-Bineta (7 ): det A · B = det A det B, gdzie B ∈ MNN . Ponadto det(−A) = (−1)N det A. ĆWICZENIE: Oblicz wyznacznik macierzy 8 1 A= 0 1 4 0 1 0 5 −1 4 2 3 2 2 0 Wzór rekurencyjny Laplace’a pozwala na obliczenie współczynników macierzy odwrotnej = [bij ] do macierzy nieosobliwej A ∈ MNN . Przypuśćmy, że ta macierz jest odwracalna; wtedy A · A−1 = I i 1 = det(A · A−1 ) = det A det A−1 , czyli det A 6= 0 i det A−1 = det1 A . Ponadto można wykazać, że dla dowolnych i, j = 1, ..., N, A−1 bij = ĆWICZENIE: Znajdź macierz 2 1 (−1)i+j det Mji (A) . det A X spełniającą równanie: 1 6 −10 5 1 −1 ·X= + . 3 1 2 2 2 −2 Jeśli det A 6= 0, to kolumny macierzy są liniowo niezależne (gdyby tak nie było, to – zgodnie z przyjętą definicją – wyznacznik by znikał); zatem rank A = N. Tym samym widzimy, że macierz A jest nieosobliwa wtedy i tylko wtedy, gdy det A 6= 0. 7 Jacques Philippe Marie Binet (ur. 2 lutego 1786 w Rennes, zm. 12 maja 1856 w Paryżu) – francuski matematyk, fizyk i astronom. Jacques Philippe Marie Binet był absolwentem École Polytechnique, a następnie wykładowcą na tej uczelni. Zajmował się teorią liczb i algebrą macierzy, jest autorem jawnego wzoru na n-ty wyraz ciągu Fibonacciego. Od 1823 roku przez ponad 30 lat zajmował katedrę astronomii w Colle‘ge de France. 1 maja 1821 roku został odznaczony Legią Honorową V klasy, w 1843 roku wybrany na członka Francuskiej Akademii Nauk. 17 1.2. ELEMENTY ALGEBRY LINIOWEJ Jeśli A ∈ L(RN , RN ) jest przekształceniem liniowym, to wyznacznikiem A nazwiemy liczbę det A := det A, gdzie A ∈ MNN jest macierzą stowarzyszoną A. Warto też pamiętać, że dla dowolnej macierzy A ∈ MMN , rank A = r wtedy i tylko, gdy istnieje podmacierz kwadratowa B macierzy A wymiaru (r × r) (tzn. macierz powstająca z A poprzez wykreślenie M − r wierszy i N − r kolumn; przypomnijmy, że rank A ≤ min{M, N}), której wyznacznik det B 6= 0 i każda podmacierz kwadratowa wymiaru (s × s), gdzie s > r, ma wyznacznik równy 0. 1.2.D Układy równań liniowych Rozważmy następujący układ a11 x1 a21 x1 .. . aM1 x1 M równań z N niewiadomymi + a12 x2 + a22 x2 + ... + a1N xN + ... + a2N xN + aM2 x2 + ... + aMN xN = b1 = b2 .. . = bM . w którym liczby aij oraz bi dla i = 1, ..., M, j = 1, ..., N są dane, zaś poszukiwane są liczby xj , j = 1, ..., N, zadośćczyniące powyższym równościom. Z układem tym stowarzyszamy tzw. macierz a11 a12 a21 a22 A= . .. .. . aM1 aM2 układu, tzn. macierz A = [aij ] i=1,...M lub j=1,...,N ... a1N ... a2N .. . .. . . ... aMN Wówczas rozwiązanie polega na znalezienia takiego wektora x = [x1 , ..., xN ]T , że A · x = b, gdzie b = [b1 , ..., bM ]T jest tzw. kolumną wyrazów wolnych (jest to, jak widać, wektor w RM ). Tak więc rozwiązanie danego układu de facto sprowadza się do znalezienia rozwiązania x ∈ RN takiego, że A(x) = b, gdzie A jest przekształceniem liniowym odpowiadającym macierzy A. Układ, który nie ma rozwiązań, nazywa się sprzecznym; jeżeli zbiór rozwiązań układu jest niepusty, to nazywa się go niesprzecznym. Układ niesprzeczny, który ma dokładnie jedno rozwiązanie, nazywa się oznaczonym; układy o więcej niż jednym rozwiązaniu nazywa się nieoznaczonymi -– w taki przypadku układ ma nieskończenie wiele rozwiązań. Układ niedookreślony, w którym jest mniej równań niż niewiadomych, tzn. M < N jest na ogół nieoznaczony; układ nadokreślony mający więcej równań niż niewiadomych (tzn. gdy M > N) zazwyczaj jest sprzeczny; zaś układ, który ma tyle równań co niewiadomych (N = M) jest często oznaczony. Z twierdzenie Kroneckera-Capellego wynika następujący podstawowy fakt. 1.2.2 TWIERDZENIE (Kroneckera-Capellego-Rouché (8 )): Niech A ∈ MMN . Wówczas: (1) jeśli N > M, to układ Ax = 0 ma rozwiązanie x 6= 0; 8 Eugéne Rouché (ur. 18 sierpnia 1832 w Sommiéres, zm. 19 sierpnia 1910 w Lunel) – matematyk francuski. Był absolwentem słynnej École Polytechnique w Paryżu, która ukończył w 1852 r. Następnie pracował jako nauczyciel matematyki w (nie mniej słynnym) liceum Karola Wielkiego, profesor w École Centrale. Znane jest jego twierdzenie z analizy zespolonej (twierdzenie Rouché’go) opublikowane w 1862 r., a także sformułowany to rezultat z algebry liniowej. 18 1. PRZESTRZEŃ EUKLIDESOWA (2) układ Ax = b ma rozwiązanie (jest niesprzeczny) wtedy i tylko wtedy, gdy rank A = rank [a1 |a2 |...|aN |b], przy czym wówczas zbiór rozwiązań tworzy podprzestrzeń afiniczną wymiaru N − rank A; w szczególności jest to układ oznaczony, gdy rank A = N; (3) jeśli N = M, to układ Ax = b ma rozwiązanie dla dowolnego b wtedy i tylko wtedy, gdy układ Ax = 0 ma jedynie rozwiązanie zerowe. Macierz Au := [a1 |a2 |...|aN |b], o której mowa w powyższym twierdzenie nazywa się macierzą dołączoną i powstaje poprzez „dopisanie” po prawej stronie do macierzy A kolumny wyrazów wolnych (patrz też notacja (1.2.3). Oczywiście liczba liniowo niezależnych kolumn w macierzy dołączonej może być, co najwyżej, większa niż liczba tego rodzaju kolumn w macierzy układu; zatem rank Au ≥ rank A. Warto by Czytelnik przypomniał z wykładu algebry liniowej metody rozwiązywania układów niesprzecznych. W świetle twierdzenia Kroneckera-Capelliego układ kwadratowy Ax = b, tzn. gdy N = M, jest oznaczony wtedy i tylko wtedy, gdy rank A = N, a więc, gdy det A 6= 0. Wtedy o jego metodzie poszukiwania rozwiązań mówi następujące twierdzenie. 1.2.3 TWIERDZENIE (reguła Cramera (9 )): Niech A ∈ MNN będzie macierzą kwadratową i det A 6= 0. Wtedy układ Ax = b ma dokładnie jedno rozwiązanie x = [x1 , ..., xN ]T , gdzie xi = det Bi , i = 1, ..., N, det A gdzie Bi := [a1 |...|ai−1 |b|ai+1 |...|aN ] jest macierzą powstałą z A poprzez zastąpienie i-tej kolumny przez kolumnę wyrazów wolnych. ĆWICZENIE: (1) Metodą Cramera rozwiązać układ równań: 2x + y − z = −1 3x + y + z = 0 −x + 2y − 5z = 0. (2) Wykorzystując twierdzenie Kroneckera-Capellego rozwiązać układ równań: 3x − 5y + z − 2t = 0 −x + y − z + 3t = 1. 1.2.E Przekształcenia wieloliniowe Rozważymy jedynie szczególny przypadek. Dla k ∈ N, przekształcenie N A : RkN = R ... × RN} → RM | × {z k nazywamy k-liniowym, jeśli dla każdego i = 1, ..., k przekształcenie A jest liniowe jako funkcja i-tej zmiennej, przy ustalonych pozostałych zmiennych. Tzn. dla dowolnych skalarów α, β ∈ R 9 Gabriel Cramer (ur. 31 lipca 1704 w Genewie, zm. 4 stycznia 1752) – szwajcarski matematyk i fizyk. Był uczniem Johanna Bernoulliego (opublikował jego dzieła) i profesorem uniwersytetu w Genewie. Cramer opublikował szereg prac z zakresu teorii wyznaczników (wzory Cramera), analizy matematycznej, teorii krzywych algebraicznych (m.in. badał własności tzw. diabelskiej krzywej) oraz historii matematyki. W 1728 podał propozycję rozwiązania tzw. paradoksu petersburskiego. W 1750 r. podaje (sformułowane poniżej) wzory (ponoć już wcześniej odkryte przez Colina Maclaurina w 1729 r.) wyrażające rozwiązanie układu równań za pomocą wyznaczników. 1.2. ELEMENTY ALGEBRY LINIOWEJ 19 oraz x1 , x2 , ..., xi−1 , xi0 , xi00 , xi+1 , ..., xk ∈ RN A(x1 , ..., xi−1 , αxi0 + βxi00 , xi+1 , .., xk ) = αA(x1 , ...xi+1 , xi0 , xi+1 , ..., xk ) + βA(x1 , ..., xi−1 , xi00 , xi+1 , ..., xk ). Zbiór przekształceń k-liniowych oznaczamy symbolem Lk (RN , RM ). Tworzy on przestrzeń liniową z dodawaniem i mnożeniem przez liczby rzeczywiste zdefiniowanymi w oczywisty sposób. Zauważmy, że L(RN , RM ) = L1 (RN , RM ). Przekształcenie k-liniowe A : RkN → RM jest symetryczne, jeżeli dla dowolnej permutacji σ ∈ Sk oraz x1 , ..., xk ∈ RN , A(x1 , ..., xk ) = A(xσ(1) , ..., xσ(k) ); oraz skośnie symetryczne lub alternujące, jeżeli A(x1 , ..., xk ) = sgn σA(xσ(1) , ..., xσ(k) ). Zbiór symetrycznych (odp. alternujących) przekształceń k-liniowych oznaczamy Lsk (RN , RM ) (odp. Lak (RN , RM )). ĆWICZENIE: Sprawdzić, że zbiory Lsk (RN , RM ) i Lak (RN , RM ) są podprzestrzeniami liniowymi w Lk (RN , RM ). Podobnie jak w przypadku przekształceń liniowych, z każdym przekształceniem k-liniowym A : RkN → RM można stowarzyszyć macierz wielowskaźnikową (a konkretnie (k+1)-wskaźnikową) A = [aij1 j2 ...jk ] i=1,...,M , gdzie js =1,...,N, s=1,...,k aij1 ...jk := hei , A(ej1 , ..., ejk ), i = 1, ..., M, j1 , ..., jk ∈ {1, ..., N}, gdzie – jak poprzednio – ei jest i-tym wersorem osi w RM , zaś ejs , s = 1, ..., k, jest js -tym wersorem osi w RN . Zatem dla dowolnych x1 , ..., xk ∈ RN , gdzie dla s = 1, ..., k, xs = (xs1 , ...xsN ), A(x1 , ..., xk ) = y = (y1 , ..., yM ), gdzie (1.2.8) yi = N X aij1 ...jk x1j1 · ... · xkjk , i = 1, ..., M. j1 ,...jk =1 Jeśli przekształcenie k-liniowe A jest symetryczne, to dla dowolnych i = 1, ..., M, j1 , ..., jk ∈ {1, ..., M} i dowolnej permutacji σ ∈ Sk , (1.2.9) aij1 j2 ...jk = aijσ(1) jσ(2) ...jσ(k) , tzn. liczba aij1 ...jk nie zależy od porządku wskaźników. Z obserwacją tą wiąże się pewna przydatna konwencja notacyjna, którą teraz pokrótce omówimy. Notacja multiindeksowa 10 N-wymiarowym multiindeksem nazywamy uporządkowany układ α = (α1 , α2 , ..., αN ) ∈ ZN + ( ) liczb całkowitych nieujemnych αj (j = 1, ..., N). Dla danych α = (α1 , ..., αN ), β = (β1 , ..., βN ) ∈ ZN + 10 Z+ := {0.1, ...}. 20 1. PRZESTRZEŃ EUKLIDESOWA wprowadzamy oznaczenia: α ± β := (α1 ± β1 , ...αN ± βN ), |α| := N X αj , α! := α1 !...αN !, j=1 α ≤ β ⇔ ∀ j = 1, ..., N αj ≤ βj oraz, jeśli α ≤ β, to β β! := . α!(β − α)! α Liczbę |α| nazywa się zwykle długością multiindeksu α. Ponadto, dla danego wektora x = (x1 , ..., xN ) ∈ RN , kładziemy x α = x1α1 ...xNαN . ĆWICZENIE: Aby zrozumieć użyteczność wprowadzonej notacji, polecamy Czytelnikowi wyprowadzenie wzoru X n! α h . (x1 + ... + xN )n = α! N α∈Z+ , |α|=n Przypuśćmy teraz, że A ∈ Lsk (RN , RM ). Niech x = (x1 , ..., xN ) ∈ RN . Zgodnie ze wzorem (1.2.8), jeśli y = A(x, x, ..., x) i y = (y1 , ..., yM ), to (1.2.10) yi = N X aij1 ...jk xj1 · ... · xjk dla i = 1, ..., M. j1 ,...,jk =1 We wzorze tym sumowanie odbywa się po wszystkich k-elementowych układach uporządkowanych (j1 , ..., jk ), w których js = 1, ..., N dla s = 1, ..., k. Ponieważ A jest odwzorowaniem symetrycznym, ma zatem miejsce zależność (1.2.9), i iloczyn xj1 ...xjk nie zależy od porządku w wybranym układzie, więc składnik aij1 ...jk xj1 ...xjk również nie zależy od porządku. Powiemy, że układy (j1 , ..., jk ) oraz (i1 , ..., ik ) są równoważne, gdy różnią się jedynie porządkiem elementów. Innymi słowy, jeżeli układy (j1 , ..., jk ) i (i1 , ..., ik ) są równoważne, to aij1 ...jk xj1 ...xjk = aii1 ...ik xi1 ...xik , tak więc równoważne układy dają ten sam wkład do wzoru (1.2.10). Każdemu układowi postaci (j1 , ..., jk ) można przyporządkować multiindeks α = (α1 , ..., αN ) ∈ ZN + , gdzie αj , dla j = 1, ..., N, jest liczbą wystąpień liczby j w układzie (j1 , ..., jk ). Jest jasne, że wówczas |α| = k oraz aij1 ...jk xj1 · ... · xjk = aiα x α , (∗) gdzie przyjęliśmy aiα = aij1 ...jk tzn. aiα = hei , A(ej1 , ..., ejk )i, i = 1, ..., M, α ∈ ZN + , |α| = k. Jest jasne, że układom równoważnym odpowiada ten sam multiindeks. Na odwrót, danemu multiindeksowi α ∈ ZN + o długości |α| = k można przyporządkować układ (j1 , ..., jk ), w którym 1 występuje α1 razy, 2 występuje α2 razy itd. Opisane przyporządkowania są wzajemnie jednoznoznaczne w tym sensie, że układom równoważnym odpowiada ten sam multiindeks, zaś układy odpowiadające multiindeksowi są równoważne. Mówiąc nieco „mądrzej” opisaliśmy bijekcję pomiędzy zbiorem klas abstrakcji relacji równoważności układów postaci (j1 , ..., jk ) a zbiorem multiindeksów α ∈ ZN + o długości k. Należy jeszcze obliczyć liczebność każdej z klas 21 1.2. ELEMENTY ALGEBRY LINIOWEJ abstrakcji tej relacji, tzn. obliczyć ile układów odpowiada danemu multiindeksowi α ∈ ZN + o długości k. ĆWICZENIE: Stosując indukcję matematyczną nietrudno udowodnić, że liczba ta wynosi Wobec tego każde wyrażenie (∗) występuje we wzorze można napisać yi = (1.2.11) X α∈ZN + , |α|=k k! α! k! α! razy. A zatem zamiast (1.2.10) k! aiα x α dla i = 1, ..., M. α! Czytelnik musi przyznać, że otrzymany wzór (1.2.11) jest znacznie bardziej „ekonomiczny” niż wzór (1.2.10). W szczególności, jeśli φ : R2N → R jest przekształceniem 2-liniowym (mówi się, że φ jest funkcjonałem dwuliniowym lub formą dwuliniową), to stowarzyszona jest z nim macierz kwadratowa A = [aij ] i=1,...,N ∈ MNN , gdzie aij = φ(ei , ej ) (tutaj ei (odp. ej ) jest i-tym (odp. j-tym) j=1,...,N wersorem osi w RN ) oraz dla x = (x1 , ...xN ) ∈ RN oraz y = (y1 , ..., yN ) ∈ RN , φ(x, y) = N X aij xi yj . i,j=1 Łatwo dostrzec, że φ(x, y) = hx, A(y)i = xT · A · y, gdzie – jak zwykle – wektory x i y (zapisane w postaci kolumnowej!) odpowiadają x i y, natomiast A jest przekształceniem liniowym stowarzyszonym z macierzą A. Stąd wynika następująca charakteryzacja form dwuliniowych: przekształcenie φ : RN × → R jest dwuliniowe wtedy i tylko wtedy, gdy istnieje przekształcenie liniowe A : RN → RN takie, że φ(x, y) = hx, A(y)i, x, y ∈ RN . RN Dla dowodu wystarczy zauważyć, że tym istniejącym przekształceniem liniowym jest przekształcenie stowarzyszone z macierzą A. Jest jasne, że forma dwuliniowa φ ∈ L2 (RN , R) jest symetryczna wtedy i tylko wtedy, gdy macierz A z nią stowarzyszona jest symetryczna, tzn. A = AT oraz alternująca, gdy A = −AT (w szczególności aii = 0 dla dowolnego i = 1, ..., N. 1.2.F Formy kwadratowe i ich określoność Niech φ ∈ L2 (RN , R) będzie formą dwulinową. Funkcję F : RN → R daną wzorem F(x) := φ(x, x), x ∈ RN , nazywa się funkcjonałem kwadratowym lub formą kwadratową. UWAGA: (i) Funkcja F : RN → R jest formą kwadratową wtedy i tylko wtedy, gdy dla dowolnych λ ∈ R i x ∈ RN , F(λx) = λ 2 F(x) oraz przekształcenie ψ : RN × RN → R, dane wzorem ψ(x, y) := 21 (F(x + y) − F(x) − F(y)) dla x, y ∈ RN , jest symetryczną formą dwuliniową (mówimy też, że symetryczna forma dwuliniowa ψ odpowiada formie kwadratowej F lub, że ją wyznacza). 22 1. PRZESTRZEŃ EUKLIDESOWA Konieczność podanego warunku jest oczywista (wystarczy zauważyć, że wtedy ψ(x, y) = x, y ∈ RN , gdzie φ jest formą dwuliniową z definicji. Dla dowodu dostateczności wystarczy zauważyć, że F(x) = ψ(x, x) dla x ∈ RN . 1 2 (φ(x, y) + φ(y, x)), Jeśli F : RN → R jest formą kwadratową, to stowarzyszona z nią jest macierz symetryczna A = [aij ] i=1,...,N ∈ MNN taka, że j=1,...,N F(x) = N X aij xi xj , x = (x1 , ..., xn ) ∈ RN , i,j=1 oraz aij = lub 1 (F(ei + ej ) − F(ei ) − F(ej )) = ψ(ei , ej ), i, j = 1, ..., N, 2 F(x) = xT · A · x = hx, A(x)i, gdzie A ∈ L(RN , RN ) jest przekształceniem stowarzyszonym z macierzą A. 1.2.4 DEFINICJA: Mówimy, że forma kwadratowa F : RN → R jest dodatnia (odp. nieujemna, niedodatnia, ujemna), jeżeli dla dowolnego x ∈ RN , x 6= 0, F(x) > 0 (odp. F(x) ≥ 0, F(x) ≤ 0, F(x) < 0). Mówimy, że forma kwadratowa jest dodatnio (odp. ujemnie) określona, jeżeli istnieje stała c > 0 taka, że dla każdego x ∈ RN , x 6= 0, F(x) ≥ ckxk2 (odp. F(x) ≤ −ckxk2 ). Jest jasne, że forma kwadratowa F jest ujemnie określona wtedy i tylko wtedy, gdy forma −F jest dodatni określona. 1.2.5 FAKT: Forma kwadratowa F : RN → R jest dodatnio (odp. ujemnie) określona wtedy i tylko wtedy, gdy jest dodatnia (odp. ujemna). DOWÓD: Oczywiście, jeśli forma F jest dodatnio określona, to jest dodatnia. Na odwrót załóżmy, że forma jest dodatnia. Niech c := inf x∈S N−1 F(x) (11 ). Oczywiście dla każdego x ∈ S N−1 , F(x) > 0. Ciągłość F wraz ze zwartością sfery S N−1 implikuje, że c > 0. Jeśli x ∈ RN oraz x 6= 0, to kxk1 x ∈ S N−1 i c ≤ F(kxk−1 x) = kxk−2 F(x), czyli F(x) ≥ ckxk2 . To dowodzi dodatniej określoności F. Analogicznie pokazujemy, że ujemne formy kwadratowe są ujemnie określone. Następujące twierdzenie stanowi bardzo wygodne kryterium określoności form kwadratowych. 1.2.6 TWIERDZENIE (Sylvestera): Niech F : RN → R będzie formą kwadratową, zaś A = [aij ] i=1,...,N macierzą z nią stowarzyszoną. Forma jest dodatnio (odp. ujemnie) określona wtedy j=1,...,N i tylko wtedy, gdy dla dowolnego i = 1, ..., N, det Ai > 0 (odp. (−1)i det Ai > 0), gdzie Ai oznacza macierz powstałą z macierzy A poprzez odrzucenie ostatnich N − i wierszy i kolumn, tzn. a11 a12 ... a1i a21 a22 ... a2i Ai = . .. .. . . . . . . . . ai1 ai2 ... aii Niezbyt przyjemny dowód tego twierdzenia można znaleźć w dobrych podręcznikach algebry liniowej. 11 Przypomnijmy to, że S N−1 := {x ∈ RN | kxk = 1} jest tzw. (N − 1)-wymiarową sferą. 1.3. ELEMENTY TOPOLOGII PRZESTRZENI EUKLIDESOWYCH 1.3 23 Elementy topologii przestrzeni euklidesowych 1.3.A Zbieżność ciągów N 12 N 13 Rozważmy ciąg (xn )∞ n=1 ⊂ R ( ), gdzie xn = (xn1 , ..., xnN ) ∈ R dla n ∈ N ( ). Ciąg ten jest zbieżny do granicy x = (x1 , ..., xN ), o ile dla dowolnego ε > 0 istnieje takie n0 ∈ N, że kxn − xk < ε przy n ≥ n0 . Piszemy wtedy x = limn→∞ xn lub xn → x przy n → ∞ UWAGA: Mamy xn → x przy n → ∞ wtedy i tylko wtedy, gdy ciąg liczbowy (kxn − xk)∞ n=1 jest zbieżny do 0 (uzasadnić). Dla uproszczenia notacji często piszemy (xn ) zamiast (xn )∞ n=1 oraz xn → x zamiast xn → z przy n → ∞ licząc na domyślność Czytelników. Ciąg jest zbieżny, gdy jest zbieżny do jakiejś granicy. ĆWICZENIE: (i) Pokaż, że ciąg zbieżny ma jednoznacznie wyznaczoną granicę. (ii) Udowodnij, że ciąg zbieżny jest ograniczony (tzn. zbiór jego wyrazów jest ograniczony). (iii) Pokazać, że dowolny podciąg ciągu zbieżnego jest również zbieżny do tej samej granicy. (iv) Pokazać, że jeśli każdy właściwy podciąg ciągu (xn ) zawiera podciąg zbieżny, to ciąg ten jest zbieżny. 1.3.1 FAKT: Ciąg (xn ) jest zbieżny do x wtedy i tylko wtedy, gdy dla każdego j = 1, ..., N, xj = limn→∞ xnj . Tak więc zbieżność ciągu w RN jest równoważna tzw. zbieżności po współrzędnych. DOWÓD: Istotnie: jeśli xn → x w RN , to dla dowolnego j = 1, ..., N, v u N uX 0 ≤ |xnj − xj | ≤ t (xni − xi )2 = kxn − xk → 0; i=1 z twierdzenia o trzech ciągach wnosimy, że xnj → xj , gdy n → ∞. Na odwrót, jeżeli, dla dowolnego j = 1, ..., N, xnj → xj , to limn→∞ (xnj − xj )2 = 0. Zatem N X 0 = lim n→∞ (xnj − xj )2 . j=1 √ Ciągłość funkcji · implikuje, że także limn→∞ kxn − xk = 0, co jest równoważne zbieżności ciągu (xn ) do granicy x. Warto ten fakt zilustrować „graficznie”: jeśli rozpiszemy wyrazy ciągu w postaci nieskończonej tablicy: x1 = (x11 , x12 , ..., x1N ) x2 = (x21 , x22 , ..., x2N ) .. .. .. .. . . . . xn = (xn1 , xn2 , ..., xnN ) ↓ ↓ ↓ ↓ x = (x1 , x2 , ..., xN ), 12 N Ten zapis jest niepoprawny; należałoby napisać {xn }∞ co znaczy, że zbiór wyrazów ciągu (xn ) jest n=1 ⊂ R zawarty w RN . Piszemy (xn ) ⊂ RN dla skrótu „(xn ) jest ciągiem o wyrazach w przestrzeni RN ” 13 Czytelnik powinien w tym miejscu zrozumieć przyjętą notację: kolejne wyrazy rozważanego ciągu zależą od n ∈ N, poza tym oczywiście – jako elementy przestrzeni RN – posiadają współrzędne. Symbol xnj , n ∈ N, 1 ≤ j ≤ N, odpowiada j-tej współrzędnej n-tego wyrazu ciągu. 24 1. PRZESTRZEŃ EUKLIDESOWA w której zbieżność, przy n → ∞, ciągu stojącego w lewej kolumnie jest równoważna zbieżności ciągów tworzących kolumny stojące po prawej stronie. UWAGA: W przypadku ciągów o wyrazach w RN nie mówi się o granicach niewłaściwych (przypomnieć to pojęcie w odniesieniu do ciągów liczbowych). Można jednak mówić o takich ciągach (xn ) ⊂ RN , że kxn k → ∞. O nich także mówi się niekiedy, że „dążą do nieskończoności”. PRZYKŁADY: Zbadać zbieżność następujących ciągów o wyrazie ogólnym: n−1 1 √ (1) xn = 2n+1 , 2n , n n ; √ √ (2) xn = 2 − n1 , n2 , n + 1 − n, −1 . ĆWICZENIE: Pokaż, że ograniczony ciąg (xn ) ⊂ RN ma podciąg zbieżny (tzw. uogólnione twierdzenie Bolzano-Weierstrassa). To łatwe ćwiczenie ma wiele zastosowań, a poza tym w dowodzie pojawia się dość istotne rozumowanie. Przypuśćmy, że kxn k ≤ M dla wszystkich n ∈ N (ograniczoność zbioru {xn }∞ n=1 ). Ustalmy j = 1, ..., N. Mamy 2 xnj ≤ N X 2 xni = kxn k2 ≤ M 2 , n ∈ N. i=1 Oznacza to, że ciąg (liczbowy) (xnj )∞ n=1 jest ograniczony. Z (klasycznego) twierdzenie BolzanoWeierstrassa ciąg (xnj ) ma podciąg zbieżny. Problem w tym, że taki podciąg zależy od liczby j. Aby ten problem rozstrzygnąć rozważmy szczególny przypadek: N = 2. W pierwszym kroku wybieramy podciąg zbieżny ciągu (xn1 ). Powiedzmy, że jest to ciąg o numerach n1 < n2 < ..., tzn. wiemy, że ciąg (xnk 1 )∞ k=1 jest ∞ zbieżny do granicy x1 . W drugim kroku rozważamy ciąg drugich współrzędnych (xnk 2 )k=1 . Jest to podciąg ciągu (xn2 ); niestety nie musi być zbieżny, lecz – jako podciąg ciąg ograniczonego – jest on ograniczony. Ma zatem podciąg zbieżny do granicy x2 ; jest to podciąg podciągu ciągu (xn2 ), a zatem jest to też podciąg ciągu (xn2 ) i ma postać (xnkm 2 ), gdzie nk1 < nk2 < ... jest podciągiem ciągu (nk )∞ k=1 . Wreszcie wracamy do zbieżnego do (pod)ciągu (xnk 1 ) zbieżnego do x1 . Ciąg (xnkm 1 )∞ jest jego podciągiem – jest on więc również zbieżny do x1 . Tym sposobem m=1 uzyskaliśmy podciąg (xnkm 1 , xnkm 2 )∞ m=1 wyjściowego ciągu (xn = (xn1 , xn2 )) zbieżny do punktu (x1 , x2 ). Czytelnik powinien uogólnić to rozumowanie na przypadek dowolnego N ≥ 2. Takie „piętrowe” rozumowanie jest obecne w wielu argumentacjach dotyczących funkcji wielu zmiennych i każdy powinien je doskonale zrozumieć i opanować. Przestrzeń metryczna RN jest przestrzenią zupełną, tzn. 1.3.2 TWIERDZENIE: Ciąg (xn ) ⊂ RN jest zbieżny wtedy i tylko wtedy, gdy spełnia tzw. warunek Cauchy’ego (lub jest ciągiem Cauchy’ego), tzn. dla dowolnego ε > 0 znajdzie się taką liczbę n0 ∈ N, że dla n, m ≥ n0 , kxn − xm k < ε. DOWÓD: Zacznijmy od konieczności podanego warunku: zakładamy, że ciąg (xn ) jest zbieżny, x = limn→∞ xn , i wybierzmy dowolne ε > 0. Z definicji (zbieżności) wynika, że istnieje liczba n0 taka, że kxn − xk < ε/2, o ile n ≥ n0 . Weźmy dowolne n, m ≥ n0 . Wtedy kxn − xk < ε/2 oraz kx − xm k = kxm − xk < ε/2. Stąd kxn − xm k = k(xn − x) + (x − xm )k ≤ kxn − xk + kx − xm k < ε/2 + ε/2 = ε. Dla dowodu dostateczności załóżmy obecnie, że ciąg (xn ) spełnia warunek Cauchy’ego. Pokażemy, że ciąg ten jest zbieżny. W tym celu należy skonstruować punkt x = (x1 , ..., xN ) i 1.3. ELEMENTY TOPOLOGII PRZESTRZENI EUKLIDESOWYCH 25 pokazać, że x = limn→∞ xn . Ustalmy numer współrzędnej j = 1, ..., N. Twierdzę, że ciąg liczbowy j-tych współrzędnych (xnj ) spełnia warunek Cauchy’ego. W tym celu weźmy ε > 0. Z założenia znajdziemy n0 ∈ N takie, że v u N uX |xnj − xmj | ≤ t (xni − xmi )2 = kxn − xm k < ε. i=1 Wobec tego istnieje xj = limn→∞ xnj ∈ R. Skoro xj jest wyznaczone dla dowolnego j = 1, ..., N, to uzyskujemy punkt x := (x1 , ..., xN ) oraz xn → x przy n → ∞ (bo ma miejsce zbieżność po współrzędnych). UWAGA: Należy zauważyć, że jeśli ciągi (xn ) i (yn ) o wyrazach w RN sa zbieżne, to również ciąg (xn ± yn ) jest zbieżny (udowodnić). Co np. będzie granicą ciągu sum? Czy ma sens (w kontekście powyższego) mówić o ciągu iloczynów (xn yn ) lub ilorazów (x + n/yn )? Czy ma sens mówić o ciągach „monotonicznych” w RN ? ĆWICZENIE: (2) Jeśli ciąg liczbowy (λn ) jest zbieżny do 0, zaś ciąg (xn ) ⊂ RN jest ograniczony, to λn xn → 0 (dostrzec różnicę: jedno 0 to zero „liczbowe”, drugie zero to wektor w RN – to częsta okoliczność). (2) Przypuśćmy, że λn ∈ R i λn → λ. Jeśli (xn ) ⊂ RN i xn → x, to λn xn → λx. Rzeczywiście kλn xn − λxk ≤ |λn − λ|kxn k + |λ|kxn − xk. Pierwszy składnik dąży do 0 z pierwszej części ćwiczenia, drugi też (dlaczego?). Zatem i ich suma dąży do 0. Reszta wynika z twierdzenia o trzech ciągach. (3) Naśladując powyższy dowód pokazać, że jeżeli xn → x i yn → y, to hxn , yn i → hx, yi. UWAGA: Do ciągów i manipulacji ciągami należy się dobrze przyzwyczaić: często się ich używa. 1.3.B Zbiory otwarte, domknięte i inne Kulą w RN otwartą (odp. domkniętą) o środku w punkcie p ∈ RN i promieniu r > 0 nazywamy zbiór B(p, r) := {x ∈ RN | kx − pk < r} (odp. D(p, r) := {x ∈ RN | kx − pk ≤ r}). Wygodnie też mówić o tzw. sąsiedztwie S(p, r) := {x ∈ RN | 0 < kx − pk < r}. ĆWICZENIE: Opisać analitycznie kulę otwartą i domkniętą na płaszczyźnie R2 i w przestrzeni R3 . UWAGA: Ciąg (xn ) ⊂ RN jest zbieżny do x, tzn. xn → x, o ile każda kula o środku w x zawiera prawie wszystkie wyrazy ciągu (uzasadnić to stwierdzenie przypominając frazę „prawie wszystkie). UWAGA: Kule otwarte o środku w punkcie p nazywa się czasem jego otoczeniami, zaś sąsiedztwa otoczeniami „nakłutymi”. Terminologia jest jasna z geometrycznego punktu widzenia. Niech A ⊂ RN . Punkt x ∈ A jest punktem wewnętrznym, gdy istnieje liczba r > 0 taka, że B(x, r) ⊂ A. 26 1. PRZESTRZEŃ EUKLIDESOWA ZBIORY OTWARTE Zbiór U ⊂ RN jest otwarty, gdy każdy jego punkt jest punktem wewnętrznym; a zatem: dla dowolnego x ∈ U istnieje taka liczba rx > 0 (zależna od x), że B(x, rx ) ⊂ U. ĆWICZENIE: (1) Pokazać, że kula otwarta B(p, r) jest zbiorem otwartym. (2) Udowodnić, że jeśli w rodzinie {Ui }i∈I (skończonej lub nie) każdy ze zbiorów Ui ⊂ RN , S i ∈ I, jest otwarty, to suma mnogościowa i∈I Ui jest zbiorem otwartym. (3) Pokazać, że powyższy fakt jest prawdziwy dla iloczynu mnogościowego jedynie dla rodzin skończonych. ZBIORY DOMKNIĘTE Zbiór K ⊂ RN jest domknięty, gdy jego dopełnienie RN \ K jest otwarte. PRZYKŁAD: Kula domknięta D(p, r) jest zbiorem domkniętym. Rzeczywiście: pokażemy, że dopełnienie RN \ D(p, r) jest otwarte. Weźmy x 6∈ D(p, r), tzn. kx − pk > r. Niech rx = kx − pk − r > 0. Pokażemy, że B(x, rx ) ⊂ RN \ D(p, r), tzn. B(x, rx ) ∩ D(p, r) = ∅. Gdyby tak nie było, to znalazłby się punkt y ∈ B(x, rx ) ∩ D(p, r), czyli kx − yk < rx oraz kp − yk ≤ r; a więc kx − pk ≤ kx − yk + ky − pk < rx + r = kx − pk : sprzeczność. ĆWICZENIE: Iloczyn mnogościowy dowolnej rodziny zbiorów domkniętych jest domknięty, a suma skończonej rodziny zbiorów domkniętych jest domknięta. ĆWICZENIE: (1) Który ze zbiorów z ćwiczenia ze strony 6 jest otwarty, a który domknięty? (2) Wykaż, że zbiór par (p, q) takich, że trójmian x 2 + px + q ma pierwiastki rzeczywiste jest zbiorem domkniętym. 1.3.3 TWIERDZENIE: (Ciągowa charakteryzacja domkniętości zbioru) Zbiór K ⊂ RN jest domknięty wtedy i tylko wtedy, gdy wraz z każdym ciągiem zbieżnym elementów zbioru K należy doń granica, tzn. jeśli (xn ) ⊂ K i xn → x, to x ∈ K. DOWÓD: Konieczność: Niech (xn ) ⊂ K i x = limn→∞ xn . Przypuśćmy, że x 6∈ K; czyli x ∈ RN \K. Ten zbiór jest otwarty; zatem istnieje takie r > 0, że B(x, r) ∩ K = ∅. Z drugiej strony (ze zbieżności wynika, że) do kuli B(x, r) należą prawie wszystkie wyrazy ciągu: sprzeczność. Dostateczność: Przypuśćmy nie wprost, że zbiór K nie jest domknięty, tzn. jego dopełnienie nie jest otwarte, czyli znajdzie się punkt x 6∈ K, który nie jest punktem wewnętrznym dopełnienia. Innymi słowy każda kula wokół x ma punkty wspólne z K (jeszcze inaczej: x jest punktem skupienia zbioru K). Zatem dla każdego n ∈ N znajdzie się punkt xn ∈ K ∩ B(x, 1/n). Oznacza to, w szczególności, że xn → x (rzeczywiście 0 ≤ kxn − xk < 1/n → 0). Z założenia x ∈ K: sprzeczność. PUNKTY SKUPIENIA Niech p ∈ RN i A ⊂ RN . Mówimy, że p jest punktem skupienia zbioru A, gdy dla każdego r > 0 przecięcie S(p, r) ∩ A 6= ∅. Innymi słowy w każdym otoczeniu punktu p znajdą się punkty ze zbiory A od niego różne. UWAGA: Punkty skupienia zbioru A nie muszą do A należeć! ĆWICZENIE: (1) Pokazać, że p jest punktem skupienia zbioru A wtedy i tylko wtedy, gdy istnieje ciąg (xn ) ⊂ A taki, że xn 6= p dla wszystkich n ∈ N oraz xn → p przy n → ∞. (2) Sprawdź, że dowolny punkt p ∈ RN taki, że kpk = 4 jest punktem skupienia kuli B(0, 4). (3) Pokazać, że zbiór K jest domknięty wtedy i tylko wtedy, gdy w jego dopełnieniu nie ma punktów skupienia zbioru K. 1.3. ELEMENTY TOPOLOGII PRZESTRZENI EUKLIDESOWYCH 27 Punkt p ∈ A, który nie jest punktem skupienia nazywa się punktem izolowanym zbioru. BRZEG ZBIORU Brzegiem zbioru A ⊂ RN nazwiemy zbiór punktów p ∈ RN , w których dowolnym otoczeniu znajdą się punkty zbioru A i jego dopełnienia. ĆWICZENIE: Znaleźć brzegi zbiorów z ćwiczenia ze strony 6. OBSZARY Mówimy, że zbiór U jest obszarem, gdy jest otwarty i jest łukowej spójności: dla dowolnych p, q ∈ U znajdzie się taka krzywa γ : [0, 1] → RN , że p = γ(0), q = γ(1) (jest to więc krzywa, której „końcami” są punkty p i q) o nośniku zawartym w U (tzn. γ(t) ∈ T dla dowolnego t ∈ [0, 1]. ĆWICZENIE: (1) Czy zbiór {(x, y) ∈ R2 | 4 < x 2 + y 2 < 9} jest obszarem? (2) Który ze zbiorów z ćwiczenia ze strony 6 jest obszarem? UWAGA: Czasem mówi się, że obszary to zbiory otwarte i spójne. Zainteresowany Czytelnik może sprawdzić w literaturze co oznacza, że zbiór A ⊂ RN jest spójny i sprawdzić, że w przypadku zbiorów otwartych wspomniana wyżej łukowa spójność i spójność są równoważne. POJĘCIE ZBIORU ZWARTEGO Powiadamy, że zbiór A ⊂ RN jest zwarty, gdy ma następującą własność: każdy ciąg (xn ) ⊂ A zawiera podciąg zbieżny do granicy należącej do zbioru A. UWAGA: Pojęcie zwartości jest jednym z fundamentalnych pojęć współczesnej matematyki. ĆWICZENIE: Każdy zbiór zwarty jest ograniczony i domknięty. Rzeczywiście, gdyby ten zbiór nie był ograniczony, to dla dowolnego n ∈ N znalazłby się w nim punkt xn o długości kxn k > n. Ten ciąg nie może zawierać podciągu zbieżnego (dlaczego?). Dowód domkniętości pozostawiam Czytelnikowi. Który ze zbiorów z ćwiczenia ze strony 6 jest zwarty? Jak się okazuje podane wyżej własności są również dostateczne dla zwartości. 1.3.4 TWIERDZENIE: (Charakteryzacja zwartości) Zbiór A ⊂ RN jest zwarty wtedy i tylko wtedy, gdy jest ograniczony i domknięty. DOWÓD: Konieczność była przedmiotem ćwiczenia. Dla dostateczności weźmy ciąg (xn ) ⊂ A. Ciąg ten jest ograniczony; zatem – z uogólnionego twierdzenie Bolzano-Weierstrassa, zawiera podciąg zbieżny do pewnego x ∈ RN . Z kolei domkniętość A i ciągowa charakteryzacja domkniętości implikują, że x ∈ A. . Mimo tej charakteryzacji, która – w zasadzie – umożliwia nie stosowanie pojęcia zwartości, często będziemy mówić o zbiorach zwartych (14 ). DOMKNIĘCIE ZBIORU Niech A ⊂ RN . Domknięciem zbioru A, oznaczanym symbolem A, nazywamy zbiór powstały poprzez dołączenie do niego wszystkich jego punktów skupienia. ĆWICZENIE: (ciągowa charakteryzacja domknięcia). Punkt p ∈ A wtedy i tylko wtedy, gdy istnieje ciąg (xn ) ⊂ A taki, że xn → p. Znaleźć domknięcie zbioru {(x, y, z) ∈ R3 | x 2 + y 2 < z2 , |z| < 1} OŚRODKOWOŚĆ PRZESTRZENI RN Przestrzeń RN jest ośrodkowa, tzn. istnieje w niej przeliczalny podzbiór A taki, że A = RN (mówi się w takiej sytuacji, że zbiór A jest gęsty w RN . Tym zbiorem jest np. zbiór QN := {(q1 , ..., qn ) | qj ∈ Q, j = 1, ..., N} (tutaj Q oznacza zbiór wszystkich liczb wymiernych). 14 W innych przestrzeniach zwartość zawsze implikuje ograniczoność i domkniętość, lecz nie na odwrót!. 28 1. PRZESTRZEŃ EUKLIDESOWA ĆWICZENIE: Sprawdzić, że jeśli A ⊂ RN , to A jest gęsty wtedy i tylko wtedy, gdy w dowolnej kuli znajdują się punkty ze zbioru A. Wykorzystując tę charakteryzację wykaż, że istotnie zbiór QN jest gęsty w RN . Dlaczego ten zbiór jest przeliczalny? ĆWICZENIE: Pokazać, że dowolny zbiór otwarty U ⊂ RN można przedstawić w postaci przeliczalnej sumy mnogościowej kul otwartych (a także kul domkniętych)(15 ). OTWARTE I DOMKNIĘTE PODZBIORY DOWOLNEGO ZBIORU Niech A ⊂ RN . Mówimy, że zbiór G ⊂ A jest otwarty (dodając dla porządku: w A), gdy G = A ∩ U, gdzie U ⊂ RN jest otwarty. ĆWICZENIE: Zbiór G ⊂ A jest otwarty wtedy i tylko wtedy, gdy dla dowolnego x ∈ G istnieje εx > 0 takie, że B(x, εx ) ∩ A ⊂ G. Analogicznie definiuje się domknięte podzbiory zbioru A: zbiór F ⊂ A jest domknięty w A, gdy F = A ∩ K, gdzie K ⊂ RN jest domknięty. ĆWICZENIE: Jak przy pomocy ciągów scharakteryzować domkniętość (w A) zbioru F ⊂ A? 1.4 Funkcje i odwzorowania wielu zmiennych Jak wspomniano poprzednio głównym przedmiotem zainteresowania są odwzorowania postaci f : A → RM , gdzie A ⊂ RN , N, M ≥ 1, oraz – w szczególności – funkcje f : A → R. 1.4.A Granica funkcji w punkcie Niech p ∈ RN będzie punktem skupienia zbioru A ⊂ RN i rozważmy funkcję f : A → R. Granicą (właściwą) funkcji f w punkcie p nazywamy liczbę g ∈ R taką, że dla każdego ε > 0 istnieje δ > 0 o tej własności, że jeśli x ∈ A oraz 0 < kx − pk < δ, to |f(x) − g| < ε. Piszemy wtedy g = limx→p f(x) lub f(x) → g, gdy x → p (czasem pisząc jeszcze x ∈ A, aby zaznaczyć jaka jest dziedzina funkcji f). Czasem piszemy też lim (x1 ,...,xN )→(p1 ,...,pN ) f(x1 , ..., xN ) lub lim x1 →p1 ,...,xn →pn f(x1 , ..., xn ). Jest to tzw. definicja Cauchy’ego. Można też sformułować tzw. definicję Heinego. Według tej definicji liczba g ∈ R jest granicą f w punkcie p, jeżeli dla dowolnego ciągu (xn ) ⊂ A takiego, że xn 6= p dla wszystkich n ∈ N oraz xn → p, mamy iż f(xn ) → g 1.4.1 TWIERDZENIE: Definicje Cauchy’ego i Heinego granicy funkcji w punkcie są równoważne. Dowód jest bezpośrednim powtórzeniem dowodu w sytuacji gdy f jest funkcją rzeczywista jednej zmiennej. Wskazówka: rozważyć zbiór A punktów leżących w U o współrzędnych wymiernych oraz kul o wymiernych promieniach o środkach ze zbioru A całkowicie zawartych w U. 15 1.4. FUNKCJE I ODWZOROWANIA WIELU ZMIENNYCH 29 ĆWICZENIE: Przytoczyć dowód naśladując wspomniany wyżej. UWAGA: Obie definicje są równoważne: pierwsza z nich odgrywa rolę przede wszystkim „teoretyczną”, druga ma zastosowanie praktyczne, szczególnie podczas dowodzenia, że granica nie istnieje. Należy zaznaczyć, że obliczanie z definicji granic funkcji wielu zmiennych nie jest łatwe. PRZYKŁAD: (1) Obliczyć granicę p lim x→0,y→0 16 + x 2 + y 2 − 4 . x2 + y2 W celu obliczenia granicy można postępować następująco: 1. Przede wszystkim widać, że funkcja „pod” znakiem granicy określona jest wszędzie poza punktem (0, 0); zatem punkt ten jest punktem skupienia dziedziny. Zauważmy, że zbieżność x → 0, y → 0 oznacza, że (x, y) → (0, 0), a to – z kolei – że kxk → 0 (byłoby korzystnie, gdyby Czytelnik precyzyjnie to uzasadnił),a więc też k(x, y)k2 → 0. Wtedy p p 16 + x 2 + y 2 − 4 16 − k(x, y)k2 − 4 = . x2 + y2 k(x, y)k2 W taki razie p √ 16 + x 2 + y 2 − 4 16 + t − 4 = lim , lim 2 2 t→0 t x +y (x,y)→(0,0) gdzie podstawiliśmy t := x 2 + y 2 = k(x, y)k2 . Tak więc √ √ √ ( 16 + t − 4)( 16 + t + 4) 1 1 16 + t − 4 √ = =√ → . t 8 ( 16 + t + 4)t 16 + t + 4 2. Teraz można posłużyć się definicją Cauchy’ego: ustalmy dowolne ε > 0 i postaramy się wyznaczyć taką liczbę δ > 0, że jeśli |t| < δ (czy znak modułu jest potrzebny?), to √ 16 + t − 4 1 − < ε. t 8 Prosty rachunek pozwoli na wyznaczenie potrzebnej liczby δ (Czytelnik ten rachunek zechce przeprowadzić). (2) Pokażemy, że funkcja f zadana wzorem f(x, y, z) = xyz x 3 + y 3 + z3 i określona na zbiorze A := {(x, y, z) ∈ R3 | x 3 + y 3 + z3 6= 0} nie ma granicy w punkcie p = (0, 0, 0). Przede wszystkim: punkt p = (0, 0, 0) jest punktem skupienia zbioru A (sprawdzić). W celu wykazania, że granicy brak wystarcza wskazać dwa ciągi zbieżne do p (o wyrazach różnych od p), np. (xn , yn , zn ) oraz (xn0 , yn0 , zn0 ) i takie, że ciągi (f(xn , yn , zn )) oraz (f(xn0 , yn0 , zn0 )) są rozbieżne lub zbieżne do różnych granic. Gdyby granica istniała, to taka sytuacja nie byłaby możliwa. Na przykład: weźmy xn = xn0 = yn = yn0 = zn = 1/n lecz zn0 = 0. Ciągi te spełniają podane warunki bo f(xn , yn , zn ) = 1/3 i f(xn0 , yn0 , zn0 ) = 0 (są to ciągi stałe) a więc zbieżne do granic 1/3 i 0, odpowiednio. 30 1. PRZESTRZEŃ EUKLIDESOWA ĆWICZENIE Obliczyć granice lub wykazać, że granica nie istnieje: 2 2 (1) lim(x,y)→(0,0) √ x2 +y2 ; (2) (3) (4) (5) x +y −1 xy lim(x,y)→(0,0) x 2 +y 2 ; 4 4 lim(x,y)→(0,0) xx 2 −y ; −y 2 5 lim(x,y)→(1,−1) (x−1)2 +(y+1) 2; xy lim(x,y)→(0,0) x−y ; (6) lim(x,y)→(a,b) x y GRANICE NIEWŁAŚCIWE I W NIESKOŃCZONOŚCI W podobny sposób można określić granicę niewłaściwą: piszemy limx→p f(x) = +∞ (odp. limx→p f(x) = −∞), gdy dla dowolnej liczby M ∈ R istnieje δ > 0 o tej własności, że f(x) > M (odp. f(x) < M), o ile 0 < kx − pk < δ. Piszemy g = limkxk→∞ f(x), gdzie g ∈ R, gdy dla dowolnego ε > 0 znajdzie się liczba R > 0 taka, że |f(x) − g| < ε, o ile kxk > R. ĆWICZENIE: Czytelnik poda definicję Heinego granic niewłaściwych i granicy w nieskończoności. Warunkiem koniecznym i dostatecznym istnienia granicy (właściwej, niewłaściwej lub w nieskończoności) jest tzw. warunek Cauchy’ego (rozważymy przypadek granicy właściwej w punkcie skupienia dziedziny) 1.4.2 TWIERDZENIE: Niech f : A → R, gdzie A ⊂ RN , i niech p ∈ RN będzie punktem skupienia zbioru A. Granica limx→p f(x) istnieje wtedy i tylko wtedy, gdy dla dowolnego ε > 0 istnieje taka liczba δ > 0, że |f(x) − f(x 0 )| < ε dla dowolnych liczb x, x 0 ∈ A, takich że 0 < |x − p|, |x 0 − p| < δ. DOWÓD polega na powtórzeniu argumentów z dowodu analogicznego faktu dla funkcji jednej zmiennej. GRANICE ITEROWANE Rozważmy dla prostoty funkcję 2 zmiennych f : A → R, gdzie A = X × Y ⊂ R2 , gdzie X, Y ⊂ R. Niech p = (a, b) ∈ R2 , gdzie a jest punktem skupienia zbioru X, zaś b – punktem skupienia zbioru Y . Wówczas p jest punktem skupienia zbioru A (sprawdzić). Prawdziwe jest następujące twierdzenie: Jeśli istnieje granica (podwójna) g = lim(x,y)→(a,b) f(x, y) (w sensie właściwym lub niewłaściwym) i dla dowolnego x ∈ X istnieje granica limy→b f(x, y), to istnieje granica limx→a limy→b f(x, y) i jest równa g. Analogicznie, jeżeli istnieje granica podwójna oraz dla każdego y ∈ Y istnieje limx→a f(x, y), to istnieje granica limy→b limx→a f(x, y) i jest równa g. W szczególności, jeśli spełnione są założenia obu części twierdzenia, to lim lim f(x, y) = lim lim f(x, y). x→a y→b y→b x→a Są to tzw. granice iterowane (w tej sytuacji, dla odróżnienia, granicę lim(x,y)→(a,b) f(x, y) nazywa się granicą podwójną). Tak więc jeśli mamy przekonanie, że spełnione są założenie którejś z części powyższego faktu, to g możemy obliczyć w następujący sposób: najpierw, ustaliwszy dowolnie x ∈ X, policzymy gx := limy→b f(x, y), a następnie obliczymy limx→a gx = limx→a limy→b f(x, y). Lub, ustaliwszy dowolnie y ∈ Y , policzymy gy := limx→a f(x, y), a następnie obliczymy limy→b gy = limy→b limx→a f(x, y). Należy jednak stwierdzić dobitnie, że można to zrobić jedynie gdy spełnione są założenia twierdzenia. 1.4. FUNKCJE I ODWZOROWANIA WIELU ZMIENNYCH PRZYKŁAD: Niech f(x, y) = 31 x − y + x2 + y2 x+y dla (x, y) ∈ (0, +∞) × (0, +∞). Kładąc a = 0 = b mamy dla ustalonego y ∈ (0, +∞) gy = lim f(x, y) = y − 1 oraz lim gy = lim (y − 1) = −1; x→0 y→0 y→0 zaś dla ustalonego x ∈ (0, +∞), gx = lim f(x, y) = x + 1 oraz lim gx = lim (x + 1) = 1. y→0 x→0 x→0 Spełnione są drugie części założeń, lecz – w skutek braku równości wnosimy, że granica podwójna nie istnieje (można się o tym przekonać nie zależnie biorąc ciągi (1/n, 0) oraz (0, 1/n): sprawdzić). A zatem nie należy obliczać granic poprzez przejście do granic iterowanych, chyba że są po temu przesłanki w postaci spełnionych założeń twierdzenia. UWAGA: Innym zabiegiem, niekiedy ułatwiającym obliczenie granicy, jest skorzystanie z następującego faktu: jeśli istnieje granica właściwa g = limx→p f(x), gdzie f : A → R, A ⊂ RN i p ∈ RN jest punktem skupienia, oraz h : R → R jest funkcją ciągłą, to limx→p h ◦ f(x) = h(g). PRZYKŁAD: Oblicz granice x 4 −y 4 lim (x,y)→(0,0) e x2 −y 2 , lim (x,y)→(e,1) ln x . y GRANICE FUNKCJI WEKTOROWYCH O granicach (właściwych lub w nieskończoności) można też mówić w odniesieniu do funkcji wektorowych: na przykład jeżeli f : A → RM , gdzie A ⊂ RN oraz M > 1, p jest punktem skupienia zbioru A i g ∈ RM , to piszemy g = lim f(x) x→p jeśli dla dowolnego ε > 0 istnieje δ > 0 taka, że kf(x) − gk < ε, o ile 0 < kx − pk < δ. UWAGA: Po raz pierwszy mamy tu do czynienia z pewną niedogodnością notacyjną: Czytelnik zauważył, że o ile x ∈ A ⊂ RN i zapis kx − pk oznacza odległość punktów x i p w przestrzeni RN , o tyle f(x) ∈ RM i, wobec tego, pisząc kf(x) − gk mamy na myśli odległość w przestrzeni RM . Czytelnik każdorazowo powinien rozumieć co dany symbol oznacza i uważnie go interpretować. ĆWICZENIE: Sformułować definicję Heinego granicy funkcji wektorowej (we wszystkich przypadkach). 1.4.3 TWIERDZENIE: Przypuśćmy, że A ⊂ RN , p ∈ RN jest punktem skupienia dziedziny A funkcji f : A → RM , gdzie f = (f1 , ..., fM ). Wówczas granica (właściwa) limx→p f(x) istnieje wtedy i tylko wtedy, gdy dla dowolnego i = 1, ..., M istnieje granica limx→p fi (x). DOWÓD: Dowód konieczności pozostawiam Czytelnikowi (wystarczy naśladować dowód faktu 1.3.1). Dostateczność. Zakładamy, że dla dowolnego i = 1, ..., M istnieje gi := limx→p fi (x). Niech g := (g1 , ..., gM ) ∈ RM . Pokażemy, że g = limx→p f(x). W tym celu weźmy dowolny ciąg (xn ) ⊂ A taki, że xn 6= p dla n ∈ N i xn → x. Jasne, że wówczas, przy każdym i = 1, ..., M, fi (xn ) → gi . Wobec tego, wykorzystując fakt 1.3.1 otrzymamy, że f(xn ) = (f1 (xn ), ..., fM (xn )) → (g1 , ..., gM ) = g, co – w świetle definicji Heinego – dowodzi tezy. 32 1. PRZESTRZEŃ EUKLIDESOWA ĆWICZENIE: Przeprowadzić dowód w oparciu o definicję Cauchy’ego Fakt ten wskazuje, że obliczanie granic funkcji wektorowych sprowadza się do obliczania granic funkcji skalarnych. Granice funkcji wielu zmiennych mają własności algebraiczne analogiczne do własności granic funkcji jednej zmiennej. Przykładowo; 1.4.4 FAKT: Załóżmy, że f, g : A → R, A ⊂ RN i p ∈ RN jest punktem skupienia zbioru A. Jeśli istnieją granice limx→p f(x) i limx→p g(x), to istnieje granica limx→p (f(x) + g(x)) i jest równa sumie granic. DOWÓD przeprowadzi Czytelnik samodzielnie. ĆWICZENIE: Sformułować analogiczny fakt dla różnicy, iloczynu i ilorazu dwóch funkcji. Analogiczne fakty (poza iloczynem i ilorazem (dlaczego?) mają miejsce dla granic odwzorowań wektorowych. Udowodnić. ĆWICZENIE: Pokazać, że x3 + y3 = 0. (x,y)→(0,0) x 2 + y 2 lim 1.4.B Ciągłość funkcji Tak jak poprzednio rozważamy funkcję f : A → R. Niech a ∈ A. Mówimy, że funkcja f jest ciągła w punkcie a, gdy dla dowolnego ε > 0 istnieje δ > 0 o tej własności, że jeśli x ∈ A oraz kx − ak < δ, to |f(x) − f(a)| < ε. Jest to definicja Cauchy’ego ciągłości funkcji w punkcie. Definicja Heinego orzeka, że funkcja f jest ciągła w punkcie a, gdy dla dowolnego ciągu (xn ) ⊂ A, jeśli xn → a (czyli a = limn→∞ xn ), to f(xn ) → f(a) (czyli limn→∞ f(xn ) = f(a)). Innymi słowy, mówiąc nieco kolokwialnie, funkcje ciągłe w punkcie a przeprowadzają ciągi zbieżne do a na ciągi zbieżne do f(a) ĆWICZENIE: Obie definicje ciągłości są równoważne. Udowodnić ten fakt. UWAGA: (1) O ciągłości mowa tylko w punktach dziedziny. Sformułowanie: „funkcja f(x) = x ∈ R \ {0} jest nieciągła w x = 0” jest niepoprawne. Ta funkcja jest ciągła (tzn. ciągła we wszystkich punktach swojej dziedziny). (2) Jeśli a ∈ A jest punktem izolowanym tego zbioru, to każda funkcja f : A → R jest ciągła. Jest to stwierdzenie dość paradoksalne, lecz prawdziwe, a wynika z faktu, iż jedynym ciągiem o wyrazach ze zbioru A, który jest zbieżny do a jest ciąg stały, tzn. ciąg (xn ), w którym xn = 1 dla wszystkich n ∈ N. Wówczas f(xn ) = f(x) przy n ∈ N i, oczywiście f(xn ) = f(x) → f(a). Stąd płynie wniosek, że ciągłość funkcji f : A → R jest interesująca jedynie w punktach a ∈ A, które są punktami skupienia zbioru A (powyżej mieliśmy do czynienia z a ∈ A, który był punktem izolowanym). W tym kontekście zachodzi: 1 x, 1.4.5 TWIERDZENIE: Niech f : A → R, gdzie A ⊂ RN i niech a ∈ A będzie punktem skupienia dla A. Wówczas f jest ciągła w punkcie a wtedy i tylko wtedy, gdy lim f(x) = f(a). x→a DOWÓD: Wynika natychmiast z definicji Heinego (przeprowadzić dowód). 1.4. FUNKCJE I ODWZOROWANIA WIELU ZMIENNYCH 33 Mówimy, że funkcja f : A → R jest ciągła, gdy jest ona ciągła w każdym punkcie swojej dziedziny. 1.4.6 TWIERDZENIE: Zwykłe działania algebraiczne na funkcjach ciągłych są funkcjami ciągłymi. A więc, jeśli f, g : A → R, gdzie A ⊂ RN , są funkcjami ciągłym w punkcie a ∈ A , to w tym punkcie są ciągłe: suma i różnica f ± g, iloczyn f · g oraz iloraz f/g (o ile jest poprawnie określony, tzn. g(x) 6= 0 dla dowolnego x ∈ A. DOWÓD ponownie jest powtórzeniem analogicznego rezultatu dla funkcji jednej zmiennej. Przeprowadzę dla przykładu dowód dla iloczynu. Posłużymy się (nieco bardziej w tej sytuacji niezręczną) definicją Cauchy’ego. Zakładamy, że funkcje f i g są ciągłe w a ∈ A. Aby dowieść ciągłości w punkcie a funkcji fg załóżmy najpierw, że f(a) 6= 0 i wybierzmy ε > 0 oraz ε liczby δ1 , δ2 > 0 takie, n by |f(x) o − f(a)| < 2M ,gdzie M := ε + |g(a)|, o ile kx − ak < δ1 i ε |g(x) − g(a)| < min ε, 2|f(a)| , o ile kx − ak < δ2 . Niech δ := min{δ1 , δ2 }. Jeśli x ∈ A oraz kx − ak < δ, to kx − ak < δ1 oraz kx − ak < δ2 , czyli jednocześnie |f(x) − f(a)| < ε ε , |g(x) − g(a)| < ε oraz |g(x) − g(a)| < . 2M 2|f(a)| W takim razie |g(x)| < ε + |g(a)| = M oraz |(fg)(x) − (fg)(a)| = |f(x)g(x) − f(a)g(a)| ≤ |g(x)||f(x) − f(a)| + |f(a)||g(x) − g(a)| < ε. Czytelnik uzupełni rozumowanie w przypadku, gdy f(a) = 0. CIĄGŁOŚĆ ODWZOROWAŃ Definicja ciągłości dla funkcji wektorowych jest analogiczna: funkcja (odwzorowanie) f : A → RM , gdzie A ⊂ RN i M > 1 jest ciągła w punkcie a ∈ A, gdy dla każdego ε > 0 istnieje δ > 0 taka, że kf(x) − f(a)k < ε, o ile x ∈ A i kx − ak < δ. 1.4.7 FAKT: Funkcja f = (f1 , ..., fM ) jest ciągła w a ∈ A wtedy i tylko wtedy, gdy dla każdego i = 1, ..., M, funkcja współrzędna fi jest tam ciągła. DOWÓD oparty na definicji Heinego i fakcie 1.3.1 jest natychmiastowy. UWAGA: Z tego wynika, że krzywa, z definicji, jest ciągłym odwzorowaniem γ : [0, 1] → RM . Funkcjom i odwzorowaniom ciągłym przysługuje wiele własności analogicznych do własności ciągłych funkcji jednej zmiennej. 1.4.8 FAKT: Złożenie funkcji ciągłych jest funkcją ciągłą. ĆWICZENIE: Sformułować ten fakt z wszystkimi szczegółami i udowodnić. 1.4.9 TWIERDZENIE: Niech f : A → RM będzie odwzorowaniem ciągłym. (1) Jeśli zbiór A ⊂ RN jest spójny (odp. łukowo spójny), to obraz f(A) jest spójny (odp. łukowo spójny). (2) Jeśli zbiór A jest zwarty, to f(A) jest zbiorem zwartym (domkniętym i ograniczonym); w szczególności funkcja f jest ograniczona, a więc istnieje M ≥ 0, że kf(x)k ≤ M dla wszystkich x ∈ A. Gdy M = 1 (tzn. f : A → R), to istnieją takie punkty x1 , x2 ∈ A, że f(x1 ) = minx∈A f(x) i f(x2 ) = maxx∈A f(x). DOWÓD: (1) Zajmiemy się łukową spójnością. W celu pokazania tej własności dla obrazu f(A) obierzmy y0 , y1 ∈ f(A), a więc y0 = f(x0 ), y1 = f(x1 ), gdzie x0 , x1 ∈ A; mamy wskazać krzywą γ : [0, 1] → f(A) łączącą te punkty. Z założenia istnieje krzywa κ : [0, 1] → A taka, że κ(0) = x0 i κ(1) = x1 . Oczywiście funkcja γ := f ◦ κ jest krzywą (przypomnij definicję krzywej i fakt 1.4.8) 34 1. PRZESTRZEŃ EUKLIDESOWA łączącą punkty y0 i y1 . (2) Jeżeli ciąg (yn ) ⊂ f(A), to yn = f(xn ), gdzie xn ∈ A dla n ∈ N. Dany jest więc ciąg (xn ) ⊂ A, który, zgodnie z założeniem zwartości, ma podciąg xnk → x0 ∈ A przy k → ∞. Stąd ynk = f(xnk ) → f(x0 ) =: y0 . Czy zbiór f(A) jest zwarty. Jeśli M = 1, to wartości α := infx∈A f(x) oraz β := supx∈A f(x) są poprawnie zdefiniowane, bo f jest funkcja ograniczoną. Poza tym zbiór f(A) jest domknięty, a stąd α ∈ f(A) oraz β ∈ f(A). Wynika z następującego rozumowania: z definicji kresu: dla wszystkich y ∈ f(A), α ≤ y oraz, dla danego ε > 0 istnieje yε ∈ f(A), że yε < α + ε. Biorąc ε = 1/n, gdzie n ∈ N otrzymamy więc yn ∈ f(A), że α ≤ yn < α + 1/n. innymi słowy (yn ) jest ciągiem o wyrazach w zbiorze f(A) zbieżnym do α. Z ciągowej charakteryzacji domkniętości zbiorów wynika, że α ∈ f(A) tzn. istnieje taki element x1 ∈ A, że α = f(x1 ). Jako ćwiczenie zakończyć dowód dla β. 2 ĆWICZENIE: Niech f(x, y) := sin 1+xxy 2 +y 2 dla (x, y) ∈ R . Pokazać, że f jest funkcją ciągłą. Podobnie dla funkcji (pamiętać o dziedzinie): 2 (1) f(x, y) = x 2x+y+y 2 −1 ; xy dla (x, y) 6= (0, 0); x yz x 2 +y 2 (2) f(x, y, z) = ln(e + e ); (3) f(x, y) = 0 dla x = 0 = y. ĆWICZENIE: Wykazać, że funkcja ( f(x, y) = xy 2 x 3 +y 3 0 dla (x, y) 6= (0, 0); dla x = 0 = y nie jest ciągła, lecz jest ciągła względem każdej ze zmiennych z osobna. Przeprowadzić dyskusję tego zjawiska i wyciągnąć wnioski („ciągłość względem zespołu zmiennych” i ciągłość względem zmiennych i związki). ĆWICZENIE: Przypuśćmy, że funkcja f : (a, b) × (c, d) → R jest ciągła ze względu na każdą ze zmiennych z osobna i, dla dowolnego y ∈ (a, b), funkcja f(·, y) : (a, b) → R jest niemalejąca. Pokazać, że f jest wówczas funkcją ciągłą. ĆWICZENIE: Niech U będzie obszarem i f : U → R funkcją ciągłą. Pokazać, że jeśli istnieją punkty x1 , x2 ∈ U takie, że f(x1 ) < 0 < f(x2 ), to f ma miejsce zerowe, tzn. istnieje x0 ∈ U, ze f(x0 ) = 0 (wskazówka mieści się w definicji obszaru). Zauważyć, że w dowodzie istotna jest łukowa spójność zbioru U, a nie jego otwartość. Oczywiście ma miejsce również tzw. własność Darboux: jeśli f jest funkcją rzeczywistą ciągłą o łukowo spójnej dziedzinie A, x1 , x2 ∈ A, to dla dowolnego λ ∈ R leżącego pomiędzy liczbami f(x1 ) i f(x2 ) istnieje taki x ∈ A, że f(x) = λ. TOPOLOGICZNA CHARAKTERYZACJA CIĄGŁOŚCI 1.4.10 TWIERDZENIE Funkcja f : A → RM jest ciągła wtedy i tylko wtedy, gdy przeciwobraz f −1 (U) dowolnego zbioru otwartego U ⊂ RM jest otwarty w A. Podobnie f jest ciągła wtedy i tylko wtedy, gdy przeciwobraz f −1 (F) dowolnego zbioru domkniętego F ⊂ RM jest domknięty w A. DOWÓD: Przypuśćmy, że f jest odwzorowaniem ciągłym i U ⊂ RM jest zbiorem otwartym. Niech x ∈ f −1 (U) ⊂ A. Oczywiście f(x) ∈ U, więc (z definicji zbioru otwartego) znajdziemy ε > 0 takie, że B(f(x), ε) ⊂ U. Z ciągłości (w punkcie x) istnieje δ > 0 taka, że dla y ∈ A, jeżeli ky − xk < δ, to kf(y) − f(x)k < ε: innymi słowy f(y) ∈ B(f(x), ε). Tak więc f(B(x, δ) ∩ A) ⊂ B(f(x), ε) ⊂ U. To oznacza, że B(x, δ) ∩ A ⊂ f −1 (U) i kończy dowód konieczności podanego warunku. 1.4. FUNKCJE I ODWZOROWANIA WIELU ZMIENNYCH 35 Dla dostateczności załóżmy, że podany warunek zachodzi, ustalmy a ∈ A: pokażemy, że f jest ciągłe w a. Ustalmy ε > 0. Zbiór U := B(f(a), ε) jest otwarty, czyli jego przeciw obraz f −1 (U) jest też otwarty. Oczywiście a ∈ f −1 (U); więc istnieje δ > 0 taka, że B(a, δ) ∩ A ⊂ f −1 (U). Stąd: jeśli x ∈ A oraz kx − ak < δ, to x ∈ A ∩ B(a, δ) i x ∈ f −1 (U). Czyli f(x) ∈ U = B(f(a), ε) i kf(x) − f(a)k < ε. . ĆWICZENIE: Dowód drugiej części pozostawiam Czytelnikowi (wskazówka jeśli zbiór F ⊂ RM jest domknięty, to U : RM \ F jest otwarty i f −1 (F) = A \ f −1 (U)). JEDNOSTAJNA CIĄGŁOŚĆ Poza „zwykłą” ciągłością istotną rolę odgrywają funkcje (lub odwzorowania) jednostajnie ciągłe i spełniające warunek Lipschitza. Mówimy, że odwzorowanie f : A → RM jest jednostajnie ciągłe, gdy dla dowolnego ε > 0 istnieje liczba δ > 0 taka, że dla x, x 0 ∈ A, jeśli kx − x 0 k < δ, to kf(x) − f(x 0 )k < ε. 1.4.11 TWIERDZENIE: Jeżeli odwzorowanie f : A → RM jest ciągłe a zbiór A jest zwarty, to jest ono jednostajnie ciągłe. DOWÓD: Przypuśćmy, że odwzorowanie f nie jest jednostajnie ciągłe. Tak więc znajdzie się jakąś liczbę ε0 > 0 o tej własności, że dla wszystkich n ∈ N znajdą się punkty xn , xn0 ∈ A dla których kf(xn ) − f(xn0 )k ≥ ε0 mimo, że kxn − xn0 k < 1/n. Zwartość implikuje, że ciąg (xn ) ma podciąg zbieżny; dla uproszczenia przyjmijmy (i bez utraty ogólności – zweryfikować to stwierdzenie), że już xn → x ∈ A. Wtedy też xn0 → x. Stąd f(xn ) → f(x) i f(xn0 ) → f(x): sprzeczność. ĆWICZENIE: Zbadać jednostajną ciągłość funkcji p f(x, y, z) = x 2 + y 2 + z2 ; p f(x, y, z) = |xyz|. WARUNEK LIPSCHITZA Mówimy, że f : A → RM spełnia warunek Lipschitza (lub , że jest funkcją lipschitzowską), gdy istnieje liczba L ≥ 0 taka, że dla dowolnych x, y ∈ A, kf(x) − f(y)k ≤ Lkx − yk. Stałą L nazywa się stałą Lipschitza funkcji f. ĆWICZENIE: Uzasadnić dlaczego odwzorowania spełniające warunek Lipschitza są jednostajnie ciągłe. Sprawdzić w literaturze co oznacza, że funkcja spełnia lokalnie warunek Lipschitza. Czy takie funkcje są jednostajnie ciągłe? Znać przykłady funkcji ciągłych lecz nieciągłych jednostajnie. 1.4.C Ciągłość odwzorowań liniowych Niech A : RN → RM będzie przekształceniem liniowym, z którym stowarzyszona jest macierz A = [aij ] i=1,...,M ∈ MMN . j=1,...,N 1.4.12 FAKT: Przekształcenie A jest ciągłe. DOWÓD: Najpierw zauważmy, że rzutowanie πj : RN → R jest ciągłe. Rzeczywiście dla x = (x1 , ..., xN ) ∈ RN , y = (y1 , ..., yN ) ∈ RN |πj (x) − πj (y)| = |xj − yj | ≤ kx − yk, co oznacza, że πj spełnia warunek Lipschitza ze stałą 1. Oczywiście iloczyn απj , gdzie j = 1, ..., N i α ∈ R, jest również odwzorowaniem ciągłym. 36 1. PRZESTRZEŃ EUKLIDESOWA Wystarczy pokazać, że dla dowolnego i = 1, ..., M, odwzorowanie πi ◦ A : RN → R (czyli i-ta współrzędna odwzorowania A) jest ciągłe (tutaj πi : RM → R jest rzutowaniem na i-tą współrzędna). Ze wzoru (1.2.5) mamy πi ◦ A(x) = N X aij xj , x = (x1 , ..., xN ) ∈ RN . j=1 Zatem πi ◦ A(x) = N X aij πj (x); j=1 zatem πi ◦ A, jako suma odwzorowań ciągłych, jest odwzorowaniem ciągłym (nawet więcej spełnia warunek Lipschitza). NORMA PRZEKSZTAŁCENIE LINIOWEGO Niech A ∈ L(RN , RM ). Połóżmy (1.4.12) kAk := sup kA(x)k x∈RN ,kxk=1 (tutaj ponownie mamy do czynienia z „błędem” notacyjnym: po prawej stronie „pierwsza” jest norma w RN , zaś „druga” to norma w RM ). Odwzorowanie RN 3 x 7Ï kA(x)k – jako złożenie ciągłego odwzorowania A i ciągłej funkcji normy – jest ciągłe. Zbiór {x ∈ RN | kxk = 1} jest domknięty (jest to przeciwobraz zbioru {1} poprzez ciągłą funkcję normy) i ograniczony, czyli zwarty. Z twierdzenia Weierstrassa 0 ≤ kAk < ∞. Liczbę kAk nazywamy normą przekształcenia liniowego A. Zauważmy, że ma miejsce ważne oszacowanie (1.4.13) kA(x)k ≤ kAkkxk, x ∈ RN . Dla x = 0 to jest oczywiste; jeśli zaś x 6= 0, to kkxk−1 xk = kxk−1 kxk = 1 i kxk−1 kA(x)k = kA(kxk−1 x)k ≤ kAk. Z oszacowania 1.4.13 wynika również, że kAk = sup kA(x)k. kxk≤1 Rzeczywiście kAk ≤ sup{kA(x)k | kxk ≤ 1}, bo kres górny po większym zbiorze {x ∈ RN | kxk ≤ 1} jest niemniejszy niż kres górny po zbiorze mniejszym {x | kxk = 1}; z drugiej strony dla dowolnego x ∈ RN , kxk ≤ 1, kA(x)k ≤ kAkkxk = kAk, czyli sup{kA(x)k | kxk ≤ 1} ≤ kAk. 1.4.13 UWAGA: Zauważmy, że skończoność normy kAk wynikała z ciągłości. Gdyby wiadomo było, że kAk < ∞, to oszacowanie (1.4.13) pozwala na inny dowód ciągłości przekształcenia A: dla dowolnych x, y ∈ RN , kA(x) − A(y)k = kA(x − y)k ≤ kAkkx − yk; czyli A spełnia warunek Lipschitza ze stałą Lip(A) ≤ kAk. W istocie Lip(A) = kAk. Wynika to z następującego wzoru (1.4.14) kAk = inf{c ≥ 0 | ∀ x ∈ RN kA(x)k ≤ ckxk}. 1.4. FUNKCJE I ODWZOROWANIA WIELU ZMIENNYCH 37 Rzeczywiście: nierówność ≥ wynika natychmiast z nierówności (1.4.13). Z drugiej strony niech c0 oznacza prawą stronę równości (1.4.14). Z definicji kresu dolnego, dla dowolnego ε i x ∈ RN , kA(x)k ≤ (c0 + ε)kxk. Wobec tego kAk = sup kA(x)k ≤ c0 + ε. kxk=1 Z dowolności ε wynika, że kAk ≤ c0 . Za chwilę zobaczymy jak, nie wykorzystując ciągłości A, można wykazać, że kAk < ∞. Nazwy „norma przekształcenia” używamy nie bez kozery. 1.4.14 FAKT: Dla A, B ∈ L(RN , RM ) i λ ∈ R: kAk = 0 wtedy i tylko wtedy, gdy A = 0 (tzn. A ≡ 0), kλAk = |λ|kAk oraz kA + Bk ≤ kAk + kBk. Jeżeli A ∈ L(RN , RM ), B ∈ L(RM , RK ), to B ◦ A ∈ L(RN , RK ) i kB ◦ Ak ≤ kBkkAk. (1.4.15) W szczególności, jeżeli A ∈ L(RN , RN ), n ∈ N i An := A ... ◦ A}, to | ◦ {z n kAn k ≤ kAkn . (1.4.16) Jeżeli przekształcenie A ∈ L(RN , RN ) jest izomorfizmem, to kAk−1 ≤ kA−1 k. DOWÓD: Łatwo dostrzec, że dla A ∈ L(RN , RM ) mamy kAk = 0 wtedy i tylko wtedy, gdy A = 0 oraz kλAk = |λ|kAk dla dowolnego λ ∈ R. Podobnie, gdy B ∈ L(RN , RM ), to oraz kA + Bk = sup kA(x) + B(x)k ≤ sup (kA(x)k + kB(x)k) kxk=1 kxk=1 ≤ sup kA(x)k + sup kB(x)k = kAk + kBk. kxk=1 kxk=1 W celu dowodu drugiej części zauważmy, że dla dowolnego x ∈ RN , kB ◦ A(x)k ≤ kBkkA(x)k ≤ kBkkAkkxk. Ze wzoru (1.4.14) wynika, że kB ◦ Ak = inf{c ≥ 0 | kB ◦ Ak ≤ ckxk} ≤ kBkkAk. Wreszcie ze wzoru (1.4.15) wynika, że 1 = kA−1 ◦ Ak ≤ kA−1 kkAk, czyli kA−1 k ≥ kAk−1 . ĆWICZENIE: Czy jest prawdą, że kA−1 k = kAk−1 ? NORMA PRZEKSZTAŁCENIA WIELOLINIOWEGO Niech A ∈ Lk (RN , RM ). Podobnie jak poprzednio połóżmy (1.4.17) kAk = sup x1 ,...,xk ∈RN , kxs k=1 kA(x1 , ..., xk )k. Wykażemy, że 0 ≤ kAk < ∞. Pierwsza nierówność jest oczywista. Dla dowodu drugiej nierówności przyjmijmy (dla uproszczenia rachunków), że k = 2. Niech x = (x1 , ..., xN ), y = 38 1. PRZESTRZEŃ EUKLIDESOWA (y1 , ..., yN ) ∈ RN , kxk = kyk = 1 i niech z = (z1 , ..., zM ) = A(x, y). Ponadto niech [aijk ] i=1,...,M j,k=1,...,N będzie macierzą stowarzyszoną z przekształceniem A, tzn. zi = N X aijk xj yk , i = 1, ..., M. j,k=1 Zatem kA(x, y)k2 = kzk2 = M X zi2 = M X i=1 i=1 N X 2 aijk xj yk . j,k=1 Z nierówności Cauchy’ego-Schwarza 2 N X aijk xj yk ≤ j,k=1 Zatem N X j,k=1 2 aijk N X xj2 yk2 = j,k=1 N X 2 aijk kxk2 kyk2 = N X 2 aijk . j,k=1 j,k=1 v v uM N uM N uX X uX X 2 2 t kA(x, y)k ≤ aijk , czyli kAk ≤ t aijk . i=1 j,k=1 i=1 j,k=1 Ogólnie (dla dowolnego k) v uM N uX X aij2 1 ...jk < ∞, kAk ≤ t i=1 j1 ,...,jk =1 gdzie [aij1 ...jk ] jest macierzą stowarzyszoną z przekształceniem A. Analogicznie jak poprzednio można pokazać, że (1.4.18) kA(x1 , ...., xk )k ≤ kAkkx1 k...kxk k, dla x1 , ..., xk ∈ RN . Wynika stąd, że A jest przekształceniem ciągłym, choć – przeciwnie niż w przypadku przekształceń liniowych – na ogół nie jest ono jednostajnie ciągłe. Dowód w ogólnej sytuacji jest rachunkowo złożony; dlatego rozważymy tylko sytuację k = 2. Niech xn → x0 , yn → y0 w RN . Wtedy kA(xn , yn ) − A(x0 , y0 )k ≤ kA(xn , yn ) − A(x0 , yn )k + kA(x0 , yn ) − A(x0 , y0 )k ≤ kAkkxn − x0 kkyn k + kAkkx0 kkyn − y0 k → 0. UWAGA: Czytelnik na pewno dostrzegł w tym miejscu „mnogość” oznaczeń k · k. W każdym z przypadków symbol k · k może oznacza inną „normę” (tj. normę w innej przestrzeni). Bezwzględnie należy zachować dużą ostrożność i za każdym razem używając tego symbolu mieć pełną kontrolę czego on dotyczy. Rozdział 2 Rachunek różniczkowy 2.1 2.1.A Pochodne Pochodne funkcji wektorowych jednej zmiennej Niech f : (a, b) → RM , gdzie −∞ ≤ a < b ≤ +∞ i M ≥ 1. Wtedy f = (f1 , ..., fM ), gdzie fi : (a, b) → R. Niech t ∈ (a, b). Powiadamy, że odwzorowanie f jest różniczkowalne w punkcie t, gdy istnieje granica f(t + s) − f(t) lim . s→0 s Granicę tę nazywa się pochodną odwzorowania f w punkcie t i oznacza symbolem f 0 (t). Oczywiście pochodna jest w tym przypadku wektorem (elementem przestrzeni RM ); zatem f 0 (t) = (a1 , ..., aM ), gdzie ai ∈ R, dla i = 1, ..., M; lub w zapisie macierzowym a1 a2 f 0 (t) = [a1 , ..., aM ]T = . . .. aM Jaką postać mają współczynniki ai przy i = 1, ..., M? Łatwo pokazać, że 2.1.1 TWIERDZENIE: Odwzorowanie f jest różniczkowalne w punkcie t ∈ (a, b) wtedy i tylko wtedy, gdy każda z funkcji fi , i = 1, ..., M, jest różniczkowalna w punkcie t i wówczas f 0 (t) = 0 (t)), tzn. ai = fi0 (t) dla wszystkich i = 1, ..., M. (f10 (t), ..., fM Wynika stąd, że w zasadzie wszystkie fakty dotyczące pochodnych funkcji (rzeczywistych jednej zmiennej) przenoszą się na przypadek funkcji wektorowych jednej zmiennnej choć, oczywiście, trzeba zachować ostrożność. Na przykład: funkcje różniczkowalne są ciągłe; jeżeli odwzorowania f, g : (a, b) → RM są różniczkowalne w punkcie t, to ich suma, różnica są odwzorowaniami różniczkowalnymi i (f ± g)0 (t) = f 0 (t) ± g 0 (t) UWAGA: (1) Twierdzenie o pochodnej iloczynu (lub ilorazu) nie ma sensu, chyba, że mowa o iloczynie skalarnym tych funkcji. Mianowicie można określić funkcję F(t) := hf(t), g(t)i = M X i=1 fi (t)gi (t), t ∈ (a, b). 40 2. RACHUNEK RÓŻNICZKOWY Jeśli odwzorowania f i g są różniczkowalne w punkcie t, to funkcja F jest też tam różniczkowalna i F 0 (t) = hf 0 (t), g(t)i + hf(t), g 0 (t)i. Rzeczywiście 0 F (t) = M X i=1 !0 fi gi M X (t) = 0 (fi gi ) (t) = i=1 M X (fi0 (t)gi (t) + fi (t)gi0 (t)) = hf 0 (t), gt)i + hf(t), g 0 (t)i. i=1 (2) Niestety, dla odwzorowań f : (a, b) → RM , gdzie M > 1, nie zachodzi odpowiednik twierdzenia Lagrange’a. Przypomnijmy to twierdzenie: jeśli funkcja f : [a, b] → R jest różniczkowalna (lub ciągła, zaś pochodna f 0 (t) istnieje dla t ∈ (a, b))(1 ) , to istnieje θ ∈ (0, 1) taka, że f(b) − f(a) = f 0 (a + θ(b − a))(b − a). Innymi słowy znajdzie się punkt pośredni t ∈ (a, b) taki, że f(b) − f(a) = f 0 (t)(b − a). Dla kontrprzykładu rozważmy odwzorowanie f : R → R2 dane wzorem f(t) := (cos t, sin t), t ∈ R. Wówczas f(0) = q f(2π) = (1, 0). Jednak dla dowolnego t ∈ (0, 2π), f 0 (t) = (− sin t, cos t) i, wobec tego kf 0 (t)k = sin2 (t) + cos2 t = 1. Zatem równość 0 = f(2π) − f(0) = 2πf 0 (t) jest wykluczona dla każdego punktu pośredniego t ∈ (0, 2π). UWAGA: W sytuacji funkcji f : (a, b) → R2 lub f : (a, b) → R3 współrzędne odwzorowania f zwykle oznacza się symbolami x, y, z itp. tzn. pisze się f(t) = (x(t), y(t)) lub f(t) = (x(t), y(t), z(t)) dla t ∈ (a, b). Ponadto (szczególnie w omawianych sytuacjach) odwzorowania takie nazywa się krzywymi (co ma sens szczególnie z geometrycznego punktu widzenia). Takiej terminologii będziemy używać „bez ostrzeżenia”. 2.1.B Pochodne kierunkowe i cząstkowe funkcji wielu zmiennych Niech f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, i x = (x1 , ..., xN ) ∈ U. Niech wektor h ∈ RN , h 6= 0. Dla małego (co do wartości bezwzględnej) t ∈ R, wyrażenie f(x + th) jest określone (uzasadnienie: zbiór U jest otwarty, więc B(x, ε) ⊂ U dla pewnego ε > 0; jeśli więc |t| < ε/khk, to x + th ∈ B(x, ε), bo k(x + th) − xk = |t|khk < ε). Można więc dla takich t rozważać wyrażenie f(x + th) − f(x) ∈R t oraz jego granicę przy t → 0, o ile – oczywiście – istnieje. Jeśli istnieje (w sensie właściwym) granica f(x + th) − f(x) , t→0 t lim to jej wartość nazywa się pochodną kierunkową funkcji f w punkcie x w kierunku wektora h i oznacza symbolem f 0 (x; h). POCHODNE CZĄSTKOWE Niech j = 1, ..., N. W szczególności pochodną kierunkową w punkcie x w kierunku wektora ej (wersora z bazy kanonicznej) nazywa się pochodną cząstkową względem j-tej zmiennej i oznacza symbolem fxj (x) lub fj0 (x) lub ∂x∂ j f(x), a także f|j (x) (to Gdy mowa o różniczkowalności funkcji określonych na przedziale domkniętym to w punktach a lub b mowa jest o pochodnych jednostronnych. 1 2.1. POCHODNE 41 ostatnie oznaczenie jest najlepsze, lecz najrzadziej stosowane). Jeśli mamy do czynienia z funkcją dwóch lub trzech zmiennych, które – jak zwykle oznacza się symbolami x, y, z, to pisząc fx (x, y, z) lub fx0 (x, y, z), fy0 (x, y, z) itp. mamy na myśli pochodną cząstkową względem pierwszej, drugiej zmiennej. Oznaczenia są różne, ale wszystkie są czytelne. W każdym razie (w wyjściowej sytuacji) f|j (x) := f 0 (x; ej ). W praktyce pochodna cząstkowa jest pochodną w punkcie t = xj funkcji jednej zmiennej t 7Ï f(x1 , x2 , ..., xj−1 , t, xj+1 , ..., xN ), tzn. funkcji, w której ustalamy (jako parametry) wszystkie, poza j-tą, współrzędne punktu x i „uzmiennieniu” podlega tylko j-ta zmienna. PRZYKŁAD: Zilustrujemy to na przykładzie. Niech f(x, y, z) = x 2 z − (x + y)z określonej w całej przestrzeni. Obliczymy fx (x, y, z). Ma się rozumieć, że ustalamy zmienne y, z (traktujemy je chwilowo jako parametry) i różniczkujemy względem x, tzn. f(x + t, y, z) − f(x, y, z) = (f(·, y, z))0 (x) = 2xz − z. t→0 t fx (x, y, z) = lim Zauważmy, że f(x + t, y, z) = f((x, y, z) + t(1, 0, 0)) = f((x, y, z) + te1 ). Mamy następujące reguły algebraiczne obliczania pochodnych kierunkowych: 2.1.2 FAKT: Przypuśćmy, że f, g : U → R, x ∈ U, h ∈ RN i pochodne kierunkowe f 0 (x; h), g 0 (x; h) istnieją. Wtedy: (1) pochodna (f ± g)0 (x; h) istnieje i (f ± g)0 (x; h) = f 0 (x; h) ± g 0 (x; h); (2) pochodna (fg)0 (x; h) istnieje i (fg)0 (x; h) = f 0 (x; h)g(x) + f(x)g 0 (x; h); (3) jeśli g(x) 6= 0 dla x ∈ U, to istnieje (f/g)0 (x; h) i mamy (f/g)0 (x; h) = 1 (f 0 (x; h)g(x) − f(x)g 0 (x; h)). [g(x)]2 DOWÓD: jest to właściwie powtórzenie dowodu odpowiedniego twierdzenia o różniczkowaniu sum, iloczynów i ilorazów funkcji jednej zmiennej. Nie mniej warto, by Czytelnik poćwiczył. Dla przykładu uzasadnimy drugi wzór. Niech φ(t) := f(x + th). Z definicji f 0 (x; h) = lim t→0 f(x + th) − f(x) φ(t) − φ(0) = lim = φ0 (0). t→0 t t Analogicznie – kładąc ψ(t) := g(x + th) – dostaniemy g 0 (x; h) = ψ 0 (0). 42 2. RACHUNEK RÓŻNICZKOWY Ponadto (fg)(x + th) − (fg)(x) φ(t)ψ(t) − φ(0)ψ(0) = lim = (φψ)0 (0) = φ0 (0)ψ(0) + φ(0)ψ 0 (0). t→0 t→0 t t lim Otrzymany wzór kończy dowód. UWAGA: Jeśli istnieje f 0 (x; h) i α ∈ R, to istnieje f 0 (x; αh) i f 0 (x; αh) = αf 0 (x; h). Czyli pochodna kierunkowa jest jednorodna ze względu na kierunek (wektor) h. Niestety pochodna kierunkowa nie jest addytywna ze względu na kierunki. Innymi słowy: jeśli nawet istnieją pochodne f 0 (x; h1 ) i f 0 (x; h2 ) w kierunku dwóch wektorów h1 , h2 ∈ RN , to bynajmniej nie musi istnieć pochodna f 0 (x; h1 +h2 ) ani (nawet jeżeli istnieje) nie musi zachodzić równość f 0 (x; h1 + h2 ) = f 0 (x; h1 ) + f 0 (x : h2 ). PRZYKŁAD: Ma to miejsce dla funkcji xy x 3 +y 3 f(x, y) = 0 gdy (x, y) 6= (0, 0); gdy x = 0 = y. Wtedy fx (0, 0) = f 0 ((0, 0); e1 ) = 0 = f 0 ((0, 0); e2 ) = fy (0, 0) lecz t2 t→0 2t 3 f 0 ((0, 0); (1, 1)) = f 0 ((0, 0); e1 + e2 ) = lim nie istnieje. Kolejny przykład wskazuje, że funkcja może posiadać pochodne we wszystkich kierunkach w zadanym punkcie, lecz może tam nie być ciągła. PRZYKŁAD: Rozważmy funkcję ( f(x, y) = xy 2 x 2 +y 4 0 gdy (x, y) 6= (0, 0); gdy x = 0 = y. Wtedy, dla dowolnego h = (a, b) ab2 = f ((0, 0); (a, b)) = lim 2 t→0 a + t 2 b4 0 0 b2 a gdy a = 0 gdy a = 6 0. Oczywiście wartość f 0 ((0, 0); h) nie zależy w sposób addytywny od h (sprawdzić) i – ponadto funkcja f nie jest ciągła (w punkcie (0, 0)): sprawdzić. Jest jeszcze gorzej. PRZYKŁAD: Niech ( f(x, y) = x4y2 x 8 +y 4 0 gdy (x, y) 6= (0, 0); gdy x = 0 = y. Ta funkcja ma pochodną f 0 ((0, 0; h) = 0 dla dowolnego h (więc, w szczególności, wyrażenie f 0 ((0, 0; h) zależy liniowo od h), lecz również nie jest ciągła. UWAGA: Jeśli mamy do czynienia z funkcją f : U → R, x ∈ U oraz: dla dowolnego h ∈ RN istnieje f 0 (x; h) przy czym wyrażenie f 0 (x; h) zależy liniowo od h, to mówi się, że f jest słabo różniczkowalna w punkcie x. 2.1. POCHODNE 43 Jak widzieliśmy w poprzednim przykładzie: f jest słabo różniczkowalna w punkcie (0, 0), lecz nie jest tam ciągła. KONKLUZJA: Zatem: pojęcie pochodnej kierunkowej jest zbyt słabe z punktu widzenia elementarnych intuicji. 2.1.3 TWIERDZENIE (I-sze o wartości średniej) Niech f : U → R, gdzie U jest zbiorem otwartym. Załóżmy, że x0 , x1 ∈ U i odcinek [x0 ; x1 ] łączący te punkty zawiera się w zbiorze U. Niech h := x1 − x0 . Jeśli dla dowolnego x ∈ [x0 , x1 ] istnieje pochodna f 0 (x; h), to istnieje θ ∈ (0, 1) taka, że f(x1 ) − f(x0 ) = f 0 (x0 + θh; h). Rozważmy funkcję pomocniczą g : [0, 1] → R daną wzorem g(t) := f(x0 + th), t ∈ [0, 1]. Zauważmy, że dla każdego t ∈ [0, 1]. g(t + s) − g(t) f((x0 + th) + sh) − f(x0 + th) = lim = f 0 (x0 + th; h) s→0 s→0 s s g 0 (t) = lim (dla t = 0 lub t = 1 mowa o odpowiednich pochodnych jednostronnych). Zatem g jest funkcją (jednej zmiennej) różniczkowalną i, wykorzystując twierdzenie Lagrange’a, znajdziemy θ ∈ (0, 1) takie, że f(x1 ) − f(x0 ) = g(1) − g(0) = g 0 (θ) = f 0 (x0 + θh; h). 2.1.C Różniczkowalność i pochodna funkcji wielu zmiennych Niech f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, i x ∈ U. Mówimy, że funkcja f jest różniczkowalna w punkcie x, gdy istnieje przekształcenie liniowe A ∈ L(RN , R) (czyli funkcjonał liniowy) taki, że lim h→0 f(x + h) − f(x) − A(h) = 0. khk Powyższy warunek równoważny jest stwierdzeniu, że przyrost funkcji tzn. wyrażenie f(x + h) − f(x), przy przyroście argumentu h ∈ RN wyraża się wzorem f(x + h) − f(x) = A(h) + khkε(h), (∗) gdzie wyraz A(h) zależy w sposób liniowy od przyrostu h, zaś reszta khkε(h) jest rzędu mniejszego niż przyrost, tzn. wyrażenie ε(h) → 0, gdy h → 0 i ε(0) = 0 (2 ). UWAGA: Warto, by Czytelnik zapoznał się w tym miejscu tzw. notacją Landau’a lub notacją „o” małe. Otóż zamiast opisywać jakąś wielkość skalarną (lub wektorową) jako np. ε(h)khk, gdzie ε(h) → 0, przy h → 0, pisze się o(khk) i czyta: wielkość ta jest o małe od h, przy h → 0. Np.: f(x) = o(|x|) 2 Tu wytłuszczyliśmy słowo równoważny – dlaczego: to stanie się czytelne po lekturze podrozdziału dotyczącego dwukrotnej różniczkowalności. 44 2. RACHUNEK RÓŻNICZKOWY przy x → 0 oznacza, że f(x) = 0. x→0 |x| lim Jest to wygodna i krótka notacja, która pozwala napisać: funkcja f : U → R jest różniczkowalna w punkcie x ∈ U wtedy i tylko wtedy, gdy f(x + h) = f(x) + A(h) + o(khk), h → 0. Mówimy, że funkcja f jest różniczkowalna, jeśli jest różniczkowalna w każdym punkcie swej dziedziny. UWAGA: Podaną definicję i podany wzór interpretacyjny należy dobrze zrozumieć (w szczególności z formalnego punktu widzenia): we wzorach tych h oznacza przyrost argumentu, a więc element w przestrzeni RN , tymczasem „reszta” ε(h) (pomnożona przez długość przyrostu khk) jest miarą „odstępstwa” przyrostu funkcji od „kawałka” A(h) liniowo zależnego od h. Tak więc, mówiąc nieco kolokwialnie, funkcja jest różniczkowalna w punkcie x, jeśli dla dostatecznie małych przyrostów h argumentu, przyrost funkcji f(x + h) − f(x) jest, w przybliżeniu, funkcją liniową przyrostu. PRZYKŁAD: Funkcja stała f : U → R (tzn. f(x) ≡ c = const. dla x ∈ U) jest różniczkowalna. Rzeczywiście przekształcenie zerowe zadośćczyni definicji. 2.1.4 TWIERDZENIE: Jeśli funkcja f jest różniczkowalna w punkcie x, to dla dowolnego wektora h ∈ RN istnieje pochodna kierunkowa f 0 (x; h) i f 0 (x; h) = A(h), gdzie A ∈ L(RN , R) jest przekształceniem liniowym z definicji różniczkowalności. Wynika stąd, że przekształcenie to jest wyznaczone jednoznacznie: nazywa się je pochodną funkcji f w punkcie x i oznacza symbolem f 0 (x) (tak więc f 0 (x) = A). Macierz stowarzyszoną z pochodną f 0 (x) nazywa się macierzą Jacobiego funkcji f w punkcie x i oznacza symbolem Jf (x). Macierz ta ma jeden wiersz i N kolumn, przy czym w j-tej (j = 1, ..., N) kolumnie stoi pochodna cząstkowa funkcji f względem j-tej zmiennej, a więc Jf (x) = [f|1 (x), f|2 (x), ..., f|N (x)]. W związku z tym mamy dla małego przyrostu 0 f(x + h) − f(x) = f (x)(h) + khkε(h) = N X hj f|j (x) + khkε(h) j=1 gdzie ε(h) → 0 przy h → 0. DOWÓD: Ustalmy wektor h ∈ RN , dla małych t ∈ R, t 6= 0, x + th ∈ U (pamiętajmy, że zbiór U jest otwarty) i f(x + th) − f(x) 1 |t| = (A(th) + ε(th)kthk) = A(h) + khkε(th) → 0, t t t gdy t → 0. Tak więc f 0 (x; h) = A(h). Gdyby inne przekształcenie liniowe B ∈ L(RN , R) realizowało definicję różniczkowalności, to dla każdego h ∈ RN mielibyśmy A(h) = f 0 (x; h) = B(h), 45 2.1. POCHODNE co dowodzi, że A ≡ B. A więc kolejne stwierdzenie (i pojawiająca się tam definicja pochodnej) ma sens. W szczególności, dla h = ej , j = 1, ..., N mamy f|j (x) = f 0 (x; ej ) = A(ej ). Jak pamiętamy: jeśli macierz [a1 , ..., aN ] jest stowarzyszona z przekształceniem liniowym f 0 (x), to jej elementy wyznaczamy ze wzoru aj = A(ej ) = f|j (x). Jeżeli więc funkcja f jest różniczkowalna w x, to dla małych przyrostów h 0 f(x + h) − f(x) = f (x)(h) + ε(h)khk = N X hj f|j (x) + khkε(h), (∗) j=1 gdzie limh→0 ε(h) = 0. PRZYKŁAD: Niech A : RN → R będzie funkcjonałem liniowym o macierzy A ∈ M1×N i niech f(x) := A(x) dla x ∈ RN . Wówczas funkcja f jest różniczkowalna i dla dowolnego x ∈ RN , f 0 (x) = A oraz Jf (x) = A. UWAGA: (1) W świetle twierdzenia różniczkowalność i istnienie pochodnej to do pewnego stopnia synonimy; należy jednak pamiętać, że zanim zdefiniuje się pochodną należy zdefiniować pojęcie różniczkowalności. (2) Zgodnie z ogólną umową będziemy często utożsamiać pochodną (która jest przekształceniem liniowym) z macierzą Jacobiego i będziemy pisać f 0 (x) = [f|1 (x), ..., f|N (x)]. (2) Praktyczna wartość powyższego twierdzenia polega na następującej metodzie weryfikacji (z definicji) różniczkowalności funkcji f : U → R w punkcie x ∈ U: a. Zanim sprawdzimy różniczkowalność musimy sprawdzić czy istnieją pochodne cząstkowe (istnienie pochodnych kierunkowych, a w szczególności pochodnych cząstkowych jest warunkiem koniecznym różniczkowalności). b. Zgodnie z twierdzeniem, jeśli f jest różniczkowalna w x, to jej macierz Jacobiego musi mieć postać [f|1 (x), ..., f|N (x)]. Tak więc, żeby sprawdzić, że funkcja jest różniczkowalna należy sprawdzić, czy przekształcenie liniowe, którego macierzą jest [f|1 (x), ..., f|N (x)] zadośćczyni warunkom z definicji. PRZYKŁAD: Sprawdzić czy funkcja f : R2 → R zadana wzorem f(x, y) = xy + x, (x, y) ∈ R2 , jest różniczkowalna w punkcie (x, y) ∈ R2 . Widzimy, że fx (x, y) = y + 1 i fy (x, y) = x. Rozważamy przekształcenie liniowe A : R2 → R, którego macierzą jest [y + 1, x] (pamiętajmy, że tu punkt (x, y) jest ustalony). Jak wiadomo, dla dowolnego h = (h1 , h2 ) ∈ R2 , mamy A(h) = (y + 1)h1 + xh2 . Obliczymy teraz przyrost f((x, y)+h)−f((x, y)) = f(x+h1 , y+h2 )−f(x, y) = (x+h1 )(y+h2 )+(x+h1 )−xy−x = A(h)+h1 h2 . 46 2. RACHUNEK RÓŻNICZKOWY Należy teraz sprawdzić czy reszta h1 h2 jest postaci ε(h)khk, gdzie ε(h) → 0 przy h → 0. Mamy ε(h) = h1 h2 h1 h2 h1 =q ≤ h2 → 0. khk |h2 | h12 + h22 Ponieważ punkt (x, y) był wybrany dowolnie, to możemy skonkludować, że f jest funkcją różniczkowalną. Widać, że przedstawiona procedura może być uciążliwa. Dysponujemy jednak warunkiem dostatecznym różniczkowalności, który towarzysząc opisanej procedurze daje dobre narzędzie do badania różniczkowalności. 2.1.5 TWIERDZENIE: Przypuśćmy, że dana jest funkcja f : U → R, gdzie zbiór U ⊂ RN jest otwarty. Niech x ∈ U i załóżmy, że w pewnym otoczeniu punktu x (tzn. w pewne kuli B(x, r) o środku w x i promieniu r > 0) istnieją wszystkie pochodne cząstkowe funkcji f, tzn. dla dowolnego y z tego otoczenia istnieją pochodne f|j (y), j = 1, ..., N. Co więcej zakładamy, że dla dowolnego j = 1, ..., N funkcje B(x, r) 3 y 7Ï f|j (y) są ciągłe w punkcie x. Wówczas funkcja f jest różniczkowalna w x. W tym miejscu nie podamy dowodu (opiera się on na I-szym twierdzeniu o wartości średniej). UWAGA: W świetle podanego warunku można dowód różniczkowalności można przeprowadzać następująco: 1. Sprawdzić istnienie pochodnych cząstkowych w otoczeniu interesującego nas punktu z dziedziny i ich ciągłość w tym punkcie; 2. Wykorzystać poprzednie twierdzenie, by napisać postać pochodnej w tym punkcie (lub jej macierzy Jacobiego). PRZYKŁAD: Wróćmy do poprzedniego przykładu (f(x, y) = xy + x. Dla dowolnego punktu (x, y) ∈ R2 , fx (x, y) = y + 1, fy (x, y) = x. Jak widać pochodne cząstkowe istnieją wszędzie i (jako funkcje fx , fy : R2 → R są ciągłe (sprawdzić). Zatem funkcja f jest różniczkowalna i f 0 (x, y) = [y + 1, x]. UWAGA: Warto też wspomnieć o metodzie „wydzielania części liniowej”. Zgodnie z definicją (i uwagą po niej występującej), żeby stwierdzić różniczkowalność w punkcie x ∈ U funkcji f : U → R (gdzie U jest – jak zwykle – zbiorem otwartym) wystarczy przedstawić przyrost f(x + h) − f(x) w postaci sumy składnika zależnego od h w sposób liniowy i reszty rzędu mniejszego niż khk. ĆWICZENIE: Na przykład: niech f : RN → R będzie formą kwadratową wyznaczoną przez formę dwuliniową φ : RN × RN → R. Czy f jest funkcją różniczkowalną? Można rozumować tak: f(x + h) − f(x) = φ(x + h, x + h) − φ(x, x) = φ(x, h) + φ(h, x) + φ(h, h). 2.1. POCHODNE 47 Składnik φ(h, h) jest rzędu mniejszego niż khk (dlaczego), zaś reszta jest liniowa zależna od h. Czytelnik zechce przypomnieć podrozdział o formie ψ (dwuliniowej symetrycznej) odpowiadającej f i zechce dostrzec, że f(x + h) − f(x) = 2ψ(x, h) + φ(h, h), czyli odwzorowanie liniowe h 7Ï 2ψ(x, h) jest pochodną f w punkcie x. Przypomnijmy, że istnienie pochodnych kierunkowych w danym punkcie w kierunku dowolnego wektora a także ich liniowa zależność od kierunku nie implikowało ciągłości funkcji w tym punkcie. 2.1.6 TWIERDZENIE: Jeśli funkcja f : U → R jest różniczkowalna w punkcie x, to jest tam ciągła. DOWÓD: Niech (xn ) ⊂ U i xn → x. Mamy udowodnić, że f(xn ) → f(x), czyli f(xn ) − f(x) → 0, gdy n → ∞. Kładąc hn := xn − x, n ∈ N, możemy napisać f(xn ) − f(x) = f(x + hn ) − f(x) = f 0 (x)(hn ) + ε(hn )khn k (lub od razu f(xn ) − f(x) = f 0 (x)(xn − x) + ε(xn − x)kxn − xk). Jak wiemy przekształcenie liniowe f 0 (x) jest ciągłe, a zatem f 0 (x)(hn ) → 0, bo – oczywiście hn → 0). Ponadto ε(hn ) → 0 i khn k → 0. W taki razie f(xn ) − f(x) → 0. . 2.1.7 TWIERDZENIE: Załóżmy, że funkcje f, g : U → R, gdzie U ⊂ RN jest zbiorem otwartym, są różniczkowalne w punkcie x ∈ U. Wówczas funkcje f ± g, fg oraz f/g (o ile iloraz jest poprawnie zdefiniowany) są różniczkowalne w x i (f ± g)0 (x) = f 0 (x) ± g 0 (x), (fg)0 (x) = g(x)f 0 (x) + f(x)g 0 (x), 1 (f/g)0 (x) = (g(x)f 0 (x) − f(x)g 0 (x)). [g(x)]2 UWAGA: Zanim przystąpimy do dowodu należy dobrze zrozumieć tezę (również pod względem formalnym. Otóż pochodna jest (z definicji) przekształceniem liniowym. Zatem w lewych stronach podanych wzorów znajdują się przekształcenia liniowe, po prawej stronie również: w pierwszym ze wzorów mamy sumę dwóch przekształceń f 0 (x) i g 0 (x); w drugim wzorze po prawej stronie mamy sumę przekształcenia g(x)f 0 (x) (tzn. iloczyn przekształcenia f 0 (x) przez skalar g(x)) oraz przekształcenia f(x)g 0 (x) (tzn. iloczyn przekształcenia g 0 (x) przez skalar f(x)) – kolejność mnożenia ma znaczenie, gdyż w przestrzeniach wektorowych (a taką przestrzenią jest zbiór przekształceń liniowych L(RN , R) elementami której sa rozważane pochodne) mnożymy wektory przez skalary z lewej strony. Analogicznie interpretujemy ostatni z podanych wzorów, z tym że mamy tam do czynienia z różnicą przekształceń. DOWÓD: Dla przykładu podamy dowód ostatniej równości (polecając Czytelnikowi dowody pozostałych wzorów). Dla uproszczenia notacji i bez zmniejszenia ogólności można założyć, że f ≡ 1 : niech B := g 0 (x). Chcemy dowieść, że przekształcenie C : RN → R zadane wzorem C(h) = − 1 g 2 (x) B(h), h ∈ RN , jest pochodną funkcji F := 1/g (oczywiście milcząco pojawia się założenie o poprawności tej funkcji, czyli zakładamy, że g nie ma miejsc zerowych w dziedzinie U). Przede wszystkim łatwo widać, że C jest przekształceniem liniowym. Należy więc sprawdzić, że lim h→0 F(x + h) − F(x) − C(h) = 0. khk 48 2. RACHUNEK RÓŻNICZKOWY Wstawiając otrzymamy g(x + h) − g(x) − B(h) F(x + h) − F(x) − C(h) 1 =− + khk g(x + h)g(x) khk 1 1 1 − B(h). g 2 (x) g(x + h)g(x) khk Pierwszy składnik dąży do 0 przy h → 0, bo – z definicji różniczkowalności g w punkcie x mamy g(x + h) − g(x) − B(h) lim = 0; h→0 khk 1 drugi składnik jest tez zbieżny do 0, bo wyrażenie khk B(h) ograniczone jest przez normę kBk, 1 zaś wyrażenie g 21(x) − g(x+h)g(x) dąży do zera (a wynika to z ciągłości g w punkcie x (czyli g(x + h) → g(x), gdy h → 0). POJĘCIE GRADIENTU Jeśli f : V → R, gdzie V ⊂ RN jest zbiorem otwartym, jest funkcja różniczkowalną w punkcie x ∈ V , to pochodna f 0 (x) jest przekształceniem (funkcjonałem) liniowym (elementem przestrzeni L(RN , R), tzn. przestrzeni sprzężonej (RN )∗ ). Jak wspomniano w rozdziale dotyczącym algebry liniowej przestrzeń sprzężoną (RN )∗ można utożsamiać z RN (w tym utożsamieniu funkcjonałowi φ ∈ (RN )∗ odpowiada wektor U(φ) o tej własności, że φ(x) = hx, U(φ)i). Wektor U(f 0 (x)) nazywa się gradientem funkcji f w punkcie x i oznacza symbolem ∇f(x). Zatem f|1 (x) f|2 (x) ∇f(x) = . .. f|N (x) . Podamy teraz ważną interpretację wektora gradientu funkcji. Przypomnijmy, ze dla wekhx,yi nazywa się cosinusem kąta pomiędzy torów x, y ∈ RN , x, y 6= 0, wielkość cos ^{x, y} = kxkkyk wektorami x i y. Używając tego zapisu mamy: dla dowolnego wektora h ∈ RN , f 0 (x; h) = hh, ∇f(x)i = k∇f(x)kkhk cos ^{h, ∇f(x)}. Jeśli khk = 1, to f 0 (x; h) = k∇f(x)k cos ^{h, ∇f(x)} ≤ k∇f(x)k i f 0 (x; h) = k∇f(x)k wtedy i tylko wtedy, gdy wektory h i ∇f(x) wyznaczają ten sam kierunek i mają ten sam zwrot. Wykazaliśmy więc, że 2.1.8 TWIERDZENIE: Gradient ∇f(x) wyznacza kierunek, w którym wartość pochodnej kierunkowej jest możliwie największa. Jest to jednocześnie kierunek największego wzrostu funkcji f. 2.1.D Pochodne odwzorowań Rozważmy odwzorowanie f : U → RM , gdzie U ⊂ RN jest zbiorem otwartym i niech f = (f1 , ..., fM ). Tak więc fi : U → R dla dowolnego i = 1, ..., M. 2.1. POCHODNE 49 Mówimy, że odwzorowanie f jest różniczkowalne w punkcie x ∈ U, jeżeli istnieje przekształcenie liniowe A ∈ L(RN , RM ) takie, że f(x + h) − f(x) − A(h) = 0, h→0 khk lim czyli przyrost funkcji f(x + h) − f(x) można przedstawić w postaci części liniowo zależnej od przyrostu argumentu h i reszty rzędu mniejszego niż h, tzn. f(x + h) − f(x) = A(h) + khkε(h), gdzie ε(h) ∈ RM i ε(h) → 0, przy h → 0. Widzimy więc, że w przypadku odwzorowań (funkcji wektorowych wielu zmiennych) mamy do czynienia z sytuacją podobną do funkcji wielu zmiennych. 2.1.9 TWIERDZENIE: Jeśli odwzorowanie f : U → RM jest różniczkowalne w punkcie x ∈ U, to przekształcenie liniowe A z definicji jest wyznaczone jednoznacznie. nazywa się je pochodną odwzorowania f w punkcie x i oznacza symbolem f 0 (x). Macierz A = [aij ] ∈ MM×N stowarzyszoną z pochodną nazywa się macierzą Jacobiego i oznacza Jf (x) (3 ). Jej współczynniki wyrażają się następującymi wzorami aij = fi|j (x), a więc w i-tym wierszu i w j-tej kolumnie stoi pochodna cząstkowa i-tej funkcji współrzędnej względem j-tej zmiennej. DOWÓD: Przypuśćmy, że przekształcenia liniowe A i B zadośćczynią warunkom z definicji. Wtedy f(x + h) − f(x) − A(h) f(x + h) − f(x) − B(h) B(h) − A(h) = lim − lim = 0. h→0 h→0 h→0 khk khk khk lim Ustalmy wektor h ∈ RN . Jeśli t ∈ R i t → 0+ , to B(th) − A(th) B(h) − A(h) = lim = 0. t→0 khk tkhk Stąd A(h) = B(h). Z dowolności ustalonego h wynika, że A ≡ B. Niech i = 1, ..., M i j = 1, ..., N. Wówczas (wykorzystując liniowość i ciągłość rzutowania πi : RM → R) mamy fi (x + tej ) − fi (x) 1 = lim πi (f(x + tej ) − f(x)) = t→0 t→0 t t 1 πi lim (tA(ej ) + ε(tej )|t| = πi (A(ej )) = aij . t→0 t fi|j (x) = lim Związki różniczkowalności odwzorowania i jego funkcji współrzędnych opisuje następujący fakt. 2.1.10 TWIERDZENIE: Odwzorowanie f jest różniczkowalne w punkcie x ∈ U wtedy i tylko wtedy, gdy dla dowolnego i = 1, ..., M, funkcja współrzędna fi jest różniczkowalna w tym punkcie. Wtedy też fi0 (x) = πi ◦ f 0 (x). Gdy N = M, to macierz Jacobiego Jf (x) jest kwadratowa; jej wyznacznik det Jf (x) nazywa się jakobianem odwzorowania f w punkcie x. 3 50 2. RACHUNEK RÓŻNICZKOWY DOWÓD: Konieczność: ustalmy i = 1, ..., M. Dla dowolnego (dostatecznie małego) h ∈ RN , fi (x + h) − fi (x) = πi (f(x + h) − f(x)) = πi (f 0 (x)(h) + khkε(h)) = πi ◦ f 0 (x) + khkεi (h), gdzie εi (h) := πi (ε(h)), zaś ε(h) → 0 przy h → 0; oczywiście εi (h) → 0 dla h → 0. Pokazaliśmy więc, że funkcja fi jest różniczkowalna o pochodnej fi0 (x) = πi ◦ f 0 (x). Dostateczność: wystarczy sprawdzić, że przekształcenie liniowe A : RN → RM zadane wzorem 0 (x)(h)), h ∈ RN , A(h) := (f10 (x)(h), ..., fM zadośćczyni definicji. Jest to natychmiastowe. Z podanej charakteryzacji wynikają wszystkie własności pochodnej odwzorowań, analogiczne do sformułowanych powyżej w odniesieniu do funkcji. W szczególności odwzorowania różniczkowalne są ciągłe, różniczkowalność zachowuje się przy wykonalnych działaniach algebraicznych. Oczywiście w przypadku odwzorowań można mówić też o pochodnych kierunkowych. Mianowicie, jeżeli h ∈ RN jest ustalonym wektorem, to dla x ∈ U granica (o ile istnieje) f 0 (x; h) := lim t→0 f(x + th) − f(x) ∈ RM t nazywana jest pochodną kierunkową odwzorowania f w punkcie x w kierunku wektora h. Jeśli h = ej , j = 1, ..., N, to pochodną kierunkową f 0 (x; ej ) nazywa się pochodną cząstkową odwzorowania i oznacza – jak zwykle symbolem f|j (x) (ważne by dostrzec, że f|j (x) ∈ RM ). Nie będziemy tego pojęcia szczegółowo omawiać. Ograniczymy się tylko do stwierdzenia, że jeżeli odwzorowanie f : U → RM jest różniczkowalne w punkcie x, to dla dowolnego h ∈ RN istnieje pochodna kierunkowa f 0 (x; h) i f 0 (x; h) = f 0 (x)(h). Dowód przebiega analogicznie do dowodu analogicznego faktu dla funkcji. 2.1.E Komentarz Poczynimy teraz ważne spostrzeżenie. UWAGA: (1) Jeżeli na funkcję f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, patrzeć jako na odwzorowanie f : U → RM , gdzie M = 1, to widzimy, że dwie podane wyżej definicje nie różnią się między sobą: w obu przypadkach pochodna jest przekształceniem liniowym z L(RN , RM ). (2) Jeśli na „krzywą” f : (a, b) → RM patrzyć jako na odwzorowanie f : (a, b) ⊂ RN → RM , gdzie N = 1, to (zgodnie z przyjętą wyżej definicją) jej pochodną f 0 (t) w punkcie t ∈ (a, b) jest przekształcenie liniowe w L(R, RM ) o macierzy w MM×1 ; a więc – zgodnie z utożsamieniami z rozdziału o macierzach – wektor w RM . To ponownie zgadza się z rozważaniami z początku tego rozdziału. (3) Spójrzmy wreszcie na „zwykłą” funkcję f : (a, b) → R, gdzie −∞ ≤ a < b ≤ +∞, jak na odwzorowanie f : U → RM , gdzie U = (a, b) ⊂ RN , N = 1 jest zbiorem otwartym, zaś M = 1. Z jednej strony, zakładając, że jest ona różniczkowalna w sensie funkcji rzeczywistych 51 2.1. POCHODNE jednej zmiennej w punkcie x ∈ (a, b), to pochodna (zgodnie z rachunkiem różniczkowym funkcji jednej zmiennej) jest liczbą f 0 (x) = lim t→0 f(x + t) − f(x) . t Z drugiej jednak strony, przyjmując podany punkt widzenia i zakładając, że jest ona różniczkowalna w x w podanym wyżej sensie, to pochodna funkcji f w punkcie x jest przekształceniem liniowym A ∈ L(R, R). Skąd bierze się ta (formalna) różnica? Przede wszystkim zauważmy, że jeśli f jest różniczkowalna (w zwykłym sensie), to przekształcenie liniowe o macierzy [a], gdzie a = f 0 (x), zadośćczyni powyższej definicji; zatem mamy do czynienia z różniczkowalnością w sensie powyższym. Jeżeli zaś f jest funkcją różniczkowalną w tym „nowym” sensie, tzn. mamy pewne odwzorowanie liniowe A ∈ L(R, R) i [a] jest jego macierzą, to liczba a jest pochodną naszej funkcji w zwykłym sensie, bowiem a jest wartością jaką A przyjmuje na „wektorze” jednostkowym e = 1 (w R baza jest jednoelementowa i tworzy ją singleton {1}). Jest to więc pochodna kierunkowa funkcji f w kierunku wektora e = a, a więc a = f 0 (x; e) = limt→0 f(x+te)−f(x) = limt→0 f(x+t)−f(x) = f 0 (x). A zatem różt t nica polega tylko na formalnym spojrzeniu. Z jednej strony pochodna jest liczbą, z drugiej zaś przekształceniem liniowym o jednoelementowej macierzy, której jedynym współczynnikiem jest właśnie ta liczba f 0 (x). Biorąc pod uwagę konieczność tego typu identyfikacji sporo miejsca poświęciliśmy tej kwestii w podrozdziale dotyczącym elementów algebry liniowej. Gorąco polecamy Czytelnikowi namysł na tymi sprawami: jest to niezbędne dla dobrego rozumienia 2.1.F Reguła łańcucha Pochodna zachowuje się dobrze przy złożeniach funkcji 2.1.11 TWIERDZENIE: Rozważmy funkcje f : U → RK , gdzie U ⊂ RN jest zbiorem otwartym oraz g : V → RM , gdzie V ⊂ RK jest też zbiorem otwartym oraz f(U) ⊂ V (określone jest więc poprawnie złożenie g ◦ f : U → RM ). Załóżmy, że funkcja f jest różniczkowalna w punkcie x ∈ U, zaś funkcja g jest różniczkowalna w punkcie y := f(x). Wówczas funkcja g ◦ f jest różniczkowalna w punkcie x i jej pochodna wyraża się wzorem (g ◦ f)0 (x) = g 0 (y) ◦ f 0 (x) = g 0 (f(x)) ◦ f 0 (x). (∗) Dowód tego twierdzenie (bez pewnych upraszczających życie założeń) jest dość technicznie skomplikowany. Należy jednak dokładnie rozumieć ten wzór (również pod względem formalnym). Po lewej stronie mamy pochodną funkcji g ◦f, a zatem przekształcenie liniowe RN → RM . Po prawej stronie znajduje się złożenie przekształcenia liniowego A := f 0 (x) : RN → RK z przekształceniem g 0 (y) = g 0 (f(x)) : RK → RM . Pamiętając, że złożeniu przekształceń liniowych odpowiada macierz będącą iloczynem Cauchy’ego macierz odpowiadających składanym przekształceniom możemy odtworzyć macierz Jacobiego odwzorowania g ◦ f. Z jednej strony wiemy, że jest to macierz postaci [(gi ◦ f)|j (x)] i=1,...,M (Czytelnik bez wątpienia dostrzega, że i-tą j=1,...,N funkcja współrzędną odwzorowania g ◦ f jest funkcja gi ◦ f), z drugiej macierz ta jest iloczynem macierzy Jacobiego odwzorowania g w punkcie y, czyli macierzy [gi|k (y)] i=1,...,M przez macierz k=1,...,K Jacobiego odwzorowania f w punkcie x, czyli macierz [fk|j (x)] k=1,...,K . Tak więc j=1,...,N [(gi ◦ f)|j (x)] i=1,...,M = [gi|k (y)] i=1,...,M · [fk|j (x)] k=1,...,K . j=1,...,N k=1,...,K j=1,...,N 52 2. RACHUNEK RÓŻNICZKOWY Biorąc pod uwagę definicję iloczynu Cauchy’ego macierzy otrzymujemy wzór: dla dowolnych i = 1, ..., M i j = 1, ..., N, (gi ◦ f)|j (x) = K X gi|k (y)fk|j (x) = k=1 K X (gi|k ◦ f)(x)fk|j (x). (∗∗) k=1 UWAGA: Czytelnik powinien zapamiętać wzór (∗∗) (albo zapamiętać, znacznie łatwiejszy do zapamiętania wzór (∗) i umieć wyprowadzić wzór (∗∗)). Szczególnie jest to ważne w praktycznych zastosowaniach i przy różnych konfiguracjach liczb N, K i M. Na przykład gdy N = 1 = M, K dowolne, N, M dowolne i K = 1 (jest to najczęstsza sytuacja, w której tego wzoru się używa). 2.1.G Twierdzenia o wartości średniej Omówiliśmy już I-sze twierdzenie o wartości średniej dla funkcji (i poddaliśmy krytyce takie twierdzenie w przypadku odwzorowań wektorowych jednej zmiennej). Pojawią się teraz dwa twierdzenia. 2.1.12 TWIERDZENIE (II-gie o wartości średniej) Przypuśćmy, że f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, x0 , x1 ∈ U i odcinek [x0 ; x1 ] ⊂ U. Jeżeli funkcja f jest różniczkowalna w każdym punkcie x ∈ [x0 ; x1 ], to istnieje θ ∈ (0, 1) taka, że f(x1 ) − f(x0 ) = f 0 (x0 + θ(x1 − x0 ))(x1 − x0 ). Zanim przystąpimy do dowodu należy podany wzór dobrze interpretować. Po lewej stronie mamy różnicę dwóch liczb, zaś po prawej wartość f 0 (x)(h) jaką pochodna w punkcie pośrednim x := x0 + θ(x1 − x0 ) odcinka [x0 ; x1 ] przyjmuje na wektorze h := x1 − x0 . Jest to dość oczywiste, lecz Czytelnik powinien (choćby w tym przypadku) umiejętnie „odczytywać” wzory. DOWÓD: Założona różniczkowalność implikuje, że w każdym punkcie x ∈ [x0 ; x1 ] istnieje pochodna kierunkowa f 0 (x; x1 − x0 ), Z I-szego twierdzenia o wartości średniej, dla pewnego θ ∈ (0, 1) f(x1 ) − f(x0 ) = f 0 (x0 + θ(x1 − x0 ); x1 − x0 ) = f 0 (x0 + θ(x1 − x0 ))(x1 − x0 ). 2.1.13 TWIERDZENIE (o przyrostach) Niech f : U → RM , gdzie U ⊂ RN jest zbiorem otwartym, x0 , x1 ∈ U i odcinek [x0 ; x1 ] ⊂ U. Jeśli odwzorowanie f jest różniczkowalne w każdym punkcie x odcinka [x0 ; x1 ], to istnieje θ ∈ (0, 1) takie, że kf(x1 ) − f(x0 )k ≤ kf 0 (x0 + θ(x1 − x0 ))kkx1 − x0 k. UWAGA: Po lewej stronie jest długość (norma) przyrostu f(x1 ) − f(x0 ). Po prawej stronie mamy do czynienia z iloczynem normy kf 0 (x)k przekształcenia liniowego f 0 (x) (gdzie x = x0 + θ(x1 − x0 ) jest pewnym punktem pośrednim z odcinka [x0 ; x1 ]) oraz długości (normy) przyrostu x1 −x0 argumentu. Stąd nazwa twierdzenia. Wskazane byłoby, aby Czytelnik dostrzegł różnicę twierdzenia o przyrostach i twierdzenia o wartości średniej i znał przykład kiedy to twierdzenie nie zachodzi (a w twierdzeniu o przyrostach występuje ostra nierówność). 2.1. POCHODNE 53 DOWÓD: Niech z = f(x1 ) − f(x0 ) ∈ RM i zdefiniujmy funkcję pomocniczą φ : [0, 1] → R dana wzorem φ(t) = hz, f((1 − t)x0 + tx1 )i. Korzystając z twierdzenia o różniczkowaniu funkcji złożonej i reguły łańcucha, funkcja φ jest ciągła i różniczkowalna w dowolnym punkcie t ∈ (0, 1); φ0 (t) = hz, f 0 ((1 − t)x0 + tx1 )(x1 − x0 )i. Z twierdzenia Lagrange’a, istnieje θ ∈ (0, 1) takie, że kf(x1 ) − f(x0 )k2 = hz, f(x1 ) − f(x0 )i = φ(1) − φ(0) = φ0 (θ). Zatem kf(x1 ) − f(x0 )k2 = hz, f 0 (x0 + θ(x1 − x0 ))(x1 − x0 )i ≤ kzkkf 0 (x0 + θ(x1 − x0 ))kkx1 − x0 k = = kf(x1 ) − f(x0 )kkf 0 (x0 + θ(x1 − x0 )x)kkx1 − x0 k. 2.1.H Różniczkowalność i funkcje klasy C 1 Niech f : U → RM , gdzie U ⊂ RN . Do tej pory mówiliśmy o różniczkowalności f w punkcie x ∈ U. Jeżeli odwzorowanie f jest różniczkowalne w dowolnym punkcie zbioru U, to mówimy, że f jest odwzorowaniem różniczkowalnym. Jeśli funkcja f jest różniczkowalna, to jest ona ciągła. Jeśli f jest odwzorowaniem różniczkowalnym, to określone jest odwzorowanie f 0 : U → L(RN , RM ), ; U 3 x 7Ï f 0 (x) ∈ L(RN , RM ), które nazywa się pochodną funkcji f. W szczególności jeśli f jest funkcją, tzn. M = 1, to pochodna f 0 : U → L(RN , R) przyporządkowuje punktom x ∈ U funkcjonał liniowy f 0 (x) ∈ (RN )∗ . W tej sytuacji można też rozważać odwzorowanie gradientu ∇f : U → RN , które każdemu punktowi x ∈ U przyporządkowuje gradient ∇f(x). Jest jasne, że jeśli funkcja f jest różniczkowalna, to dla każdego x ∈ U i j = 1, ..., N, istnieje pochodna cząstkowa f|j (x). Określona jest więc funkcja f|j : U → R, która każdemu punktowi x ∈ U przyporządkowuje liczbę f|j (x). Mówimy, że funkcja różniczkowalna f jest klasy C 1 , jeżeli dla dowolnego j = 1, ..., N, pochodna f|j : U → R jest funkcją ciągłą. 54 2. RACHUNEK RÓŻNICZKOWY 2.2 Pochodne wyższych rzędów 2.2.A Pochodne drugiego rzędu Rozważmy funkcję f : U → R, gdzie U ⊂ RN jest zbiorem otwartym. Niech i, j = 1, ..., N i załóżmy, że w otoczeniu B(x, r) punktu x ∈ U, istnieje pochodna cząstkowa f|i (y), y ∈ B(x, r). Innymi słowy określona jest funkcja RN ⊃ B(x, r) 3 y 7Ï f|i (y) ∈ R, która punktowi y przyporządkowuje pochodną cząstkową f|i (y). Przypuśćmy, że funkcja ta ma w punkcie x pochodną cząstkową względem j-tej zmiennej, tzn. istnieje pochodna cząstkowa f|i (x + tej ) − f|i (x) . t→0 t (f|i )|j (x) = lim Pochodną tę nazywa się pochodną cząstkową drugiego rzędu w punkcie x względem i-tej i j-tej zmiennej i oznacza symbolem f|ij (x). UWAGA: (1) Gdy mamy do czynienia z dwoma lub trzema zmiennymi x, y, z.. stosuje się 00 , itp. Tutaj oczywiście też zapis fxx , fxy 00 fxy = fxy = f|12 . (2) Na ogół kolejność różniczkowania ma znaczenie, tzn. f|ij (x) 6= f|ji (x). PRZYKŁAD: Rozważmy funkcję ( f(x, y) := xy(x 2 −y 2 ) x 2 +y 2 0 dla (x, y) 6= (0, 0); dla x = 0 = y. Wtedy, dla dowolnego (x, y) ∈ R2 mamy fx (0, y) = −y, fy (x, 0) = x skąd fxy (0, 0) = −1 i fyx (0, 0) = 1. Ma miejsce jednak następujący rezultat. 2.2.1 TWIERDZENIE (Schwarza): Jeśli dla danych i, j = 1, ..., N w pewnym otoczeniu punktu x istnieją pochodne f|ij oraz f|ji oraz są funkcjami ciągłymi w punkcie x, to f|jk (x) = f|kj (x). Za chwilę udowodnimy twierdzenie nieco ogólniejsze. Przyjmujemy teraz następującą definicję. Mówimy, że funkcja f : U → R jest dwukrotnie różniczkowalna w punkcie x ∈ U, jeżeli jest różniczkowalna w otoczeniu punktu x i dla dowolnego i = 1, ..., N, pochodna cząstkowa f|i jest (jako funkcja określona w tym otoczeniu) funkcją różniczkowalną w punkcie x. UWAGA: Podana definicja jest bez wątpienia dość trudna i wymaga uwagi. Przede wszystkim żądamy, by istniała taka liczba r > 0, że w otoczeniu B(x, r) istnieje pochodna f 0 , tzn. dla dowolnego y ∈ B(x, r) istnieje f 0 (y). W szczególności, dla każdego i = 1, ..., N, istnieje pochodna cząstkowa f|i (y), y ∈ B(x, r). W taki razie określona jest funkcja f|i : B(x, r) → R, która każdemu punktowi y ∈ B(x, r) przyporządkowuje pochodną cząstkową f|i (y) w punkcie y. W definicji dwukrotnej różniczkowalności żądamy, aby każda z tych funkcji f|i : B(x, r) → R, i = 1, ..., N, była różniczkowalna w punkcie x. Oznacza to, że dla dowolnego i = 1, ..., N, istnieje przekształcenia liniowe Ai ∈ L(RN , R) takie, że f|i (x + h) − f|i (x) − Ai (h) = 0. h→0 khk lim 2.2. POCHODNE WYŻSZYCH RZĘDÓW 55 Biorąc pod uwagę powyższą notację zdefiniujmy przekształcenie A : RN ×RN → R wzorem: dla h = (h1 , ..., hN ), k ∈ RN N X A(h, k) = hi Ai (k). i=1 2.2.2 TWIERDZENIE: Przy założeniu, że f jest funkcją dwukrotnie różniczkowalną w punkcie x mamy: (i) odwzorowanie A jest przekształceniem dwuliniowym i symetrycznym, tzn. A(h, k) = A(k, h), h, k ∈ RN ; (ii) dla dowolnych i, j = 1, ..., N, istnieje pochodna cząstkowa f|ij (x) oraz f|ij (x) = A(ei , ej ) = A(ej , ei ) = f|ji (x). DOWÓD: Ustalmy i = 1, ..., N. Różniczkowalność w punkcie x funkcji f|i (zadanej na otoczeniu B(x, r)) implikuje istnienie pochodnej cząstkowej f|ij (x) = (f|i )|j (x). Sprawdzimy dwuliniowość odwzorowania A: Niech h = (h1 , ..., hN ), k, k1 , k2 ∈ RN i α ∈ R. Wtedy A(h, k1 + k2 ) = N X hi Ai (k1 + k2 ) = i=1 N X hi (Ai (k1 ) + Ai (k2 )) = A(h, k1 ) + A(h, k2 ). i=1 Analogicznie weryfikujemy jednorodność względem drugiej zmiennej: A(h, αk) = αA(h, k). Niech teraz h, h1 , h2 , k ∈ RN . Sprawdzimy, że A(αh, k) = αA(h, k) oraz A(h1 +h2 , k) = A(h1 , k)+ A(h2 , k). Jeśli h = (h1 , ..., hN ), to αh = (αh1 , ..., αhN ) i A(αh, k) = N X αhi Ai (k) = α i=1 N X hi Ai (K) = αA(h, k). i=1 1 2 1 2 Podobnie jeśli h1 = (h11 , ..., hN ) oraz h2 = (h12 , ..., hN ), to h1 + h2 = (h11 + h12 , ..., hN + hN ) i wobec tego A(h + h , k) = 1 2 N X i=1 (hi1 + hi2 )Ai (k) N X = i=1 hi1 Ai (k) N X + hi2 Ai (k) = A(h1 , k) + A(h2 , k). i=1 Dowód symetryczności formy liniowej A (już możemy używać tej nazwy) jest znacznie trudniejszy i przewidziany jest dla nieco ambitniejszego Czytelnika. Wystarczy pokazać, że A(ei , ej ) = A(ej , ei ) dla dowolnych i, j = 1, ..., N, tzn. że f|ij (x) = f|ji (x) (Czytelnik powinien sprawdzić. ze rzeczywiście wystarczy tyle dowieść). W tym celu rozważ funkcję pomocniczą φ(t, s) := f(x + tei + sej ) zdefiniowaną w otoczeniu punktu (0, 0) ∈ R2 . Tak zdefiniowana funkcja jest różniczkowalna, bowiem jej pochodne cząstkowe (z reguły łańcucha) φt (t, s) = f 0 (x+tei +sej )(ei ) = f|i (x+tei +sej ) oraz φs (t, s) = f 0 (x+tei +sej )(ej ) = f|j (x+tei +sej ). Jest ona także dwukrotnie różniczkowalna w punkcie (0, 0), gdyż, jak widać, jej pochodne cząstkowe φt i φs są różniczkowalne w (0, 0). Co więcej φts (0, 0) = f|ij (x) i φst (0, 0) = f|ji (x). 56 2. RACHUNEK RÓŻNICZKOWY Oczywiście pochodne φtt (0, 0) oraz φss (0, 0) również istnieją. Tak więc mamy pokazać, że φts (0, 0) = φst (0, 0). W tym celu pokażemy, że 1 [φ(t, t) − φ(0, t) − φ(t, 0) − φ(0, 0)] = φst (0, 0). t→0 t 2 φts (0, 0) = lim (∗) Zajmiemy się najpierw pierwszą równością. Dla uproszczenia rachunków wprowadzimy jeszcze inną funkcję: 1 ψ(t, s) := φ(t, s) − t 2 φtt (0, 0) − tsφts (0, 0). 2 Widzimy (poprze bezpośredni rachunek), że ψtt (0, 0) = 0 = ψts (0, 0). Ponadto ψ ma te same własności co φ: jest dwukrotnie różniczkowalna w punkcie (0, 0). Jeśli udowodnimy, że 1 0 = lim t→0 t 2 [ψ(t, t) − ψ(0, t) − ψ(t, 0) − ψ(0, 0)], o (biorąc pod uwagę, że ψ(t, t) = φ(t, t) − 12 t 2 φtt (0, 0) − t 2 φts (0, 0), ψ(0, t) = φ(0, t), ψ(t, 0) = φ(t, 0) − 12 t 2 φtt (0, 0) i ψ(0, 0) = φ(0, 0)) udowodnimy de facto, że rzeczywiście 1 [φ(t, t) − φ(0, t) − φ(t, 0) − φ(0, 0)] = φts (0, 0). t→0 t 2 lim Tak więc naszym celem jest pokazać, że 1 [ψ(t, t) − ψ(0, t) − ψ(t, 0) − ψ(0, 0)] = 0 t→0 t 2 lim (∗∗) pamiętając, że ψtt (0, 0) = 0 = ψts (0, 0). Funkcja ψt jest różniczkowalna w (0, 0). Możemy więc napisać p ψt (t, s) − ψt (0, 0) = tψtt (0, 0) + sψts (0, 0) + η(t, s) t 2 + s2 , gdzie η(t, s) → 0 o ile t, s → 0. Tak więc p ψt (t, s) − ψt (0, 0) = η(t, s) t 2 + s2 lub, inaczej zapisując, p ψ|1 (t, s) − ψ|1 (0, 0) = η(t, s) t 2 + s2 . Weźmy ε > 0; istnieje wówczas δ > 0 taka, że |η(t, s)| < ε, o ile |t|, |s| < δ. Ustalmy |t| < δ. Dla s ∈ [−|t|, |t|] połóżmy ξ(s) := ψ(s, t) − ψ(s, 0). Wtedy ξ(t) − ξ(0) = ψ(t, t) − ψ(t, 0) − ψ(0, t) − ψ(0, 0). I dalej, dla s ∈ (−|t|, |t|) p ξ 0 (s) = ψ|1 (s, t) − ψ|1 (s, 0) = ψ|1 (s, t) − ψ|1 (0, 0) − ψ|1 (s, 0) + ψ|1 (0, 0) = η(s, t) s2 + t 2 + η(s, 0)|s|. Tak więc, dla s ∈ (−|t|, |t|), p √ √ |ξ 0 (s)| ≤ η(s, t) s2 + t 2 + η(s, 0)|s| < 2|t|ε + ε|t| = |t|(1 + 2)ε. 57 2.2. POCHODNE WYŻSZYCH RZĘDÓW Z twierdzenia Lagrange’a (odnośnie funkcji ξ) √ |ψ(t, t) − ψ(t, 0) − ψ(0, t) − ψ(0, 0)| = |ξ(t) − ξ(0)| ≤ |t|2 (1 + 2)ε. Dowodzi to, że 1 lim t→0 t 2 [ψ(t, t) − ψ(t, 0) − ψ(0, t) − ψ(0, 0)] = 0 tak jak żądaliśmy. W celu dowodu drugiej z potrzebnych równości w (∗) wprowadzamy nową funkcje pomocniczą ψ(t, s) = φ(t, s) − 12 s2 φss (0, 0) − tsφst (0, 0) i, analogicznie jak wyżej dowodzimy, ze 1 [ψ(t, t) − ψ(0.t) − ψ(t, 0) − ψ(0.0)] = 0 t→0 t 2 lim co oznacza, że zachodzi druga z równości (∗). Udowodnione twierdzenie jest ważne również z tego powodu, że i teraz, obok dwukrotnej różniczkowalności, można mówić o drugiej pochodnej. Mianowicie jeżeli f : U → R jest funkcją dwukrotnie różniczkowalną w punkcie x ∈ U, to formę dwuliniową symetryczną A ∈ Ls2 (RN , R) taką, że dla i, j = 1, ..., N, A(ei , ej ) = f|ij (x) nazywamy drugą pochodną lub pochodną drugiego rzędu funkcji f w punkcie x i oznaczamy symbolem f 00 (x). Macierz stowarzyszoną z drugą pochodną f 00 (x) nazywa się macierzą Hessa funkcji f w punkcie x i oznacza Hf (x). Oczywiście Hf (x) = [f|ij (x)]i,j=1,...,N . Jeśli więc h = (h1 , ..., hN ), k = (k1 , ..., kN ) ∈ RN , to 00 f (x)(h, k) = N X hi kj f|ij (x) i,j=1 lub f 00 (x)(h, k) = [h1 , ..., kN ]Hf (x)[k1 , ..., kN ]T = N X hi kj f|ij (x). i,j=1 Jeszcze inaczej zapisując: jeśli Hf (x) ∈ L(RN , RN ) oznacza przekształcenie liniowe, z którym stowarzyszona jest macierz Hessa, to f 00 (x)(h, k) = hh, Hf (x)(k)i. UWAGA: (1) W podanej definicji drugiej pochodnej kryje się pewne niebezpieczeństwo: nie orzeka ona, że jeżeli funkcja f ma pochodne cząstkowe drugiego rzędu w punkcie x, ani nawet, że jest różniczkowalna i ma pochodne cząstkowe drugiego rzędu, to forma dwuliniowa A ∈ Ls2 (RN , R) taka, że A(ei , ej ) = f|ij (x), gdzie i, j = 1, ..., N, jest jej pochodną drugiego rzędu. Definicja ta mówi, że jeśli funkcja f jest dwukrotnie różniczkowalna, to taka forma dwuliniowa jest pochodną drugiego rzędu. Zatem zanim będziemy mówić o drugiej pochodnej, przekonajmy się, że jest ona dwukrotnie różniczkowalna. Udowodnimy teraz następujące ważne twierdzenie: 2.2.3 TWIERDZENIE: Załóżmy, że funkcja f : U → R, gdzie U jest zbiorem otwartym w RN , jest funkcją dwukrotnie różniczkowalną w punkcie x. Wówczas, dla dostatecznie małych h ∈ RN ma miejsce zależność 1 f(x + h) − f(x) = f 0 (x)(h) + f 00 (x)(h, h) + ε(h)khk2 , 2 58 2. RACHUNEK RÓŻNICZKOWY gdzie ε(h) → 0, gdy h → 0. Niekiedy mówi się, że treścią twierdzenia jest wzór Taylora do rzędu drugiego z resztą w postaci Peano. DOWÓD (dla chętnych): Niech ε > 0 takie, że B(x, ε) ⊂ U i niech h ∈ RN , 0 < khk < ε. Wtedy, dla t ∈ [0, khk], x + th ∈ U. Rozważmy funkcję g : [0, khk] → R daną wzorem g(t) := f(x + tkhk−1 h), t ∈ [0, khk]. Wtedy g(khk) = f(x + h) i g(0) = f(x). Funkcja pomocnicza g jest różniczkowalna (patrz np. lemat 2.2.13) i wykorzystując regułę łańcucha g 0 (t) = khk−1 f 0 (x + tkhk−1 h)(h) (sprawdzić), czyli g 0 (0) = khk−1 f 0 (x)(h) oraz g 00 (0) = khk−2 f 00 (x)(h, h) (przeliczyć). Ze wzoru Taylora (dla funkcji rzeczywistych jednej zmiennej) 1 1 g(t) = g(0) + g 0 (0)t + g 00 (0)t 2 + ε(t)t 2 = f(x) + tkhk−1 f 0 (x)(h) + t 2 khk−1 f 00 (x)(h, h) + ε(t)t 2 , 2 2 gdzie ε(t) → 0 przy t → 0. W szczególności dla t = khk mamy 1 f(x + h) = g(khk) = f(x) + f 0 (x)(h) + f 00 (x)(h, h) + ε(khk)khk2 . 2 FRAGMENT DODATKOWY Przyjrzyjmy się jeszcze raz powyższemu twierdzeniu. (1) Biorąc pod postać drugiej pochodnej i jej związek z pochodnymi cząstkowymi drugiego rzędu, dla h = (h1 , ..., hN ), N X f 00 (x)(h, h) = hi hj f|ij (x). i,j=1 RN f 00 (x)(h, h) Ponadto odwzorowanie 3 h 7Ï jest formą kwadratową, którą wyznacza forma 00 dwuliniowa f (x) (por. definicję formy kwadratowej). (2) Czytelnik powinien porównać wzór z twierdzenia Taylora ze wzorem (∗) i stwierdzeniem ze strony 45. Mamy do czynienia z sytuacją bardzo podobną: dwukrotna różniczkowalność implikuje, że przyrost funkcji dwukrotnie różniczkowalnej jest równy sumie składnika liniowo zależnego od przyrostu h (jest nim składnik f 0 (x)(h)), składnika zależnego kwadratowo od h (jest nim składnik 12 f 00 (x)(h, h)) oraz składnika rzędu mniejszego niż kwadrat khk2 przyrostu, tzn. składnika postaci khk2 ε(h), w którym ε(h) → 0 przy h → 0. (3) O ile jednak warunek (∗) ze strony 43 (istnienie funkcjonału A ∈ L(RN , R) zadośćczyniącego zależności (∗) ze strony 43) był równoważny różniczkowalności f punkcie x, to warunek analogiczny w przypadku dwukrotnej różniczkowalności nie jest niestety prawdziwy. Załóżmy mianowicie, że f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, jest funkcją 2.2. POCHODNE WYŻSZYCH RZĘDÓW 59 różniczkowalną, x ∈ U oraz istnieje forma dwuliniowa symetryczna B ∈ Ls2 (RN , R) taka, że dla dostatecznie małych przyrostów h ∈ RN 1 f(x + h) − f(x) = f 0 (x)(h) + B(h, h) + khk2 ε(h), 2 gdzie ε(h) → 0, gdy h → 0. Pytanie brzmi: czy funkcja f jest dwukrotnie różniczkowalna? Odpowiedź brzmi: nie. PRZYKŁAD: Rozważmy funkcję f(x) = x 3 sin x13 dla x 6= 0 i f(0) = 0. Czytelnik zechce pokazać, że funkcja ta jest różniczkowalna: w istocie f 0 (0) = 0 i f 0 (x) = 3x 2 sin x13 − x3 cos x13 dla x 6= 0. Zatem pochodna f 0 nie jest ciągła w 0, czyli f nie może być różniczkowalna w punkcie x = 0. Z drugiej jednak strony kładąc B ≡ 0 mamy f(h) = f(0 + h) − f(0) = f 0 (0)h + B(h, h) + ε(h)|h|, gdzie ε(h) = |h|−1 f(h) → 0, gdy h → 0. (4) Konkluzja: dwukrotnej różniczkowalności w punkcie nie można zdefiniować „na wzór i podobieństwo” różniczkowalności w punkcie zastępując odwzorowanie liniowe odwzorowaniem dwuliniowym. Cierpliwy czytelnik jednak doczeka się za chwilę definicji dwukrotnej różniczkowalności pozostającej w pełnej analogii z definicją różniczkowalności. (5) Ciekawe jest, że jeśli funkcja dwukrotnie różniczkowalna f : U → R w punkcie x ∈ U dopuszcza dla małych h przedstawienie w postaci: 1 f(x + h) = f(x) + A(h) + B(h) + khk2 ε(h), 2 gdzie A ∈ L(RN , R) i B jest formą kwadratową na RN , to f 0 (x) = A oraz f 00 (x) = φ, gdzie φ jest symetryczną forma dwuliniową wyznaczającą formę kwadratową B. ĆWICZENIE: Udowodnić to stwierdzenie. Powyższy przykład mówi, że przyjętego założenia o dwukrotnej różniczkowalności nie można opuścić (dlaczego?). Załóżmy teraz, że funkcja f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, będzie różniczkowalna. W związku z tym poprawnie zdefiniowane jest odwzorowanie gradientu ∇f : U → RN , U 3 x 7Ï ∇f(x) oraz ∇f = (f|1 , ..., f|N ). Niech x ∈ U. Możemy rozważać różniczkowalność ∇f w punkcie x i pochodną (∇f)0 (x). Jak pamiętamy (twierdzenie 2.1.10) różniczkowalność w punkcie x ma miejsce wtedy i tylko wtedy, gdy każda z funkcji współrzędnych odwzorowania ∇f, czyli każda z pochodnych cząstkowych f|j jest różniczkowalna w punkcie x, a więc wtedy i tylko, gdy f jest różniczkowalna w sensie przyjętej przez nas definicji. Otrzymaliśmy więc twierdzenie: 2.2.4 TWIERDZENIE: Funkcja różniczkowalna f : U → R jest dwukrotnie różniczkowalna w punkcie x ∈ U wtedy i tylko wtedy, gdy odwzorowanie gradientu ∇f : U → RN jest różniczkowalne w punkcie x. 60 2. RACHUNEK RÓŻNICZKOWY Zgodnie z definicją, macierzą Jacobiego odwzorowania ∇f w punkcie x jest macierz, w której w i-tym wierszu i w j-tej kolumnie stoi j-ta pochodna cząstkowa i-tej funkcji współrzędnej odwzorowania ∇f, czyli jest to macierz [(f|i )|j (x)]i,j=1,...,N = [f|ij (x)]i,j=1,...,N . Innymi słowy Hf (x) = J∇f (x), i – wobec tego – odwzorowanie liniowe Hf (x) stowarzyszone z macierzą Hessa jest pochodną gradientu ∇f, tzn. Hf (x) = (∇f)0 (x) i dla dowolnych h, k ∈ RN f 00 (x)(h, k) = hh, Hf (x)(k)i = hh, (∇f)0 (x)(k)i. Kolejnym krokiem jest, podobnie jak w przypadku różniczkowalności w punkcie, pytanie o prosty warunek dostateczny dwukrotnej różniczkowalności w punkcie. 2.2.5 TWIERDZENIE: Niech funkcja f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, będzie funkcją różniczkowalną i niech x ∈ U. Funkcja f jest dwukrotnie różniczkowalna w punkcie x, jeśli w otoczeniu punktu x istnieją wszystkie pochodne cząstkowe drugiego rzędu i są one funkcjami ciągłymi w x. DOWÓD: Ustalmy i = 1, ..., N. Z założenia w pewnej kuli B(x, r) istnieją pochodne cząstkowe f|ij , tzn. dla dowolnego y ∈ B(x, r) oraz j = 1, ..., N istnieje f|ij (y) = (f|i )|j (y), i, dodatkowo, funkcja B(x, r) 3 y 7Ï f|ij (y) = (f|i )|j (y) jest ciągła w x. Wykorzystując warunek dostateczny różniczkowalności stwierdzamy, że funkcja f|i jest różniczkowalna. To dzieje się dla wszystkich i = 1, ..., N. Tak więc – w świetle naszej definicji – funkcja f jest dwukrotnie różniczkowalna w punkcie x. A więc w celu weryfikacji dwukrotnej różniczkowalności w punkcie x ∈ U należy: obliczyć pochodne cząstkowe (pierwszego rzędu), zobaczyć czy są one ciągłe (to będzie gwarantować, że f jest funkcją różniczkowalną), obliczyć pochodne cząstkowe drugiego rzędu i sprawdzić, czy są one ciągłe w punkcie x. 2.2.B Pochodne wyższych rzędów funkcji Przypuśćmy, że f : U → R, gdzie U ⊂ RN , jest funkcją dwukrotnie różniczkowalną, tzn. jest ona dwukrotnie różniczkowalna w każdym punkcie x ∈ U. Wówczas, dla dowolnego x ∈ U i dla wszystkich i, j = 1, ..., N, istnieje pochodna cząstkowa (drugiego rzędu) f|ij (x). Mam więc poprawnie określoną funkcję drugiej pochodnej cząstkowej f|ij : U → R. Ustalmy punkt x ∈ U. Jeśli, dla dowolnych i, j = 1, ..., N, funkcja pochodnej cząstkowej f|ij jest różniczkowalna w punkcie x, to mówimy, że funkcja f jest trzykrotnie różniczkowalna w punkcie x. Załóżmy, że funkcja f jest trzykrotnie różniczkowalna w punkcie x. Ustalmy i, j = 1, ..., N. Różniczkowalność pochodnej f|ij w punkcie x implikuje istnienie pochodnej cząstkowej (f|ij )|k (x) dla wszystkich k = 1, ..., N. Pochodną tę nazywamy pochodną cząstkową trzeciego rzędu względem zmiennych o numerach i, j i k i oznaczamy symbolem f|ijk (x). 2.2. POCHODNE WYŻSZYCH RZĘDÓW 61 Rozumując analogicznie (wykorzystując de facto rozumowanie z twierdzenia 2.2.2) łatwo pokazać, że 2.2.6 TWIERDZENIE: Jeśli funkcja f : U → R, gdzie U ⊂ RN , jest trzykrotnie różniczkowalna w punkcie x, to przekształcenie trójliniowe A ∈ L3 (RN , R) wyznaczone przez macierz trójwskaźnikową [f|ijk (x)]i,j,k=1,...,N jest symetryczne i f|ijk (x) = A(ei , ej , ek ) dla dowolnych i, j, k = 1, ..., N. Przekształcenie A nazywa się pochodną trzeciego rzędu funkcji f w punkcie x i oznacza symbolem f 000 (x). ĆWICZENIE: Udowodnić to twierdzenie w oparciu o twierdzenie 2.2.2 i następującą obserwację: funkcja f : U → R jest trzykrotnie różniczkowalna wtedy i tylko wtedy, gdy każda pochodna cząstkowa f|j : U → R, j = 1, ..., N, jest dwukrotnie różniczkowalna w punkcie x. Podobnie definiujemy różniczkowalność dowolnego rzędu n ≥ 1 w punkcie funkcji f : U → R. Zakładamy, że funkcja f jest (n−1)-krotnie różniczkowalna. Wobec tego, dla dowolnego układy liczb i1 , ..., in−1 = 1, ..., N i x ∈ U istnieje pochodna cząstkowa (n − 1)-szego rzędu, tzn. f|i1 i2 ...in−1 (x), czyli funkcja f|i1 ...in−1 : U → R. Ustalmy x ∈ U. Mówimy, że funkcja f jest n-krotnie różniczkowalna w punkcie x, jeśli każda z pochodnych cząstkowych f|i1 ...in−1 jest funkcją różniczkowalną w punkcie x. Jeśli funkcja f jest n-krotnie różniczkowalna w punkcie x ∈ U, to dla dowolnych i1 , ..., in−1 = 1, ..., N oraz dla dowolnego in = 1, ..., N istnieje pochodna cząstkowa (f|i1 ...in−1 )|in (x), którą oznaczamy symbolem f|i1 ...in−1 in (x) i nazywamy pochodną cząstkową n-tego rzędu funkcji f w punkcie x względem zmiennych o numerach i1 , ..., in . Wprost z definicji wynika następujący warunek konieczny i dostateczny n-krotnej różniczkowalności funkcji w punkcie. 2.2.7 FAKT: Funkcja f : U → R jest n-krotnie różniczkowalna w punkcie x, gdzie n ≥ 2, wtedy i tylko wtedy, gdy dla dowolnego j = 1, ..., N, pochodna cząstkowa f|j : U → R jest funkcją (n − 1)-krotnie różniczkowalną w x. Podobnie jak poprzednio (używając np. indukcji matematycznej) można udowodnić, że przekształcenie n-liniowe wyznaczone przez macierz n-wskaźnikową postaci [f|i1 ...in (x)]i1 ,...in =1,...,N jest symetryczne. Nazywamy je pochodną n-tego rzędu funkcji f w punkcie x i oznaczamy symbolem f (n) (x). KONKLUZJA: Mówiąc ogólnie: przypuśćmy, że f : U → R, gdzie U ⊂ RN jest zbiorem otwartym. Niech n ∈ N. Jeżeli funkcja f jest n-krotnie różniczkowalna w punkcie x (co – w przypadku, gdy n ≥ 2 – oznacza, że istnieją pochodne cząstkowe (n − 1)-szego rzędu określone na U i są różniczkowalne w x), to pochodną jest odwzorowanie n-liniowe symetryczne f (n) (x) ∈ Lsn (RN , R), którego macierzą jest macierz n-wskaźnikowa [f | i1 ...in (x)]i1 ,...,in =1,...,N . Tak więc, jeśli h1 , ..., hn ∈ RN , hi = (hi1 , ..., hiN ), to f (n) (x)(h1 , ..., hn ) = N X h1i1 ..hnin f|i1 ...in (x). (∗) i1 ,....in =1 ĆWICZENIE: Czytelnik powinien w miarą swobodnie kontrolować podaną (niestety dość złożoną) notację. 62 2. RACHUNEK RÓŻNICZKOWY Rozumując indukcyjnie otrzymujemy następujący warunek dostateczny n-krotnej różniczkowalności w punkcie x. 2.2.8 TWIERDZENIE: Jeśli wszystkie pochodne cząstkowe n-tego rzędu funkcji (n − 1)-krotnie różniczkowalnej f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, istnieją w pewnym otoczeniu punktu x ∈ U i są w tym punkcie ciągłe, to funkcja f jest n-krotnie różniczkowalna. PRZYKŁAD: Niech funkcja f : R2 → R zadana będzie wzorem f(x, y) = x 3 y 2 − y sin x. Zbadaj trójkrotną różniczkowalność i oblicz pochodną 3-ego rzędu a także oblicz wartość f 000 (x, y)(h1 , h2 , h3 ), gdzie h1 = (2, 0), h2 = (1, 2), h3 = (1, 1). Rozpoczynamy od pochodnych pierwszego rzędu: fx (x, y) = 3x 2 y 2 − y cos x, fy = 2x 3 y − sin x; pochodne cząstkowe fx , fy określone są na całej płaszczyźnie i są ciągłe. Zatem f jest funkcją różniczkowalną i, dla dowolnego (x, y) ∈ R2 f 0 (x, y) = [3x 2 y 2 − y cos x, 2x 3 y − sin x], tzn. macierz Jacobiego Jf (x, y) ma postać j.w. Obliczamy pochodne cząstkowe drugiego rzędu fxx = 6xy 2 + y sin x, fxy = 6x 2 y − cos x = fyx , fyy = 2x 3 . Pochodne cząstkowe drugiego rzędu określone są na całej płaszczyźnie i są ciągłe. Wobec tego funkcja f jest dwukrotnie różniczkowalna i, dla dowolnego (x, y) ∈ R2 , 6xy 2 + y sin x 6x 2 y − cos x 00 f (x, y) = , 6x 2 y − cos x 2x 3 tzn. macierzą Hessa Hf (x, y) ma postać j.w. Obliczamy pochodne cząstkowe trzeciego rzędu: fxxx = 6y 2 + y cos x, fxxy = 12xy + sin x = fxyx = fyxx , fyyy = 0, fyyx = 6x 2 = fyxy = fxyy . Pochodne cząstkowe trzeciego rzędu są określone na całej płaszczyźnie i są ciągłe. Wobec tego f jest funkcją różniczkowalną. Dla dowolnego (x, y) ∈ R2 macierzą trzeciej pochodnej jest macierz trójwskaźnikowa o współczynnikach, którymi są pochodne cząstkowe trzeciego rzędu. Aby obliczyć wartość f 000 (x, y)(h1 , h2 , h3 ) zgodnie ze wzorem (∗) należy policzyć fxxx h11 h21 h31 = (6y 2 + y cos x)2 · 1 · 1 = 12y 2 + 2y cos x; fxxy h11 h21 h32 = (12xy + sin x)2 · 1 · 1 = 24xy + 2 sin x; fxyx h11 h22 h31 = (12xy + sin x)2 · 2 · 1 = 48xy + 4 sin x; fyxx h12 h21 h31 = (12xy + sin x)0 · 1 · 1 = 0; fyyy h12 h22 h32 = 0; fyxy h12 h21 h32 = 0; fxyy h11 h22 h32 = (6x 2 )2 · 2 · 1 = 24x 2 ; 2.2. POCHODNE WYŻSZYCH RZĘDÓW 63 fyyx h12 h22 h31 = 0 i wszystkie wyniki dodać. Otrzymujemy więc: f 000 (x, y)(h1 , h2 , h3 ) = 24x 2 + 12y 2 + 2y cos x + 6 sin x + 72xy. NOTACJA MULTIINDEKSOWA Rozważmy multiindeks α = (α1 , ..., αN ) ∈ ZN + długości n = PN |α| = j=1 αj i funkcję f : U → R, która jest n-krotnie różniczkowalna w punkcie x ∈ U. Wówczas pochodne cząstkowe n-tego rzędu są symetryczne. Symbolem ∂α f(x) lub f|α (x) oznaczamy pochodną cząstkowa funkcji f w punkcie x, w której różniczkowanie względem pierwszej zmiennej odbywa się α1 razy, różniczkowanie względem drugiej zmiennej odbywa się α2 razy, itp. tzn różniczkowanie względem zmiennej o numerze j (j = 1, ..., N) odbywa się αj razy (czyli ogółem różniczkowanie odbywa się |α| = n razy. Ta notacja jest poprawna, gdyż wartość f|α (x)∂α f(x) nie zależy od porządku różniczkowania. β 2.2.9 FAKT: Przypuśćmy, że dla dowolnego β ∈ ZN + , |β| ≤ n − 1, pochodne cząstkowe ∂ f α istnieją w U i są ciągłe, zaś pochodne ∂ f rzędu |α| = n istnieją w otoczeniu punktu x ∈ U i są w tym punkcie ciągłe. Wtedy funkcja f jest n-krotnie różniczkowalna w punkcie x. Jest to po prostu inne sformułowanie twierdzenia 2.2.8 Jest też jeszcze inna korzyść ze stosowania notacji multiindeksowej. Wykorzystując mianowicie rozumowanie z fragmentu dotyczącego algebry liniowej, można pokazać, że wartość f (n) (x) na zespole (h, ..., h), w którym wektor h ∈ RN wzięto n razy wynosi X f (n) (x)(h, ..., h) = α∈ZN + , |α|=n n! α α h ∂ f(x). α! (∗) Podany wzór jest dość syntetyczny w porównaniu do (∗) zastosowanego w sytuacji, w której h1 = h2 = ... = hn = h = (h1 , ..., hN ), a mianowicie f (n) (x)(h, ..., h) = N X hi1 hi2 ...hin f|i1 ...in (x). i1 ,...,in =1 RACHUNEK POCHODNYCH WYŻSZEGO RZĘDU Dla pochodnych n-tego rzędu obowiązuję podobne wzory jak w przypadku pochodnych rzędy pierwszego. 2.2.10 TWIERDZENIE: Jeśli f, g : U → R, gdzie U ⊂ RN jest zbiorem otwartym, są funkcjami n-krotnie różniczkowalnymi w punkcie x ∈ U, to funkcja f ± g jest n-krotnie różniczkowalna w punkcie x i (f ± g)(n) (x) = f (n) (x) ± g (n) (x) oraz, dla dowolnego multiindeksu α ∈ ZN + długości |α| = n mamy ∂α (f ± g)(x) = ∂α f(x) ± ∂α g(x). Również funkcja fg jest n-krotnie różniczkowalna w punkcie x. Wtedy też, dla dowolnego multiindeksu α ∈ ZN + , |α| = n mamy X ∂α (fg)(x) = ∂β f(x)∂α−β g(x). β∈ZN + , β≤α Jest to tzw. wzór Leibniza. 64 2. RACHUNEK RÓŻNICZKOWY DOWÓD: Pokażemy część pierwszą (dowód drugiej części można znaleźć w literaturze). Teza twierdzenie jest prawdziwa dla n = 1. Niech n ≥ 2 i załóżmy, ze teza jest słuszna dla n − 1. Funkcje f i g są n-krotnie różniczkowalne; są więc również (n − 1)-krotnie różniczkowalne i, dla każdego multiindeksu β ∈ Z+N , |β| = n−1 mamy, z założenia indukcyjnego, że ∂β (f +g)(x) = ∂β f(x) + ∂β g(x). Pochodne cząstkowe ∂f β i ∂β g są funkcjami różniczkowalnymi w punkcie x, co implikuje, że funkcja ∂β f + ∂g β jest tam różniczkowalna i dla dowolnego i = 1, ..., N (∂β f + ∂g β )|i (x) = (∂β f)|i (x) + (∂g β )|i (x). N Jeśli α ∈ ZN + i |α| = n, to istnieje β ∈ Z+ , |β| = n − 1, że α = (β1 , ..., βi + 1, ..., βN ). W takim razie ∂α (f + g)(x) = (∂β (f + g))|i (x) = (∂β f + ∂g β )|i (x) = (∂β f)|i (x) + (∂g β )|i (x) = ∂α f(x) + ∂g α f(x). Z przeprowadzonego rachunku wynika też, ze dla dowolnych i1 , ..., in = 1, ..., N (f + g)|i1 ...in (x) = f|i1 ...in (x) + g|i1 ...in (x), co natychmiast implikuje, że (f + g)(n) = f (n) (x) + g (n) (x) i kończy dowód. 2.2.C Pochodne wyższych rzędów odwzorowań Przypuśćmy, że dane jest odwzorowanie f = (f1 , ..., fM ) : U → RM , gdzie U ⊂ RN jest zbiorem otwartym. Niech x ∈ U i n ∈ N. Mówimy, że odwzorowanie f jest n-krotnie różniczkowalne w punkcie x, jeżeli każda z funkcji współrzędnych fi , i = 1, ..., M, jest w tym punkcie n-krotnie różniczkowalna. UWAGA: Rozważymy nieco bardziej szczegółowo przypadek n = 2. Dwukrotna różniczkowalność odwzorowania f w punkcie x oznacza, że: (1) odwzorowanie f jest różniczkowalne; stąd, dla dowolnego j = 1, ..., N, określone jest odwzorowanie pochodnej cząstkowej f|j : U → RM , które x ∈ U przyporządkowuje pochodną cząstkową f|j (x) (por. str. 50); (2) dla dowolnego j = 1, ..., N, odwzorowanie f|j jest różniczkowalne w x. Pochodną n-tego rzędu lub n-tą pochodną w punkcie x ∈ U odwzorowania n-krotnie różniczkowalnego w punkcie x jest przekształcenie n-liniowe symetryczne f (n) (x) ∈ Lsn (RN , RM ) takie, że dla każdego i = 1, ..., M, πi ◦ f (n) (x) = fi (x). (n) Tak więc dla h1 , ..., hn ∈ RN , jeżeli y = (y1 , ..., yM ) = f (n) (x)(h1 , ..., hn ), to N X yi = h1 i1 ...hn in fi|i1 ...in (x) i1 ,...,in =1 oraz, gdy h1 = ... = hn = h, to yi = X α∈ZN + , |α|=n n! α α h ∂fi (x). α! Dla pochodnych wyższych rzędów odwzorowań obowiązują te same praktycznie własności jak w przypadku funkcji. 2.2.11 TWIERDZENIE: Przypuśćmy, ze odwzorowanie f : U → RM , gdzie U ⊂ RN , jest n-krotnie różniczkowalne w punkcie x ∈ U, zaś odwzorowanie g : V → RK , gdzie V ⊂ RM jest zbiorem 2.2. POCHODNE WYŻSZYCH RZĘDÓW 65 otwartym i f(U) ⊂ V , jest n-krotnie różniczkowalne w punkcie y := f(x). Wówczas złożenie g ◦ f : U → RK jest poprawnie określone i n-krotnie różniczkowalne w punkcie x. DOWÓD: Dowód przeprowadzimy przy pomocy indukcji matematycznej. Teza jest słuszna, gdy n = 1. Weźmy n ≥ 2 i załóżmy, że odwzorowania f i g są (n-krotnie różniczkowalne w punktach x i y, odpowiednio. Są więc one różniczkowalne i, zgodnie z regułą łańcucha, i-ta funkcja współrzędna złożenia g ◦ f (tzn. funkcja gi ◦ f) ma pochodne cząstkowe postaci (gi ◦ f)|j = K X (gi|k ◦ f)fk|j , j = 1, ..., N. k=1 Wyrażenie po prawej stronie jest sumą iloczynów funkcji postaci gi|k ◦f i fk|j , gdzie k = 1, ..., K. Dla dowolnego k = 1, ..., K, funkcja gi|k : V → R jest (n − 1)-krotnie różniczkowalna, odwzorowanie f jest też (n−1)-krotnie różniczkowalne. Zatem z założenia indukcyjnego złożenie gi|k ◦f jest (n − 1)-różniczkowalne. Ponieważ funkcja fk|j jest również (n − 1)-krotnie różniczkowalna, to iloczyn (gi|k ◦ f)fk|j i ich suma są funkcjami (n − 1)-krotnie różniczkowalnymi. Pokazaliśmy więc, że każda funkcja współrzędna odwzorowania g ◦ f ma (n − 1)-krotnie różniczkowalne wszystkie pochodne cząstkowe pierwszego rzędu. Oznacza to, że funkcje współrzędne odwzorowania g ◦ f są n-krotnie różniczkowalne, a więc że samo odwzorowanie g ◦ f jest n-krotnie różniczkowalne. Niestety „reguła łańcucha” dla pochodnych wyższych rzędów jest znacznie bardziej skomplikowana. Ograniczę się tylko do wzoru na drugą pochodną złożenia odwzorowań dwukrotnie różniczkowalnych. Przyjmijmy założenia powyższego twierdzenie przy n = 2. Wtedy, dla dowolnych u, v ∈ RN , (g ◦ f)00 (x)(u, v) = g 00 (f(x))(f 0 (x)(u), f 0 (x)(v)) + g 0 (f(x))(f 00 (x)(u, v)). Wzór ten trzeba bardzo starannie odczytywać! Wzoru dla pochodnych trzeciego i wyższych rzędów są znacznie bardziej skomplikowane. 2.2.D Funkcje i odwzorowania klasy C n Mówimy, że funkcja f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, jest klasy C n ,n ∈ N, jeżeli jest n-krotnie różniczkowalna (tzn. jest n-krotnie różniczkowalna w każdym punkcie zbioru U) i każda jej pochodna cząstkowa n-tego rzędu jest funkcją ciągłą. 2.2.12 FAKT: Na to by funkcja f : U → R była klasy C n potrzeba i wystarcza, aby dla dowolα 4 nego α ∈ ZN + , |α| ≤ n, pochodna ∂ f istniała i była funkcją ciągłą ( ) DOWÓD: Konieczność podanego warunku jest natychmiastowa. Dla dowodu dostateczności zauważmy, że z istnienia i ciągłości pochodnych cząstkowych pierwszego rzędu implikuje różniczkowalność funkcji f. Analogicznie, z istnienia i ciągłości pochodnych cząstkowych drugiego rzędu wynika dwukrotna różniczkowalność. Rozumując podobnie otrzymamy n-krotną różniczkowalność i ciągłość pochodnych cząstkowych n-tego rzędu. ĆWICZENIE: (1) Znaleźć przykład funkcji klasy C n , która nie jest klasy C n+1 (dla dowolnego n ∈ N). (2) Czasem mówi się, że funkcja f : U → R jest klasy C 0 , jeżeli jest ciągła. Udowodnić, że dla dowolnego n ∈ N, C n ⊂ C n−1 ⊂ ... ⊂ C 1 ⊂ C 0 . 4 Równoważnie: istnieją i są ciągłe wszystkie pochodne cząstkowe rzędu k 6= n. 66 2. RACHUNEK RÓŻNICZKOWY Podobnie mówimy, że odwzorowanie f : U → RM jest klasy C n , n ≥ 0, jeśli każda funkcja współrzędna fi , i = 1, ..., M, odwzorowania f jest klasy C n oraz, że jest ono klasy C ∞ , gdy jest klasy C n dla dowolnego n ≥ 1. ĆWICZENIE: (1) Podać przykład odwzorowania klasy C ∞ . (2) Złożenie odwzorowań klasy C n jest odwzorowaniem klasy C n . 2.2.E Wzór Taylora Podobnie jak w przypadku funkcji rzeczywistych jednej zmiennej, ważną rolę w rachunku różniczkowym funkcji wielu zmiennych pełni twierdzenie Taylora. Czytelnik zechce przypomnieć udowodniony wcześniej wzór Taylora do drugiego rzędu, który przedyskutowaliśmy wcześniej Rozważmy funkcję f : U → R, gdzie U ⊂ RN jest zbiorem otwartym. Zaczniemy od następującego lematu. 2.2.13 LEMAT: Jeśli funkcja f jest n-krotnie różniczkowalna, to funkcja g : [0, T] → R, gdzie T > 0 jest tak dobrane aby x + th ∈ U przy t ∈ [0, T], dana wzorem g(t) := f(x + th), t ∈ [0, T], jest również n-krotnie różniczkowalna i, dla każdego 0 ≤ k ≤ n, g (k) (t) = f (k) (x + th)(h, ..., h). | {z } k Jeśli f jest (n + 1)-krotnie różniczkowalna w punkcie x, to funkcja g jest (n + 1)-krotnie różniczkowalna w punkcie t = 0 oraz g (n+1) (0) = f (n+1) (x)(h, ..., h). | {z } n+1 Dla uproszczenia notacji będziemy pisać: hk := (h, ..., h), k ∈ N. | {z } k DOWÓD: Dla k = 1 lemat jest prawdziwy (wynika to z reguły łańcucha). Przypuśćmy, że podany fakt zachodzi dla pewnego k < n i udowodnimy go dla k. Zgodnie z założeniem indukcyjnym, dla t ∈ [0, T], g (k−1) (t) = f (k−1) (x + th)(hk−1 ). Funkcja y 7Ï φ(y) = f (k−1) (y)(hk−1 ) jest różniczkowalna; ponadto g (k−1) (t) = φ(x + th). Znowu, korzystając z reguły łańcucha, mamy g(k)(t) = (g (k−1) )0 (t) = φ0 (x + th)(h). Lecz jednocześnie φ0 (y)(h) = f (k) (y)(hk ). Analogicznie kg (n+1) (0) − f (n+1) (x)(hn+1 )k = lim khk t→0 kg (k) (t) − g (k) (0) − f (n+1) (hn , th)k = 0. kthk 2.2. POCHODNE WYŻSZYCH RZĘDÓW 67 Jako pierwszy udowodnimy wzór Taylora z reszta w postaci Peano. 2.2.14 TWIERDZENIE: Załóżmy, że funkcja f jest (n − 1)-krotnie różniczkowalna w zbiorze U oraz n-krotnie różniczkowalna w punkcie x. Wtedy, dla dowolnego h ∈ RN takiego, że {x +th | t ∈ [0, 1]} ⊂ U, ma miejsce następujący wzór: f(x + h) = f(x) + 1 0 1 f (x)(h) + ... + f (n) (x)(hn ) + ε(h)khkn 1! n! gdzie ε(h) → 0 gdy h → 0 w RN . DOWÓD: Dowód jest w zasadzie analogiczny do dowodu wzoru Taylora wcześniej rozważanego. Dla ustalonego h ∈ RN o podanej własności rozważmy funkcję g : [0, khk] → R daną wzorem h , t ∈ [0, khk]. g(t) = f x + t khk Zgodnie z lematem, funkcja g jest n − 1 krotnie różniczkowalna i g (n) (0) istnieje. Z twierdzenia Taylora z resztą w postaci Peano istnieje funkcja ε : [0, 1] → R taka, że ε(t) → 0 gdy t → 0 oraz n X 1 (k) g(t) = g (0)t k + εi (t)t n . k! k=0 Z drugiej strony, zgodnie z lematem, dla 0 ≤ k ≤ n, g (k) (0) = khk−k f (k) (x)(hk ). W takim razie, kładąc t = khk, mamy f(x + h) = n X k=0 Stąd 1 f (k) (x)(hk )khkk + ε(khk)khkn . khkk k! n X 1 (k) f(x + h) = f (x)(hk ) + ε(h)khkn . k! k=0 UWAGA: Używając notacji multiindeksowej można wzór Taylora zapisać następująco: f(x + h) = X α∈ZN + , |α|6=n 1 α ∂f (x)hα + ε(h)khkn . α! ĆWICZENIE: Wyprowadzić ten wzór (wykorzystując formułę (∗) ze strony 63). 2.2.15 WNIOSEK Jeśli f : U → R jest funkcją (n−1)-krotnie różniczkowalną i n-krotnie różniczkowalną w punkcie x0 ∈ U, to dla pewnego δ > 0 takiego, że B(x0 , δ) ⊂ U oraz x ∈ B(x0 , δ), f(x) = n X 1 (k) f (x0 )((x − x0 )k ) + η(x)kx − x0 kn , k! k=0 gdzie η(x) → 0 gdy x → x0 lub, wykorzystując notację multiindeksową f(x) = X 1 ∂α f(x0 )(x − x0 )α + η(x)kx − x0 kn . α! |α|≤n 68 2. RACHUNEK RÓŻNICZKOWY DOWÓD: Pierwszy ze wzorów wynika natychmiast z poprzedniego jeśli przyjąć, że h = x − x0 oraz η(x) = ε(x − x0 ). Przy nieco silniejszych założeniach można podać inne postacie reszty we wzorze Taylora. 2.2.16 TWIERDZENIE: Załóżmy, że f : U → R jest funkcją (n + 1)-krotnie różniczkowalną. Niech x0 ∈ U oraz x ∈ U jest takim punktem, że odcinek {x0 + t(x − x0 ) | t ∈ [0, 1]} jest zawarty w U. Wówczas n X 1 (k) f (x0 )((x − x0 )k ) + Rn (x) f(x) = k! k=0 gdzie Rn (x) = 1 f (n+1) (x0 + θ(x − x0 ))kx − x0 kn+1 (n + 1)! dla pewnego θ ∈ (0, 1). DOWÓD jest analogiczny z wykorzystaniem reszty w postaci Lagrange’a we wzorze Taylora dla funkcji pomocniczej g : [0, 1] → R danej wzorem g(t) = f(x0 + t(x − x0 )), t ∈ [0, 1]. Wtedy g jest funkcją (n + 1) różniczkowalną i (wykorzystując lemat 2.2.13) dla 1 ≤ k ≤ n + 1, g (k) (t) = f (k) (x0 + t(x − x0 ))((x − x0 )k ). Istnieje θ ∈ (0, 1) takie, że n X 1 1 (k) g (0)t k + g (n+1) (θ). g(1) = g(0) + k! (n + 1)! k=1 Stąd już mamy tezę. Używając notacji multiindeksowej możemy napisać f(x) = X 1 X 1 ∂α f(x0 )(x − x0 )α + ∂α f(x0 + θ(x − x0 ))(x − x0 )α . α! α! |α|≤n |α|=n+1 ĆWICZENIE: Podać dwie wersje twierdzenia o wzorze Taylora dla odwzorowań f : U → RM . Szczególna uwaga jest wskazana w przypadku wzoru Taylora z resztą w postaci Lagrange’a! (Czytelnik powinien przyjrzeć się twierdzeniu 2.1.13 o przyrostach). 2.2.F Ekstrema funkcji wielu zmiennych Podobnie jak w przypadku funkcji rzeczywistych jednej zmiennej, rachunek różniczkowy może być użyteczny podczas badania ekstremów funkcji wielu zmiennych. 2.2.17 DEFINICJA: Rozważmy funkcję f : U → R. Mówimy, że funkcja f osiąga lokalne minimum (odp. maksimum) w punkcie x0 ∈ U jeżeli istnieje δ > 0 takie, że B(x0 , δ) ⊂ U oraz f(x) ≥ f(x0 ) (odp. f(x) ≤ f(x0 )) dla dowolnego x ∈ B(x0 , δ). Mówimy o minimum (lub maksimum) globalnym gdy powyższe nierówności zachodzą dla dowolnego x ∈ U. O minimach (lub maksimach) lokalnych (lub globalnych) mówimy, że są ścisłe, jeśli dla x ∈ B(x0 , δ) (lub x ∈ U) mamy f(x) > f(x0 ) (lub f(x) < f(x0 )) o ile x 6= x0 . 2.2. POCHODNE WYŻSZYCH RZĘDÓW 69 Interesować nas będą przede wszystkim warunki konieczne i dostateczne istnienia ekstremów. Zaczniemy od prostego kryterium Fermata; jest to warunek konieczny. 2.2.18 TWIERDZENIE: Jeżeli funkcja f : U → R osiąga ekstremum lokalne w punkcie x0 ∈ U i jest w tym punkcie różniczkowalna, to f 0 (x0 ) = 0 (tzn. dla dowolnego h ∈ RN , f 0 (x0 )(h) = 0). Dowód: Przypuśćmy dla ustalenia uwagi, że w punkcie x0 funkcja f osiąga minimum. Niech h ∈ RN . Jak wiadomo pochodna kierunkowa funkcji f w punkcie x0 f 0 (x0 ; h) = f 0 (x0 )(h). Z drugiej strony f(x0 + th) − f(x0 ) f(x0 + th) − f(x0 ) f(x0 + th) − f(x0 ) = lim− = lim+ . t→0 t→0 t→0 t t t f 0 (x0 ; h) = lim Zauważmy, że licznik w powyższych wyrażeniach jest liczbą nieujemną, zaś mianownik liczba ujemną (odp. dodatnią). Wobec tego f 0 (x0 ; h) ≤ 0 (odp. f 0 (x0 ; h) ≥ 0). Zatem f 0 (x0 ; h) = 0. 2.2.19 TWIERDZENIE: Jeśli f osiąga minimum (odp. maksimum) w punkcie x0 ∈ U oraz f jest dwukrotnie różniczkowalna w x0 , to forma kwadratowa wyznaczona przez drugą pochodną f 00 (x0 ) jest nieujemna (odp. niedodatnia). DOWÓD: Załóżmy, że w x0 funkcja f przyjmuje minimum. Znajdziemy więc takie otoczenie δ δ N B(x0 , δ), że dla x ∈ B(x0 , δ), f(x) ≥ f(x0 ). Niech h ∈ R , dla t ∈ − khk , khk , x0 + th ∈ B(x0 , δ); zatem f(x0 + th) ≥ f(x0 ). Z kolei ze wzoru Taylora (z reszta w postaci Peano), dla takich t mamy 1 2 00 0 2 2 1 00 0 ≤ f(x0 +th)−f(x0 ) = tf (x0 )(h)(h)+ t f (x0 )(h, h)+ε(th)kthk = t f (x0 )(h, h) + ε(th)khk 2 2 gdzie ε(th) → 0 o ile t → 0. W takim razie 1 1 00 2 0 ≤ lim f (x0 )(h, h) + ε(th)khk = f 00 (x0 (h, h). t→0 2 2 W przypadku maksimum postępując podobnie uzyskując, że f 00 (x0 )(h, h) ≤ 0. Powyższy warunek konieczny jest już znacznie bliższy warunkowi dostatecznemu. Zachodzi mianowicie następujący fakt. 2.2.20 TWIERDZENIE: Załóżmy, że funkcja f : U → R jest dwukrotnie różniczkowalna w punkcie x0 . Jeśli f 0 (x0 ) = 0 oraz druga pochodna f 00 (x0 ) jest dodatnio (odp. ujemnie) określona, to w x0 funkcja f przyjmuje ścisłe lokalne minimum (odp. maksimum). DOWÓD: Przypuśćmy, że druga pochodna jest dodatnio określona. Zgodnie z wzorem Taylora (z resztą w postaci Peano), dla pewnego δ > 0 i x ∈ B(x0 , δ), f(x) − f(x0 ) = 1 00 f (x0 )(x − x0 , x − x0 ) + η(x)kx − x0 k2 2 gdzie η(x) → 0 przy x → x0 . Jednocześnie, z założenia istnieje c > 0 takie, że f 00 (x0 )(h, h) ≥ ckhk2 . Istnieje więc ε ∈ (0, δ) takie, że |η(x)| < c2 , o ile kx − x0 k < ε. Niech x ∈ B(x0 , ε). Wówczas 1 00 2 2 1 f(x) − f(x0 ) = f (x0 )(x − x0 , x − x0 ) + η(x)kx − x0 k ≥ kx − x0 k c + ε(x) > 0. 2 2 70 2. RACHUNEK RÓŻNICZKOWY Przypadek ujemnej określoności prowadzi do nierówności f(x) − f(x0 < 0 przy x ∈ B(x0 , ε). W celu stwierdzenie dodatniości (dodatniej określoności) lub ujemnej określoności formy kwadratowej wyznaczonej przez drugą pochodną f 00 (x0 ) wykorzystujemy twierdzenie Sylvestera do macierzy Hessa Hf (x0 ). 2.3 Teoria odwzorowań 2.3.A Twierdzenie o funkcji uwikłanej Załóżmy obecnie, że f : U → RM , gdzie U ⊂ RN+K jest zbiorem otwartym. Przestrzeń RN+K traktujemy jako iloczyn kartezjański RN × RK , zaś punkt z ∈ RN+K – jako parę (x, y), gdzie x ∈ RN , y ∈ RK . Nieco dokładniej: jeśli z = (z1 , ..., zN , zN+1 , ..., zN+K ) oraz x = (x1 , ..., xN ) i y = (y1 , ..., yK ), to x1 = z1 , ..., xN = zN oraz y1 = zN+1 , ..., yK = zN+K . Niech z0 = (x0 , y0 ) ∈ U. Powiemy, że odwzorowanie f jest różniczkowalne w punkcie z0 względem (zespołu zmiennych) y, jeśli odwzorowanie pomocnicze y 7Ï g(y) := f(x0 , y) określona na zbiorze otwartym V := {y ∈ RK | (x0 , y) ∈ U} jest różniczkowalna w punkcie y0 . ĆWICZENIE: Sprawdzić, że zbiór V jest rzeczywiście otwarty. Pochodną g 0 (y0 ) funkcji g w punkcie y0 nazywamy pochodną odwzorowania f w punkcie z0 = (x0 , y0 ) względem (zespołu zmiennych) y i oznaczamy symbolem fy0 (z0 ). UWAGA: (1) Oznaczenie to nie powinno prowadzić do żadnych nieporozumień (5 ). Jeśli bowiem M = 1, to różniczkowalność względem y (rozumiana w powyższym sensie) oznacza ∂f po prostu istnienie pochodnej cząstkowej ∂y (z0 ) względem ostatniej zmiennej. (2) Wróćmy jeszcze przez chwilę do odwzorowania pomocniczego g : V → RM wyżej wprowadzonego.; przypomnijmy, że V ⊂ RK jest zbiorem otwartym Oczywiście można mówić o pochodnych cząstkowych odwzorowania g w punkcie y0 . Na przykład: dla j = 1, ..., K można rozważać gi|j (y0 ), gdzie gi jest i-tą funkcja współrzędną odwzorowania g. Jest chyba jasne, że gi (y) = fi (x0 , y) dla y ∈ V , gdzie fi jest i-tą funkcją współrzędną odwzorowania f oraz gi|j (y0 ) = fi|N+j (z0 ). W związku z tym macierzą stowarzyszoną z pochodną fy0 (z0 ) ∈ L(RK , RM ) jest macierz [fi|N+j (z0 )] i=1,...,M . j=1,...,K W analogiczny sposób można mówić o różniczkowalności i o pochodnej odwzorowania f w punkcie z0 względem (zespołu zmiennych) x oznaczanej symbolem fx0 (z0 ). ĆWICZENIE: Podać precyzyjną definicję różniczkowalności względem x i omówić postać macierzy stowarzyszonej z fx0 (z0 ). Czytelnik bez trudu udowodni, że 2.3.1 TWIERDZENIE: Jeżeli odwzorowanie f jest różniczkowalne w punkcie z0 , to jest różniczkowalne w tym punkcie względem obu (zespołów) zmiennych. Dodatkowo, dla dowolnego h ∈ RN+M postaci h = (u, v), gdzie u ∈ RN , v ∈ RM , mamy f 0 (z0 )(h) = fx0 (z0 )(u) + fy0 (z0 )(v). Przypomnijmy, że do tej pory pisaliśmy fy0 lub fy dla oznaczania pochodnych cząstkowych funkcji dwóch lub trzech zmiennych x, y, z. 5 2.3. TEORIA ODWZOROWAŃ 71 W zasadzie wszystkie fakty dotyczące pochodnych mają miejsce dla pochodnych względem zespołu zmiennych. Na przykład Czytelnik bez trudu wykaże następującą wersję twierdzenia o przyrostach. 2.3.2 LEMAT: Jeśli punkty (x0 , y1 ), (x0 , y2 ) należą do zbioru U i odcinek je łączący zawiera się w U, funkcja f : U → RM , gdzie U ⊂ RK = RN × RL , jest różniczkowalna we wszystkich punktach tego odcinka względem (zespołu zmiennych) y, to istnieje punkt c należący do odcinka łączącego te punkty taki, że kf(x0 , y1 ) − f(x0 , y2 )k ≤ kfy0 (c)kky1 − y2 k. Podamy teraz jedno z fundamentalnych twierdzeń teorii odwzorowań wielu zmiennych, tzw. twierdzenie o funkcji uwikłanej. W tym sformułowaniu K = M i obowiązuje przyjęta notacja i terminologia. 2.3.3 TWIERDZENIE: Niech f : U → RM , gdzie U ⊂ RN × RM jest zbiorem otwartym. Załóżmy, że: (i) f jest odwzorowaniem ciągłym; (ii) dla pewnego z0 = (x0 , y0 ) ∈ U, f(z0 ) = 0; (iii) odwzorowanie f jest różniczkowalne względem y w dowolnym punkcie z ∈ U; (iv) pochodne cząstkowe odwzorowania f względem zmiennych wchodzących w skład zespołu zmiennych y są odwzorowaniami ciągłymi w punkcie z0 ; (v) przekształcenie liniowe fy0 (z0 ) ∈ L(RM , RM ) jest izomorfizmem. Wówczas istnieją liczby ε, δ > 0 takie, że B(x0 , ε) × B(y0 , δ) ⊂ U, oraz dokładnie jedna funkcja ciągła g : B(x0 , ε) → B(y0 , δ) taka, że: (I) dla każdego x ∈ B(x0 , ε), f(x, g(x)) = 0; (II) dla dowolnych x ∈ B(x0 , ε) oraz y ∈ B(y0 , δ), jeśli f(x, y) = 0, to y = g(x); w szczególności g(x0 ) = y0 . Jeżeli dodatkowo odwzorowanie f jest różniczkowalne w punkcie z0 , to funkcja g jest różniczkowalna w punkcie x0 i g 0 (x0 ) = −[fy0 (x0 , y0 )]−1 ◦ fx0 (x0 , y0 )). Jeśli funkcja f jest klasy C 1 , to funkcja g jest klasy C 1 i, dla dowolnego x ∈ B(x0 , ε), g 0 (x) = −[fy0 (x, g(x))]−1 ◦ fx0 (x, g(x)). Jeśli f jest klasy C n , to g jest także klasy C n . DOWÓD tego twierdzenie nie jest specjalnie trudny; jest jednak dość technicznie złożony. Podamy go w przypadku, gdy N = M = 1. Jednocześnie dowód będzie tak skonstruowany, że uważny Czytelnik będzie umieć go przenieść do przypadku ogólnego bez kłopotów. Kładziemy N = M = 1. Założenia oznaczają, że U ⊂ R2 jest zbiorem otwartym, funkcja f : U → R jest ciągła, f(x0 , y0 ) = 0, dla dowolnego (x, y) ∈ U istnieje pochodna cząstkowa fy (x, y), funkcja U 3 (x, y) 7Ï fy (x, u) jest ciągła w punkcie (x0 , y0 ) i wreszcie A := fy (x0 , y0 ) 6= 0 (zweryfikować, że to są rzeczywiście założenia, przy których pracujemy). Zdefiniujmy pomocniczą funkcję T : U → R wzorem T(x, y) := y − A−1 · f(x, y), (x, y) ∈ U. Funkcja T jest ciągła, a więc w szczególności, T(x, y) → T(x0 , y0 ) = y0 , 72 2. RACHUNEK RÓŻNICZKOWY gdy (x, y) → (x0 , y0 ). Ponadto, dla dowolnego (x, y), funkcja T jest różniczkowalna w punkcie (x, y) względem y, tzn. istnieje pochodna cząstkowa Ty (x, y) i Ty (x, y) = 1 − A · fy (x, y). Ciągłość pochodnej cząstkowej fy w (x0 , y0 ) implikuje, że również pochodna cząstkowa Ty jest tam ciągła, czyli Ty (x, y) → Ty (x0 , y0 ) = 1 − A−1 · A = 0, gdy (x, y) → (x0 , y0 ). Biorąc te dwie okoliczności pod uwagę (i pamiętając, ze zbiór U jest otwarty) znajdziemy liczby ε > 0 i δ > 0 takie, że: (x0 − ε, x0 + ε) × [y0 − δ, y0 + δ] ⊂ U; 1 1 oraz |T(x, y0 ) − T(x0 , y0 )| = |T(x, y0 ) − y0 | < δ 2 2 (tu kolejność doboru jest następująca: korzystając z ciągłości najpierw wybieramy ε, δ > 0 tak, aby |Ty (x, y)| < 1/2 dla x, y takich, że |x − x0 | < ε i |y − y0 | ≤ δ i jednocześnie (x0 − ε, x0 + ε) × [y0 − δ, y0 + δ] ⊂ U; następnie, wykorzystując ciągłość odwzorowania x 7Ï T(x, y0 ) możemy ewentualnie zmniejszyć ε, tak aby |T(x, y0 ) − T(x0 , y0 )| < δ/2). Zauważmy, że wówczas |Ty (x, y)| < T : (x0 − ε, x0 + ε) × [y0 − δ, y0 + δ] → (y0 − δ, y0 + δ). Istotnie: niech |x − x0 | ≤ ε, |y − y0 | ≤ δ. Z lematu 2.3.2 (a w naszej sytuacji, tzn. gdy M = 1, ze zwykłego twierdzenia Lagrange’a) istnieje θ ∈ (0, 1) , że 1 |T(x, y) − y0 | ≤ |T(x, y) − T(x, y0 )| + |T(x, y0 ) − y0 | ≤ |Ty (x, y0 + θ(y − y0 )||y − y0 | + δ < δ. 2 Na tej samej zasadzie, dla ustalonego x ∈ (x0 − ε, x0 + ε) oraz dowolnych y, y 0 ∈ [y0 − δ, y0 + δ] znajdziemy taką θ ∈ (0, 1), że |T(x, y) − T(x, y 0 )| ≤ |Ty (x, y 0 + θ(y − y 0 ))||y − y 0 | ≤ 1 |y − y 0 |. 2 W dalszym ciągu wykorzystamy bardzo ważne twierdzenie, zwane twierdzeniem Banacha o punkcie stałym, które jest znacznie ogólniejsze, lecz w naszej sytuacji brzmi następująco: Jeśli F : (α, β) × [a, b] → (a, b) jest odwzorowaniem ciągłym i istnieje stała k ∈ [0, 1) taka, że dla dowolnych x ∈ (α, β) oraz y, y 0 ∈ [a, b], |T(x, y) − T(x, y 0 )| ≤ k|y − y 0 |, to istnieje dla każdego x ∈ (α, β) istnieje dokładnie jeden punkt stały funkcji T(x, ·), tzn. element g(x) ∈ (a, b), że g(x) = T(x, g(x)). Ponadto funkcja (α, β) 3 x 7Ï g(x) ∈ (a, b) jest ciągła. W naszej sytuacji α = x0 − ε, β = x0 + ε, a = y0 − δ, b = y0 + δ i k = 12 . Widzimy więc, że istnieje dokładnie jedna funkcja ciągła g : (x0 − ε, x0 + ε) → (y0 − δ, y0 + δ) taka, że dla x ∈ (x0 − ε, x0 + ε), g(x) = T(x, g(x)) = g(x) − A−1 · f(x, g(x)) ⇐Ñ f(x, g(x)) = 0. Jeśli x ∈ (x0 − ε, x0 + ε), y ∈ (y0 − δ, y0 + δ) i f(x, y) = 0, to T(x, y) = y, a stąd y = g(x). To kończy dowód pierwszej części twierdzenia. Dowód różniczkowalności funkcji g jest dość złożony i go tu pominiemy. Wiemy, że 0 = 2.3. TEORIA ODWZOROWAŃ 73 f(x, g(x)) dla x ∈ (x0 − ε, x0 + ε). Funkcja (x0 − ε, x0 + ε) 3 x 7Ï h(x) := f(x, g(x)) jest więc stała i jest złożeniem funkcji x 7Ï (x, g(x)) i funkcji f. Wobec tego, z reguły łańcucha 0 = h0 (x0 ) = fx (x0 , g(x0 )) + fy (x0 , g(x0 ))g 0 (x0 ) = fx (x0 , y0 ) + fy (x0 , y0 )g 0 (x0 ), czyli g 0 (x0 ) = −[fy0 (x0 , y0 )]−1 fx (x0 , y0 ). Dowód przedostatniej części twierdzenia pozostawiam czytelnikom. Pokażemy część ostatnią rozumując indukcyjnie. Dla n = 1 jest to prawda w świetle części przedostatniej. Przypuśćmy, że teza jest słuszna dla n − 1. A więc ponieważ C n ⊂ C n−1 , wnosimy, że g jest funkcją klasy cn−1 . W taki razie skoro g 0 (x) = −[fx (x, g(x))]−1 fx (x, g(x)). Po prawej stronie mamy iloczyn złożeń funkcji klasy C n−1 ; zatem g 0 jest klasy C n−1 , czyli g jest klasy C n . 2.3.B Twierdzenie o lokalnym odwracaniu odwzorowań Jedną z najważniejszych konsekwencji twierdzenia o funkcji uwikłanej (a w zasadzie faktem równoważnym) jest następujące twierdzenie o lokalnym odwracaniu odwzorowań. Byłoby wskazane, aby Czytelnik przypomniał różne wersje twierdzenia o odwracalności funkcji rzeczywistych jednej zmiennej. Dla przykładu: jeśli f : (a, b) → R jest funkcją różniczkowalną o nieznikającej pochodnej (tzn. f 0 (x) 6= 0 dla x ∈ (a, b)), to f jest funkcją ciągłą, różnowartościową, obrazem przedziału (a, b) jest przedział otwarty (A, B), istnieje funkcja odwrotna f −1 : (A, B) → R. Funkcja odwrotna jest różniczkowalna (a więc też ciągła) i dla dowolnego y ∈ (A, B), (f −1 )0 (y) = f 0 1(x) , gdzie y = f(x), x ∈ (a, b); jeśli f jest klasy C 1 , to także f −1 jest klasy C1. . W przypadku odwzorowań wielu zmiennych sprawa jest znacznie bardziej skomplikowana. Mówi o tym następujące twierdzenie (a także następny podrozdział). 2.3.4 TWIERDZENIA: Niech f : U → RM , gdzie U ⊂ RM jest zbiorem otwartym, oraz x0 ∈ U. Jeżeli f jest różniczkowalna w otoczeniu punktu x0 , pochodna f 0 jest ciągła w punkcie x0 ∈ U oraz f 0 (x0 ) jest izomorfizmem (tzn. rank f 0 (x0 ) = M lub, równoważnie, jakobian det Jf (x0 ) 6= 0), to istnieje ε > 0 oraz otoczenie W punktu x0 , W ⊂ U, takie, że f(W ) = B(f(x0 ), ε) oraz funkcja ciągła g : B(f(x0 ), ε) → W taka, że dla dowolnego y ∈ B(f(x0 ), ε), f(g(y)) = y oraz, dla dowolnego x ∈ W , g(f(x)) = x (tzn. f|W jest funkcją odwracalną i gt = f −1 jest funkcja do niej odwrotną). Ponadto funkcja g jest różniczkowalna w punkcie y0 = f(x0 ) oraz g 0 (y0 ) = [f 0 (x0 )]−1 . Jeśli f jest funkcja klasy C 1 , to g też jest klasy C 1 i, dla x ∈ W , g 0 (f(x)) = [f 0 (x)]−1 . Ogólniej, jeśli f jest klasy C n , to g jest klasy C n . DOWÓD: Bez zmniejszenia ogólności można założyć, że f 0 (x) istnieje dla dowolnego x ∈ U. Rozważmy odwzorowanie F : U × RM → RM dane wzorem F(x, y) = y − f(x), x ∈ U, y ∈ RM . Wówczas F(x0 , y0 ) = 0, F jest odwzorowaniem różniczkowalnym i, dla dowolnego (x, y) ∈ U × RM , Fx0 (x, y) = −f 0 (x), Fy0 (y) = I. Ponadto pochodne Fx0 , Fy0 są ciągłe w punkcie (x0 , y0 ) oraz pochodna Fx0 (x0 , y0 ) jest izomorfizmem. Z twierdzenia o funkcji uwikłanej istnieją liczby ε, δ > 0 oraz funkcja ciągła 74 2. RACHUNEK RÓŻNICZKOWY g : B(y0 , ε) → B(x0 , δ) taka, że B(x0 , δ) × B(y0 , ε) ⊂ U oraz F(g(y), y) = 0 dla dowolnego y ∈ B(y0 , ε); dodatkowo, jeśli (x, y) ∈ B(x0 , δ) × B(y0 , ε) i F(x, y) = 0, to x = g(y). Dla każdego y ∈ B(y0 , ε), 0 = F(g(y), y) = y − f(g(y)), tzn. y = f(g(y)). Niech W := f −1 (B(y0 , ε)) ∩ B(x0 , δ). Oczywiście zbiór W jest otwarty i x0 ∈ W . Niech x ∈ W . Wtedy y = f(x) ∈ B(y0 , ε) i F(x, y) = y − f(x) =; czyli x = g(y), tzn. x = g(f(x)). Spełnione są także założenia drugiej części twierdzenia o funkcji uwikłanej; zatem funkcja g jest różniczkowalna w punkcie y0 i g 0 (y0 ) = −[Fx0 (x0 , y0 )]−1 ◦ Fy0 (x0 , y0 ) = [f 0 (x0 )]−1 . Jeśli f jest klasy C 1 , to i funkcja F jest klasy C 1 . Zatem z trzeciej części twierdzenia o funkcji uwikłanej wynika, że (przy odpowiednim doborze ε i δ; konkretnie takim, by pochodna f 0 (x) była odwracalna dla x ∈ B(x0 , δ)) funkcja g jest klasy C 1 oraz g 0 (f(x)) = [f 0 (x)]−1 dla x ∈ W . Jeżeli f jest klasy C n , to F też jest klasy C n ; co, na mocy ostatniej części twierdzenia o funkcji uwikłanej, dowodzi, że g jest klasy C n . 2.3.5 UWAGA Nie należy sądzić, że – tak jak w przypadku funkcji rzeczywistych jednej zmiennej – jeśli f : U → RN , gdzie U ⊂ RN , N > 1, jest zbiorem otwartym, jest funkcją różniczkowalną i pochodna f 0 (x) jest izomorfizmem dla dowolnego x ∈ U, to f jest funkcją różnowartościową. Poniższy przykład może nas o tym przekonać. 2.3.6 PRZYKŁAD: Rozważmy funkcję f : U → R2 , gdzie U := {(x, y) ∈ R2 | x 6= 0}, zadaną wzorem f(x, y) := (x cos y, x sin y), dla (x, y) ∈ U. Wtedy, dla każdego (x, y) ∈ U, cos y −x sin y , J(x,y) f = sin y x cos y więc det J(x,y) f = x 6= 0. Niestety funkcja f nie jest różnowartościowa, bo f(x, y) = f(x, y + 2π) dla dowolnych (x, y) ∈ U. 2.3.C Odwzorowania regularne, dyfeomorfizmy Niech f : U → RM , gdzie U ⊂ RN jest zbiorem otwartym. Mówimy, że odwzorowanie f jest regularne, gdy jest klasy C 1 i, dla dowolnego x ∈ U, rząd rank Jf (x) macierzy Jacobiego odwzorowania f w punkcie x jest maksymalny (a zatem wynosi N, gdy N ≤ M oraz M, gdy N > M). PRZYKŁAD: Przypuśćmy, że g : U → R jest funkcją klasy C 1 i rozważmy odwzorowanie f : U → RM , gdzie M = N + 1, dane wzorem f(x) = (x, g(x)), x ∈ U. 2.3. TEORIA ODWZOROWAŃ 75 Wówczas f jest odwzorowaniem klasy C 1 (jego funkcje współrzędne mają postać f1 (x) = x1 , ..., fN (x) = xN i fM = fN+1 (x) = g(x) i są funkcjami klasy C 1 ). Oczywiście, dla każdego x ∈ U, 1 0 ... 0 0 1 ... 0 .. . .. . . .. .. Jf (x) = . . 0 0 ... 1 g|1 (x) g|2 (x) ... g|N (x) Zatem rank Jf (x) = N. DYFEOMORFIZMY Mówimy, że odwzorowanie f : U → RM jest dyfeomorfizmem, gdy jest ono regularne, różnowartościowe i odwzorowanie odwrotne f −1 : f(U) → U jest ciągłe (6 ). PRZYKŁAD: Odwzorowanie f z poprzedniego przykładu jest dyfeomorfizmem, gdyż f jest różnowartościowe, f(U) = Gr (g) jest wykresem odwzorowania g i odwzorowanie odwrotne f −1 : Gr (g) → U, dane wzorem f −1 (x, g(x)) = x, x ∈ U, jest oczywiście ciągłe. Można udowodnić, że każde odwzorowanie regularne f : U → RM , gdzie M ≥ N, jest, z dokładnością do pewnego dyfeomorfizmu, odwzorowaniem na wykres, czyli takim jak w przykładzie. Natomiast, wykorzystując twierdzenie o funkcji uwikłanej dowodzi się, że: 2.3.7 TWIERDZENIE: Jeżeli f : U → RM jest dyfeomorfizmem, to M ≥ N. W zasadzie dowodzi się, że odwzorowania regularne w przestrzeń niższego wymiaru nie mogą być różnowartościowe. UWAGA: Z definicji odwzorowania regularne i dyfeomorfizmy są klasy C 1 . Czasem jednak żąda się więcej mówiąc o odwzorowaniach regularnych lub dyfeomorfizmach klasy C k , gdzie k > 1. Zasadniczym faktem dotyczącym dyfeomorfizmów jest następujące twierdzenie. 2.3.8 TWIERDZENIE: Jeśli odwzorowanie f : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, jest regularne (klasy C k z k > 1) i różnowartościowe, to: (i) f(U) jest zbiorem otwartym (jest to tzw. niezmienniczość obszaru (7 ); (ii) f jest dyfeomorfizmem; (iii) odwzorowanie odwrotne f −1 : f(U) → RN jest również dyfeomorfizmem; (iv) dla dowolnego x ∈ U, pochodna f 0 (x) jest izomorfizmem przestrzeni RN , zaś dla dowolnego y ∈ f(U), (f −1 )0 (y) = [f 0 (x)]−1 , gdzie y = f(x). DOWÓD: To, że f 0 (x) jest izomorfizmem jest oczywiste: dla wszystkich x ∈ U, rank Jf (x) = N, więc macierz Jacobiego odwzorowania f w każdym punkcie jest nieosobliwa. Pokażemy, że zbiór f(U) jest otwarty: w tym celu bierzemy y0 ∈ f(U) i x0 ∈ U takie, że y0 = f(x0 ). Ponieważ f 0 (x0 ) jest izomorfizmem i f jest klasy C 1 , z twierdzenia o lokalnym odwracaniu odwzorowań, istnieje ε > 0 oraz otoczenie W punktu x0 oraz funkcja g : B(y0 , ε) → W klasy C 1 (a także klasy C k , gdy f jest klasy C k ) taka, że y = f(g(y)) dla y ∈ B(y0 , ε) i g(f(x)) = x dla x ∈ W , oraz g 0 (y0 ) = [f 0 (x0 )]−1 . Stąd wynika, że B(y0 , ε) ⊂ f(U), czyli f(U) jest zbiorem otwartym. Jednocześnie zauważmy, że odwzorowanie odwrotne f −1 : f(U) → U istnieje (patrz przypis) i g = f −1 |B(y0 ,ε) . Tak więc odwzorowanie f −1 jest ciągłe, tej klasy gładkości co g. Reszta została Przypomnijmy, że jeśli odwzorowanie h : X → Y , gdzie X i Y są dowolnymi zbiorami, to h jest różnowartościowe wtedy i tylko wtedy, gdy istnieje odwzorowanie odwrotne h−1 : h(X) → X. 7 Pamiętamy, że obraz zbioru łukowo spójnego jest łukowo spójny: tak więc ta nazwa jest adekwatna do treści twierdzenia. 6 76 2. RACHUNEK RÓŻNICZKOWY już udowodniona. W tym miejscu warto przypomnieć przykład 2.3.6: odwzorowanie tam określone jest regularne, lecz nie jest dyfeomorfizmem, gdyż nie jest różnowartościowe. Z udowodnionego twierdzenia wynika też użyteczny wniosek (niekiedy przyjmowany jako definicja dyfeomorfizmu). 2.3.9 WNIOSEK: Odwzorowanie f : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, jest dyfeomorfizmem wtedy i tylko wtedy, gdy f jest bijekcją na swój obraz, obraz f(U) jest otwarty i odwzorowania f i f −1 : f(U) → RN są klasy C 1 . ĆWICZENIE: Udowodnić, ze złożenie dyfeomorfizmów jest dyfeomorfizmem. Warto jeszcze wprowadzić następującą terminologię: niech, jak zwykle f : U → RM , gdzie U ⊂ RN jest zbiorem otwartym, będzie odwzorowaniem różniczkowalnym Mówimy, że punkt x ∈ U jest punktem regularnym odwzorowania f, jeśli rank Jf (x) jest maksymalny. Punkt x ∈ U jest punktem krytyczny odwzorowania f, jeśli nie jest punktem regularnym dla f. Punkt y ∈ RM jest wartością regularną odwzorowania f, jeżeli zbiór f −1 (y) nie zawiera punktów krytycznych; w przeciwnym razie mówimy, że y jest wartością krytyczną. UWAGA: Z punktu widzenia tej terminologii, twierdzenie Fermata (o warunkach koniecznych istnienia ekstremów lokalnych) można wypowiedzieć następująco. Jeśli funkcja f : U → R jest różniczkowalna w punkcie x, w którym przyjmuje ekstremum lokalne, to x jest jej punktem krytycznym. Ma też miejsce ważne twierdzenie. 2.3.10 TWIERDZENIE (Sarda): Jeśli odwzorowanie f : U → RM , gdzie U ⊂ RN jest zbiorem otwartym, jest klasy C 1 ∩ C N−M+1 , to zbiór jej wartości krytycznych jest zbiorem brzegowym (tzn. zbiór wartości krytycznych nie ma punktów wewnętrznych). Pewne uzupełnienie tego twierdzenie podamy poniżej. 2.3.D Różniczkowanie funkcji na zbiorach nieotwartych Do tej pory rozważaliśmy tylko różniczkowalność funkcji lub odwzorowań zdefiniowanych na zbiorach otwartych. Niekiedy jednak istnieje potrzeba mówić o różniczkowalności funkcji określonych na zbiorach, które otwarte nie są. Poniżej omówimy dwie z takich sytuacji. Przypuśćmy, że V ⊂ RN . Mówimy, że odwzorowanie f = (f1 , ..., fM ) : V → RM , gdzie M ≥ 1, jest n-krotnie różniczkowalne n ≥ 1 (odp. klasy C r , r ≥ 1), jeżeli istnieje zbiór otwarty U ⊂ RN , V ⊂ U, oraz odwzorowanie n-krotnie różniczkowalne (klasy C r ) F = (F1 , ..., fM ) : U → Rm takie, że F|V = f (zauważmy, że Fi |V = fi dla i = 1, ..., M). Wówczas też przez n-tą pochodną odwzorowania f w punkcie x ∈ V , oznaczaną f 0 (x), rozumiemy pochodną F 0 (x). Podobna terminologia dotyczy pochodnych cząstkowych: np. dla x ∈ V , fi|j (x) := Fi|j (x) itp. Mówimy, że odwzorowanie f jest regularne, jeśli jest różniczkowalne i (istniejące) odwzorowanie F : U → RM jest regularne (tzn. klasy C 1 i rank F 0 (y) = min{N, M} dla wszystkich y ∈ U. Analogicznie f jest dyfeomorfizmem, jeżeli dyfeomorfizmem jest F : U → RM . UWAGA: (1) Na to by f było regularne (odp. dyfeomorfizmem) klasy C r , r ≥ 1, potrzeba i wystarcza, aby było klasy C r i rank f 0 (x) = min{N, M} dla dowolnego x ∈ V (odp. f jest klasy C 1 i jest homeomorfizmem na swój obraz); to nie jest natychmiastowe w dowodzie. (2) Dla dowolnego zbioru domkniętego K ⊂ RN istnieje funkcja g : RN → R klasy C ∞ 2.3. TEORIA ODWZOROWAŃ 77 takie, że {x ∈ RN | g(x) = 0} = K. Stąd wynika, że f : V → RM jest klasy C r wtedy i tylko wtedy, gdy istnieje odwzorowanie F : RN → RM klasy C r takie, że F|V = f. (3) Jeśli f : V → RM jest odwzorowaniem klasy C r , to przedłużenie F : U → RM , o którym mowa w definicji nie jest jednoznacznie wyznaczone przez f. Nie mniej jednak, jeżeli V jest zawarty w domknięciu swego wnętrza, to dla x ∈ V pochodna f (k) (x) ∈ Lk (RN , RM ), gdzie 1 ≤ k ≤ r, jest wyznaczona jednoznacznie. Niekiedy wystarcza inne podejście: przypuśćmy, że zbiór U ⊂ RN jest otwarty oraz U ⊂ V ⊂ U i niech f : V → RM . Mówimy wówczas, że odwzorowanie f jest klasy C 1 , jeśli obcięcie g := f|U : U → RM jest odwzorowaniem klasy C 1 i dla dowolnych i = 1, ..., M oraz j = 1, ...., N istnieje funkcja ciągła hij : U → R taka, że hij |U = gi|j . W takiej sytuacji, gdy x ∈ V , to za pochodną cząstkową fi|j (x), i = 1, ..., M, j = 1, ..., N, uznajemy wartość hij (x). Należy zauważyć, że dla x ∈ V hij (x) = lim y→x, y∈U fi|j (y), a więc wartość fi|j (x) jest wyznaczona jednoznacznie. UWAGA: (1) Jest jasne, że odwzorowanie f : V → RM (gdzie U ⊂ V ⊂ U, gdzie U ⊂ RN jest zbiorem otwartym) klasy C 1 w sensie poprzedniej definicji jest klasy C 1 w sensie powyższej. (2) Obie podane definicje (orzekające kiedy odwzorowanie f : V → RM jest klasy C 1 są równoważne w wielu sytuacjach, na przykład gdy V jest kostką w RN , tzn. zbiorem postaci V = [a1 , b1 ] × [a2 , b2 ] × ... × [aN , bN ], a ogólniej mówiąc gdy V = Ω, gdzie Ω ⊂ RN jest zbiorem otwartym, zaś brzeg ∂Ω jest tzw. N − 1-wymiarową rozmaitością z kantami. Rozdział 3 Całka Riemanna funkcji wielu zmiennych Czytelnik powinien przypomnieć definicję całki Riemanna dla funkcji ograniczonych f : [a, b] → R. Oto krótkie przypomnienie: niech f : [a, b] → R, gdzie −∞ < a ≤ b < +∞, będzie funkcją ograniczoną, tzn. istnieją liczby m, M ∈ R takie, że m ≤ f(x) ≤ M dla wszystkich x ∈ [a, b]. Jeśli P jest podziałem przedziału [a, b] (tzn. P = {x0 , x1 , ..., xn }, gdzie a = x1 < x2 < ... < xn = b), to n X L(f, P) := inf f(x)(xi − xi−1 ) i=1 x∈[xi−1 ,xi ] jest tzw. dolną sumą całkową Darboux dla funkcji f odpowiadającą podziałowi P, zaś U(f, P) := n X sup i=1 x∈[xi ,xi−1 ] f(x)(xi − xi−1 ) jest górną sumą całkową Darboux dla f względem P. Niech P będzie podziałem [a, b]. Jeżeli Q jest podziałem [a, b] drobniejszym niż P (inaczej: jest zagęszczeniem lub podpodziałem podziału P), a więc gdy P ⊂ Q, to m(b − a) ≤ L(f, P) ≤ L(f, Q) ≤ U(f, Q) ≤ U(f, P) ≤ M(b − a), a jeśli Q jest dowolnym podziałem [a, b], to L(f, P) ≤ U(f, Q). Symbolem P[a, b] oznaczamy rodzinę wszystkich podziałów odcinka [a, b]. Powyższe nierówności implikują, że zbiory {L(f, P) | P ∈ P[a, b]} i {U(f, P) | P ∈ P[a, b]} są ograniczone, a wyrażenia Z a b Z f(x) dx := sup{L(f, P) | P ∈ P[a, b]}, a b f(x) dx := inf{U(f, P) | P ∈ P[a, b]}, Rb zwane całką dolną i całką górną, odpowiednio, są poprawnie określone. Oczywiście a f(x) dx ≤ Rb a f(x) dx. Mówi się, że funkcja f jest całkowalna w sensie Riemanna na [a, b] i pisze f ∈ R[a, R b b], gdy całka dolna jest równa całce górniej i ich wspólną wartość oznacza się symbolem a f(x) dx i Rb nazywa całką Riemanna funkcji f na przedziale [a, b]. Czasem pisze się po prostu a f. 79 3.1. CAŁKA NA PROSTOKĄCIE 3.1 Całka na prostokącie N-wymiarową kostką (domkniętą) nazywamy zbiór C będący produktem N przedziałów, tzn. C = [a1 , b1 ] × [a2 , b2 ] × ... × [aN , bN ], gdzie aj , bj ∈ R i aj ≤ bj dla wszystkich j = 1, ..., N. Będą nas interesować przede wszystkim kostki niezdegenerowane, tzn. takie że aj < bj , j = 1, ..., N. Objętością kostki C nazwiemy liczbę vol(C) := (b1 − a1 )(b2 − a2 )...(bN − aN ). Podziałem kostki C nazwiemy układ P := (P 1 , ..., P N ), gdzie P j jest podziałem odcinka j j j [aj , bj ]; piszemy też P ∈ P(C). Jest jasne, że jeżeli P j := {x0 , x1 , ..., xnj }, gdzie j = 1, ..., N, j j j j x0 = aj oraz xnj = bj , to podział Pj dzieli odcinek [aj , bj ] na nj mniejszych odcinków [xk−1 , xk ], k = 1, ..., nj , natomiast P dzieli kostkę C na n := n1 · ... · nN „mniejszych” kostek. W dalszym ciągu (z pełną świadomością, że nie jest to doskonała notacja) piszemy S ∈ P, mając na myśli jedną z tych „małych” kostek powstałych w wyniku tego rozbicia podziału P. Podział Q = (Q 1 , ..., Q N ) ∈ P(C) jest zagęszczeniem podziału P (lub podziałem drobniejszym niż P, lub też podpodziałem podziału P), gdy dla dowolnego 1 ≤ j ≤ N, P j ⊂ Q j , tzn. podział Q j jest zagęszczeniem podziału P j . Jeśli P = (P 1 , ..., P N ) oraz Q = (Q 1 , ..., Q N ), to podział (P 1 ∪ Q 1 , ..., P N ∪ Q N ) jest ich wspólnym zagęszczeniem. W przyszłości przyda się nam następujący prosty fakt. 3.1.1 FAKT: Jeżeli {Ui }i∈I jest dowolnym pokryciem otwartym kostki domkniętej C, to istnieje podział P ∈ P(C) o tej własności, że dla dowolnego S ∈ P istnieje takie i ∈ I, że S ⊂ Ui . Załóżmy, że C jest niezdegenerowaną kostką domkniętą, f : C → R jest funkcją ograniczoną, P ∈ P(C) oraz S ∈ P. Wtedy definiujemy mS (f, P) = inf f(x), MS (f, P) := sup f(x). x∈S x∈S Oczywiście, jeżeli m ≤ f(x) ≤ M, x ∈ C, to m ≤ mS (f, P) ≤ MS (f, P) ≤ M dla każdej kostki S ∈ P. Dolną, odp. górną sumą całkową funkcji f odpowiadającą podziałowi P nazywamy liczbę X X L(f, P) = mS (f, P)vol(S) U(f, P) := MS (f, P)vol(S). S∈P S∈P Analogicznie jak w przypadku funkcji jednej zmiennej dowodzimy, że mają miejsce następujące własności: 3.1.2 FAKT: Jeśli P, P 0 , Q, Q 0 ∈ P(C), P 0 jest zagęszczeniem P, zaś Q 0 zagęszczeniem Q, to m vol(C) ≤ L(f, Q) ≤ L(f, Q 0 ) ≤ U(f, P 0 ) ≤ U(f, P) ≤ Mvol(C). Wobec tego zbiory {L(f, P)}P∈P(C) , {U(f, P)}P∈P(C) są ograniczone. Pozwala to, podobnie jak poprzednio, przyjąć następującą definicję. 80 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH Mówimy, że funkcja f jest całkowalna (w sensie Riemanna) na kostce C jeśli dolna całka Z f(x) dx := sup L(f, P) C jest równa całce górnej P∈P(C) Z C f(x) dx := inf U(f, P). P∈P(C) Jeśli funkcja (ograniczona) f : C → R jest całkowalna, to piszemy też f ∈ R(C), zaś wspólną wartość całek górnej i dolnej oznacza się symbolami Z Z Z f= f(x) dx = f(x1 , ..., xN ) dx1 ...dxN C C C i nazywa wielokrotną (dokładniej N-krotną) całką Riemanna. Oczywiście dla dowolnej funkcji ograniczonej f : C → R i P ∈ P(C), Z Z L(f, P) ≤ f ≤ f ≤ U(f, P). C C Jeśli zaś f ∈ R(C), to dla dowolnego podziału P ∈ P(C) mamy Z Z Z L(f, P) ≤ f ≤ f(x) dx ≤ f ≤ U(f, P). C C C Zauważmy w tym miejscu też, że jeżeli C = [a, b] jest przedziałem domkniętym, a więc 1-wymiarową kostką, to funkcja ograniczona f : [a, b] → R jest całkowalna w sensie Riemanna (zdefiniowanym w pierwszej części skryptu) wtedy i tylko wtedy, gdy jest całkowalna w wyżej podanym sensie i Z Z b f(x) dx = f(x) dx. [a,b] a Analogicznie, dla dowolnej funkcji ograniczonej f : [a, b] → R mamy Z Z b Z Z b f(x) dx = f(x) dx, f(x) dx = f(x) dx. [a,b] a [a,b] a R PRZYKŁAD: (a) Funkcja stała f(x) = c dla x ∈ C jest całkowalna i C c dx = cvol(C). (b) Funkcja f : C → R, która przyjmuje wartość 1 gdy x ∈ QN ∩ C oraz 0 w przeciwnym razie, nie jest całkowalna (sprawdzić). UWAGA: (1) Definiując całkę założyliśmy, że kostka C jest niezdegenerowana. Dla kostek zdegenerowanych uznajemy, że każda funkcja jest tam całkowalne i jej całka jest zerem. (2) Jeśli f : X → R, gdzie X ⊂ RN i kostka C ⊂ X, to powiada się, że funkcja f jest całkowalna na C, jeżeli jest ona ograniczona na C i jej obcięcie f|C ∈ R(C); piszemy wtedy też, że f ∈ R(C). Jak widać, fakt że funkcja określona jest na jakimś nadzbiorze kostki C, nie ma żadnego znaczenia z punktu widzenia całkowalności na C. Podobnie, jak w przypadku funkcji jednej zmiennej, można bez trudu udowodnić następujący warunek konieczny i dostateczny całkowalności: 3.1.3 TWIERDZENIE: Funkcja ograniczona f : C → R jest całkowalna w sensie Riemanna na kostce C ⊂ RN wtedy i tylko wtedy, gdy dla dowolnego ε > 0 istnieje taki podział P ∈ P(C) kostki C, że U(f, P) − L(f, P) < ε. 81 3.1. CAŁKA NA PROSTOKĄCIE R R DOWÓD: Konieczność: Ustalmy ε > 0; skoro C f = C f, to (przypominając definicję kresu górnego) istnieje taki podział P1 ∈ P(C), że Z Z f − ε/2 < L(f, P1 ) ≤ f; C R skoro zaś C f= R C f, C to znajdzie się taki podział P2 ∈ P(C), że Z Z f ≤ U(f, P2 ) < f + ε/2. C C Niech P = P1 ∪ P2 będzie wspólnym zagęszczeniem podziałów P1 i P2 . Wtedy Z Z f − ε/2 < L(f, P1 ) ≤ L(f, P) ≤ U(f, P) ≤ U(f, P2 ) < f + ε/2. C C Stąd U(f, P) − L(f, P) < ε. Dla dowodu dostateczności podanego warunku weźmy dowolne ε > 0 i dobierzmy podział P ∈ P(C) tak, by U(f, P) − L(f, P) < ε. Wówczas Z Z L(f, P) ≤ f ≤ f. C C Z dowolności ε wynika, że całki dolna i górna są równe, a więc, że f ∈ R(C). Czytelnik zechce też udowodnić (naśladując odpowiednie twierdzenie dotyczące całki Riemanna funkcji jednej zmiennej) następujący odpowiednik twierdzenia Darboux-Riemanna. 3.1.4 TWIERDZENIE: Niech C będzie kostką domkniętą i f : C → R funkcją ograniczoną. Wówczas f ∈ R(C) wtedy i tylko wtedy, gdy istnieje granica sum całkowych Riemanna przy średnicach podziałów dążących do 0, tzn. istnieje liczba s ∈ R taka, że dla dowolnego ε > 0 istnieje taka liczba δ, że dla dowolnego podziału P ∈ P(C) o średnicy µ(P) := maxS∈P diam (S) <δ P 1 ( ) i dla dowolnego naboru Ξ = {ξS }S∈P , gdzie ξS ∈ S, mamy s − S∈P f(ξS )vol(S) < ε. R Wówczas też C f(x) dx = s. Całce wielokrotnej przysługuje wiele własności analogicznych jak w przypadku zwykłej całki. I tak mamy następujące twierdzenie: 3.1.5 TWIERDZENIE: Załóżmy, że funkcje f, g : C → R są całkowalne. Wtedy: (i) dla dowolnego λ ∈ R, funkcje λf oraz f ± g są całkowalne i Z Z Z Z Z λf = λ f, (f ± g) = f± g; C C C R C C R (ii) Jeśli f ≤ g na kostce C, to C f ≤ C g; (iii) Jeśli C = C1 ∪C2 ∪...∪Cn , gdzie Ci jest kostką domkniętą (i = 1, ..., n) i pokrycie {Ci }ni=1 kostkami kostki C jest regularne (2 ), to f ∈ R(C) wtedy i tylko wtedy, gdy fi := f|Ci ∈ R(Ci ) dla wszystkich i = 1, ..., n i wtedy Z n Z X f= fi . C i=1 Ci Średnicą zbioru A ⊂ RN jest liczba diam (A) := sup{kx − yk | x, y ∈ A}. Mianowicie powiemy, że rodzina kostek niezdegenerowanych {Ci }ni∈1 jest regularnym rozbiciem kostki C, gdy dla dowolnych i, j = 1, ..., n, przecięcie Ci ∩ Cj jest podzbiorem (być może pustym) ich wspólnej ściany, a więc S gdy kostki tego pokrycia nie zachodzą na siebie oraz ni=1 Ci = C. Zauważmy, że jeżeli {Ci }i∈I jest regularnym rozbiciem kostki C, to wnętrza kostek Ci , i = 1, ..., n, są rozłączne. 1 2 82 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH DOWÓD: nie jest trudny. Przeprowadzenie odpowiedniego rozumowania w odniesieniu do części (ii) pozostawiamy czytelnikowi (dowód jest w istocie analogiczny do dowodu dotyczącego zwykłej (jednokrotnej) całki Riemanna). Dla przykładu pokażemy szkice dowodów pierwszej równości z części (i) oraz części (iii). Niech ε > 0. Z twierdzenie 3.1.3 istnieją podziały P1 , P2 ∈ P(C) takie, że U(f, P1 ) − L(f, P1 ) < ε/2, U(g, P2 ) − L(g, P2 ) < ε/2. Jeśli Q := P1 ∪ P2 jest wspólnym zagęszczeniem podziałów P1 , P2 , to – wykorzystując fakt 3.1.2 – otrzymamy, że U(f, Q) − L(f, Q) < ε/2 i U(g, Q) − L(g, Q) < ε/2. Zauważmy teraz, że dla dowolnej kostki S ∈ Q, MS (f + g, Q) = sup(f + g)(x) ≤ MS (f, Q) + MS (g, Q). x∈S Analogicznie mS (f + g, Q) ≥ mS (f, Q) + mS (g, Q). Stąd X U(f + g, Q) = MS (f + g, Q)vol(S) ≤ U(f, Q) + U(g, Q), L(f + g, Q) ≥ L(f, Q) + L(g, Q), S∈Q czyli U(f + g, Q) − L(f + g, Q) ≤ U(f) − L(f, Q) + U(g, Q) − L(g, Q) < ε. Dowodzi to, że f + g ∈ R(C). Ponadto Z L(f, Q) + L(g, Q) ≤ L(f + g, Q) ≤ C (f + g)(x) dx ≤ U(f + g, Q) ≤ U(f, Q) + U(g, Q), Z L(f, Q) + L(g, Q) ≤ Stąd C Z f(x) dx + C g(x) dx ≤ U(f, Q) + U(g, Q). Z Z Z (f + g)(x) dx − f(x) dx + g(x) dx < ε. C C C Biorąc pod uwagę dowolność ε, kończymy dowód pierwszej równości z części (i). (iii) Przypuśćmy, że f ∈ R(C) i wybierzmy 1 ≤ i ≤ n oraz ε > 0. Istnieje wówczas podział P ∈ P(C), dla którego U(f, P) − L(f, P) < ε. Bez zmniejszenia ogólności (biorąc w razie potrzeby odpowiednie zagęszczenie), można założyć, że P zawiera wszystkie wierzchołki kostki Ci , i = 1, ...n. Wobec tego Pi := Ci ∩ P jest podziałem kostki Ci oraz U(fi , Pi ) − L(fi , Pi ) ≤ U(f, P) − L(f, P) < ε. Dowodzi to, że fi ∈ R(Ci ). Na odwrót załóżmy, że dla dowolnego i = 1, ..., n, funkcja fi jest całkowalna na Ci . Wobec tego, istnieją podziały Pi ∈ P(Ci ) takie, że U(fi , Pi ) − L(fi , Pi ) < n−1 ε. Niech P będzie takim podziałem kostki C, że P1 ∪ P2 ∪ ... ∪ Pn ⊂ P. Jest jasne, że wówczas P ∩ Ci jest zagęszczeniem podziału Pi dla dowolnego i = 1, ..., n. Zatem U(fi , P ∩ Ci ) − L(fi , P ∩ Ci ) < ε/n. Stąd n X U(f, P) − L(f, P) = [U(fi , P ∩ Ci ) − L(fi , P ∩ Ci )] < ε. i=1 3.1. CAŁKA NA PROSTOKĄCIE 83 Tak więc f ∈ R(C). Oczywiście z powyższej nierówności wynika, że Z n Z X fi (x) dx < ε, f(x) dx − C Ci i=1 co dowodzi równości z części (iii). Analogicznie jak w przypadku zwykłej całki Riemanna dowodzimy, że: 3.1.6 TWIERDZENIE: Jeśli f : C → R jest funkcją ciągłą, to jest całkowalna. Ogólniej: jeśli funkcja f : C → R jest całkowalna, φ : [a, b] → R jest ciągła (gdzie przedział [a, b] ⊃ f(C)), to funkcja φ ◦ f jest również całkowalna. Byłoby wskazane, by Czytelnik podał pełny dowód tego twierdzenia, a także następnego (wystarczy w odpowiedni sposób zmodyfikować dowody analogicznych twierdzeń z pierwszej części skryptu). Dzięki temu twierdzeniu można istotnie rozszerzyć klasę funkcji całkowalnych. 3.1.7 PRZYKŁAD: (a) Jeśli f, g ∈ R(C), to fg, max{f, g}, min{f, g} ∈ R(C). (b) Jeśli f ∈ R(C), to |f| ∈ R(C) oraz Z Z f ≤ |f|. C C Dla dowodu tych własności wystarczy powołać się na drugą część poprzedniego twierdzenia: p p na przykład |f| = f 2 ; tak więc |f| jest złożeniem f i funkcji ciągłej y 7Ï y 2 . ĆWICZENIE: Jak dowieść, że max{f, g} jest funkcją całkowalną? Wspomnijmy jeszcze twierdzenie o wartości średniej: 3.1.8 TWIERDZENIE: Jeśli f : C → R jest funkcją ciągłą, to istnieje taki punkt ξ ∈ C, że Z f = f(ξ)vol(C). C DOWÓD: Niech m = infC f, M = supC f. Z twierdzenia Weierstrassa wartości m, M są przyjmowane, a więc – biorąc pod uwagę łukową spójność (wypukłość) kostki C i ciągłość wnoR simy, że f(C) = [m, M]. Ponieważ mvol(C) ≤ f ≤ Mvol(C), to wartość pośrednia m ≤ C R −1 ≤ M jest przyjmowana w pewnym punkcie ξ ∈ C na mocy własności Darboux C f[vol(C)] przysługującej funkcjom ciągłym. 3.1.A Zbiory nieistotne i kryterium całkowalności Aby, w pełni scharakteryzować klasę funkcji całkowalnych w sensie Riemanna (przypomnijmy, że nie zostało to zrobione poprzednio: podaliśmy tylko kilka warunków dostatecznych całkowalności) potrzebować będziemy potrzebować pojęcia zbioru nieistotnego. Mówimy, że rodzina (przeliczalna) kostek N-wymiarowych {Ci }∞ i=1 jest pokryciem zbioru A ⊂ RN , jeżeli ∞ [ A⊂ Ci . i=1 84 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH Podzbiór A ⊂ RN jest nieistotny w sensie Jordana, jeśli dla dowolnego ε > 0 istnieje jego co najwyżej przeliczalne pokrycie {Ci }∞ i=1 , gdzie Ci , i ∈ N, jest domkniętą kostką, oraz P∞ 3 i=1 vol(Ci ) < ε ( ). UWAGA: (1) Niektórzy autorzy nazywają zbiory nieistotne zbiorami miary zero (w sensie Jordana). Jak się później okaże, nie jest to szczęśliwe określenie. (2) Oczywiście dowolny zbiór skończony lub przeliczalny jest nieistotny; w szczególności zbiór liczb wymiernych jest nieistotny. (3) Kostka domknięta (niezdegenerowana) nie jest zbiorem nieistotnym. Można pokazać, że: kostka domknięta C jest zbiorem nieistotnym wtedy i tylko wtedy, gdy jest zdegenerowana i wówczas vol(C) = 0. ĆWICZENIE: (1) Wykazać, że dowolna kostka zdegenerowana jest zbiorem nieistotnym. (2) Wykazać, że wykres dowolnej funkcji ciągłej f : A → R, gdzie A ⊂ RN jest zbiorem nieistotnym. (3) Czy nośnik każdej krzywej jest nieistotny? (Nie: sprawdzić w internecie (lub w literaturze) czym jest krzywa Peano). A co można powiedzieć o krzywych regularnych? 3.1.9 FAKT: (1) Jeśli zbiór A ⊂ RN jest nieistotny oraz B ⊂ A, to również zbiór B jest nieistotny. S (2) Jeśli, dla dowolnego j ∈ N, zbiór Aj jest nieistotny, to także suma ∞ j=1 Aj jest zbiorem nieistotnym. DOWÓD: Pierwsza część jest oczywista. Dla dowodu drugiej części ustalmy ε > 0; dla dowolj nego j ≥ 1 istnieje pokrycie {Ci }∞ i=1 zbioru Aj składające się z kostek domkniętych takie, P∞ j j że i=1 vol(Ci ) < 2εj . Rodzina kostek {Ci }∞ i,j=1 jest przeliczalna i po ustawieniu jej w ciąg (w dowolny sposób) uzyskamy, że ∞ X j vol(Ci ) < ε. i,j=1 ĆWICZENIE: Wykazać, że zbiór nieistotny jest zbiorem brzegowym (tzn. nie ma punktów wewnętrznych). UWAGA: Należy być ostrożnym posługując się pojęciem zbioru nieistotnego. Rozważmy dla przykładu N-wymiarową kostkę niezdegenerowaną C. Wówczas vol(C) > 0 i nie jest to zbiór nieistotny. Jeśli jednak rozważyć tę kostkę jako podzbiór przestrzeni RN+1 (czyli de facto utożsamić ją ze zbiorem C × {0}), to staje się ona kostką zdegenerowaną, a tym samym, zbiorem nieistotnym. Wobec tego nieistotność jest pojęciem ściśle związanym z położeniem zbioru w konkretnej przestrzeni. Przejdziemy obecnie do zapowiedzianej charakteryzacji funkcji całkowalnych. 3.1.10 TWIERDZENIE: Niech C ⊂ RN będzie kostką domkniętą i f : C → R funkcją ograniczoną. Funkcja f jest całkowalna w sensie Riemanna wtedy i tylko wtedy, gdy zbiór D jej nieciągłości jest zbiorem nieistotnym. Przypomnijmy, że x ∈ D (tzn. x jest punktem nieciągłości funkcji f) jeśli f nie jest ciągła w tym punkcie, czyli istnieje ε > 0 o tej własności, że dla każdego δ > 0 znajdziemy y ∈ C taki, że kx − yk < δ, lecz |f(x) − f(y)| ≥ ε. P Tzn. szereg vol(Ci ) jest zbieżny i jego suma jest mniejsza niż ε. Przypomnijmy jeszcze, że zbieżność tego szeregu jest równoważna ograniczoności ponieważ jego wyrazu są nieujemne. 3 85 3.1. CAŁKA NA PROSTOKĄCIE Zbiór D można też opisać nieco inaczej. Mianowicie, dla dowolnego x ∈ C niech W (x) := max{f(x), lim sup f(y)}; w(x) := min{f(x), lim inf f(y)} y→x y→x (liczby te są poprawnie określone i skończone, bo funkcja f jest ograniczona) oraz niech oscylacja f w punkcie x o(f, x) := W (x) − w(x). Jest jasne, że f jest ciągła w punkcie x wtedy i tylko wtedy, gdy o(f, x) = 0. Rzeczywiście, jeśli f jest ciągła w punkcie x ∈ C, to f(x) = limy→x f(y) (każdy punkt kostki jest jej punktem skupienia). Istnienie granicy oznacza, że granice górna i dolna funkcji f w punkcie c są równe i równe f(x), czyli W (x) = w(x) i o(f, x) = 0. Na odwrót równość W (x) = w(x) oznacza, że lim sup f(y) = f(x) = lim inf f(y), y→x y→x co oznacza, że istnieje limy→x f(y) = f(x), czyli że f jest ciągła w x. Wobec tego, ∞ [ D= Dn , n=1 gdzie Dn := {x ∈ C | o(f, x) ≥ 1/n}. Rzeczywiście, gdy x ∈ D, to o(f, x) > 0, czyli znajdzie się S takie n ∈ N, że o(f, x) ≥ 1/n, tj. x ∈ Dn . Na odwrót, gdy x ∈ ∞ n=1 , to x ∈ Dn dla pewnego n ∈ N, a więc o(f, x) ≥ 1/n > 0, tzn. x ∈ D. UWAGA: Można pokazać, że funkcja C 3 x 7Ï W (x) jest półciągła z góry, zaś C 3 x 7Ï w(x) jest półciągła z dołu. Udowodnimy ten drugi fakt. Niech λ < m(x), tzn. λ < f(x) i λ < lim infy→x f(y) = supη>0 inf 0<kx−yk<η, y∈C f(y). Zatem, z definicji kresu górnego, istnieje taka η > 0, że inf 0<kx−yk<η, y∈C f(y) > λ. To z kolei oznacza, dla dowolnego y ∈ C, jeśli 0 < ky − xk < η, to f(y) > λ. Lecz również f(x) > η. W takim razie, f(y) > λ dla dowolnego y ∈ C, o ile ky − xk < η. Analogicznie można wykazać górną półciągłość funkcji W (·). Ponieważ funkcja −w(·) jest półciągła z góry, więc funkcja C 3 x 7Ï o(f, x) jest półciągła z góry. Oznacza to, że zbiór Dn jest domknięty co, wraz z jego ograniczonością, implikuje, że jest to zbiór zwarty. W konsekwencji zbiór D jest również zwarty. Nieobowiązkowy DOWÓD (twierdzenia 3.1.10): Załóżmy, że |f(x)| ≤ M dla dowolnego x ∈ C. Zaczniemy od dowodu dostateczności podanego warunku dla całkowalności. Niech ε > 0. 4 Skoro D jest zbiorem nieistotnym, to istnieje rodzina {Ui }∞ i=1 kostek otwartych ( ) taka, D ⊂ S∞ P∞ i=1 vol(Ui ) < ε. Z kolei, dla dowolnego x ∈ C \ D znajdziemy otwartą kostkę i=1 Ui oraz Ux taką, że sup f(y) − inf f(y) < ε (∗) y∈Ux y∈Ux (Czytelnik zechce to sprawdzić). Rodzina U := {Ui } ∪ {Ux }x∈C\D tworzy pokrycie otwarte kostki C. Z warunku Heinego-Borela wynika, że istnieje skończone podpokrycie {V1 , ..., Vn } pokrycia U (oznacza to, że Vj ∈ U dla dowolnego j = 1, ..., n). Korzystając z faktu 3.1.1, znajdziemy podział taki P ∈ P(C), że dowolna kostka S ∈ P zawiera się w jednym z elementów podpokrycia {Vi }ni=1 . Dla dowolnej kostki S ∈ P możliwe są więc dwa przypadki: 4 W definicji zbioru nieistotnego można zastąpić kostki domknięte otwartymi i na odwrót. Dowód tego może być niezłym ćwiczeniem. 86 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH (1) istnieje taki punkt x ∈ C \ D, że S ⊂ Ux lub (2) istnieje takie i ≥ 1, że S ⊂ Ui . Rodzinę kostek S ∈ P spełniających pierwszy warunek oznaczmy P(1) , a rodzinę kostek S ∈ P spełniających drugi warunek oznaczmy P(2) (5 ). Gdy S ∈ P(1) , to MS (f, P) − mS (f, P) < ε na mocy warunku (∗), a gdy S ∈ P(2) , to na pewno MS (f, P) − mS (f, P) < 2M. Wobec tego U(f, P) − L(f, P) < X [MS (f) − mS (f)]vol(S) + s∈P1 εvol(C) + 2M X [MS (f) − mS (f)]vol(S) < S∈P2 m X vol(Ui ) < εvol(C) + 2Mε i=1 co, na mocy dowolności ε, dowodzi całkowalności funkcji f. Na odwrót załóżmy, że f ∈ R(C). Wystarczy pokazać, że dla dowolnego n ∈ N, zbiór Dn jest nieistotny. Ustalmy ε > 0 i rozważmy podział P ∈ P(C) taki, że U(f, P)−L(f, P) < ε/n (istnienie takiego podziału wynika z twierdzenia 3.1.3). Symbolem Q oznaczmy rodzinę tych kostek S ∈ P, dla których int S ∩ Dn 6= ∅. Wtedy, dla S ∈ Q, MS (f, P) − mS (f, P) ≥ n1 . Istotnie, skoro S ∈ Q, to istnieje punkt x ∈ int S, z o(f, x) ≥ n1 . Zatem istnieje takie η > 0, że B(x, η) ⊂ C i dla dowolnego y ∈ B(x, η), ms (f, P) ≤ f(y) ≤ MS (f, P). Wobec tego mS (f, P) ≤ w(x) < W (x) ≤ MS (f, P), czyli o(f, x) = W (x) − w(x) ≤ MS (f, P) − mS (f, P). Stąd X 1X vol(S) ≤ [MS (f) − mS (f)]vol(S) ≤ U(f, P) − L(f, P) < ε/n. n S∈Q S∈Q P Tak więc S∈Q vol(S) < ε. Rodzina {S}S∈Q pokrywa te punkty ze zbioru Dn , które leżą we wnętrzu którejś z kostek S ∈ P. Pozostałe punktu zbioru Dn należą do ścian kostek z podziału P. Oczywiście ściany te (traktowane jako zdegenerowane kostki N-wymiarowe) mają objętość 0. W konsekwencji pokryliśmy zbiór Dn (skończoną) rodziną kostek domkniętych o łącznej objętości mniejszej niż ε. To kończy dowód. 3.2 Miara Jordana i ogólna całka W dotychczasowych rozważaniach zajmowaliśmy się całkowalnością funkcji zdefiniowanych na kostkach. Za chwilę zajmiemy się całkowaniem funkcji o ogólniejszych dziedzinach. Najpierw jednak zbadamy dokładniej klasę zbiorów, na których będzie można zdefiniować całkę Riemanna funkcji ograniczonych. Niech A ⊂ RN będzie zbiorem ograniczonym. Funkcją charakterystyczną tego zbioru nazywamy funkcję χA : RN → R daną wzorem 0 gdy x 6∈ A χA (x) = 1 gdy x ∈ A. Ponieważ A jest zbiorem ograniczonym, to istnieje kostka (domknięta) taka, że A ⊂ C. Niech A ⊂ RN będzie zbiorem ograniczonym i niech C będzie kostką taką, że A ⊂ C. MIERZALNOŚĆ W SENSIE JORDANA Powiadamy, że zbiór ograniczony A ⊂ RN jest mierzalny w sensie Jordana (piszemy A ∈ J lub A ∈ JN dla podkreślenia, że chodzi o podzbiory 5 Teoretycznie może się zdarzyć, że kostka S ∈ P(1) ∩ P(2) . 87 3.2. MIARA JORDANA I OGÓLNA CAŁKA przestrzeni RN (6 )), jeśli jest całkowalna na kostce C takiej, że A ⊂ C jego funkcja charakterystyczna χA : C → R, a w zasadzie jej obcięcie do kostki C. UWAGA: Powyższa definicja jest poprawna, tzn. nie zależy od wyboru kostki C. Istotnie: jeśli C 0 jest inną kostką taką, że A ⊂ C 0 , to A ⊂ C ∩ C 0 . Całkowalność na C implikuje całkowalność na C ∩ C 0 (Czytelnik zechce to sprawdzić, stosując rozumowanie podobne do użytego w dowodzie twierdzenia 3.1.5 (iii)). To z kolei (zważywszy, że χA przyjmuje wartość 0 poza C ∩ C 0 ) implikuje całkowalność na C 0 . PRZYKŁAD: Najprostszymi przykładami zbiorów mierzalnych w sensie Jordana są: zbiór pusty i dowolna kostka domknięta. Wynika to wprost z definicji. Inne przykłady pojawią się później. UWAGA: Warto bardzo starannie przeanalizować definicję mierzalności w sensie Jordana. Załóżmy, że zbiór A jest ograniczony, C jest taką kostką domkniętą, że A ⊂ C i niech P będzie dowolnym podziałem kostki C. Dla dowolnej kostki S ∈ P możliwe są trzy przypadki: (1) S ∩ A = ∅; (2) S ∩ A 6= ∅ i S ∩ (RN \ A) 6= ∅; (3) S ⊂ A. Jeśli S spełnia pierwszy warunek, to mS (χA , P) = MS (χA , P) = 0; jeśli S spełnia drugi warunek, to mS (χA , P) = 0 i MS (χA , P) = 1; zaś, jeśli S spełnia trzeci warunek, to mS (χA , P) = MS (χA , P) = 1. Symbolem P(i) oznaczymy rodzinę tych kostek S ∈ P, które spełniają warunek (i), i = 1, 2, 3; oczywiście rodziny te są rozłączne i X X X X U(χA , P) = vol(S) + vol(S) = vol(S)(7 ), L(χA , P) = vol(S) S∈P(2) S∈P(3) oraz S∈P(2) ∪P(3) U(χA , P) − L(χA , P) = S∈P(3) X vol(S). S∈P(2) Ponadto Z C X χA (x) dx = sup L(χA , P) = sup P∈P(C) P∈P(C) S∈P Z C P∈P(C) (3) X χA (x) dx = inf U(χA , P) = inf P∈P(C) vol(S), vol(S). S∈P(2) ∪P(3) MIARA ZEWNĘTRZNA I WEWNĘTRZNA JORDANA Jeśli A ⊂ RN jest zbiorem ograniczonym, to liczbę Z m∗ (A) := χA (x) dx C nazywamy wewnętrzną miarą Jordana zbioru A, zaś liczbę Z m∗ (A) := χA (x) dx C 6 Przyjęło się, że rodziny zbiorów mierzalnych (w sensie Jordana, Lebesgue’a i innych), oznacza się literami gotyckimi J, L, itp. 7 Do rodziny P(2) ∪ P(3) należą kostki S ∈ P, które przecinają się za zbiorem A. 88 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH nazywamy zewnętrzną miarą Jordana zbioru A, gdzie C jest dowolną kostką domkniętą zawierającą zbiór A. UWAGA: (1)Definicje te są ponownie poprawne, gdyż nie zależą od wyboru kostki domkniętej C zawierającej zbiór C. Istotnie, jeśli C 0 jest inną taką kostką, to C 00 := C ∩ C 0 jest również kostką domkniętą zawierającą A i, oczywiście C 00 ⊂ C, C 00 ⊂ C 0 . Stąd wynika, że chcąc udowodnić niezależność miar wewnętrznej i zewnętrznej zbioru A od wyboru kostki, wystarczy ograniczyć się do przypadku, w którym C 0 ⊂ C. Dla dowolnego podziału P 0 ∈ P(C 0 ) bez trudu znajdziemy podział P ∈ P(C) tak, by P 0 ⊂ P 0 (wystarczy dokonać, odpowiednio rozumianego, „podziału” zbioru C \ C 0 ). Jeśli S ∈ P(3) (tzn. 0 0 S ⊂ A), to S ∈ P(3) . Na odwrót, jeśli S ∈ P(3) , to S ∈ P(3) . Innymi słowy, P(3) = P(3) . Stąd X L(χA , P 0 ) = X vol(S) = 0 S∈P(3) vol(S) = L(χA , P). S∈P(3) Zatem, po przejściu do kresów, otrzymamy, że Z Z χA (x) dx ≤ χA (x) dx. C0 C Z drugiej strony, dla dowolnego podziału P ∈ P(C), rozważmy takie jego zagęszczenie Q, która zawiera wszystkie wierzchołki kostki C 0 . Jest jasne, że Q 0 := C 0 ∩ Q jest podziałem kostki C 0 i, 0 analogicznie jak wyżej pokazujemy, że Q(3) = Q(3) , tzn. L(χA , Q 0 ) = L(χA , Q). Wobec tego, po przejściu do kresów górnych, Z Z χA (x) dx ≤ χA (x) dx. C0 C W konsekwencji Z C Z χA (x) dx = Analogicznie można udowodnić, że Z C C0 χA (x) dx. Z χA (x) dx = C0 χA (x) dx. To kończy dowód niezależności miar wewnętrznej i zewnętrznej od wyboru kostki zawierającej zbiór A. (2) Z uwagi na powyższe rozważania, przyjęta terminologia jest całkowicie jasna. Miarą wewnętrzną zbioru A jest kres górny łącznej objętości „małych” kostek wyznaczonych przez podziały P dowolnie wybranej kostki C zawierającej zbiór A, które są zawarte w zbiorze A. Miarą zewnętrzną jest kres dolny łącznej objętości „małych” kostek wyznaczonych przez podziały P dowolnie wybranej kostki C zawierającej zbiór A, które przecinają się ze zbiorem A. (3) Zauważmy jeszcze, że (3.2.1) m∗ (A) ≤ m∗ (A) dla dowolnego zbioru ograniczonego A ⊂ RN . 3.2. MIARA JORDANA I OGÓLNA CAŁKA 89 w świetle przeprowadzonego rozumowania, otrzymujemy następującą charakteryzację. 3.2.1 TWIERDZENIE: Zbiór ograniczony A ⊂ RN jest mierzalny w sensie Jordana (A ∈ JN ) wtedy i tylko wtedy, gdy m∗ (A) = m∗ (A). DOWÓD: Zbiór A jest mierzalny wtedy i tylko wtedy, gdy, dla dowolnej kostki domkniętej C zawierającej A, χA ∈ R(C) wtedy i tylko wtedy, gdy Z Z m∗ (A) = χA (x) dx = χA (x) dx = m∗ (A). C C 3.2.2 LEMAT: Niech A będzie zbiorem ograniczonym. Jeśli A jest zbiorem nieistotnym, to m∗ (A) = 0. Jeśli m∗ (A) = 0, to A jest zbiorem nieistotnym. DOWÓD: Załóżmy, że A jest zbiorem nieistotnym i wybierzmy domkniętą kostkę C ⊃ A i niech P będzie jej dowolnym podziałem. Jeśli S ∈ P(3) , tzn. S ∈ P i S ⊂ A, to S jest zbiorem P nieistotnym. Wtedy vol(S) = 0. W taki razie m∗ (A) = supP∈P(C) S∈P(3) vol(S) = 0. Załóżmy teraz, że m∗ (A) = 0 i ponownie rozważmy kostkę C ⊃ A. Z określenia miary zewnętrznej wynika, że dla dowolnego ε > 0 istnieje taki podział P ∈ P(C), że U(χA , P) < ε. To oznacza, że rodzina P(2) ∪ P(3) kostek ma łączna objętość mniejszą niż ε i, oczywiście, pokrywa zbiór A. Twierdzenia odwrotne do podanych powyżej nie zachodzą. Zobaczymy to za chwilę. MIARA JORDANA Przypuśćmy, że zbiór ograniczony A ⊂ RN jest mierzalny w sensie Jordana. Wspólną wartość m(A) := m∗ (A) = m∗ (A) nazywamy (N-wymiarową) miarą Jordana zbioru A. Niekiedy, aby podkreślić, że chodzi o Nwymiarową miarę Jordana, będziemy pisać mN zamiast m. Tak więc m : JN → R jest funkcją, która każdemu zbiorowi mierzalnemu w sensie Jordana A ∈ JN przyporządkowuje jego N-wymiarową miarę Jordana m(A). Z definicji miar wewnętrznej i zewnętrznej wynika, że Z (3.2.2) m(A) = χA (x) dx C gdzie C jest dowolna kostką domkniętą zawierającą zbiór A. PRZYKŁAD: Jak wiemy ∅, C ∈ J, gdzie C jest domkniętą kostką. Z definicji wynika natychmiast, że m(∅) = 0 i m(C) = vol(C). Wobec tego każda ze ścian S kostki C, będąc kostką domkniętą, jest zbiorem mierzalnym o mierze 0 i m(S) = vol(S) = 0. 3.2.3 WNIOSEK: Jeśli A jest nieistotnym zbiorem mierzalnym, to m(A) = 0. I na odwrót: jeśli zbiór A jest zbiorem mierzalnym i m(A) = 0, to A jest zbiorem nieistotnym. DOWÓD: Z lematu 3.2.2, m∗ (A) = 0. Mierzalność implikuje, że m(A) = m∗ (A) = 0. Podobnie jeżeli A jest mierzalny i m(A) = 0, to m∗ (A) = 0 i, ponownie z lematu 3.2.2, A jest nieistotny. Podamy teraz nieco inną charakteryzację mierzalności w sensie Jordana. 3.2.4 TWIERDZENIE: Zbiór ograniczony A ⊂ RN jest mierzalny w sensie Jordana wtedy i tylko wtedy, gdy jego brzeg ∂A jest zbiorem nieistotnym. 90 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH DOWÓD: Niech C będzie taką kostką, że A ⊂ C. Funkcja charakterystyczna χA jest całkowalna (to znaczy zbiór A jest mierzalny) wtedy i tylko wtedy, gdy zbiór D jej punktów nieciągłości jest nieistotny. Zauważmy jednak, że w tym przypadku D = ∂A, tzn. x jest punktem nieciągłości funkcji χA wtedy i tylko wtedy, gdy x ∈ ∂A. Istotnie, przypomnijmy, że ∂A := cl A\int A. Tak więc x ∈ ∂A wtedy i tylko wtedy, gdy dla dowolnego δ > 0, B(x, δ) ∩ A 6= ∅ oraz B(x, δ) ∩ (RN \ A) 6= ∅. Implikuje to, że o(χA , x) = 1; stąd χA nie jest ciągła w x. Z drugiej strony, jeżeli funkcja charakterystyczna χA nie jest ciągła w x, to istnieje ε > 0 o tej własności, że dla każdego δ > 0 istnieje taki punkt y ∈ B(x, δ), że |χA (x) − χA (y)| ≥ ε. Warunek ten może mieć miejsce tylko gdy χA (x) = 1 oraz χA (y) = 0 (lub na odwrót). W każdym razie B(x, δ) ∩ A 6= ∅ oraz B(x, δ) ∩ (RN \ A) 6= ∅, co dowodzi, że x ∈ ∂A. WŁASNOŚCI MIARY JORDANA Zbadamy teraz pokrótce podstawowe własności zbiorów mierzalnych w sensie Jordana i miary Jordana. Zaczniemy od kilku ogólnych stwierdzeń. 3.2.5 TWIERDZENIE: Niech A, B ⊂ RN będą zbiorami ograniczonymi. Wówczas: (1) Jeżeli A ∈ J, to m(A) ≥ 0. (2) Jeśli A, B ∈ J, to A ∪ B, A ∩ B, A \ B ∈ J. (3) Miara Jordana jest: addytywna, tzn., jeżeli A, B ∈ J i A ∩ B = ∅, to m(A ∪ B) = m(A) + m(B); subaddytywna, tzn., jeśli A, B ∈ J, to m(A ∪ B) ≤ m(A) + m(B); monotoniczna, tzn., gdy A, B ∈ J i A ⊂ B, to m(A) ≤ m(B) (ponadto m(B \ A) = m(B) − m(A)). DOWÓD: (1) Skoro A ∈ J, to funkcja χA ∈ R(C), gdzie C jest kostką domkniętą zawierającą A. Oczywiście χA ≥ 0. Zatem Z m(A) = χA (x) dx ≥ 0. C Funkcja charakterystyczna zbioru pustego jest stale równa zero, więc m(∅) = 0. (2), (3) Zauważmy, że χA∪B = max{χA , χB }, χA∩B = min{χA , χB }. Stąd, przy założeniu mierzalności zbiorów A i B (tj. całkowalności funkcji charakterystycznych χA i χB na kostce C, która zawiera oba zbiory A, B), wynika całkowalność na C obu funkcji χA∪B i χA∩B , a więc i mierzalność zbiorów A ∪ B i A ∩ B. Ponadto χA + χB = max{χA , χB } + min{χA , χB } = χA∪B + χA∩B . Zatem Z Z Z m(A) + m(B) = χA (x) dx + χB (x) dx = (χA (x) + χB (x)) dx = C C C Z Z = χA∪B (x) dx + χA∩B (x) dx = m(A ∪ B) + m(A ∩ B). C Zatem C m(A ∪ B) = m(A) + m(B) − m(A ∩ B) ≤ m(A) + m(B) oraz, gdy A ∩ B = ∅, to m(A ∪ B) = m(A) + m(B). Niech ponownie C będzie kostką domkniętą, A, B ⊂ C. Wówczas, dla dowolnego x ∈ C, χC\A (x) = 1 − χA (x). Wobec całkowalności funkcji stałej na C wnosimy, że χC\A jest funkcja całkowalną na C; tzn. zbiór C \ A jest mierzalny. Zatem także B \ A = B ∩ (C \ A) jest zbiorem 3.2. MIARA JORDANA I OGÓLNA CAŁKA 91 mierzalnym. Monotoniczność jest natychmiastową konsekwencją tego, że χA ≤ χB . Ponadto: m(B) = m((B \ A) ∪ A) = m(B \ A) + m(A). Własność (2) udowodnionego twierdzenia oznacza, że rodzina J jest tzw. pierścieniem zbiorów. Dokładniej mówiąc dowolną rodzinę A zbiorów (niekoniecznie podzbiorów przestrzeni RN ) nazywamy pierścieniem zbiorów, jeżeli dla dowolnych A, B ∈ A, A ∩ B, A ∪ B, A \ B ∈ A. S Zauważmy, że jeśli rodzina A jest pierścieniem i {A1 , ..., An } ⊂ A, to ni=1 Ai ∈ A. W szczególności więc zachodzi: 3.2.6 WNIOSEK: Suma skończona zbiorów mierzalnych w sensie Jordana jest zbiorem mierzalnym. Co więcej, jeśli {Ai }ni=1 jest rodziną zbiorów mierzalnych, to ! n n X [ m(Ai ), m Ai ≤ i=1 i=1 a gdy rodzina ta jest parami rozłączna (tzn. Ai ∩ Aj = ∅ dla dowolnych i, j = 1, ..., n, i 6= j), to ! n n [ X m Ai = m(Ai ). i=1 i=1 Oba wzory można łatwo wykazać posługując się indukcją matematyczną względem n. PRZYKŁAD: (1) Dowolna kostka U jest mierzalna w sensie Jordana i m(U) = vol(U). Istotnie, brzeg ∂U jest (skończoną) sumą mnogościową wszystkich ścian domknięcia C kostki U, zaś każda z tych ścian jest zbiorem mierzalnym nieistotnym; zatem m(∂U) = 0. (2) Dowolny nieistotny zbiór zwarty (czyli domknięty i ograniczony) A jest mierzalny w sensie Jordana. W szczególności każdy zbiór skończony jest mierzalny. Istotnie, skoro zbiór A jest nieistotny, to ∂A ⊂ A jest też nieistotny; stąd A jest mierzalny i m(A) = 0. Niestety rodzina J ma też kilka niedobrych własności. 3.2.7 UWAGA: Przede wszystkim należy zwrócić uwagę, że jeśli zbiór jest nieistotny, to nie musi być zbiorem mierzalnym (nawet jeśli jest ograniczony). Zgodnie z lematem 3.2.2, jego miara wewnętrzna m∗ (A) = 0, lecz może się zdarzyć, że m∗ (A) > 0. Dla przykładu rozważmy zbiór R1 A = Q ∩ [0, 1]. Jako zbiór przeliczalny, ma on miarę 0, lecz m∗ (A) = 0 χA (x) dx = 1. Zauważmy jeszcze, że brzegiem zbioru A jest cały odcinek [0, 1], który nie jest zbiorem nieistotnym. Jest to bardzo niepokojąca okoliczność. W konsekwencji nie jest zbyt dogodne mówić o zbiorach nieistotnych jako o zbiorach miary 0: mogłoby to bowiem oznaczać, że zbiory nieistotne „mają miarę równą 0”. Niestety również nie wszystkie zbiory otwarte i ograniczone są mierzalne. Dla przykładu: ustawmy liczby wymierne z przedziału (0, 1) w ciąg (qi )∞ i=1 oraz, dla dowolnego i ∈ N rozważmy 1 1 odcinek Ui := (qi − δi , qi + δi ) ⊂ (0, 1), gdzie 0 < δi < 2i+3 ; wtedy vol(Ui ) < 2i+2 . Zbiór S∞ A := i=1 Ui ⊂ (0, 1) jest otwarty i ∂A = [0, 1] \ A. Przypuśćmy, że zbiór A jest mierzalny. Wtedy ∂A – jako brzeg zbioru mierzalnego – byłby zbiorem nieistotnym. A zatem istniałoby P∞ 1 jego pokrycie odcinkami otwartymi {Vi }∞ i=1 vol(Vi ) < 4 . Jest jasne, że i=1 o łącznej długości ∞ ∞ suma rodzin {Ui }i=1 ∪ {Vi }i=1 pokrywa odcinek [0, 1]. Zwartość odcinka implikuje, że istnieją zbiory Ui1 , ..., Uin i Vi1 , ..., Vim , które w sumie pokrywają odcinek [0, 1]. Każdy ze zbiorów Ui , 92 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH Vi jest mierzalny, zatem również B := Ui1 ∪ ... ∪ Uin ∪ Vi1 ∪ ... ∪ Vim jest mierzalny i, na mocy subaddytywności miary m(B) ≤ n X m(Uik ) + k=1 m X (Vik ) = k=1 n X vol(Uik ) + k=1 m X ∞ vol(Vik ) < k=1 1 1 X 1 = . + 2+i 4 2 2 i=1 Zatem, z monotoniczności miary m(A) ≤ m(B) < 21 . Z drugiej strony mierzalność A i odcinka [0, 1] implikuje, że ∂A jest mierzalny. Stąd m(∂A) = 0. Zatem 1 = m([0, 1]) = m(A) + m(∂A) = m(A) < 12 , co jest oczywiście sprzeczne. W konsekwencji również nie każdy zwarty (domknięty i ograniczony) zbiór jest mierzalny (przykładem jest choćby brzeg ∂A zbioru skonstruowanego wyżej). W dalszym ciągu potrzebować będziemy następującej własności zbiorów mierzalnych. 3.2.8 LEMAT: Mierzalność i miara Jordana są niezmiennicze ze względu na translacje. To znaczy, jeśli A ⊂ RN jest zbiorem mierzalnym oraz z ∈ RN , to zbiór B := {a + z | a ∈ A} jest mierzalny i m(B) = m(A). DOWÓD: Rozważmy kostkę domkniętą C zawierającą A. Łatwo zobaczyć, że D := C + z jest kostką zawierającą B. Niech Q będzie dowolnym podziałem kostki D. Jest jasne, że P := Q − z jest podziałem kostki C. Ponadto, jeśli T ∈ Q, to S = T − z ∈ P, vol(S) = vol(T) oraz, jeśli T ∈ Q(3) (przypomnijmy: oznacza to, że T ⊂ B), to S = T − z ⊂ A, czyli S ∈ P(3) . W takim razie L(χB , Q) = X X vol(T) = T∈Q(3) vol(S) = L(χA , P). S∈P(3) Ponieważ pomiędzy podziałami kostek C i D ma miejsce wzajemnie jednoznaczna odpowiedniość, to m∗ (B) = sup L(χB , Q) = sup L(χA , P) = m∗ (A). Q∈P(D) Analogicznie pokazujemy, że P∈P(C) m∗ (B) = m∗ (A). Stąd m∗ (B) = m∗ (B) = m(A). Dowodzi to, że zbiór B jest mierzalny i m(B) = m(A). 3.2.A Całka na zbiorach mierzalnych w sensie Jordana Rozważmy teraz funkcję ograniczoną f : A → R określoną na zbiorze mierzalnym A ⊂ RN . Niech C będzie niezdegenerowaną kostką domkniętą zawierającą A. 3.2.9 DEFINICJA: Mówimy, że f jest całkowalna na A (i piszemy f ∈ R(A)), jeśli funkcja fA : C → R dana wzorem 0 gdy x ∈ 6 A fA (x) := f(x) gdy x ∈ A. jest całkowalna (na C). Jeśli f ∈ R(A), to Z Z f(x) dx := fA (x) dx. A C 3.2. MIARA JORDANA I OGÓLNA CAŁKA 93 Definicja ta jest poprawna, tzn. nie zależy od wyboru C (prosty dowód pozostawiamy Czytelnikowi). 3.2.10 UWAGA: Z podanej definicji i wzoru (3.2.2) wynika następująca (najbardziej elementarna) interpretacja geometryczna miary: jeśli zbiór A ⊂ RN jest mierzalny w sensie Jordana, to Z m(A) = dx, A tzn. miara zbioru A ⊂ RN mierzalnego w sensie Jordana jest równa całce Riemanna z funkcji f : A → R tożsamościowo równej 1. Podobnie jak wyżej mamy następujący warunek konieczny i dostateczny całkowalności. 3.2.11 TWIERDZENIE: Jeżeli zbiór A ⊂ RN jest mierzalny w sensie Jordana, to funkcja ograniczona f : A → R jest całkowalna w sensie Riemanna wtedy i tylko wtedy, gdy zbiór jej nieciągłości jest zbiorem nieistotnym. DOWÓD: Załóżmy, że f ∈ R(A). Oznacza to, że całkowalna na C, gdzie C jest kostką domkniętą zawierającą A, jest funkcja fA . W taki razie zbiór punktów nieciągłości funkcji fA jest zbiorem nieistotnym. Jeśli x ∈ A jest punktem nieciągłości f, to również fA nie jest ciągła w x. Aby to dostrzec, zauważmy, że istnieje ε > 0 takie, że dla dowolnego δ > 0 w zbiorze A znajdziemy punkt y, ky − xk < δ, dla którego |f(y) − f(x)| ≥ ε. Jest jasne, że fA (y) = f(y) i fA (x) = f(x); tak więc także fA (y) − fA (x)| ≥ ε.. Innymi słowy, zbiór punktów nieciągłości f zawiera się w zbiorze nieciągłości fA ; stąd musi to być zbiór nieistotny. Na odwrót, przypuśćmy, że zbiór punktów nieciągłości funkcji f jest nieistotny i rozważmy dowolny punkt x, w którym funkcja fA nie jest ciągła. Oczywiście x ∈ A (bo w przeciwnym razie fA ≡ 0 w otoczeniu x, czyli fA jest ciągła w x). Jeśli x 6∈ ∂A, to x ∈ int A i w pewnym jego otoczeniu fA = f. Zatem w x nieciągła jest funkcja f. Widzimy więc, że x ∈ ∂A lub x należy do zbioru punktów nieciągłości f. Zbiór ∂A – jako brzeg zbioru mierzalnego – jest nieistotny. Widać więc, że zbiór punktów nieciągłości funkcji fA zawarty jest w sumie dwóch zbiorów nieistotnych i dlatego sam musi być nieistotny. Funkcjom całkowalnym na zbiorze mierzalnym przysługują własności podobne do wymienionych w poprzednim podrozdziale. 3.2.12 TWIERDZENIE: Załóżmy, że A ⊂ RN jest zbiorem mierzalnym w sensie Jordana oraz f, g : A → R funkcjami ograniczonymi. (i) Jeżeli f, g ∈ R(A), to f ± g ∈ R(A) oraz Z Z Z (f ± g)(x) dx = f(x) dx ± g(x) dx. A A A (ii) Jeśli f ∈ R(A), λ ∈ R, to λf ∈ R(A) oraz Z Z λf(x) dx = λ f(x) dx. A A R R (iii) Jeśli f, g ∈ R(A) oraz f ≤ g, to A f(x) dx ≤ A g(x) dx. W szczególności: jeśli α ≤ R Rf(x) ≤ β dla dowolnego x ∈ A, to αm(A) ≤ A f(x) dx ≤ βm(A). Ponadto, gdy m(A) = 0, to A f(x) dx = 0. (iv) Załóżmy, że A = A1 ∪A2 , gdzie A1 , A2 są zbiorami mierzalnymi rozłącznymi. Wówczas f ∈ R(A) wtedy i tylko wtedy, gdy f 1 := f|A1 ∈ R(A1 ) oraz f 2 := f|A2 ∈ R(A2 ); ponadto Z Z Z 1 f= f (x) + f 2 (x) dx. A A1 A2 94 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH DOWÓD: Dowody trzech pierwszych części wynikają natychmiast z definicji całki i z odnośnych własności całki funkcji określonych na kostce (Czytelnik zechce te dowody przeprowadzić). Podamy dowód ostatniej własności. Niech mianowicie C będzie taką kostką, że A ⊂ C. Rozłączność zbiorów A1 , A2 implikuje, że fA = fA1 1 + fA2 2 . Przy założeniu, że f i ∈ R(Ai ), tzn. że fAi i ∈ R(C), i = 1, 2, widać – na mocy części (i) – że fA ∈ R(C). Na odwrót załóżmy, że f ∈ R(A). Niech x ∈ A1 będzie punktem nieciągłości funkcji f 1 . Łatwo zobaczyć, że musi to być również punkt nieciągłości funkcji f. A zatem zbiór punktów nieciągłości f 1 zawarty jest w zbiorze punktów nieciągłości f; stąd wynika, że jest to zbiór nieistotny (bo taki jest zbiór punktów nieciągłości f) i, z twierdzenia 3.2.11, f 1 jest całkowalna na A1 . Analogicznie dowodzimy, że f 2 ∈ R(A2 ). W takim razie Z Z Z Z Z 1 2 1 f(x) dx = fA (x) dx = (fA1 (x) + fA2 (x)) dx = f (x) dx + f 2 (x) dx. A C C A1 A2 3.2.13 TWIERDZENIE: Przypuśćmy, że φ : R → R jest funkcją ciągłą. Jeśli A ⊂ RN jest zbiorem mierzalnym, f : A → R funkcja całkowalna, to φ ◦ f jest funkcją całkowalną. DOWÓD: Jak zwykle rozważmy kostkę C ⊃ A. Całkowalność (poprawnie określonej) funkcji φ ◦ f jest równoważna całkowalności na kostce C funkcji g, która przyjmuje wartość g(x) = 0 dla x ∈ C \ A oraz g(x) = φ ◦ f(x) dla x ∈ A. Rozważmy funkcję h = φ ◦ fA . Ponieważ fA ∈ R(C), to także h ∈ R(C). Zauważmy, że dla x ∈ A, h(x) = φ ◦ f(x) = g(x), zaś dla x ∈ C \ A, h(x) = λ := φ(0). Mierzalność zbioru A implikuje, że funkcja k := λ(1 − χA ) jest całkowalna. Zatem g = h − k ∈ R(C). 3.2.14 WNIOSEK: Niech A ⊂ RN będzie zbiorem mierzalnym. Jeżeli f ∈ R(A), to |f| ∈ R(A) oraz Z Z f ≤ |f|. A A (ii) Jeśli f, g ∈ R(A), to fg, max{f, g}, min{f, g} ∈ R(A). Dowód tych faktów przebiega analogicznie jak w przypadku funkcji określonych na kostce. 3.3 3.3.A Metody obliczania całek Całka iterowana na kostce Omówimy teraz ważne twierdzenie, które umożliwia efektywne obliczanie całek. Niech X ⊂ Rn oraz Y ⊂ Rm będą niezdegenerowanymi domkniętymi kostkami (odpowiednio n i m-wymiarowymi) i niech C := X × Y . Wtedy C ⊂ RN , gdzie N = n + m, jest niezdegenerowaną kostką domkniętą. Dowolny punkt z ∈ C ma przedstawienie z = (x, y), gdzie x ∈ X oraz y ∈ Y . Jeśli f : C → R, to dla dowolnego, lecz ustalonego x ∈ X zdefiniowana jest funkcja fx : Y → R wzorem fx (y) := f(x, y), y ∈ Y ; podobnie, dla dowolnego, lecz ustalonego y ∈ Y zdefiniowana jest funkcja f y : X → R wzorem f y (x) := f(x, y), x ∈ X. Oczywiście funkcje fx , f y są ograniczone (odp. na Y i X), o ile ograniczona jest funkcja f. A więc, przy założeniu ograniczoności f, określone są funkcje Z Z X 3 x 7Ï u(x) := fx (y) dy oraz X 3 x 7Ï l(x) := fx (y) dy. Y Y 95 3.3. METODY OBLICZANIA CAŁEK Analogicznie zdefiniowane są funkcje Z Z y Y 3 y 7Ï u1 (y) := f (x) dx, Y 3 y 7Ï l1 (y) := f y (x) dx. X X 3.3.1 TWIERDZENIE (Fubiniego (8 )): Załóżmy, że f : C → R jest funkcją całkowalną. Wówczas powyżej zdefiniowane funkcje u, l są całkowalne na X oraz zachodzą wzory: Z Z Z Z Z Z u(x) dx = f(z) dz = fx (y) dy dx = f(x, y) dy dx, Z C X X C Z f(z) dz = Z X l(x) dx = X Y ! Z X Y fx (y) dy Z dx = Y ! Z f(x, y) dy X dx. Y Podobnie, całkowalne na Y są funkcje u1 i l1 i mają miejsce wzory: Z Z Z Z Z Z y f (x) dx dy = f(x, y) dx dy, u1 (y) dy = f(z) dz = C Y Y C Z Z f(z) dz = Y Z l1 (y) dy = X Z Y X Y ! f y (x) dx Z dy = X ! Z f(x, y) dx Y dy. X UWAGA: Zanim przystąpimy do dowodu zauważmy, że: (1) Twierdzenie nie orzeka o całkowalności na kostce X funkcji f y (gdzie y ∈ Y ), ani całkowalności na Y funkcji fx (gdzie x ∈ X). Wprawdzie wiadomo, że f jest funkcja całkowalną, a więc jej zbiór nieciągłości funkcji f jest zbiorem nieistotnym, lecz nietrudno sobie wyobrazić, że dla ustalonego x ∈ X, nieciągłości funkcji fx (lub f y przy ustalonym y ∈ Y ) położone w kostce Y (odp. w X) nie będą tworzyć zbioru nieistotnego w Rm (odp. w Rn ) – Czytelnik zechce przedstawić odpowiedni przykład. Stąd w powyższych wzorach mamy do czynienia z odpowiednio całkami górnymi i dolnymi, które są zawsze zdefiniowane, o ile f jest funkcja ograniczoną. (2) Jeżeli jednak f jest funkcją ciągłą (a w praktyce najczęściej mamy do czynienia właśnie z taką sytuacją), to również ciągłe (a wiec i całkowalne) są funkcje fx i f y (dla dowolnych x ∈ X oraz y ∈ Y ). Wtedy Z Z Z Z u(x) = fx (y) dy = fx (y) dy = fx (y) dy = l(x), u1 (y) = f y (x) dx = l1 (y) Y Y Y X i są to – jak za chwilę udowodnimy (patrz poniżej lemat 3.3.3) – funkcje ciągłe; zatem są one całkowalne i Z Z Z Z f(z) dz = u(x) dx = fx (y) dy dx, C X Z C X f(z) dz = Y Y Z Z Z u1 (y) dy = Y X y f (x) dx dy. Oczywiście powyższe wzory (których prawe strony nazywa się całkami iterowanymi) zachodzą również, gdy dla dowolnych x ∈ X (lub y ∈ Y ) całkowalne są funkcje fx (lub f y ). R 3.3.2 UWAGA: Wzory te należy rozumieć następująco: w celu obliczenia całki C f(z), gdzie f jest funkcją ciągłą, trzeba: 8 Fubini 96 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH (1) Ustalić zmienną x i obliczyć całkę l(x) = u(x) = funkcją zmiennej x. R Y f(x, y) dy. Otrzymany wynik jest (2) Otrzymaną funkcję całkowalną u = l należy scałkować na kostce X. 3.3.3 LEMAT: Jeśli funkcja f : C → R jest ciągła, to funkcja u : X → R jest również ciągła. Podobnie ciągła jest funkcja u1 : Y → R. DOWÓD: Niech ε > 0. Jednostajna ciągłość f na (zwartej) kostce C oznacza, że istnieje taka ε δ > 0, że |f(z) − f(z0 )| < vol(Y o ile z, z0 ∈ C i kz − z0 k < δ. ) Niech x, x 0 ∈ X i kx − x 0 k < δ. Wówczas dla dowolnego y ∈ Y , kz − z0 k < δ, gdzie z = (x, y) 0 i z = (x 0 , y). Zatem Z Z 0 0 f(x , y) dy ≤ |u(x) − u(x )| = f(x, y) dy − Y Y Z ε 0 |f(x, y) − f(x , y)| dy ≤ ≤ vol(Y ) = ε. vol(Y ) Y W takim razie funkcja u jest jednostajnie ciągła. Dowód dla u1 przebiega analogicznie. Nieobowiązkowy DOWÓD (twierdzenia 3.3.1): Przeprowadzimy dowód tylko dwóch pierwszych wzorów (pozostałe dowodzi się analogicznie). Dowolny podział P ∈ P(C) wyznacza podziały PX ∈ P(X), PY ∈ P(Y ) takie, że każda kostka S ∈ P jest iloczynem kartezjańskim S = SX × SY pewnych kostek SX ∈ PX , SY ∈ PY . Wobec tego X X L(f, P) = mS (f, P)vol(S) = mSX ×SY (f, P)vol(SX × SY ) = S∈P SX ∈PX , SY ∈PY X X = SX ∈PX mSX ×SY (f, P)vol(SY ) vol(SX ). SY ∈PY Jeśli x ∈ SX , to oczywiście mSX ×SY (f, P) ≤ mSY (fx , PY ). Stąd dla x ∈ SX , X mSX ×SY (f, P)vol(SY ) ≤ SY ∈PY X Z mSY (fx , PY )vol(SY ) = L(fx , PY ) ≤ SY ∈PY Y fx (y) dy = l(x). Z dowolności x ∈ SX otrzymujemy, że X mSX ×SY (f, P)vol(SY ) ≤ mSX (l, PX ) SY ∈PY oraz L(f, P) ≤ X mSX (l, PX )vol(SX ) = L(l, PX ). SX ∈PX Rozumując analogicznie otrzymamy, że U(u, PX ) ≤ U(f, P). W takim razie, biorąc pod uwagę, że l(x) ≤ u(x) dla x ∈ X, L(f, P) ≤ L(l, PX ) ≤ U(l, PX ) ≤ U(u, PX ) ≤ U(f, P), L(f, P) ≤ L(l, PX ) ≤ L(u, PX ) ≤ U(u, PX ) ≤ U(f, P). Skoro funkcja f jest całkowalna, to dla dowolnego ε > 0 istnieje taki podział P ∈ P(C), że U(f, P) − L(f, P) < ε. Stąd U(l, PX ) − L(l, PX ) < ε oraz U(u, PX ) − L(u, PX ) < ε. 97 3.3. METODY OBLICZANIA CAŁEK Dowodzi to, że u, l ∈ R(X). Dodatkowo liczby L(f, P) i U(f, P). Zatem Z Z < ε, f(z) dz − u(x) dx X C R C f(z) dz, R X u(x) dx i R X l(x) dx leżą pomiędzy Z Z < ε, f(z) dz − l(x) dx X C co – wobec dowolności ε – dowodzi prawdziwości wzorów z twierdzenia Fubiniego. Rozważymy teraz sytuację szczególną. Niech C = [a1 , b1 ] × ... × [aN , bN ] będzie domkniętą i niezdegenerowaną kostką. Dla dowolnego k = 1, ..., N, niech Ck := [a1 , b1 ] × ... × [ak−1 , bk−1 ] × [ak+1 , bk+1 ] × ... × [aN , bN ]. Oczywiście Ck jest niezdegenerowaną (N − 1)-wymiarową kostką domkniętą. Ewentualnie dokonując odpowiedniego przenumerowania można napisać, że C = [ak , bk ] × Ck i, podobnie jak wyżej – zamiast z ∈ C – napisać z = (x, y), gdzie x ∈ [ak , bk ] i y ∈ Ck . Przy założeniu, że f : C → R jest funkcją ciągłą, mamy wówczas, że ! Z Z Z Z Z bk C f(z) dz = bk ak Ck f(x, y) dy dx = f(x, y) dx Ck dy. ak Rozumując indukcyjnie otrzymujemy następujący wniosek. 3.3.4 WNIOSEK: Jeżeli funkcja f : C → R jest ciągła, to Z C bN Z f(z) dz = Z bN−1 Z ··· aN b1 a1 aN−1 ! f(x1 , ..., xN ) dx1 ! dx2 · · · ! dxN−1 dxN . R Uzyskany wzór jest bardzo cenny. Pozwala on obliczać całkę wielokrotną C f(z) dz poprzez tzw. iterację, tzn. N-krotne obliczanie zwykłych (jednokrotnych) całek Riemanna. PRZYKŁAD: Obliczymy całkę Z C (x 2 y − sin x cos y) dx dy, gdzie C = [0, π/2] × [0, π/2]. Zgodnie z powyższym wnioskiem Z Z π/2 Z (x y − sin x cos y) dx dy = C Z = 0 π/2 ! π/2 (x y − sin x cos y) dx 2 2 0 dy = 0 π/2 π/2 3 Z π/2 3 π π 2 π5 x3 y − cos x cos y dy = y − cos y dy = y − sin y = − 1. 3 24 48 192 0 0 0 ZADANIA: (1) Wykorzystując twierdzenie Fubiniego pokazać, że dla danej funkcji f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, jeśli pochodne cząstkowe II-go rzędu f|ij istnieją i są ciągłe, to są równe. 98 3.3.B 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH Twierdzenie Fubiniego i zasada Cavalieriego Wrócimy w tym miejscu do twierdzenia Fubiniego dla funkcji określonych na zbiorze A ⊂ RN = Rn × Rm mierzalnym w sensie Jordana. Sam zapis sugeruje, że ponownie zmiennej z ∈ A nadamy postać z = (x, y), gdzie x ∈ Rn i y ∈ Rm . Rozważmy kostkę domkniętą C ⊃ A. Rozkład RN = Rn × Rm wyznacza kostki domknięte X ⊂ Rn i Y ⊂ Rm takie, że C = X × Y . Załóżmy, że funkcja f : AR→ R jest całkowalna w sensie Riemanna. Wtedy całkowalna na R C jest funkcja fA : C → R i A f(z) dz = C fA (z) dz. Zgodnie z twierdzeniem Fubiniego 3.3.1 całkowalne na X są funkcje Z Z X 3 x 7Ï fA (x, y) dy, X 3 x 7Ï fA (x, y) dy Y oraz A Z Z Z f(z) dz = C Y fA (z) dz = X ! Z Y fA (x, y) dy Z Z dx = X Y fA (x, y) dy dx. (∗) R Jeśli, dla dowolnego x ∈ X, całkowalna na Y jest funkcja fA (x, ·), to oczywiście Y fA (x, y) dy = R R R Y fA (x, y) dy = Y fA (x, y) dy i całkowalna funkcja X 3 x 7Ï Y fA (x, y) dy. Warto zastanowić się co oznacza wzór (∗). Zacznijmy od następującej obserwacji. Dla ustalonego x ∈ X niech Ax := {y ∈ Rm | (x, y) ∈ A}; innymi słowy, Ax jest rzutem na „oś” zmiennych y zbioru A ∩ [{x} × Rm ]. Oczywiście Ax ⊂ Y . Przypuśćmy przez chwilę, że Ax 6= ∅ i niech g := fx : Ax → R, tzn. g(y) := fx (y) = f(x, y), y ∈ Ax . Widzimy, że funkcja g jest poprawnie określona i ograniczona. Co więcej, jeśli – jak wyżej – określić gAx : Y → R wzorem 0, gdy y 6∈ Ax ; gAx (y) := g(y), gdy y ∈ Ax . Jeżeli Ax = ∅, to nie ma sensu określać funkcji g, lecz można przyjąć, że – w tej sytuacji – gAx (y) = 0 dla dowolnego y ∈ Y . Zauważmy dalej, że po takich określeniach, mamy gAx (y) = fA (x, y) dla dowolnego y ∈ Y . Zatem (dla ustalonego zawczasu x ∈ X), Z Z fA (x, y) dy = Y Z Y gAx (y) dy, Z Y fA (x, y) dy = Y gAx (y) dy. Załóżmy teraz, że zbiór Ax jest mierzalny (oczywiście to założenie jest interesujące dla tych x ∈ X, dla których Ax 6= ∅; w przeciwnym razie Ax , jako zbiór pusty, jest mierzalny), zaś g jest funkcją całkowalną na Ax (tzn., wedle definicji, całkowalna na Y jest funkcja gAx ). Wtedy Z Y Z gAx (y) dy = Y Z gAx (y) dy = Y Z gAx (y) dy = g(y) dy. Ax 99 3.3. METODY OBLICZANIA CAŁEK Zatem wzór (∗) przyjmuje postać Z Z Z Z Z g(y) dy dx = f(z) dz = A X X Ax f(x, y) dy dx, Ax (∗∗) o ile dla dowolnego x ∈ X zbiór Ax jest mierzalny, a funkcja f(x, ·) całkowalna na tym zbiorze. Pójdźmy nieco dalej. Załóżmy ponownie, że dla dowolnego x ∈ X zbiór Ax jest mierzalny i funkcja f(x, ·) jest całkowalna na Ax . Niech A1 := {x ∈ Rn | Ax 6= ∅}. Innymi słowy, A1 jest rzutem zbioru A na „oś” zmiennych x. Zdefiniujmy funkcje u : A1 → R wzorem Z u(x) := f(x, y) dy, x ∈ A1 . Ax Funkcja ta jest poprawnie określona. Zdefiniujmy też funkcję uA1 : X → R zadaną – jak zwykle – wzorem 0, gdy x 6∈ A1 ; uA1 (x) := u(x), gdy y ∈ A1 . Zauważmy, że jeśli x 6∈ A1 , to Ax = ∅. W takim razie Z uA1 (x) = f(x, y) dy, x ∈ X, Ax R bo Ax f(x, y) dy = 0, gdy x 6∈ A1 (wtedy bowiem mamy całkę na zbiorze pustym, która równa jest 0). R Załóżmy, że zbiór A1 jest mierzalny (jako podzbiór Rn ). Całkowalność funkcji X 3 Ax f(x, y) dy implikuje, że całkowalna na A1 jest funkcja u i Z Z Z Z Z Z f(x, y) dy dx = u(x) dx = f(x, y) dy dx = f(z) dz. (∗ ∗ ∗) A1 Ax A1 X Ax C Analogiczne rozumowanie prowadzi do następującego stwierdzenia. Załóżmy, że dla dowolnego y ∈ Y , zbiór Ay := {x ∈ Rn | (x, y) ∈ A} jest mierzalny (jako podzbiór Rn ) i całkowalna na Ay jest funkcja f(·, y). Wtedy Z Z Z f(x, y) dx dy. f(z) dz = C Jeśli zbiór Y Ay A2 := {y | Ay } jest mierzalny (jako podzbiór Rm ), to Z Z f(z) dz = C A2 Z f(x, y) dx dy. Ay Jest chyba oczywiste, że powyższe wzory (∗∗), (∗ ∗ ∗) nie zależą od wybory kostek C (oraz X i Y ). 100 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH Otrzymane wzory są treścią twierdzenia Fubiniego dla funkcji określonych na mierzalnych podzbiorach RN . Sformułujemy to twierdzenie w następującej (nieco uproszczonej postaci). 3.3.5 TWIERDZENIE: Załóżmy, że A ⊂ RN jest zbiorem mierzalnym w sensie Jordana, a f : A → R jest funkcją ciągłą. (1) Jeśli, dla dowolnego x ∈ Rn , zbiór Ax jest mierzalny, to Z Z Z f(x, y) dy dx, f(z) dz = X A Ax gdzie X jest dowolną kostką domkniętą zawierającą zbiór A1 . Jeżeli zbiór A1 jest mierzalny, to Z Z Z f(z) dz = f(x, y) dy dx. A A1 Ax y A jest mierzalny, (2) Jeśli, dla dowolnego y ∈ Y , zbiór Z Z Z f(z) dz = A Y to f(x, y) dx dy, Ay gdzie Y jest dowolną kostką domkniętą zawierającą A2 . Jeśli zbiór A2 jest mierzalny, to Z Z Z f(z) dz = f(x, y) dx dy. A A2 Ay Dowód jest natychmiastowy jeśli zauważymy, że ciągłość f implikuje, że dla dowolnego x ∈ Rn ciągła, a więc całkowalna na Ax , jest funkcja f(x, ·) (odp. dla każdego y całkowalna na Ay jest funkcja f(·, y)). R Zgodnie z tym twierdzeniem, poszukując całki A f(z) dz z funkcji ciągłej f określonej na zbiorze mierzalnym A ⊂ RN = Rn ×Rm można również przejść do całek iterowanych. Jedynym zmartwieniem jest mierzalność zbiorów Ax , x ∈ Rn (odp. zbiorów Ay , y ∈ Rm ); oczywiście, aby uczynić całkowanie bardziej „ekonomicznym” warto także sprawdzić mierzalność zbiorów A1 (odp. A2 ). Niestety teoria miary Jordana nie dostarcza dobrych narzędzi umożliwiających sformułowanie ogólnych stwierdzeń na ten temat. Na szczęście w wielu konkretnych sytuacjach problem ten nie jest trudny. ĆWICZENIE: (1) Niech f : [a, b] × [a, b] → R będzie funkcją ciągłą. Pokazać, że Z bZ y Z bZ b f(x, y) dx dy = f(x, y) dy dx. a a a x (2) Niech f : [a, b] × [a, b] → R będzie funkcją ciągłą o ciągłej pochodnej cząstkowej f|2 ; niech Z x F(x, y) := f(t, y) dt, (x, y) ∈ [a, b] × [a, b]. a Obliczyć pochodne cząstkowe f|1 i f|2 (druga z pochodnych jest trudniejsza). Nim przejdziemy do przykładów, warto jeszcze przedyskutować twierdzenie Fubiniego w bardzo szczególnej sytuacji. Mianowicie załóżmy, że A ⊂ RN = Rn × Rm jest zbiorem mierzalnym sensie Jordana. Pytanie brzmi: jak obliczyć jego miarę mN (A) ? Zgodnie z definicją Z mN (A) = C χA (z) dz, 3.3. METODY OBLICZANIA CAŁEK 101 gdzie C jest dowolną kostką domkniętą zawierającą zbiór A. Zgodnie zatem z przyjętymi definicjami, Z mN (A) = dx, A tzn. mN (A) jest całką na A funkcji stale równej 1 (która oczywiście jest ciągła). Jak wyżej napiszmy C = X × Y , gdzie X, Y są domkniętymi kostkami odpowiedni w przestrzeniach Rn i Rm . Ze wzoru (∗), mamy ! Z Z Z Z mN (a) = χA (x, y) dy dx = χA (x, y) dy dx. X X Y Y Rozumując jak poprzednio, bez trudy zobaczymy, że dla każdego x ∈ Rn , Z χA (x, y) dy = m∗ (Ax ) Y jest m-wymiarową miara wewnętrzną zbioru Ax , zaś Z χA (x, y) dy = m∗ (Ax ) Y jest m-wymiarową miarą zewnętrzną tego zbioru. Wobec tego, widzimy, że funkcje X 3 x 7Ï m∗ (Ax ), X 3 x 7Ï m∗ (Ax ) są funkcjami całkowalnymi na X i Z mN (A) = Z X m∗ (Ax ) dx = X m∗ (Ax ) dx. Rn Jeżeli dla każdego x ∈ zbiór Ax jest mierzalny, to m∗ (Ax ) = m∗ (Ax ) = m(Ax ) jest mwymiarową miarą Ax , funkcja X 3 x 7Ï m(Ax ) jest całkowalna na X i Z (3.3.3) mN (A) = m(Ax ) dx. X Jest jasne, że uzyskany wzór nie zależy od wyboru kostki C (a więc, w konsekwencji, od kostek X i Y ); poza tym – przy założeniu, że zbiór A1 jest mierzalny Z mN (A) = m(Ax ) dx. A1 Analogicznie otrzymujemy, że Z mN (A) = y Y m∗ (A ) dy = Z Y m∗ (Ay ) dy, gdzie, w tym miejscu, m∗ (Ay ) (odp. m∗ (Ay )) oznacza n-wymiarową miarę wewnętrzną (odp. zewnętrzną) zbioru Ay , y ∈ Rm . Tak więc, jeżeli dla dowolnego y ∈ Rm zbiór Ay jest mierzalny (jako podzbiór Rn ) i m(Ay ) oznacza jego n-wymiarową miarę Jordana, to Z Z y (3.3.4) mN (A) = m(A ) dy = m(Ay ) dy Y A2 (ostatnia równość zachodzi przy założeniu, że zbiór A2 jest mierzalny w sensie Jordana). Otrzymane zależności nazywa się zasadą Cavalieriego. ĆWICZENIE: Wykorzystując zasadę Cavalieriego wyprowadzić wzór na objętość bryły powstałej wskutek obrotu wokół osi Ox wykresu funkcji ciągłej f : [a, b] → R. Przejdziemy teraz do zastosowań twierdzenie Fubiniego i zasady Cavalieriego. 102 3.3.C 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH Zastosowania twierdzenia Fubiniego i zasady Cavalieriego ZBIORY CYLINDRYCZNE Nasze rozważania zaczniemy od tzw. zbiorów cylindrycznych. Otóż załóżmy, że dany jest mierzalny w sensie Jordana zbiór B ⊂ RN−1 oraz funkcje całkowalne f, g : B → R. Zbiorem cylindrycznym o podstawie B wyznaczonym przez funkcje f i g nazwiemy zbiór postaci A := {(x, y) ∈ B × R | min{f(x), g(x)} ≤ y ≤ max{f(x), g(x)}}. Mówiąc prościej zbiór A składa się z punktów leżących pomiędzy wykresami funkcji f i g. W szczególności, gdy g ≡ 0, to A jest zbiorem leżącym między wykresem funkcji f i osią Ox. UWAGA: Zbiory zwane przez nas zbiorami cylindrycznymi nazywane są także zbiorami w postaci normalnej. 3.3.6 TWIERDZENIE: Zbiór cylindryczny A (postaci takiej jak wyżej) jest mierzalny w sensie Jordana (jako podzbiór przestrzeni RN ) i jego miara wynosi Z |f(x) − g(x)| dx. B DOWÓD: Wystarczy udowodnić następującą uproszczoną wersję twierdzenia: jeśli f ∈ R(B), B ⊂ RN−1 jest mierzalny f ≥ 0, to zbiór {(x, y) ∈ B × R | 0 ≤ y ≤ f(x)} jest mierzalny i jego R miara jest równa B f(x) dx. Wówczas, jeśli g ∈ R(B) i 0R ≤ g ≤ f, to zbiór {(x, y) ∈ B × R | g(x) ≤ y ≤ f(x)} jest też mierzalny i jego miara wynosi B (f(x) − g(x))dx. Istotnie: widać, że {(x, y) | g(x) ≤ y ≤ f(x)} = {(x, y) | 0 ≤ y ≤ f(x)} \ {(x, y) | 0 ≤ y ≤ g(x)}. Mierzalność zbiorów po prawej stronie implikuje mierzalność zbioru po lewej Rstronie. Ponadto jego miara jest różnicą miar zbiorów po prawej stronie; jest więc równa B φ(x) dx − R R B ψ(x) dx = B (φ(x) − ψ(x))dx. Jeżeli f, g ∈ R(B) oraz g ≤ f, to zbiór {(x, y) ∈ B × R | ψ(x) ≤ y ≤ φ(x)} jest mierzalny R o mierze równej B (f(x) − g(x))dx. Istotnie: funkcje f, g są ograniczone z dołu. Istnieje więc stała m ≤ g(x) ≤ f(x) dla wszystkich x ∈ B. Wówczas funkcje f − m, g(x) − m ≥ 0 dla x ∈ B. Wobec tego zbiór A0 := {(x, Ry) | g(x) − m ≤ y ≤ f(x) − m} R jest mierzalny i jego miara wynosi B (f − m − g(x) + m)dx = B (f(x) − g(x))dx. Łatwo teraz dostrzec, że A = A0 + (0, m). Jak już pokazaliśmy w lemacie 3.2.8, mierzalność zbiorów i ich miara są niezmiennicze ze względu na translacje. To dowodzi, że zbiór A jest mierzalny. Rozważymy teraz sytuację ogólną i niech φ(x) = max{f(x), g(x)} i ψ(x) = min{f(x), g(x)} dla x ∈ B. Wówczas ψ ≤ φ. Zgodnie z powyższym nasz zbiór jest mierzalny i jego miara wynosi Z Z (φ(x) − ψ(x)) dx = |f(x) − g(x)| dx. B B Tak więc zajmiemy się sytuacją, w której f : B → R jest funkcją nieujemną, B ⊂ RN−1 jest zbiorem mierzalnym i A := {(x, y) ∈ RN | x ∈ B, 0 ≤ y ≤ f(x)}. Aby udowodnić, że A jest zbiorem mierzalnym pokażemy, że brzeg zbioru A jest zbiorem nieistotnym. W tym celu, zauważmy, że istnieje M > 0 takie, że A ⊂ B × [0, M], bowiem funkcja f jest ograniczona i 3.3. METODY OBLICZANIA CAŁEK 103 nieujemna. Niech (x0 , y0 ) ∈ ∂A. Wtedy x0 6∈ B1 := int B \ D, gdzie D ⊂ B jest zbiorem punktów nieciągłości funkcji f, lub y0 = 0 lub y0 = f(x0 ). Jeśli bowiem x0 ∈ int B \ D oraz 0 < y0 < f(x0 ), to – jak łatwo sprawdzić – (x0 , y0 ) ∈ int A. Jeśli y0 = 0, to (x0 , y0 ) ∈ A0 := {(x, y) | x ∈ B, y = 0} = B × {0}; jeśli y0 = f(x0 ), to (x0 , y0 ) należy do wykresu A1 := {(x, y) | x ∈ B, y = f(x)} funkcji f. Wreszcie jeśli x0 6∈ B1 , to x0 ∈ ∂B lub x0 ∈ D, tzn. (x0 , y0 ) ∈ A2 := {(x, y) | x ∈ ∂B} ⊂ ∂B × [0, M] lub (x0 , y0 ) ∈ A3 := {(x, y) | x ∈ D} ⊂ D × [0, m]. Pokazaliśmy już, że ∂A ⊂ A0 ∪ A1 ∪ A2 ∪ A3 . Ponieważ m(A0 ) = m(A2 ) = m(A3 ) = 0, to wystarczy udowodnić, że m(A1 ) = 0. Niech C będzie kostką w RN−1 taką, że B ⊂ C. Z definicji funkcja fB : C → R (dana wzorem fB (x) = f(x) dla x ∈ B oraz fB (x) = 0 dla x ∈ C \ B) jest całkowalna. Dla ε > 0, istnieje więc podział P ∈ P(C) taki,że U(fB , P) − L(fB , P) < ε. Rozważmy rodzinę {CS }S∈P gdzie CS = S × [mS (fB ), MS (fB )]. Oczywiście, dla dowolnego x ∈ C, istnieje taka kostka S ∈ P, że x ∈ S; zatem (x, fB (x)) ∈ CS . W takim razie wykres funkcji fB (a więc i jego podzbiór A1 ) pokryliśmy rodziną {CS }S∈P domkniętych kostek. Zauważmy, że X X vol(CS ) = [MS (fB ) − mS (fB )]vol(S) = U(fB , P) − L(fB , P) < ε. S∈P S∈P Dowodzi to, że m(A1 ) = 0 i kończy dowód mierzalności zbioru A. Zauważmy teraz, że rzut na RN−1 zbioru A jest równy B i jest to zbiór mierzalny; ponadto dla dowolnego x ∈ B, Ax = [0, f(x)]; zatem miara (1-wymiarowa) zbioru Ax wynosi m1 (Ax ) = f(x). Zatem, zgodnie z zasadą Cavalieriego, Z Z m(A) = m1 (Ax ) dx = f(x) dx. B B 3.3.7 UWAGA: Udowodnione twierdzenie potwierdza poprawność intuicji, która towarzyszyła nam od samego początku i nakazywała interpretować całkę funkcji f : [a, b] → R całkowalnej w sensie Riemanna jako pole powierzchni obszaru ograniczonego wykresem f, osią odciętych i prostymi x = a i x = b. Twierdzenie Fubiniego pozwala również na efektywne całkowanie funkcji na zbiorach cylindrycznych. 3.3.8 FAKT: Jeśli A = {(x, y) ∈ RN | x ∈ B, f(x) ≤ y ≤ g(x)}, gdzie B ⊂ RN−1 jest zbiorem mierzalnym w sensie Jordana, f, g : B → R są funkcjami całkowalnymi i f ≤ g, F : A → R jest funkcją ciągłą, to Z Z Z g(x) F(z) dz = F(x, y) dy dx. A B f(x) Dowód jest natychmiastowy: rzut A1 zbioru na przestrzeń Rn−1 jest równy podstawie B; dla dowolnego x ∈ B, Ax = [f(x), g(x)]. 3.3.D Twierdzenie o zamianie zmiennych Obecnie sformułujemy twierdzenie o zamianie zmiennych w całce Riemanna. Przypomnijmy brzmienie tego twierdzenia w przypadku funkcji jednej zmiennej: Załóżmy, że funkcja f : I → R (gdzie I jest przedziałem) jest ciągła, funkcja u : [a, b] → I różniczkowalna oraz u0 jest 104 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH całkowalna. Wówczas funkcja (f ◦ u)u0 jest całkowalna na [a, b] oraz b Z Z 0 a u(b) f. (f ◦ u)u = u(a) Jest jasne, że gdy dodatkowo u jest funkcją różnowartościową, to można napisać, ze b Z a (f ◦ u)u0 = Z f. [u(a),u(b)] Ma miejsce następujące uogólnienie na przypadek funkcji wielu zmiennych. Przyjmiemy bez dowodu 3.3.9 TWIERDZENIE: Niech A ⊂ RN będzie zbiorem mierzalnym w sensie Jordana oraz niech g : U → RN , gdzie A ⊂ U ⊂ RN jest zbiorem otwartym, będzie różnowartościowym odwzorowaniem regularnym (tzn. klasy C 1 i det g 0 (x) 6= 0 dla każdego x ∈ A), czyli g jest dyfeomorfizmem. Wówczas g(A) jest zbiorem mierzalnym. Jeśli B ⊂ g(U) jest mierzalny, to zbiór g −1 (B) jest tez mierzalny. Jeśli funkcja f : g(A) → R jest całkowalna, to funkcja (f ◦g)| det g 0 | : A → R jest całkowalna na A i zachodzi wzór Z Z f = (f ◦ g)| det g 0 |. g(A) A Jeśli funkcja f : B → R jest całkowalna, to Z Z f= (f ◦ g)| det g 0 |. B g −1 (B) ZADANIE: Jeśli A ⊂ RN jest zbiorem nieistotnym, f : A → RN jest odwzorowaniem spełniającym warunek Lipschitza, to zbiór f(A) jest również nieistotny. Pokazać – na podstawie tego faktu, że w twierdzeniu 3.3.9 zbiór g(A) jest mierzalny w sensie Jordana. ZADANIE: Niech L ∈ L(RN , RN ) będzie nieosobliwym odwzorowaniem liniowym. Pokazać, że jeśli A ⊂ RN jest zbiorem mierzalnym w sensie Jordana, to L(A) jest również zbiorem mierzalnym i m(L(A)) = | det L|m(A). W twierdzeniu 3.3.9 można pozbyć się założenia, że det g 0 (x) 6= 0 dla x ∈ U. Wynika to z następującej wersji wspomnianego już twierdzenia Sarda; 3.3.10 TWIERDZENIE: Jeśli odwzorowanie g : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, jest klasy C 1 i zbiór punktów krytycznych K := {x ∈ U | det g 0 (x) = 0}, to zbiór g(A) wartości krytycznych odwzorowania g jest zbiorem nieistotnym. UWAGA: Dostrzec, że zbiór nieistotny ma puste wnętrze. Jeśli w twierdzeniu 3.3.9 odstąpić od wspomnianego założenia, to można postępować następująco: załóżmy, że A ⊂ RN jest mierzalny, zaś funkcja f : g(A) → R jest całkowalna. Wtedy, jeśli zbiór K punktów krytycznych jest mierzalny w sensie Jordana (ten zbiór jest zawsze domknięty), to Z Z Z Z Z Z 0 f= f+ f= f= (f ◦ g)| det g | = (f ◦ g)| det g 0 |. g(A) g(A\K) g(K) g(A\K) A\K A 3.3. METODY OBLICZANIA CAŁEK 105 WSPÓŁRZĘDNE BIEGUNOWE Określmy odwzorowanie g : U → R2 , gdzie U := (0, +∞) × (0, 2π), wzorem g(r, α) = (r cos α, r sin α), r > 0, 0 < α < 2π. Wtedy g jest dyfeomorfizmem zbioru U na zbiór V := R2 \ L, gdzie L := {(x, y) ∈ R2 | x ≥ 0, y = 0}; dla (r, α) ∈ U, det g 0 (r, α) = r > 0. Wobec tego, dla dowolnego zbioru B ⊂ V mierzalnego, zbiór g −1 (B) jest mierzalny. Jeśli f : B → R jest całkowalna, to zgodnie z twierdzeniem 3.3.9 mamy Z Z (f ◦ g)| det g 0 |dr dα. f dx dy = g −1 (B) B Jeśli A ⊂ R2 jest zbiorem mierzalnym, to zbiory B := A \ L, A ∩ L sa też mierzalne, A ∩ L jest nieistotny, czyli m(A ∩ L) = 0 i Z Z Z Z Z f dx dy = f dx dy + f dx dy = f= (f ◦ g)| det g 0 | dr dα. A B A∩L B g −1 (B) Rozważmy teraz przekształcenie P : R2 → [0, +∞) × [0, 2π] zadane wzorem: dla (x, y) ∈ R2 P(x, y) := (r(x, y), α(x, y)), p gdzie r(x, y) = x 2 + y 2 = k(x, y)k oraz gdy x > 0, y > 0 arctg xy y arctg + π gdy x < 0 x y 2π − arctg x gdy x > 0, y < 0 α(x, y) := 1 gdy x = 0, y > 0 2π 3 π gdy x ≥ 0, y = 0 2 0 gdy x = 0 = y. Zauważmy, że P|V = g −1 . Zatem Z Z f(x, y) dx dy = Z f(r cos α, r sin α)r dr dα = A Z P(A) P(B) P(A) (f ◦ g)| det g 0 | dr dα = f(r cos α, r sin α)r dr dα, gdyż zbiór P(A) \ P(B) jest nieistotny. Uzyskany wzór nazywa się wzorem na całkowanie poprzez zamianę zmiennych kartezjańskich na zmienne biegunowe, zaś przekształcenie P nazywa się współrzędnymi biegunowymi: jest to przyporządkowanie, które punktowi płaszczyzny o „starych” zmiennych kartezjańskich (x, y) z mierzalnego zbioru A ⊂ R2 przyporządkowuje „nowe” zmienne biegunowe lub kołowe r(x, y) i α(x, y). Analogicznie: wprowadzając przekształcenie G : [0, +∞) × [0, 2π] → R2 dane przez G(r, α) = (r cos α, r sin α), r ≥ 0, 0 ≤ α ≤ 2π, dla dowolnego mierzalnego A ⊂ R2 mamy Z Z f(x, y) dx dy = A G −1 (A) f(r cos α, r sin α)r dr dα. 106 R3 3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH WSPÓŁRZĘDNE SFERYCZNE Rozważmy przekształcenie G : [0, +∞)×[0, 2π]×[− 21 π, 12 π] → zadane wzorem 1 1 g(r, α, θ) := (r cos α cos θ, r sin α cos θ, r sin θ), r > 0, 0 < α < 2π, − π < θ < π. 2 2 Wówczas g := G|U , gdzie U = (0, +∞) × (0, 2π) × (− 12 π, 12 π) jest dyfeomorfizmem, gdyż dla dowolnego (r, α, θ) ∈ U, det g 0 (r, α, θ) = r 2 cos θ > 0. Ponadto g(U) = R3 \ {(x, y, z) ∈ R3 | x ≥ 0, y = 0} i dla każdego mierzalnego A ⊂ R3 i funkcji całkowalnej f : A → R Z Z f(x, y, z) dx dy dz = f(r cos α cos θ, r sin α cos θ, r sin θ)r 2 cos θ dr dα dθ. G −1 (A) A Przyporządkowanie punktowi przestrzeni R3 o współrzędnych kartezjańskich (x, y, z) punktu o współrzędnych (r, α, θ) ∈ [0, +∞)×[0, 2π]×[− 21 π, 12 π] takiego, że (x, y, z) = G(r, α, θ) nazywa się współrzędnymi sferycznymi. WSPÓŁRZĘDNE WALCOWE Podobnie jak poprzednio rozważamy G : [0, +∞) × [0, 2π] × R zadane wzorem G(r, α, z) = (r cos α, r sin α, z), r ≥ 0, 0 ≤ α < 2π, z ∈ R. Wówczas g := G|U , gdzie U := (0, +∞) × (0, 2π) × R, jest dyfeomorfizmem, gdyż dla (r, α, θ) ∈ U, det g 0 (r, α, θ) = r > 0. Zatem rozumując jak wyżej, dla mierzalnego A ⊂ R3 i funkcji całkowalnej f : A → R mamy Z Z f(x, y, z) dx dy dz = f(r cos α, r sin α, z)r dr dα dz. G −1 (A) A Przyporządkowanie, które punktowi przestrzeni R3 o współrzędnych kartezjańskich (x, y, z) przyporządkowuje współrzędne (r, α, z) ∈ [0, +∞) × [0, 2π) × R nazywa się współrzędnymi walcowymi. PRZYKŁAD: Znajdź objętość bryły W ograniczonej walcem x 2 + y 2 = 4 oraz płaszczyznami z = 0 i z = x + y + 10. Bryła ta jest zbiorem cylindrycznym o podstawie A := {(x, y) ∈ R2 | x 2 + y 2 ≤ 4} i funkcjami ψ(x, y) = 0, φ(x, y) = x + y + 10. Zbiór A jest mierzalny w sensie Jordana, bo jest ograniczony i jego brzeg jest zbiorem nieistotnym. Podobnie całkowalna jest funkcja φ, bo jest ciągła. Wobec tego poszukiwana objętość jest równa Z φ(x, y) dx dy. A We współrzędnych biegunowych G −1 (A) = [0, 2] × [0, 2π]. A więc, wykorzystując twierdzenie Fubiniego, Z Z φ(x, y) dx dy = φ(r cos α, r sin α)r dr dα = A G −1 (A) Z (r 2 cos α + r 2 sin α + 10) dr dα = [0,2]×[0,2π] # Z "Z 2 0 2π 0 (r 2 cos α + r 2 sin α + 10) dα dr = 40π. 107 3.3. METODY OBLICZANIA CAŁEK p R PRZYKŁAD: Obliczyć całkę A (x 2 + y 2 ) dx dy dz, gdzie A := {(x, y, z) ∈ R3 | x 2 + y 2 ≤ z ≤ 1}. Zbiór A jest zbiorem cylindrycznym A = {(x, y, z) ∈ R3 | (x, y) ∈ B, φ(x, y) ≤ z ≤ 1}, p gdzie B := {(x, y) ∈ R2 | x 2 + y 2 ≤ 1} i φ(x, y) = x 2 + y 2 . Wobec tego # Z Z "Z 1 Z p 2 2 2 2 (x + y ) dx dy dz = (x + y ) dz dx dy = (x 2 + y 2 )(1 − x 2 + y 2 ) dx dy. A B φ(x,y) B We współrzędnych biegunowych G −1 (B) = {(r, α) | 0 ≤ r ≤ 1, 0 ≤ α ≤ 2π}. Zatem # Z Z "Z A 1 (x 2 + y 2 ) dx dy dz = 0 Z 1 0 r 3 (1 − r) dα dr = 0 r4 r5 (r − r ) dr = 2π − 4 5 3 2π 2π 1 4 = 0 π . 10 ĆWICZENIE: Rozwiązać to samo zadanie stosując współrzędne walcowe. WSPÓŁRZĘDNE ELIPTYCZNE Niekiedy wygodnie jest rozważać, w miejsce współrzędnych biegunowych, tzw. współrzędne eliptyczne (r, α) ∈ [0, +∞)×[0, 2π]. Wówczas punktowi (x, y) ∈ R2 odpowiada punkt (r, α) taki, że x = ar cos α, y = br sin α, gdzie a, b > 0 są ustalonymi parametrami. x2 a2 PRZYKŁAD: Znaleźć pole powierzchni figury A ograniczonej elipsą A := {(x, y) ∈ R2 | 2 + by 2 = 1}, a, b > 0. Poszukiwane pole wyraża się wzorem Z Z dx dy = rab dr dα, A B gdzie B = {(r, α) | 0 ≤ r ≤ 1, 0 ≤ α ≤ 2π}, G(r, α) = (ar cos α, br sin α); dla (r, α ∈ (0, +∞) × (0, 2π), det G 0 (r, α) = abr > 0. Zatem # Z Z "Z A 1 dx dy = ab 0 2π 0 r dα dr = πab. Rozdział 4 Całkowanie form różniczkowych 4.1 Pola wektorowe Odwzorowania postaci F : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, nazywa się czasem N-wymiarowymi polami wektorowymi. Zwykle wyobraża się, że każdemu punktowi x ∈ U przyporządkowany jest wektor F(x) zaczepiony w punkcie x. Oczywiście terminologia dotycząca pól wektorowych pozostaje bez zmian. Pole F jest ciągłe, różniczkowalne itp. wtedy i tylko wtedy, gdy funkcje skalarne (rzeczywiste) Fi , i = 1, ..., N, będące funkcjami współrzędnymi F sa ciągłe, różniczkowalne itp. Z polami wektorowymi mamy często do czynienia w zastosowaniach: pole grawitacyjne jest funkcją, która punktowi x ∈ R3 przyporządkowuje wektor siły z jaką na masą jednostkową umieszczoną w punkcie x oddziaływuje przyciąganie jakiegoś ustalonego obiektu (np. słońca, ziemi itd); jeśli f : U → R jest funkcją różniczkowalną, to gradient ∇f(x) w punkcie x ∈ U jest wektorem zaczepionym w punkcie x, który wyznacza kierunek i wielkość największego wzrostu funkcji f w punkcie x. 4.1.1 PRZYKŁAD: Rozważmy ciało o masie m umieszczone w punkcie x0 ∈ R3 . Wówczas siła grawitacji (przyciągania) wytworzona przez to ciało działająca na masę jednostkową w punkcie x ∈ U := R3 \ {x0 } dana jest jako F(x) = − km (x − x0 ), kx − x0 k3 gdzie k jest pewną stałą (stałą grawitacji); jest to wektor zaczepiony w punkcie x skierowany km ku punktowi x0 , o długości kF(x)k = kx−x . 0k Często pola wektorowe interpretuje się właśnie jako pola siłowe: mając pole wektorowe F : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, uznajemy, że w każdym punkcie x ∈ U działa siła F(x). Tak więc: jeśli w tym punkcie x0 ∈ U znajdzie się punkt materialny o masie m, to – zgodnie z zasadą Newtona – punkt ten zacznie się poruszać w czasie od t = t0 do t = t1 po pewnej trajektorii, tzn. krzywej [t0 , t1 ] 3 t 7Ï x(t) ∈ U oraz mẍ(t) = F(x(t)) (1 ). Można również interpretować pola wektorowe jako pole prędkości: otóż jeżeli zadane jest pole wektorowe F : U → RN , U jest jak wyżej, to uznajemy, że F(x) jest prędkością z jaką będzie poruszać się punkt materialny, który znalazł się w punkcie x ∈ U (wartość prędkości Symbol ẍ(t) oznacza drugą pochodną funkcji x w punkcie t ∈ [t0 , t1 ] – jest to notacja pochodząca od Newtona i bardzo popularna wśród fizyków i w teorii równań różniczkowych. 1 4.1. POLA WEKTOROWE 109 jest stała i nie zależy od czasu). A zatem jeśli ten punkt materialny o czasie t0 znalazł się w punkcie x0 ∈ U, to będzie się poruszać z prędkością x 0 (t) = F(x(t)) w czasie t ∈ [t0 , t1 ). Krzywą [t0 , t1 ) 3 t 7Ï x(t) ∈ U i taką, że x(t0 ) = x0 , nazywa się krzywą całkową pola F przechodzącą przez punkt x0 . Jeśli pole F spełnia (przynajmniej lokalnie) warunek Lipschitza, to taką krzywą zawsze można jednoznacznie wyznaczyć (jest to przedmiot teorii równań różniczkowych). ĆWICZENIE: Pokazać, że nośnik tej krzywej zależy tylko od kierunków przyjmowanych przez pole F, nie zależy zaś od długości tego pola. 4.1.A Zachowawcze pola wektorowe Mówimy, że pole wektorowe F = (F1 , ..., FN ) : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, jest zachowawcze lub potencjalne lub także gradientowe, jeżeli istnieje funkcja różniczkowalna f : U → R taka, że F(x) = ∇f(x), a więc Fi (x) = f|i (x) dla każdego x ∈ U. Funkcja skalarna f nazywana jest potencjałem pola F. km 3 4.1.2 PRZYKŁAD: Pole grawitacyjne F(x) = − kx−x 3 (x − x0 ) dla x ∈ R \ {x0 } jest polem 0k zachowawczym o potencjale f(x) = km , x ∈ R3 , x 6= x0 . kx − x0 k Poniższy fakt dostarcza natychmiastowego warunku koniecznego zachowawczości pola F. 4.1.3 TWIERDZENIE: Jeśli pole F = (F1 , ..., FN ) : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, jest różniczkowalne i zachowawcze, to dla dowolnych i, j = 1, ..., N, Fi|j (x) = Fj|i (x) dla dowolnego x ∈ U. Innymi słowy macierz Jacobiego JF (x) jest symetryczna. DOWÓD: Niech f : U → R będzie potencjałem pola F. Dla każdego i = 1, ..., N, pochodna cząstkowa f|i (x) = Fi (x) jest funkcją różniczkowalną; zatem funkcja f jest dwukrotnie różniczkowalna. W takim razie dla dowolnych i, j = 1, ..., N, mieszane pochodne cząstkowe II-go rzędu f|ij i f|ji są równe, tzn. dla x ∈ U, Fi|j (x) = f|ij (x) = f|ji (x) = Fj|i (x). 4.1.4 PRZYKŁAD: Sprawdzimy, że pole F(x, y) = (x, −y), (x, y) ∈ U := R2 , jest zachowawcze. Warunek konieczny jest spełniony, bo F1|2 = 0 = F2|1 . Przypuśćmy, że f : R2 → R jest potencjałem dla F. Wówczas jest to funkcja różniczkowalna i fx (x, y) = f|1 (x, y) = F1 (x, y) = x oraz fy (x, y) = −y. Wobec tego, przy ustalonym y, funkcja f(·, y) (tj. funkcja zmiennej x) jest funkcją pierwotną funkcji F1 . A zatem Z 1 f(x, y) = x dx = x 2 + C1 (y), 2 gdzie stała całkowania C1 (y) zależy do y. W takim razie 1 2 1 −y = fy (x, y) = x + C1 (y) = C10 (y) czyli C1 (y) = − y 2 + C2 . 2 2 y A zatem f(x, y) = x2 − y2 + C2 , 2 110 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH gdzie C2 jest dowolną stałą. Niestety podany warunek konieczny nie jest na ogół warunkiem dostatecznym. 4.1.5 PRZYKŁAD: Niech U = R2 \ {(0, 0)}, U1 := {(x, y) ∈ R2 | x ≤ 0} i niech x y , dla (x, y) ∈ U, F(x, y) := − 2 x + y2 x2 + y2 y , (x, y) ∈ U1 x (innymi słowy g(x, y) jest kątową współrzędną biegunową z przedziału (−π, π) punktu (x, y) ∈ U1 ). Dla dowolnego (x, y) ∈ U mamy g(x, y) = arctg F1|2 (x, y) = y2 − x2 = F2|1 (x, y). (x 2 + y 2 )2 A więc warunek konieczny zachowawczości jest spełniony. Podobnie sprawdzamy, że dla (x, y) ∈ U1 , ∇g(x, y) = F(x, y). Wobec tego, w obszarze U1 pole F jest zachowawcze i jej potencjałem jest funkcja g. Niestety pole F nie jest zachowawcze w obszarze U. Gdyby tak było, to istniałaby różniczkowalna funkcja f : U → R taka, że ∇f(x, y) = F(x, y) dla (x, y) ∈ U. Stąd dla (x, y) ∈ U1 ⊂ U, ∇f(x, y) = ∇g(x, y). W takim razie g − f ≡ const. na zbiorze U1 , tzn. istnieje stała C ∈ R taka, że g(x, y) = f(x, y) + C. Zauważmy teraz, że , gdy x < 0, to lim g(x, y) = π, y→0+ Z drugiej strony lim g(x, y) = −π. y→0− lim g(x, y) = lim± f(x, y) + C = f(x, 0) + C. y→0± y→0 Uzyskaliśmy więc sprzeczność. Powyższy przykład jest ważny: zbiór U ma tam bowiem „dziurę” (U = R2 \ {(0, 0)}). To właśnie ta dziura jest przyczyną braku zachowawczości. 4.2 4.2.A Całka krzywoliniowa Całka krzywoliniowa I-go rodzaju Przypuśćmy, że σ : [a, b] → RN jest krzywą ciągłą i prostowalną (2 ). Niech C := σ([a, b]) będzie nośnikiem krzywej σ i f : C → R funkcja ograniczoną. Podobnie jak w konstrukcji zwykłej całki Riemanna, z dowolnym podziałem P = {t0 , ..., tn } odcinka [a, b] można związać następującą górną i dolną sumę całkową: U(f, P, σ) := n X i=1 V (σ|[ti−1 ,ti ] ) sup f(σ(t)), L(f, P, σ) := t∈[ti−1 ,ti ] n X i=1 V (σ|[ti−1 ,ti ] ) inf t∈[ti−1 ,ti ] f(σ(t)). Krzywa σ jest prostowalna, gdy np. jest gładka (tzn. C ) i wówczas jej długość wyraża się wzorem V (σ) = 0 kσ (t)k dt. Krzywa σ jest również prostowalna, gdy jest kawałkami gładka, tzn. kawałkami klasy C 1 , a więc a istnieje podział P0 := {t0 , x1 , ..., tn } odcinka [a, b], przy którym, dla dowolnego i = 1, ..., n, obcięcie σ|[ti−1 ,ti ] jest klasy C 1 na odcinku [ti−1 , ti ]. 2 Rb 1 111 4.2. CAŁKA KRZYWOLINIOWA gdzie V (σ|[ti−1 ,ti ] ) oznacza długość krzywej σ|[ti−1 ,ti ] (ta „obcięta” krzywa jest również prostowalna). Zauważmy, że dla dowolnych podziałów P, Q ∈ P([a, b]), inf f(x)V (σ) ≤ L(f, P, σ) ≤ U(f, Q, σ) ≤ sup f(x)V (σ), x∈C x∈C a jeżeli Q jest zagęszczeniem P, to L(f, P, σ) ≤ L(f, Q, σ) ≤ U(f, Q, σ) ≤ U(f, P, σ). Wobec tego, postępując podobnie jak w definicji całki Riemanna, przyjmujemy, że funkcja f jest całkowalna (w sensie Riemanna) na krzywej σ, jeżeli inf{U(P, f, σ) | P ∈ P([a, b]), P ⊃ P0 } = sup{L(f, P, σ) | P ∈ P([a, b]), P ⊃ P0 }, gdzie P0 jest podziałem, o którym mowa w stopce redakcyjnej na poprzedniej stronie. Wspólną wartość nazywamy całką krzywoliniową funkcji f wzdłuż krzywej σ i oznaczamy symbolem Z f ds. σ 4.2.1 UWAGA: Całkę krzywoliniową I-go rodzaju można interpretować następująco. Przypuśćmy, że krzywa σ jest parametryzacji zbioru C wykonanego z pewnego niejednorodnegoRstopu. Dla x ∈ C, wielkość f(x) ∈ R oznacza gęstość masy w punkcie x. Wówczas całka σ f ds określa masę całkowitą zbioru C. Analogicznie jak w przypadku zwykłej całki Riemanna mamy następującą charakteryzację, której prosty dowód pozostawiam Czytelnikowi. 4.2.2 TWIERDZENIE: Funkcja ograniczona f : C → R, zdefiniowane na nośniku krzywej prostowalnej σ : [a, b] → RN jest całkowalna wtedy i tylko wtedy, gdy dla dowolnego ε > 0 istnieje podział P ∈ P([a, b]) taki, że U(f, P, σ) − L(f, P, σ) < ε. Ponadto łatwo uzyskać następujące własności całki: 4.2.3 TWIERDZENIE: Niech σ : [a, b] → RN będzie krzywą prostowalną o nośniku C. Przypuśćmy, że funkcje f, g : C → R są całkowalne i α ∈ R. Wówczas funkcje αf, f ± g są całkowalne i Z Z Z Z Z αf ds = α f ds, (f ± g) ds = f ds ± g ds. σ σ σ σ σ R R Jeśli f ≤ g, to σ f ds ≤ σ g ds. Jeżeli zaś krzywa σ jest połączeniem dwóch krzywych prostowalnych σ1 i σ2 , to funkcja f jest całkowalna na obu tych krzywych i ma miejsce wzór Z Z Z f ds = f ds + f ds. σ σ1 σ2 Przypomnijmy w tym miejscu, że dla krzywych σ1 : [a1 , b1 ] → RN i σ2 : [a2 , b2 ] → RN takich że σ1 (b1 ) = σ2 (a2 ) (tzn. koniec pierwszej z nich jest początkiem drugiej) (3 ), to ich połączeniem nazywamy krzywą σ : [a1 , b2 ] → RN daną wzorem σ1 (t) gdy t ∈ [a1 , b1 ], σ(t) := σ2 (t) gdy t ∈ [a2 , b2 ]. 3 Bez zmniejszenia ogólności można założyć, że b1 = a2 . 112 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH 4.2.4 TWIERDZENIE: Jeśli f : C → R jest funkcją ciągłą, σ jest gładka (klasy C 1 ), to f jest całkowalna na krzywej σ i Z b Z f(σ(t))kσ 0 (t)k dt. f ds = a σ DOWÓD: Zauważmy przede wszystkim, że funkcja [a, b] 3 t 7Ï F(t) := f(σ(t))kσ 0 (t)k jest całkowalna w sensie Riemanna, bo jest ciągła, zaś σ jest prostowalna. Ustalmy ε > 0; wykorzystując jednostajną ciągłość złożenia f ◦ σ, znajdziemy δ > 0 takie, że |f(σ(t 0 )) − f(σ(t 00 ))| < ε/V (σ), o ile t 0 , t 00 ∈ [a, b] oraz |t 0 − t 00 | < δ. Niech P0 = {t0 , ..., tn } będzie podziałem odcinka [a, b] o średnicy < δ. Wtedy, U(f, P0 , σ) − L(f, P0 , σ) = n X V (σ|[ti−1 ,ti ] )( sup f(σ(t)) − t∈[ti−1 ,ti ] i=1 < ε[V (σ)]−1 n X inf t∈[ti−1 ,ti ] f(σ(t))) V (σ|[ti−1 ,ti ] ) = ε. i=1 Oznacza to, że funkcja f jest całkowalna wzdłuż σ i, oczywiście, Z L(f, P, σ) ≤ f ds ≤ U(f, P, σ) oraz U(f, P, σ) − L(f, P, σ) < ε σ dla dowolnego podziału zagęszczającego podział P0 . Wybierzmy teraz podział P = {s0 , ...sm } ⊃ P0 o średnicy µ, gdzie µ > 0 jest taką liczbą, że jeśli s, ξ ∈ [a, b] i |s − ξ| < µ, to |f(σ(s)) − f(σ(ξ))| < ε[V (σ)]−1 , 2Mσ gdzie Mσ := supt∈[a,b] kσ 0 (t)k, oraz −1 0 kσ (s)k − kσ 0 (ξ)k < ε[V (σ)] , 2Mf gdzie Mf := supt∈[a,b] |f(σ(t))|. Dla dowolnego i = 1, ..., m, z twierdzenie o wartości średniej dla całki V (σ|[si−1 ,si ] ) = (si − si−1 )kσ 0 (ξi )k, gdzie ξi ∈ [si−1 , si ] oraz, jak łatwo sprawdzić, ! sup s∈[si−1 ,si ] F(s) − sup s∈[si−1 ,si ] Stąd f(σ(s))kσ 0 (ξi )k (si − si−1 ) < ε(si − si−1 ). |U(F, P) − U(f, P, σ)| < ε. Analogicznie rozumując otrzymamy, że |L(F, P) − L(f, P, σ)| < ε. Biorąc pod uwagę, że L(F, P) ≤ Rb a F ≤ U(F, P) widzimy, że Z Z b F < 2ε. f ds − σ a 113 4.2. CAŁKA KRZYWOLINIOWA Z dowolności ε wynika teza. 4.2.5 UWAGA: Jeśli krzywa σ jest kawałkami gładka (patrz str. 110), to wzór z powyższego twierdzenia jest również prawdziwy. Mianowicie dla dowolnego i = 1, ..., n, obcięcie σi := σ|[ti−1 ,ti ] : [ti−1 , ti ] → RN jest gładka i, wówczas, mamy Z σ f ds = n Z X i=1 σi f ds = n Z X i=1 ti ti−1 f(σ(t))kσ 0 (t)k dt. R Warto zastanowić się do jakiego stopnia całka krzywoliniowa zacji nośnika. σ f ds zależy od parametry- 4.2.6 TWIERDZENIE: Przypuśćmy, że dane są dwie krzywe σ : [a, b] → RN oraz τ : [c, d] → RN oraz ciągła i monotoniczna bijekcja u : [a, b] → [c, d] taka, że σ = τ ◦ u. Jeśli jedna z tych krzywych jest prostowalna, to druga też jest prostowalna, krzywe τ i σ mają te same nośniki. Jeśli funkcja f : C → R, gdzie C = σ([a, b]) = τ([c,Rd]) jest ograniczona i całkowalna na jednej R z tych krzywych, to jest całkowalna na drugiej i σ f ds = τ f ds. DOWÓD: Przede wszystkim zauważmy, że założenia odnośnie u implikują, że funkcja odwrotna v := u−1 : [c, d] → [a, b] jest ciągłą i monotoniczną bijekcją oraz τ = σ ◦ v. Można zatem założyć, że krzywa σ jest prostowalna i dowieść, że prostowalna jest krzywa τ, a następnie, założywszy całkowalność f na σ, pokazać całkowalność f na τ i równość całek. Równość nośników krzywych σ i τ jest oczywista, zaś prostowalność krzywej τ (przy założeniu prostowalności σ) została pokazana w uwadze 11.2.6 (3) książki ?? (tam też pokazano, że długości krzywych σ i τ są równe). Zakładam, że f jest całkowalna na σ. Ustalmy ε > 0. Zatem istnieje podział P = {t0 , ..., tn } odcinka [a, b] taki, że U(f, P, σ) − L(f, P, σ) < ε. Niech Q = u(P), tj. Q = {s0 , ..., sn }, gdzie si = u(ti ), i = 0, ..., n. Jeśli u jest funkcją rosnącą, to Q jest podziałem odcinka [c, d], zaś jeśli u jest funkcją malejącą, to podziałem jest Q = {sn , sn−1 , ..., s0 }. W obu przypadkach, dla dowolnego i = 1, ..., n, długość V (τ|[si−1 ,si ] ) = V (σ|[ti−1 ,ti ] ) (lub V (τ|[si ,si−1 ] ) = V (σ|[ti−1 ,ti ] ), o ile u jest malejąca). Ponadto sup f(σ(t)) = t∈[ti−1 ,ti ] inf t∈[ti−1 ,ti ] Tak więc f(σ(t)) = sup f(τ(s)) (lub inf f(τ(s)) (lub s∈[si−1 ,si ] s∈[si−1 ,si ] sup f(τ(s))), inf f(τ(s))). s∈[si ,si−1 ] s∈[si ,si−1 ] L(f, P, σ) = L(f, Q, τ), U(f, P, σ) = U(f, Q, τ), co dowodzi całkowalności f na krzywej τ i równość całek, bo Z Z L(f, Q, τ) ≤ f ds ≤ U(f, Q, τ) oraz L(f, P, σ) ≤ f ds ≤ U(f, P, σ). τ σ ĆWICZENIE: Pokazać na przykładzie, że można znaleźć dwie krzywe o wspólnym nośniku, dla których całki krzywoliniowe są różne. 4.2.B Całka krzywoliniowa II-go rodzaju Przypuśćmy, że σ = (σ1 , ..., σN ) : [a, b] → U ⊂ RN , gdzie U jest zbiorem otwartym, jest krzywą klasy C 1 i pole wektorowe F : U → RN jest ciągłe. Całką krzywoliniową II-rodzaju nazywamy 114 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH wyrażenie Z σ Z F := a b hF(σ(t)), σ 0 (t)i dt = N Z X i=1 a b Fi (σ(t))σi0 (t) dt. Całka po prawej stronie jest poprawnie określona, gdyż funkcja podcałkowa jest ciągła, czyli całkowalna. 4.2.7 UWAGA: (1) Aby właściwie zinterpretować całkę krzywoliniową pola F, odwołamy się do pojęcia pracy z fizyki. Przypomnijmy, że praca wykonana przez stałą siłę F = (F1 , F2 , F3 ) podczas przesunięcia ciała w przestrzeni R3 z punktu a do punktu b o odległość d = kb − ak w kierunku działania siły wynosi W = kFkd. Jeśli zaś ruch odbywa się wzdłuż od punktu a do punktu b wzdłuż odcinka [a; b] łączącego te punkty, lecz nierównoległego do kierunku działania siły F, to w celu obliczenia pracy siły F należy rozważyć iloczyn długości składowej siły F w kierunku wyznaczonym przez punkty a i b i odległości pomiędzy tymi punktami: a więc W = hF, b − ai. Na przykład praca wykonana przez siłę grawitacji podczas zsuwania się (bez tarcia) ciała √o masie 10 kg po równi pochyłej o nachyleniu 45◦ na odległość 5 m wynosi 5[m] ·10[kg] ·g[m/s2 ] / 2, gdzie g = 9, 81[m/s2 ] jest wielkością przyśpieszenia ziemskiego. R (2) Zamiast „gotowej” formuły definiującej całkę σ można przedstawić podejście ogólniejsze, które jednak przy podanych założeniach (ciągłość pola F i gładkość krzywej) prowadzi do wyżej przyjętej definicji. Mianowicie, dla podziału P = {t0 , t1 , ..., tn } odcinka [a, b] definiujemy „górną sumę całkową” postaci n X N X sup Fj (σ(t))(σj (ti ) − σj (ti−1 )), i=1 j=1 t∈[ti−1 ,ti ] oraz „dolną sumę całkową” postaci n X N X inf i=1 j=1 t∈[ti−1 ,ti ] Fj (σ(t))(σj (ti ) − σj (ti−1 )), R po czym – w celu zdefiniowania „całkowalności” i całki σ F postępuje się analogicznie jak powyżej lub w przypadku całki Riemanna. (3) Często, zamiast używanego wyżej stosuje się oznaczenie Z Z Z X N F = F1 (x) dx1 + F2 (x) dx2 + ... + FN (x) dxN = Fi (x) dxi . σ σ σ i=1 Pochodzenie tego oznaczenia wyjaśni się niebawem. W zastosowaniach mamy najczęściej do czynienia z przypadkiem N = 2 lub N = 3; wówczas najbardziej tradycyjne oznaczenia wyglądają następująco: F = (P, Q) (tzn. F1 = P oraz F2 = Q) oraz Z Z σ lub F = (P, Q, R) oraz Z σ F= σ P(x, y) dx + Q(x, y) dy, Z F= σ P(x, y, z) dx + Q(x, y, z) dy + R(x, y, z) dz. 4.2.8 TWIERDZENIE: Przypuśćmy, że dane są dwie krzywe klasy C 1 σ : [a, b] → U ⊂ RN oraz τ : [c, d] → RN oraz rosnąca bijekcja u : [a, b] → [c, d] klasy C 1 taka, że σ =Rτ ◦ u. Jeśli pole R N wektorowe F : U → R jest ciągłe,całkowalna na jednej z tych krzywych, to σ F = τ F. 115 4.2. CAŁKA KRZYWOLINIOWA DOWÓD: Oczywiście u(a) = c i u(b) = d. Niech G(s) := hf(τ(s), τ 0 (s)i dla s ∈ [c, d]. Wówczas G ◦u(t) = hF(σ(t), σ 0 (t)i. Z twierdzenia o zamianie zmiennych w całce Riemanna (funkcji jednej zmiennej) Z u(b) Z Z d G(s) ds = hf(τ(s)), τ 0 (s)i ds = F= = a b G(u(t))u0 (t) dt = u(a) c τ Z b Z a hF(σ(t)), σ 0 (t)i dt = Z F. σ 4.2.9 UWAGA: (1) Przypuśćmy, że σ : [a, b] → RN jest kawałkami klasy C 1 (patrz przypis na str. 110 oraz uwaga 4.2.5). Wówczas definiujemy Z n Z n Z ti X X F= F= hF(σ(t)), σ 0 (t)i dt, σ i=1 σi ti−1 i=1 gdzie σi = σ|[ti−1 ,ti ] jest już krzywą gładką. W dalszym ciągu zakładamy zazwyczaj, że rozważane krzywe są kawałkami gładkie. (2) W samym pojęciu krzywej σ : [a, b] → RN tkwi jej „orientacja”: określony jest jej początek σ(a) oraz koniec σ(b), a więc wraz ze wzrostem parametru t od a do b, punkt σ(t) wędruje od początku ku końcowi. Jeśli krzywe σ i τ spełniają założenia poprzedniego twierdzenia, krzywe te mają wspólny nośnik i mają tę samą orientację. (3) Powiemy, że krzywe σ : [a, b] → U ⊂ RN i τ : [c, d] → RN są zorientowane przeciwnie, tzn. dana jest malejąca bijekcja u : [a, b] → [c, d] klasy C 1 tak, że σ = τ ◦u. Czytelnik dostrzeże, że krzywe zorientowane przeciwnie mają taki sam nośnik, lecz początek krzywej σ jest końcem krzywej τ i na odwrót: początek τ jest końcem krzywej σ. Najprostszym przykładem krzywej zorientowanej przeciwnie do σ jest krzywa τ : [a, b] → RN zadana wzorem τ(t) = σ(b + a − t), t ∈ [a, b]; tutaj u : [a, b] → [a, b] i u(t) = b + a − t dla t ∈ [a, b]. tak zdefiniowaną krzywą oznacza się symbolem −σ. ĆWICZENIE: Pokazać, że jeśli krzywa τ jest zorientowana przeciwnie do krzywej σ, to dla ciągłego pola wektorowego F : U → RN Z Z F = − F. σ W szczególności τ Z −σ Z F =− F. σ W związku z tą własnością (patrz też twierdzenie 4.2.6) całkę I-go rodzaju nazywa się całką krzywoliniową niezorientowaną, zaś całkę II-go rodzaju – całką zorientowaną. Podstawowe własności całki zorientowanej są następujące (dowód dla Czytelnika). 4.2.10 TWIERDZENIE: Przypuśćmy, że krzywa σ : [a, b] → U ⊂ RN jest kawałkami gładka, zbiór U jest otwarty, a pola wektorowe F, G : U → RN są ciągłe. Wówczas, dla każdych α, β ∈ R, Z Z Z σ (αF ± βG) = α F ±β σ G. σ Jeśli krzywa σ jest połączeniem krzywych σ1 , σ2 , to wówczas są to krzywe kawałkami gładkie (4 ) oraz Z Z Z σ 4 F= σ1 F+ F. σ2 Oczywiście połączenie krzywych kawałkami gładkich jest krzywą kawałkami gładką. 116 4.2.C 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH Całka krzywoliniowa i zachowawczość pól wektorowych 4.2.11 TWIERDZENIE: (1) Jeśli σ : [a, b] → U, gdzie U ⊂ RN jest zbiorem otwartym, jest krzywą kawałkami gładką , zaś pole wektorowe ciągłe F : U → RN jest zachowawcze o potencjale f, to Z F = f(σ(b)) − f(σ(a)). σ Jeśli więc krzywa σ jest zamknięta (tzn. σ(a) = σ(b)), to Z F = 0. σ (2) Jeśli spełniona jest porzednia teza, tzn. ciągłe pole wektorowe F : U → RN ma tę R własność, że dla dowolnej zamkniętej krzywej σ : [a, b] → U całka σ F = 0, to F jest polem zachowawczym. 4.2.12 UWAGA: Założenie przyjęte w części (2) jest równoważne następującemu założeniu: dla dowolnych punktów x, y ∈ U jeśli krzywe kawałkami gładkie σ : [a, b] → U i τ R: [c, d] → R U mają początek w x, zaś koniec w y (tzn. σ(a) = τ(c) = x oraz σ(b) = τ(d) = y), to σ F = τ F: a więc całka z pola F zależy jedynie od początku i końca krzywej. Istotnie: przypuśćmy, że całka wzdłuż dowolnej krzywej zamkniętejRznika iRniech cR będzie połączeniem krzywych σ i −τ. Jest to krzywa zamknięta: zatem 0 = c F = σ F + −τ F = R R F. F − τ σ Na odwrót, przy założeniu, że całka zależy tylko od początku i końca widzimy, że całka po krzywej zamkniętej z pola F znika. Istotnie: niech σ : [a, b] → RN będzie dowolną krzywą zamkniętą. Wówczas jest ona połączeniem krzywych σ1 := σ|[a,c] : [a, c] → RN , σ2 := σ|[c,b] : [c, b] → RN , gdzie a < c < b. Oczywiście krzywe R wówczas R R σ1 i −σ2 mają wspólny początek i koniec. A więc, zgodnie z założeniem, σ1 F = −σ2 F = − σ2 F. Stąd Z Z Z F= F+ F = 0. σ σ1 σ2 DOWÓD TWIERDZENIE 4.2.11: (1) Załóżmy, że f : U → R jest potencjałem dla F; wówczas f jest funkcją klasy C 1 (bo ∇f = F jest odwzorowaniem ciągłym) i dla dowolnego t ∈ [a, b] (a dokładniej dla tych t, dla których istnieje pochodna σ 0 (t) – patrz też przypis na str. 110), (f ◦ σ)0 (t) = h∇f(σ(t)), σ 0 (t)i = hF(σ(t)), σ 0 (t)i. Innymi słowy funkcja [a, b] 3 t 7Ï hF(σ(t)), σ 0 (t)i ma pierwotną g := f ◦ σ. W takim razie Z Z b F= g 0 (t) dt = g(b) − g(a) = f(σ(b)) − f(σ(a)). σ a (2) Bez zmniejszenia ogólności można zakładać, że zbiór U jest obszarem (w przeciwnym razie osobno rozważa się każdą składową (łukowej) spójności). Będziemy konstruować potencjał f dla F (konstrukcja ta jest interesująca i ma dość „ogólny” charakter). Ustalmy dowolnie punkt x0 ∈ U. Dla x ∈ U wybierzmy krzywą σx , która łączy punkty x0 i x (x0 jest jej początkiem, zaś x – końcem); taka krzywa istnieje w świetle założonej powyżej łukowej spójności zbioru U. Następnie zdefiniujmy Z f(x) := F. σx 117 4.2. CAŁKA KRZYWOLINIOWA Ta definicja jest poprawna, tzn. nie zależy od wyboru krzywej σRx , gdyż (patrz powyższa uwaga), R jeśli τx jest inną krzywą, która łączy punkty x0 i x, to σx F = τx F. Zdefiniowaliśmy tym sposobem funkcje f : U → R. Pokażemy, że f jest funkcją klasy C 1 i ∇f(x) = F(x) dla każdego x ∈ U. W tym celu wystarczy pokazać, że f|i (x) = Fi (x) dla i = 1, ..., N i x ∈ U. Rzeczywiście, wtedy funkcja f będzie mieć ciągłe pochodne cząstkowe, co implikuje, że jest ona różniczkowalna i ∇f = F na U. Ustalmy i = 1, ..., N oraz x ∈ U; zauważmy, że Fi (y) = hF(y), ei i dla dowolnego y ∈ U. Gdy s > 0 jest dostatecznie małe, to Z f(x + sei ) − f(x) = F, [x;x+sei ] gdzie [x; x+sei ] jest odcinkiem łączącym x z x+sei (a więc s musi być na tyle małe, aby odcinek [x; x + sei ] ⊂ U), a z naszego punktu widzenia krzywą o parametryzacji τ(t) = x + tei , dla t ∈ [0, s]. Rzeczywiście: jako krzywą σx+sei (za pomocą której określona jest wartość f(x + sei )) można wziąć połączenie krzywych σx i odcinka [x; x + sei ]. W takim razie Z s Z s Z s 0 f(x + sei ) − f(x) = hF(τ(t)), τ (t)i dt = hF(x + tei ), ei i dt = Fi (x + tei ) dt. 0 0 0 Stąd Z f(x + sei ) − f(x) − sFi (x) 1 s f(x + sei ) − f(x) − Fi (x) = = (Fi (x + tei ) − Fi (x)) dt → 0, s s s 0 gdy s → 0, ponieważ Z s Z (Fi (x + tei ) − Fi (x)) dt ≤ 0 s |Fi (x + tei ) − Fi (x)| dt ≤ s sup |Fi (x + tei ) − Fi (x)| 0 t∈[0,s] oraz, wykorzystując ciągłości składowej Fi , supt∈[0,s] |Fi (x + tei ) − Fi (x)| → 0, gdy s → 0. Analogiczne rozumowanie przeprowadzimy (uczyni to Czytelnik) dla małego s < 0. Pokazaliśmy więc, że f(x + sei ) − f(x) = Fi (x). s→0 s f|i (x) = lim W powyższym twierdzeniu uzyskaliśmy więc warunek dostateczny zachowawczości ciągłych pół wektorowych. 4.2.13 UWAGA: Analizując dowód podanego twierdzenia łatwo dostrzec, że na to by ciągłe pole wektorowe F : U → RN było lokalnie zachowawcze (tzn. każdy punkt x0 ∈ U ma otoczenie V , w którym istnieje potencjał, a więc różniczkowalna funkcja f : V → R taka, że ∇f(x) = F(x) dla x ∈ V ) potrzeba i wystarcza, aby znikała całka krzywoliniowa tego pola wzdłuż zorientowanego brzegu dowolnego trójkąta zawartego w U, tzn. dla dowolnych punktów a, b, c ∈ U takich, że uwypuklenie conv{a, b, c} := {x = λ1 a + λ2 b + λ3 c | λ1 + λ2 + λ3 = 1, λ1 , λ2 , λ3 ≥ 0} ⊂ U, R F = 0, gdzie σ jest krzywą zamkniętą będąca połączeniem krzywych parametryzujących σ odcinki [a; b], [b; c] oraz [c; a]. Z kolei lokalna zachowawczość implikuje, że jeśli pole F jest różniczkowalne, to Fi|j (x) = Fj|i (x) dla dowolnego x ∈ U (ten sam dowód co wyżej, bo przecież pochodna jest ex definitione pojęciem lokalnym). 118 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH Ma także miejsce piękny (i dość trudny w dowodzie) lemat Goursata: 4.2.14 LEMAT (Goursat) Przypuśćmy, że pole F : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, jest różniczkowalne i macierz Jacobiego JF (x) jest symetryczna (tzn. Fi|j (x) = Fj|i (x) dla dowolnego x ∈ U (5 )). Wówczas dla dowolnych a, b, c ∈ U takich, że trójkąt conv{a, b, c} ⊂ U całka pola wzdłuż zorientowanego brzegu tego znika. 4.2.15 WNIOSEK: Przy założeniach lematu Goursata, jeśli zbiór U jest wypukły lub gwiaździsty, to pole F jest zachowawcze. DOWÓD: Ustalmy a ∈ U taki, że dla każdego x ∈ U odcinek [a; x] ⊂ U (gdy U jest zbiorem wypukłym, to a można wziąć dowolnie, zaś gdy U jest zbiorem gwiaździstym, to a może być jego środkiem) i dla dowolnego x ∈ U zdefiniujmy Z f(x) = F. [a,x] Funkcja f jest poprawnie określona; twierdzę, że jest ona potencjałem dla F. Dla dowodu ustalmy i = 1, ..., N, x ∈ U i zauważmy, że jeśli x ∈ U i jeśli tylko s ∈ R jest dostatecznie małe, to trójkąt conv{a, x, x + sei } ⊂ U, czyli po wykorzystaniu lematu Goursata Z F = 0, σ gdzie σ jest brzegiem tego trójkąta. Stąd Z f(x + sei ) − f(x) = F. [x,x+sei ] Dowód równości f|i (x) = Fi (x) przebiega jak w dowodzie twierdzenia 4.2.11 (2). Widzimy więc, że jeśli tylko zbiór jest wypukły (lub gwiaździsty), to dla różniczkowalnego pola następujące warunki są równoważne: • znikanie całki wzdłuż dowolnej (kawałkami gładkiej) krzywej zamkniętej; • zachowawczość pola; • symetryczność macierzy Jacobiego JF (x) w każdym punkcie x ∈ U. ĆWICZENIE: Podać dowód tego twierdzenia zakładając, że pole jest klasy C 1 , lecz bez wykorzystania lematu Goursata. Okazuje się, że to twierdzenie można uogólnić zakładając mniej o zbiorze U. Mówimy, że zbiór A ⊂ RN jest jednospójny, jeżeli jest łukowo spójny oraz dowolne dwie ciągłe krzywe σi : [a, b] → RN , i = 0, 1, zamknięte (tzn. σ0 (a) = σ1 (a) = σ0 (b) = σ1 (b)) są homotopijne, a więc istnieje ciągłe odwzorowanie σ : [a, b] × [0, 1] → U takie, że σ(t, i) = σi (t) dla t ∈ [a, b], σ(a, s) = σ(b, s) dla dowolnego s ∈ [0, 1]. Jednospójność oznacza, że mając dwie krzywe o wspólnych końcach i początkach, można jedną z nich zdeformować w sposób ciągły do drugiej. ĆWICZENIE: Udowodnij, że dowolny zbiór gwiaździsty, a więc w szczególności również zbiór wypukły, jest jednospójny. 4.2.16 TWIERDZENIE: Przypuśćmy, że zbiór U jest jednospójny, F : U → RN jest różniczkowalnym polem wektorowym. Wówczas pole F jest zachowawcze wtedy i tylko wtedy, gdy dla dowolnego x ∈ U, macierz Jacobiego JF (x) jest symetryczna, czyli Fi|j (x) = Fj|i (x). 5 A więc ma miejsce warunek konieczny zachowawczości. 4.3. ALGEBRA ZEWNĘTRZNA 119 DOWÓD: Oczywiście należy pokazać, że symetria macierz Jacobiego implikuje zachowawczość. W tym celu wystarczy pokazać, że całka pola F wzdłuż dowolnej krzywej kawałkami gładkiej zamkniętej znika. W tym celu wystarczy udowodnić następujący lemat: 4.2.17 LEMAT: Jeśli pętle (czyli krzywe zamknięte) σ0 i σ1 są kawałkami gładkie i homotopijne, to Z Z F= F. σ0 σ1 Przypuśćmy, że tak jest. Weźmy dowolną pętlę γ : [a, b] → RN ; z założenia jednospójności jest ona homotopijna z pętlą stałą τ (tzn. τ(t) = c ∈ U dla t ∈ [a, b]. Wtedy Z Z F = F = 0. γ τ Dowód lematu nie jest trudny; wiąże się jednak z pewnymi dodatkowymi rezultatami nie zawartymi w tym skrypcie. 4.2.D Całka zorientowana vs. całka podwójna - twierdzenie Greena Sformułujemy teraz twierdzenie, które mówi o związku całki krzywoliniowej z całką podwójną. Jednak najpierw musimy się do tego twierdzenia przygotować. Przypuśćmy, że γ : [a, b] → R2 jest krzywą kawałkami gładką, zamkniętą, bez samoprzecięć (tzn. funkcja γ|[a,b) jest różnowartościowa (6 )) o nośniku K; zatem γ(t) = (x(t), y(t)), t ∈ [a, b], gdzie x, y : [a, b] → R są funkcjami (kawałkami) klasy C 1 . Z bardzo niebanalnego twierdzenia Jordana-Schönfliesa wynika, że zbiór R2 \ K jest sumą dwóch obszarów (tzn. zbiorów otwartych łukowo spójnych) z których jeden, oznaczony symbolem D jest zbiorem ograniczonym, zaś drugi nie. Załóżmy teraz, że krzywa γ ma tę własność, że poruszając się wzdłuż nośnika wraz z rosnącym parametrem t ∈ [a, b] zbiór D znajduje się po lewej stronie. 4.2.18 TWIERDZENIE: Zbiór D jest mierzalny w sensie Jordana. Jeśli pole wektorowe F = (P, Q) określone na pewnym otoczeniu otwartym zbioru D jest klasy C 1 , to Z Z F = (qx − Py ) dxdy. γ D Dowód tego twierdzenia (w pełnej ogólności) wykracza poza ramy dotychczasowego materiału. Przeprowadzimy go w następnej części (poniżej). 4.3 Algebra zewnętrzna Jak poprzednio Lk (RN , R), gdzie k ≥ 1, oznacza przestrzeń liniową form k-liniowych nad RN , N czyli k-liniowych przekształceń T : R ... × RN} → R. | × {z k FORMY ALTERNUJĄCE Mówimy, że forma k-liniowa T ∈ Lk (RN , R) jest alternująca lub skośnie symetryczna, jeśli dla dowolnych wektorów v1 , ..., vk ∈ RN oraz permutacji σ ∈ Sk T(vσ(1) , ..., vσ(k) ) = sgn (σ)T(v1 , ..., vk ), 6 Takie krzywe nazywa się łukami Jordana, lub krzywymi zwykłymi (i zamkniętymi). 120 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH gdzie, jak zwykle, Sk oznacza grupę symetryczną zbiory k-elementowego, zaś sgn (σ) oznacza znak permutacji σ ∈ Sk . Zbiór wszystkich form k-liniowych alternujących oznaczamy symbolem A k (RN ). Oczywiście A 1 (RN ) = L1 (RN , R) = L(RN , R) jest zbiorem wszystkich funkcjonałów (form) liniowych. UWAGA: Dodatkowo przyjmuje się, że A 0 (RN ) = R. ĆWICZENIE: Pokazać, że: (1) forma k-liniowa T ∈ Lk (Rn , R) jest alternująca wtedy i tylko wtedy, gdy T(v1 , .., vk ) = 0 dla dowolnego układu v1 , ..., vk ∈ Rk , w którym vi = vj dla pewnych 1 ≤ i, j ≤ k, i 6= j; (2) zbiór A k (RN ) jest podprzestrzenią liniową przestrzeni Lk (RN , R). ALTERNACJA FORM k-LINIOWYCH Definiujemy operację Alt : Lk (RN , R) → A k (RN ), która formom k-liniowym przyporządkowuje k-liniowe formy alternujące w następujący sposób: Alt(T)(v1 , ..., vk ) := 1 X sgn (σ)T(vσ(1) , ..., vσ(k) ), T ∈ Lk (RN , R), v1 , ..., vk ∈ RN . k! σ∈Sk ĆWICZENIE: Sprawdzić, że jeśli T ∈ A k (RN ), to Alt(T) = T. Podobnie dla dowolnego T ∈ Alt(Alt(T)) = Alt(T). Lk (RN , R), MNOŻENIE ZEWNĘTRZNE Definiujemy działanie ∧ : A k (RN ) × A m (RN ) → A k+m (RN ) wzorem X 1 sgn (σ)T(vσ(1) , ..., vσ(k) )S(vσ(k+1) , ..., vσ(k+m) ), k!m! (T ∧ S)(v1 , ..., vk , vk+1 , ..., vk+m ) := σ∈Sk+m dla T ∈ A k , S ∈ A m (RN ) i v1 , ..., vk+m ∈ RN . ĆWICZENIE: Pokazać, że mają miejsce następujące własności: (1) ∧ jest działaniem dwuliniowym: dla T, T 0 ∈ A k (RN ) i S ∈ A m (RN ), (T +T 0 )∧S = T ∧S+T 0 ∧S, dla S 0 ∈ A m (RN ), T ∧ (S + S 0 ) = T ∧ S + T ∧ S 0 i dla λ ∈ R, T ∧ (λS) = (λT) ∧ S = λ(T ∧ S); (2) Dla T ∈ A k (RN ), S ∈ A m (RN ), T ∧ S = (−1)km S ∧ T; (3) Dla T ∈ A k (RN ), S ∈ A m (RN ) i U ∈ A n (RN ), (T ∧ S) ∧ U = T ∧ (S ∧ U) ∈ A k+m+n (RN ). (4) Jeśli pi ∈ L(RN , R) = A 1 (RN ), i = 1, ..., k, to dla dowolnych v1 , ..., vk ∈ RN , (p1 ∧ p2 ∧ ... ∧ pk )(v1 , ..., vk ) = det[pi (vj )]i,j=1,...,k . (5) Dla dowolnego p ∈ L(RN , R), p ∧ p = 0; ogólniej: jeśli formy liniowe pi , i = 1, ..., k są liniowo zależne, to p1 ∧ ... ∧ pk = 0. BAZA PRZESTRZENI A k (RN ) Niech (e1 , ..., eN ) będzie bazą kanoniczną w RN , zaś (π1 , ..., πN ) bazą dualną w L(RN , R), tzn. πi (ej ) = δij dla dowolnych 1 ≤ i, j ≤ N. Jeśli k > N i T ∈ A k (RN ), to T = 0. Istotnie: niech v1 , ..., vk ∈ RN . Wtedy vj = N X i=1 πi (vj )ei , i = 1, ..., k. 4.3. ALGEBRA ZEWNĘTRZNA Zatem N X T(v1 , ..., vk ) = 121 πj1 (v1 )...πjk (vk ) T(ej1 , ..., ejk ) = 0, j1 ,...,jk =1 bowiem w układzie ej1 , ..., ejk przynajmniej dwa wektory są równe. Jeśli k ≤ N, to X X T(v1 , ..., vk ) = sgn (σ)πjσ(1) (v1 )...πjσ(k) (vk ) T(ej1 , ..., ejk ) = 1≤j1 <j2 <...<jk ≤N σ∈Sk X det[πjs (vr )]s,r=1,...,k T(ej1 , ..., ejk ) = 1≤j1 <j2 <...<jk ≤N X αj1 ...jk (πj1 ∧ πj2 ∧ ... ∧ πjk )(v1 , ..., vk ), 1≤j1 <j2 <...<jk ≤N gdzie αj1 ...jk := T(ej1 , ..., ejk ). Tak więc X T= αj1 ...jk (πj1 ∧ πj2 ∧ ... ∧ πjk ). 1≤j1 <j2 <...<jk ≤N Dowodzi to, że k-formy {πj1 ∧ ... ∧ πjk }1≤j1 <...<jk ≤N rozpina przestrzeń A k (RN ). ĆWICZENIE: Wykazać, że powyższy zbiór jest liniowo niezależny. Stąd wynika, że układ {πj1 ∧ πj2 ∧ ... ∧ πjk }1≤j1 <j2 <...<jk ≤N tworzy bazę przestrzeni A k (RN ). W taki razie również dim A k (RN ) = Nk . KONKLUZJA: Dla każdego T ∈ A k (RN ) jednoznacznie istnieją liczby (aj1 ...jk )1≤j1 <...<jk ≤N takie, że T= X aj1 ...jk πj1 ∧ ... ∧ πjk 1≤j1 <...<jk ≤N oraz, dla dowolnych wektorów v1 , ..., vk , X T(v1 , ..., vk ) = aj1 ...jk det[πjs (vr )]s,r=1,...,k . 1≤j1 <...<jk ≤N Warto dostrzec czym jest wyznacznik det[πjs (vr )]s,r=1,...,k . Otóż jest to wyznacznik macierzy postaci vj1 1 vj1 2 ... vj1 k vj 1 vj 2 ... vj k 2 2 2 = [vjs r ]s,r=1,...,k , .. .. . . .. .. . . vjk 1 vjk 2 ... vjk k gdzie vr = (v1r , ..., vNr ) dla r = 1, ..., k, a więc z macierzy (prostokątnej) [v1 |v2 |...|vk ] należy stworzyć macierz kwadratową poprzez wybór wierszy o numerach j1 , ..., jk i odrzucenie pozostałych. ORIENTACJA PRZESTRZENI RN Dwie (uporządkowane) bazy (v1 , ..., vN ) i (w1 , ..., wN ) są relacji, gdy dla pewnej N-formy T ∈ A N (RN ), T 6= 0, znaki wyrażeń T(v1 , ..., vN ) i T(w1 , ..., wN ) są takie same. Wykażemy, że relacja ta nie zależy od wyboru formy T, zaś podana definicja orientacji jest równoważna ze starą definicją orientacji. 122 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH Niech [akj ]k,j=1,...,N będzie macierzą przejścia od bazy (v1 , ..., vN ) do bazy (w1 , ..., wN ), tzn. X akj wk . vj = k=1 Wówczas [v1 , ..., vN ] = [w1 , ..., wN ] wtedy i tylko wtedy, gdy det[akj ] > 0. Rzeczywiście: przypuśćmy, że det[akj ] > 0; niech (dowolna, niezerowa N-forma) T = α(π1 ∧ ... ∧ πN ) ∈ A N (RN ), gdzie α 6= 0. Wtedy N X T(v1 , ..., vN ) = α det[πi (vj )] = det[( akj πi (wk )] = k=1 α det[akj ] det[πi (wk )] = det[akj ]α(π1 ∧ ... ∧ πN )(w1 , ..., wN ) = det[akj ]T(w1 , ..., wN ). Tak więc znaki wartości T(v1 , ..., vN ) i T(w1 , ..., wN ) są tego samego znaku. Na odwrót: z powyższego wynika, że jeśli dla pewnej niezerowej N-formy T ∈ A N (RN ) wyrażenia T(v1 , ..., vN ) i T(w1 , ..., wN ) są tego samego znaku, to wyznacznik det[akj ] macierzy przejścia jest dodatni. Łatwo więc dostrzec, że podana relacja jest relacją równoważności. Tak więc rodzina wszystkich (uporządkowanych) baz przestrzeni RN została podzielona na dwie klasy abstrakcji. Każdą z klas nazywamy orientacją przestrzeni RN i orientację zawierającą bazę (v1 , ..., vN ) oznaczamy symbolem [v1 , ..., vN ]. Orientację [e1 , ..., eN ], wyznaczoną przez uporządkowaną bazę kanoniczną (e1 , ..., eN ) nazywa się orientacją kanoniczną. ILOCZYN WEKTOROWY Niech N ≥ 3. Definiujemy skośnie symetryczne odwzorowanie (N − 1)-liniowe T ∈ LN−1 (RN , RN ) w następujący sposób: dla v1 , ..., vN−1 ∈ RN odwzorowanie RN 3 w 7Ï φ(w) := det[v1 |v2 |...|vN−1 |w] (wektory v1 ,...,wN−1 i w zapisane jako kolumny) jest funkcjonałem liniowym. Istnieje wobec tego dokładnie jeden wektor a = T(v1 , ..., vN−1 ) ∈ RN taki, że φ(w) = hw, ai. Wektor a = T(v1 , ..., vN−1 ) nazywa się iloczynem wektorowym wektorów v1 , ..., vN−1 i oznacza symbolem v1 × v2 × ... × vN−1 . UWAGA: Bez trudu można podać jawną postać wektora w = v1 × v2 × ... × vN−1 . Mianowicie jeśli w = (w1 , ..., wN ), to wi = (−1)N+i Ai , gdzie Ai oznacza wyznacznik macierzy powstałej poprzez wykreślenie i-tego wiersza w macierzy [v1 |...|vN−1 ] ∈ MN×(N−1) . Uważny Czytelnik spostrzeże, że współrzędna wi , i = 1, ..., N, jest dopełnieniem algebraicznym wyrazu xi w macierzy v11 v12 ... v1(N−1) x1 v21 v22 ... v2(N−1) x2 [v1 |...|vN−1 |x] = . .. .. .. , .. .. . . . . vN1 vN2 ... vN(N−1) xN gdzie – oczywiście vi = (v1i , v2i , ..., vNi ) dla i = 1, ..., N − 1. 4.4. FORMY RÓŻNICZKOWE Przykładowo dla N = 3, vi = (v1i , v2i , v3i ), i = 1, 2, v11 v12 [v1 |v2 |x] = v21 v22 v31 v32 123 macierz ta ma postać x1 x2 ; x3 zatem: dopełnienie algebraiczne wyrazu x1 w tej macierzy wynosi v21 v32 − v31 v22 , dopełnienie algebraiczne wyrazu x2 wynosi v31 v12 − v11 v32 , zaś wyrazu x3 wynosi v11 v22 − v12 v21 . Tak więc v1 × v2 = (v21 v32 − v31 v22 , v31 v12 − v11 v32 , v11 v22 − v12 v21 ). ĆWICZENIE: Mają miejsce własności: (1) Iloczyn wektorowy jest, jako funkcja czynników, odwzorowaniem (N − 1)-liniowym i alternującym; (2) Norma kv1 ×...×vN−1 k jest objętością graniastosłupa rozpiętego przez wektory v1 , ..., vN−1 ; (3) iloczyn wektorowy v1 × ... × vN−1 jest prostopadły do podprzestrzeni span{v1 , ..., vN−1 } rozpiętej przez te wektory; (4) Jeśli wektory v1 , ..., vN−1 sa liniowo niezależne, to wraz z iloczynem wektorowym v1 × ... × vN−1 tworzą bazę w przestrzeni RN należącą do orientacji kanonicznej. UWAGA: Czasem wygodnie jest wprowadzić „iloczyn wektorowy” w przestrzeni R2 . Powtarzając powyższą konstrukcję naturalnie jest przyjąć: dla v = (v1 , v2 ) ∈ R2 , v× := a, gdzie ha, wi = det[v|w]. Tak więc a1 w1 + a2 w2 = v1 w2 − v2 w1 , czyli a1 = −v2 , a2 = v1 i v× = (−v2 , v1 ). 4.4 Formy różniczkowe 4.4.A Podstawowe definicje Niech U ⊂ RN będzie zbiorem otwartym i niech k ≥ 0. Dowolną funkcję ω : U → A(RN ) nazywa się formą różniczkową rzędu k lub k-formą różniczkową. Zbiór k-form oznaczamy Λk (U). UWAGA: Dla k = 0, A 0 (RN ) = R, więc 0-formą jest funkcja ω : U → R; tak więc Λ0 (U) jest zbiorem funkcji U → R. Niech k ≥ 1 i ω ∈ Λk (U). Dla dowolnego x ∈ U, ω(x) ∈ A k (RN ) a więc X ω(x) = aj1 ...jk (x)πj1 ∧ ... ∧ πjk . 1≤j1 <...<jk ≤N gdzie liczby aj1 ...jk (x) = ω(x)(ej1 , ..., ejk ) są wyznaczone jednoznacznie. Tym samym zadane są funkcje aj1 ...jk : U → R. Piszemy wówczas: X ω= aj1 ...jk πj1 ∧ ... ∧ πjk . 1≤j1 <...<jk ≤N Mówimy, ze k-forma różniczkowa ω jest ciągła (odp. różniczkowalna, klasy C r , gdzie r ≥ 1), jeżeli dla każdego układu 1 ≤ j1 < ... < jk ≤ N, funkcja aj1 ...jk : U → R jest ciągła (odp. różniczkowalna, klasy C r ). 124 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH KWESTIA NOTACJI: Przypomnijmy, że πj : RN → R, j = 1, ..., N, jest przekształceniem rzutowania. Jest to przekształcenie liniowe, a zatem dla dowolnego x ∈ RN pochodna πj0 (x) = πj . Ze względów tradycji odwzorowanie πj oznacza się dxj , j = 1, ..., N. Stąd ogólnie przyjęta notacja X ω= aj1 ...jk dxj1 ∧ ... ∧ dxjk . 1≤j1 <...<jk ≤N Zauważmy, że dla dowolnego x ∈ U oraz v1 , ..., vk ∈ RN , X ω(x)(v1 , ..., vk ) = aj1 ...jk (x)(dxj1 ∧ ... ∧ dxjk )(v1 , ..., vk ) = 1≤j1 <...<jk ≤N X X aj1 ...jk (x) det[πjs (vr )]s,r=1,...,k = 1≤j1 <...<jk ≤N aj1 ...jk (x) det[vjs r ]s,r=1,...,k . 1≤j1 <...<jk ≤N 4.4.1 UWAGA: Dwa przypadki zasługują na szczególną uwagę: k = 1 i k = N − 1. (1) Niech k = 1 i ω ∈ Λ1 (U). Wtedy N X ω= aj dxj , j=1 gdzie aj : U → R, j = 1, ..., N, są zadanymi funkcjami. Niech a = (a1 , ..., aN ) : U → RN będzie odwzorowaniem, którego funkcjami współrzędnymi są funkcje aj , j = 1, ..., N. Dla dowolnego x ∈ U oraz v = (v1 , ..., vN ) ∈ RN , ω(x)(v) = X aj (x) dxj (v) = j=1 N X aj (x)vj = ha(x), vi. j=1 (2) Niech teraz k = N − 1 i ω ∈ ΛN−1 (U). Wtedy N X cj ∧ ... ∧ dxN , (7 ) (−1)N+j aj dx1 ∧ ... ∧ dx ω= j=1 cj oznacza, że ten czynnik został opuszczony, zaś aj : U → R, j = 1, ..., N, są gdzie symbol dx zadanymi funkcjami. Dla x ∈ U oraz v1 , ..., vN−1 ∈ RN mamy ω(x)(v1 , ..., vN−1 ) = ha(x), v1 × .... × vN−1 i, gdzie a(x) = (a1 (x), .., aN (x)). 4.4.2 PRZYKŁAD Dla przykładu: jeśli N = 3 i zmienne – jak zwykle – oznaczamy przez x, y, z, to ω = a1 dy ∧ dz − a2 dx ∧ dz + a3 dx ∧ dy ∈ Λ2 (U). Dla dowolnego (x, y, z) ∈ U i v1 , v2 ∈ R3 mamy więc ω(x, y, z)(v1 , v2 ) = ha(x, y, z), v1 × v2 i, gdzie a(x, y, z) = (a1 (x, y, z), a2 (x, y, z), a3 (x, y, z)). 7 Powód pojawienia się tu „dziwnych” mnożników (−1)N+j wyjaśni się za chwilę. 125 4.4. FORMY RÓŻNICZKOWE MNOŻENIE ZEWNĘTRZNE FORM RÓŻNICZKOWYCH Działanie mnożenia zewnętrznego form k-liniowych alternujących przenosi się natychmiastowo na k-formy różniczkowe: jeśli ω ∈ Λk (U), η ∈ Λm (U), to (ω ∧ η)(x) := ω(x) ∧ η(x), x ∈ U. PRZYKŁAD: Jeśli ω, η ∈ Λ1 (U), to dla x ∈ U, oraz v1 , v2 ∈ RN , (ω ∧ η)(x)(v1 , v2 ) = ω(x)(v1 )η(x)(v2 ) − ω(x)(v2 )η(x)(v1 ). Oczywiście ω ∧ η ∈ Λk+m (U); regularność form przy mnożeniu zewnętrznym zachowuje się: jeśli ω i η są formami ciągłymi (odp. różniczkowalnymi, klasy C r ), to ω ∧ η jest formą ciągłą (odp. różniczkowalną, klasy C r ). 4.4.B Pochodna zewnętrzna Zacznijmy określenie dla różniczkowalnej 0-formy, tzn. dla różniczkowalnej funkcji f : U → R. Z definicji pochodną zewnętrzną f jest jej pochodna, tzn. odwzorowanie, które punktowi x ∈ U przyporządkowuje pochodną f 0 (x) ∈ L(RN , R) = L1 (RN ) = A 1 (RN ). Zauważmy, że dla v ∈ RN df(x)(v) = f 0 (x)(v) = N X f|i (x)vi , i=1 czyli df = N X f|i dxi . i=1 A więc operator d przeprowadza funkcje różniczkowalne, czyli różniczkowalne 0-formy w 1formy. Ogólnej mówiąc niech k-forma ω ∈ Λk (U) postaci X ω= aj1 ...jk dxj1 ∧ ... ∧ dxjk 1≤j1 <...<jk ≤N będzie różniczkowalna, tzn. dla dowolnego układu 1 ≤ j1 < ... < jk ≤ N funkcja aj1 ...jk : U → R jest różniczkowalna. Pochodną zewnętrzną nazwiemy (k + 1)-formę postaci dω = X X daj1 ...jk ∧ dxj1 ∧ ... ∧ dxjk = N X aj1 ...jk |i dxi ∧ dxj1 ∧ ... ∧ dxjk . 1≤j1 <...<jk ≤N i=1 1≤j1 <...<jk ≤N PRZYKŁAD: Jeśli ω ∈ Λ1 (U) i ω= N X aj dxj , j=1 gdzie aj : U → R są funkcjami różniczkowalnymi, to dω = X daj ∧ dxj = j=1 X 1≤i6=j≤N aj|i dxi ∧ dxj = N X N X aj|i dxi ∧ dxj = j=1 i=1 X 1≤i≤j≤N (aj|i − ai|j )dxi ∧ dxj . 126 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH Jeśli ω ∈ ΛN−1 (U) jest postaci ω= N X cj ∧ ... ∧ dxN , (−1)j−1 aj dx1 ∧ ... ∧ dx j=1 to dω = N X N X cj ∧ ... ∧ dxN = (−1)j−1 aj|i dxi ∧ dx1 ∧ ... ∧ dx j=1 i=1 N X cj ∧ ... ∧ dxN = (−1)j−1 aj|j dxj ∧ dx1 ∧ ... ∧ dx j=1 N X aj|j dx1 ∧ dx2 ∧ ... ∧ dxN = div a dx1 ∧ .. ∧ dxN , i=1 gdzie a = (a1 , ..., aN ) : U → RN , zaś div a := N X aj|j j=1 jest tzw. dywergencją odwzorowania a. 4.4.3 TWIERDZENIE: (1) Dla dowolnych k-form różniczkowalnych i λ ∈ R ω, η ∈ Λk (U), d(ω ± η) = dω ± dη, d(λω) = λdω; (2) Jeśli forma ω jest dwukrotnie różniczkowalna, to d(dω) = 0; (3) Jeśli formy ω ∈ Λk (U) i η ∈ λ m (U) są różniczkowalne, to forma ω ∧ η ∈ Λk+m (U) jest różniczkowalna i d(ω ∧ η) = dω ∧ η + (−1)k ω ∧ dη. DOWÓD: Dowód własności (1) jest natychmiastowy. W celu dowodu (3) zauważmy, że jeśli ω = dxj1 ∧ ... ∧ dxjk i η = dxi1 ∧ ... ∧ dxim , gdzie 1 ≤ j1 < ... < jk ≤ N oraz 1 ≤ i1 < ... < im ≤ N, to ten wzór jest oczywiście prawdziwy, bo dω = dη = d(ω ∧ η) = 0. Jeśli k = 0, tzn. ω : U → R jest funkcją różniczkowalną, zaś X η= ηi1 ...im dxi1 ∧ ... ∧ dxim , 1≤i1 <...<im ≤N to ω∧η = X ωηi1 ...im dxi1 ∧ .. ∧ dxim 1≤i1 <...<im ≤N oraz d(ω ∧ η) = X d(ω · ηi1 ...im ) ∧ dxi1 ∧ ... ∧ dxim = dω ∧ η + ω ∧ dη, 1≤i1 <...<im ≤N bo d(ω · ηi1 ...im ) = ω · dηi1 ...im + ηi1 ...im dω. W ogólnej sytuacji posługujemy się własnością (1) i podanymi faktami. Dla dowodu (2) przypuśćmy, że X ω= ωj1 ...jk dxj1 ∧ ... ∧ dxjk . 1≤j1 <...<jk ≤N 127 4.4. FORMY RÓŻNICZKOWE Wówczas N X X dω = ωj1 ...jk |i dxi ∧ dxj1 ∧ ... ∧ dxjk 1≤j1 <...<jk ≤N i=1 oraz N X X d(dω) = d(ωj1 ....jk |i dxi ∧ dxj1 ∧ ... ∧ dxjk ) = 1≤j1 <...<jk ≤N i=1 N X X aj1 ...jk |ij dxj ∧ dxi ∧ dxj1 ∧ ... ∧ dxjk . 1≤j1 <...<jk ≤N i,j=1 W tej sumie składniki postaci aj1 ...jk |ij dxj ∧ dxi ∧ dxj1 ∧ ... ∧ dxjk , aj1 ...jk |ji dxi ∧ dxj ∧ dxj1 ∧ ... ∧ dxjk znoszą się parami. 4.4.C Przeciwobraz formy różniczkowej Niech f : V → U, gdzie V ⊂ RM jest zbiorem otwartym, będzie odwzorowaniem różniczkowalnym. Definiujemy przeciwobraz formy ω ∈ Λk (U) poprzez f jako k-formę f # ω ∈ Λk (V ) w V zadaną wzorem f # ω(y)(w1 , ..., wk ) = ω(f(y))(f 0 (y)(w1 ), ...f 0 (y)(wk )), dla y ∈ V oraz w1 , ..., wk ∈ RM . Wobec tego jeżeli X ω= ωj1 ....jk dxj1 ∧ ... ∧ dxjk 1≤j1 <...,jk ≤N oraz kładąc η = f #ω mamy reprezentację X η= ηi1 ....ik dyi1 ∧ ... ∧ dyik , 1≤i1 <...<ik ≤M gdzie ηi1 ...in : V → R są funkcjami zadanymi wzorami ηi1 ....ik (y) = η(y)(eik , ..., eik ) = f # ω(y)(ei1 , ..., eik ), y ∈ V , gdzie – tym razem – (e1 , ..., em ) oznacza bazę kanoniczną w RM . Zatem ηi1 ...ik (y) = ω(f(y))(f|i1 (y), ..., f|ik (y)) = X ωj1 ...jk (f(y)) det[fjs |ir (y)]s,r=1,...,k . 1≤j1 <...<jk ≤N Tak więc ostatecznie f #ω = X X 1≤i1 <...<ik ≤M (ωj1 ...jk ◦ f) det[fjs |ir (y)]s,r=1,...,k dyi1 ∧ ... ∧ dyik . 1≤j1 <...<jk ≤N Czytelnik bez trudu udowodni następujące 4.4.4 TWIERDZENIE: Jeśli f : V → U, ω, ω1 , ωs ∈ λ k (U), η ∈ Λm (U) oraz g : U → R, to: P (1) f # (dxi ) = N j=1 fi|j dxj dla dowolnego i = 1, ..., N; 128 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH (2) (3) (4) (5) 4.5 f # (ω1 + ω2 ) = f # ω1 + f # ω2 ; f # (gω) = (g ◦ f)f # ω; f # (ω ∧ η) = f # ω ∧ f # η; f # (dω) = df # ω. Kostki singularne i łańcuchy Niech k ≥ 0, kostką singularną k-wymiarową lub k-kostką singularną w zbiorze U ⊂ RN nazwiemy dowolne ciągłe odwzorowanie σ : [0, 1]k → U, gdzie [0, 1]k := [0, 1] × ... × [0, 1] jest k-kostką standardową dla k ≥ 1 (tj. produktem kartezjańskim k egzemplarzy odcinka jednostkowego [0, 1]) oraz [0, 1]0 = {0}. Punkty z k- kostki standardowej oznaczać będziemy t = (t1 , ..., tk ), ti ∈ [0, 1] dla i = 1, ..., k. Oczywiście 0-kostką jest odwzorowanie σ : {0} → U, czyli po prostu punkt w U. UWAGA: Symbolem I k : [0, 1] → Rk oznaczamy odwzorowanie identycznościowe: I k (t) = t dla t ∈ [0, 1]k . Mówimy, że k-kostka singularna σ : [0, 1]k → U jest klasy C r , r ≥ 1, gdy odwzorowanie σ : K → U jest klasy C r (przypomnijmy: oznacza to, że znajdzie się zbiór otwarty G ⊃ [0, 1]k i odwzorowanie φ : G → RN klasy C r takie, że φ|[0,1]k = σ). Uważa się, że 0-kostki są dowolnej klasy gładkości. Nośnikiem k-kostki singularnej σ : [0, 1]k → U, k ≥ 1, nazywamy zbiór |σ| := σ([0, 1]k ) (gdy k = 0, to |σ| = σ(0)). Ik Mówimy, że k-kostki singularne σ1 , σ2 są równoważne, jeżeli istnieje dyfeomorfizm φ : → Rk taki, że φ([0, 1]k ) = [0, 1]k , det φ0 (t) > 0 dla wszystkich t ∈ [0, 1]k oraz σ2 ◦ φ = σ1 . FAKT: Relacja równoważności kostek jest relacją równoważności i kostki równoważne mają ten sam nośnik. Łańcuchem singularnym k-wymiarowym w zbiorze otwartym U ⊂ RN nazywamy skończoną formalną kombinację liniową postaci c = a1 σ1 + ... + an σn = n X as σs , s=1 gdzie as ∈ Z, zaś σs jest k-kostką singularną dla s = 1, ..., n. Jest to więc pewne formalne wyrażenie. Na przykład 0 łańcuchem jest formalna kombinacja liniowa (o współczynnikach całkowitych) punktów w U. k-łańcuchem zerowym nazywamy k-łańcuch singularny, którego wszystkie współczynniki są równe 0. P S Nośnikiem łańcucha c = ns=1 as σs jest zbiór ns=1 |σs | = |σ1 | ∪ .. ∪ |σn |. BRZEG KOSTKI I ŁAŃCUCHA Niech σ : I k → U będzie k-kostką singularną, k ≥ 1. Dla i = 1, ..., k zdefiniujemy (k − 1)-kostki singularne Pi σ, Ti σ : I k−1 → U w następujący sposób: 4.6. CAŁKA FORM RÓŻNICZKOWYCH 129 (a) gdy k = 1, to P1 σ = σ(0), T1 σ = σ(1) (P1 σ i T1 σ są 0-kostkami, czyli punktami w U); (b) gdy k ≥ 2, to dla dowolnego t = (t1 , ..., tk−1 ) ∈ I k−1 , Pi σ(t) = σ(t1 , ..., ti−1 , 0, ti , ..., tk−1 ), Ti σ(t) = σ(t1 , ..., ti−1 , 1, ti , ..., tk−1 ). Te (k − 1)-kostki singularne Pi σ, Ti σ nazywa się odpowiednio i-tą przednią i i-tą tylną ścianą kostki σ, i = 1, ..., k. Przyjęta terminologia jest dość jasna z intuicyjnego punktu widzenia. 4.5.1 FAKT: Niech σ będzie k-kostka singularną, k ≥ 2. Mają miejsce łatwe do sprawdzenia własności: jeżeli 1 ≤ i < j ≤ k, to Pi (Pj σ) = Pj−1 (Pi σ), Ti (Tj σ) = Tj−1 (Ti σ), Pi (Tj σ) = Tj−1 (Pi σ), Ti (Pj σ) = Pj−1 (Ti σ). Brzegiem k-kostki singularnej, k ≥ 1 nazwiemy (k − 1)-łańcuch singularny ∂σ := k X (−1)i (Pi σ − Ti σ). i=1 Oczywiście |∂σ| = ścian kostki σ. Sk i=1 (|Pi σ| ∪ |Ti σ|). Jest więc suma mnogościowa nośników wszystkich UWAGA: Nie należy mylić tego „algebraicznego” brzegu kostki sigma z brzegiem w sensie topologicznej jej nośnika |σ|. P Jeśli c = ns=1 as σs jest k-łańcuchem singularnym, k ≥ 1, to brzegiem łańcucha c nazwiemy (k − 1)-łańcuch singularny postaci ∂c := n X as ∂σs . s=1 4.5.2 FAKT: Jeśli c jest k-łańcuchem singularnym, k ≥ 2, to ∂(∂c) = 0, tzn. brzeg brzegu k-łańcucha singularnego jest zerowym (k − 2)-łańcuchem singularnym. 4.6 4.6.A Całka form różniczkowych Całka na kostkach Załóżmy, że ω ∈ Λk (U), k ≥ 1, jest ciągłą k-formą różniczkową w zbiorze otwartym U ⊂ RN i σ : [0, 1]k → U jest k-kostką singularną klasy C 1 w U. Definiujemy całkę z formy ω na kostce σ wzorem Z Z ω := ω(σ(t))(σ|1 (t), ..., σ|k (t)) dt, σ [0,1]k gdzie po prawej stronie znalazła się całka Riemanna funkcji ciągłej na (zwykłej, standardowej) kostce k-wymiarowej [0, 1]k . Istotnie: przypuśćmy, że X ω= aj1 ...jk dxj1 ∧ ... ∧ dxjk , 1≤j1 <...<jk ≤N 130 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH gdzie funkcje aj1 ...jk : U → R są ciągłe. Dla dowolnego t, połóżmy vi = σ|i (t), i = 1, ..., k. Zatem X ω(σ(t))(σ|1 (t), ..., σ|k (t)) = ω(σ(t))(v1 , ..., vk ) = aj1 ...,jk (σ(t)) det[πjs (vr )]s,r=1,...,k = 1≤j1 <...<jk ≤N X X aj1 ...,jk (σ(t)) det[πjs (σ|r (t))]s,r=1,...,k = 1≤j1 <...<jk ≤N aj1 ...,jk (σ(t)) det[σjs |r (t)]s,r=1,...,k , 1≤j1 <...<jk ≤N gdzie oczywiście σ1 , ..., σN są funkcjami współrzędnymi kostki σ, tzn.σ = (σ1 , ..., σN ). W świetle założeń o formie ω i kostce σ, funkcje [0, 1]k 3 t 7Ï aj1 ...jk (σ(t)) oraz [0, 1]k 3 t 7Ï det[σjs |r (t)] są ciągłe, czyli ciągła (a więc całkowalna w sensie Riemanna) jest funkcja podcałkowa. Jeśli ω ∈ Λ0 (U) i σ jest 0-kostką, to kładziemy Z ω := ω(σ(0)) σ (pamiętajmy, że ω : U → R jest funkcją, zaś σ punktem w U). P PRZYKŁAD: Jeśli σ = i=1 ai dxi jest 1-formą, a σ : [0, 1] → U jest 1-kostką klasy C 1 w U, to – kładąc – a = (a1 , ..., aN ), otrzymamy Z Z σ ω= ha(σ(t)), σ 0 (t)i dt = N X ai (t)σi0 (t) dt. i=1 [0,1] Jeśli ω ∈ ΛN−1 (U) i ω= X cj ∧ ... ∧ dxN , (−1)N+j aj dx1 ∧ ... ∧ dx j=1 oraz σ : [0, 1]N−1 → U jest (N − 1)-kostką singularną klasy C 1 , to Z Z ω= ha(σ(t)), σ|1 (t) × ... × σ|N−1 (t)i dt. [0,1]N−1 σ 4.6.1 TWIERDZENIE: (1) Całka jest operacją liniową, tzn. dla danej k-kostki singularnej σ klasy C 1 , ciągłych form ω, η ∈ Λk (U) i liczby λ ∈ R mamy Z Z Z Z Z (ω ± η) = ω ± η, (λω) = λ ω. σ σ σ σ σ (2) Jeśli k-kostki σ i τ są równoważne, to dla dowolnej ciągłej k-formy ω ∈ λ k (U) mamy Z Z ω = ω. σ τ (3) Niech forma ω ∈ ΛK (U) będzie ciągła. Jeśli dla dowolnej k-kostki singularnej σ klasy R C 1 w U całka σ ω = 0, to ω = 0. DOWÓD: Pierwsza własność wynika natychmiast z definicji. Dla dowodu drugiej własności przypuśćmy, że φ : [0, 1]k → [0, 1]k jest dyfeomorfizmem takim, że σ ◦ φ = τ. Wówczas, jeżeli 131 4.6. CAŁKA FORM RÓŻNICZKOWYCH ω= P 1≤j1 <...<jk ≤N aj1 ...jk dxj1 ∧ ... ∧ dxjk , gdzie aj1 ...jk : U → R są funkcjami ciągłymi, to Z X aj1 ...jk (τ(t)) det[τjs |r (t)] = ω= τ 1≤j1 <...<jk ≤N X aj1 ...jk (σ ◦ φ(t)) det[(σjs ◦ φ)|r (t)] dt = 1≤j1 <...<jk ≤N X (aj1 ...jk ◦ σ)(φ(t)) det[σjs |r (φ(t))] det φ0 (t) dt = 1≤j1 <...<jk ≤N Z X (aj1 ...jk ◦ σ)(t) det[σjs |r (t)] dt = 1≤j1 <...<jk ≤N ω, σ poprzez wykorzystanie reguły łańcucha i twierdzenia o zamianie zmiennych w całce Riemanna. Aby udowodnić (3) przypuśćmy, że ω 6= 0 (ω jest formą jak wyżej), tzn. znajdziemy taki układ 1 ≤ i1 < ... < ik ≤ N oraz x0 ∈ U, że ai1 ...ik (x0 ) 6= 0. Ciągłość funkcji a = ai1 ...ik implikuje, że a(x) 6= 0 dla x ∈ B(x0 , ε), gdzie ε > 0. Zdefiniujmy teraz σ0 : [0, 1]k → Rn wzorem σ(t) := x0 + α k X ti ejs , t = (t1 , ..., tk ) ∈ [0, 1]k , s=1 gdzie, oczywiście, ej1 , ..., ejk są wektorami z bazy kanonicznej w RN , zaś R liczba α > 0 jest tak dobrana, aby nośnik |σ0 | ⊂ B(x0 , ε). Wówczas łatwo sprawdzić, że σ0 ω0 6= 0, gdzie ω0 := ai1 ...ik dxi1 ∧ ... ∧ dxRik , lecz dla każdego układu 1 ≤ j1 < ...R < jk ≤ R N różnego od układu i1 < ... < ik , mamy σ0 aj1 ...jk dxj1 ∧ ... ∧ dxjk = 0. W taki razie σ0 ω = σ0 ω0 6= 0: sprzeczność. UWAGA: Założenie, że σ : [0, 1]k → U jest klasy C 1 oznacza, że σ jest odwzorowaniem określonym na pewnym zbiorze otwartym V ⊂ RK . Niech ω ∈ Λk (U) będzie ciągłą formą. Zauważmy, że Z Z Z σ ω= [0,1]k ω(σ(t))(σ|1 (t), ..., σ|k (t)) = σ # ω, Ik gdzie, przypomnijmy, I k : [0, 1]k → Rk oznacza odwzorowanie identycznościowe, a więc pewną (bardzo specjalną) k-kostką singularną w Rk klasy C 1 . Jeżeli η ∈ Λk (V ), gdzie V ⊂ Rk , to Z Z η= η(t1 , ..., tk )(e1 , ..., ek ) dt1 ...dtk . Ik 4.6.B [0,1]k Całka na k-łańcuchach i twierdzenie Stokesa P Niech c = ni=1 ai σi będzie k-łańcuchem singularnym klasy C 1 w zbiorze otwartym U ⊂ RN . Dla ciągłej k-formy ω ∈ Λk (U) kładziemy Z n Z X ω= ω. c σi i=1 4.6.2 TWIERDZENIE (Stokesa): Załóżmy, że forma ω ∈ Λk−1 (U) jest klasy C 1 i k-łańcuch P c = ni=1 ai σi jest klasy C 1 . Wówczas Z Z ω = dω. ∂c c 132 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH DOWÓD: Pokażemy najpierw, że jeśli η ∈ Λk−1 (V ), gdzie V ⊂ Rk , to Z Z η. dη = ∂I k Ik Niech najpierw, że dla pewnego i = 1, ..., k [i ∧ ... ∧ dxk , η = a dx1 ∧ ...∧dx gdzie a : V → R jest funkcją klasy c1 . Wówczas dη = k X di ∧ ... ∧ dxk = (−1)i−1 η|i dx1 ∧ ... ∧ dxk . a|j dxj ∧ dx1 ∧ ... ∧ dx j=1 Zatem Z i−1 Ik Z dη = (−1) [0,1]k a|i (t1 , ..., tk ) dt1 ...dtk . Można zastosować twierdzenie Fubiniego: i−1 (−1) Z ! Z [0,1]k−1 1 a|i (t1 , ..., tk ) dti ci ...dtk = dt1 ...dt 0 Z [0,1]k−1 ci ...dtk . (a(t1 , ..., ti−1 , 1, ti+1 , ..., tk ) − a(t1 , ..., ti−1 , 0, ti+1 , ..., tk )) dt1 ...dt Czyli Z Z i dη = (−1) Ik Z drugiej strony [0,1]k−1 Z ci ...dtk − a(t1 , ..., 0, ..., tk ) dt1 ...dt Z Z [0,1]k−1 oraz ci ...dtk = a(t1 , ..., 0, ..., tk )dt1 ...dt Z η Pi I k Z [0,1]k−1 Zatem ci ...dtk = a(t1 , ..., 1, ..., tk )dt1 ...dt Z i Ik Ponadto [0,1]k−1 c a(t1 , ..., 1, ..., tk ) dt1 ...dti ...dtk . Z ∂I k Z dη = (−1) k X η= (−1)j j=1 η− η Pi I k Ti I k Z Z ! η− Pj I k η . Tj I k Z η=0= Pj I k (starannie sprawdzić). Tak więc Z Z i η = (−1) ∂I k Z Zauważmy, że dla j = 1, ..., k, jeśli j 6= i, to Z η. Ti I k Pi I k Tj I k Z η− η Ti I k Z = dη. Ik 133 4.6. CAŁKA FORM RÓŻNICZKOWYCH Jeśli teraz η= k X di ∧ ... ∧ dxk , ai dxi ∧ ... ∧ dx i=1 to Z ∂I k η= k Z X i=1 ∂I k di ∧ ... ∧ dxk = ai dxi ∧ ... ∧ dx k Z X i=1 Ik Z di ∧ ... ∧ dxk ) = d(ai dxi ∧ ... ∧ dx dη. Ik Obecnie niech ω ∈ Λk (U) (jak w sformułowaniu twierdzenia) i niech σ : I k → U będzie dowolną k-kostką singularną klasy C 1 , to Z Z Z Z Z # # # dω = σ dω = d(σ ω) = σ ω= ω Ik σ Ik ∂I k ∂σ (ostatnią równość należy sprawdzić starannie). I wreszcie Z Z Z Z n n X X ω= ai ω= ai dω = dω. ∂c i=1 ∂σi i=1 σi c 4.6.C k-Bryły i twierdzenie Stokesa Mówimy, że k-kostki singularne σ, τ : [0, 1]k → RN , gdzie k ≥ 1, są zgodnie położone jeśli: (1) Część wspólna |σ|∩|τ| = ∅ albo |σ|∩|τ| = |σ 0 | = |τ 0 |, gdzie σ 0 jest l-wymiarową, 0 ≤ l ≤ k−1, ścianą kostki σ, a τ 0 jest l-wymiarową ścianą kostki τ; (2) jeśli |σ| ∩ |τ| = |σ 0 | = |τ 0 | gdzie σ 0 i τ 0 są (k − 1)-wymiarowymi ścianami kostek σ i τ, odpowiednio, to kostki σ 0 i τ 0 sa równoważne i (a) jeśli σ 0 = Pi σ. τ 0 = Pj τ dla pewnych 1 ≤ i, j ≤ k, to suma i + j jest nieparzysta; (b) jeśli σ 0 = Ti σ. τ 0 = Tj τ dla pewnych 1 ≤ i, j ≤ k, to suma i + j jest nieparzysta; (c) jeśli σ 0 = Pi σ, τ 0 = Tj τ dla pewnych 1 ≤ i, j ≤ k, to suma i + j jest parzysta; (d) jeśli σ 0 = Ti σ, τ 0 = Pj τ dla pewnych 1 ≤ i, j ≤ k, to suma i + j jest parzysta. Zbiór B ⊂ RN jest k-wymiarową bryłą singularną, jeśli istnieją k-kostki singularne σi : S [0, 1]k → RN , i = 1, ..., n, klasy C 1 takie, że B = ni=1 |σi | oraz dla dowolnych i, j = 1, ..., n, i = 6 j, kostki σi oraz σj są zgodnie położone. Brzegiem bryły B wyznaczonej przez kostki σi , i = 1, ..., n, nazywamy sumę ∂B mnogościową nośników tych (k − 1)-wymiarowych ścian kostek σi , których nośniki nie są nośnikami (k − 1)-wymiarowych ścian innych kostek. Oczywiście brzeg bryły B jest nośnikiem pewnego (k − 1)-wymiarowego łańcucha singularnego d. PYTANIE: Czy ∂B jest bryłą? Jeśli B jest k-bryłą singularną wyznaczonym przez k-kostki singularne σi , i = 1, ..., n, to B jest nośnikiem łańcucha c := σ1 + ...σn . Zatem można przyjąć, że dla ciągłej formy ω ∈ Λk (B) (8 ) Z Z ω := ω. B 8 tzn. ω= X c ωj1 ...jk dxj1 ∧ ... ∧ dxjk , 1≤j1 <...<jk ≤N gdzie ωj1 ...jk : B → R jest funkcją ciągłą dla dowolnego układu 1 ≤ 1 < ... < jk ≤ N. 134 4. CAŁKOWANIE FORM RÓŻNICZKOWYCH Kładziemy również Z Z ∂B η := η, d dla dowolnej ciągłej formy η ∈ Λk−1 (∂B), 4.6.3 TWIERDZENIE (Twierdzenie Stokesa): Niech B będzie k-wymiarową bryłą singularną i niech ω ∈ Λk−1 (B) będzie formą różniczkową klasy C 1 . Wtedy Z Z ω= dω. ∂B B DOWÓD: Z twierdzenie Stokesa 4.6.2 mamy Z B dω = n Z X r=1 σr dω = n Z X r=1 ∂σr ω= n X k X (−1)j Z r=1 j=1 Pj σr ω + (−1)j+1 Z ! ω . Tj σr Przypuśćmy, że dla pewnych 1 ≤ r, s ≤ n, |Pi σr | = |Pj σs |, gdzie 1 ≤ i, j ≤ k. Wtedy składnik w powyższej sumie po prawej, w świetle założeń, ! Z Z Z Z (−1)i Pi σ r ω + (−1)j Pj σs ω = (−1)i ω− Pi σ r ω Pj σs = 0. Analogicznie jeśli dla pewnych 1 ≤ r, s ≤ n, |Ti σr | = |Tj σs |, to Z Z j+1 i+1 ω = 0, ω + (−1) (−1) Tj σ+s Ti σr lub, gdy dla pewnych 1 ≤ r, s ≤ n, |Pi σr | = |Tj σs |, to Z Z ω + (−1)j+1 (−1)i Pi σr Tj σs ω = 0. A więc, w tej sumie pozostaną tylko składniki odpowiadające tym spośród (k−1)-wymiarowych ścian kostek σr , których nośniki nie są jednocześnie są nośnikami innych kostek.