Rachunek Różniczkowy i Całkowy 3

Transkrypt

Wojciech Kryszewski
Rachunek Różniczkowy i Całkowy 3
Wykład kursowy
Wydział FTIMS Politechnika Łódzka
Łódź 2013
ISBN xxxx
c Copyright by Wojciech Kryszewski – 2013
Skład komputerowy LATEX w wykonaniu autora
Spis treści
Wstęp
1
Bibliografia
2
1 Przestrzeń Euklidesowa
1.1 Podstawowe definicje . . . . . . . . . . . . . . . .
1.2 Elementy algebry liniowej . . . . . . . . . . . . .
1.2.A Macierze i wektory . . . . . . . . . . . . .
1.2.B Przekształcenia liniowe . . . . . . . . . .
1.2.C Wyznaczniki . . . . . . . . . . . . . . . . .
1.2.D Układy równań liniowych . . . . . . . . .
1.2.E Przekształcenia wieloliniowe . . . . . . .
1.2.F Formy kwadratowe i ich określoność .
1.3 Elementy topologii przestrzeni euklidesowych
1.3.A Zbieżność ciągów . . . . . . . . . . . . . .
1.3.B Zbiory otwarte, domknięte i inne . . . .
1.4 Funkcje i odwzorowania wielu zmiennych . . .
1.4.A Granica funkcji w punkcie . . . . . . . .
1.4.B Ciągłość funkcji . . . . . . . . . . . . . . .
1.4.C Ciągłość odwzorowań liniowych . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
7
7
10
15
17
18
21
23
23
25
28
28
32
35
2 Rachunek różniczkowy
2.1 Pochodne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.A Pochodne funkcji wektorowych jednej zmiennej . . . . . . . .
2.1.B Pochodne kierunkowe i cząstkowe funkcji wielu zmiennych
2.1.C Różniczkowalność i pochodna funkcji wielu zmiennych . . .
2.1.D Pochodne odwzorowań . . . . . . . . . . . . . . . . . . . . . . . .
2.1.E Komentarz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.F Reguła łańcucha . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.G Twierdzenia o wartości średniej . . . . . . . . . . . . . . . . . . .
2.1.H Różniczkowalność i funkcje klasy C 1 . . . . . . . . . . . . . . .
2.2 Pochodne wyższych rzędów . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.A Pochodne drugiego rzędu . . . . . . . . . . . . . . . . . . . . . .
2.2.B Pochodne wyższych rzędów funkcji . . . . . . . . . . . . . . . .
2.2.C Pochodne wyższych rzędów odwzorowań . . . . . . . . . . . . .
2.2.D Funkcje i odwzorowania klasy C n . . . . . . . . . . . . . . . . .
2.2.E Wzór Taylora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.F Ekstrema funkcji wielu zmiennych . . . . . . . . . . . . . . . . .
2.3 Teoria odwzorowań . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.A Twierdzenie o funkcji uwikłanej . . . . . . . . . . . . . . . . . .
2.3.B Twierdzenie o lokalnym odwracaniu odwzorowań . . . . . . .
2.3.C Odwzorowania regularne, dyfeomorfizmy . . . . . . . . . . . .
2.3.D Różniczkowanie funkcji na zbiorach nieotwartych . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
39
39
40
43
48
50
51
52
53
54
54
60
64
65
66
68
70
70
73
74
76
3 Całka Riemanna funkcji wielu zmiennych
3.1 Całka na prostokącie . . . . . . . . . . . . . . . . . . . . . . .
3.1.A Zbiory nieistotne i kryterium całkowalności . . . .
3.2 Miara Jordana i ogólna całka . . . . . . . . . . . . . . . . . .
3.2.A Całka na zbiorach mierzalnych w sensie Jordana
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
78
79
83
86
92
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ii
SPIS TREŚCI
3.3
Metody obliczania całek . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.A Całka iterowana na kostce . . . . . . . . . . . . . . . . . . . . .
3.3.B Twierdzenie Fubiniego i zasada Cavalieriego . . . . . . . . .
3.3.C Zastosowania twierdzenia Fubiniego i zasady Cavalieriego .
3.3.D Twierdzenie o zamianie zmiennych . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 94
. 94
. 98
. 102
. 103
4 Całkowanie form różniczkowych
4.1 Pola wektorowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.A Zachowawcze pola wektorowe . . . . . . . . . . . . . . . . . . . .
4.2 Całka krzywoliniowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.A Całka krzywoliniowa I-go rodzaju . . . . . . . . . . . . . . . . .
4.2.B Całka krzywoliniowa II-go rodzaju . . . . . . . . . . . . . . . . .
4.2.C Całka krzywoliniowa i zachowawczość pól wektorowych . . .
4.2.D Całka zorientowana vs. całka podwójna - twierdzenie Greena
4.3 Algebra zewnętrzna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Formy różniczkowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.A Podstawowe definicje . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.B Pochodna zewnętrzna . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.C Przeciwobraz formy różniczkowej . . . . . . . . . . . . . . . . .
4.5 Kostki singularne i łańcuchy . . . . . . . . . . . . . . . . . . . . . . . . .
4.6 Całka form różniczkowych . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6.A Całka na kostkach . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6.B Całka na k-łańcuchach i twierdzenie Stokesa . . . . . . . . . .
4.6.C k-Bryły i twierdzenie Stokesa . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
108
108
109
110
110
113
116
119
119
123
123
125
127
128
129
129
131
133
Wstęp
Ten skrypt przeznaczony jest dla studentów II roku studiów matematycznych i dotyczy rachunku różniczkowego funkcji i odwzorowań wielu zmiennych, całki Riemanna funkcji wielu zmiennych oraz elementów analizy wektorowej w przestrzeniach euklidesowych. Materiał
przewidziany jest na semestr. W tekście, oprócz definicji i twierdzeń dołączono pewne ćwiczenia, a także – w kilku miejscach – zagadnienia uzupełniające dotyczące, na przykład, algebry
liniowej. Szczerze zachęcam Czytelników do uważnej lektury również tego uzupełniającego
materiału.
Poniżej podano literaturę do wykładu. Charakter uzupełniający mają pozycje oznaczone
gwiazdką (∗), a Czytelnikom chcącym istotnie rozszerzyć wiedzę w zakresie analizy polecam
pozycje oznaczone (∗∗). W spisie brak zbiorów zadań; Czytelnicy znajdą te pozycje samodzielnie.
Bibliografia
[1] Andrzej Birkholc, Analiza matematyczna. Funkcje wielu zmiennych, PWN Warszawa 1986.
[2] (∗) Ryszard Engelking, Topologia ogólna, PWN Warszawa 1975.
[3] Grigorij. M. Fichentholz, Rachunek Rózniczkowy i Całkowy , PWN Warszawa 1976.
[4] B. R. Gelbaum, J. M. Olmsted, Counterexamples in Analysis, London 1964.
[5] (∗) Stanisław Gładysz, Wstęp do topologii, PWN Warszawa 1981.
[6] Lech Górniewicz, Roman Ingarden, Analiza matematyczna dla fizyków, Wydawnictwo UMK 1995.
[7] Witold Kołodziej, Analiza Matematyczna, PWN Warszawa 1978.
[8] (∗∗) Witold Kołodziej, Wybrane rozdziały analizy matematycznej, PWN Warszawa 1982.
[9] Wojciech Kryszewski, Wykłady analizy matematycznej; funkcje jednej zmiennej, Wydwnictwo
UMK 2009.
[10] Franciszek Leja, Rachunek rózniczkowy i całkowy, Wydawnictwo Naukowe PWN Warszawa 2008.
[11] (∗∗) Elliott Lieb, Michael Loss, Analysis, GSM AMS 1997.
[12] (∗∗) Stanisław Łojasiewicz, Wstęp do teorii funkcji rzeczywistych, PWN Warszawa 1973.
[13] (∗∗) Krzysztof Maurin, Analiza, PWN Warszawa 1976.
[14] (∗) Andrzej Mostowski, Marceli Stark, Elementy algebry wyższej, PWN Warszawa 1972.
[15] (∗∗) Raghavan Narasimhan, Analysis on real and complex manifolds, Masson et Cie Paris 1968.
[16] Roman Sikorski, Rachunek różniczkowy i całkowy. Funkcje wielu zmiennych, PWN Warszawa
1977.
[17] (∗) Helena Rasiowa, Wstęp do matematyki współczesnej, PWN Warszawa 1979.
[18] Walter Rudin, Podstawy analizy matematycznej, PWN Warszawa 1969.
[19] (∗∗) Walter Rudin, Analiza rzeczywista i zespolona, PWN Warszawa 1985.
[20] Ryszard Rudnicki, Wykłady z analizy matematycznej, PWN Warszawa 2006.
[21] (∗∗) E. T. Whittaker, G. N. Watson, A Course in Modern Analysis, Cambridge University Press
1927.
Rozdział
1
Przestrzeń Euklidesowa
1.1
Podstawowe definicje
Dla dowolnego naturalnego N ∈ N kładziemy
RN := {x = (x1 , ..., xN ) | xi ∈ R, i = 1, ..., N}.
Innymi słowy RN jest iloczynem kartezjańskim N egzemplarzy zbioru liczb rzeczywistych:
RN = |R × {z
... × R} .
N
Elementy x ∈ RN nazywa się punktami lub wektorami, zaś liczby xi , i = 1, ..., N, są
współrzędnymi wektora x = (x1 , ..., xN ). To dość subtelne rozróżnienie (punkty – wektory)
zależy od tego czy RN traktować jako przestrzeń afiniczną lub wektorową.
RN JAKO PRZESTRZEŃ WEKTOROWA Jeśli x, y ∈ RN , przy czym x = (x1 , ..., xN ), y =
(y1 , ..., yN ), oraz α ∈ R, to kładziemy
x + y := (x1 + y1 , ..., xN + yN ), αx := (αx1 , ..., αxN ).
Oczywiście x + y, αx ∈ RN . Podane działania dodawania i mnożenia zewnętrznego przez
skalary rzeczywiste maja własności łączności, przemienności, zaś mnożenie jest rozłączne
względem dodawania (sprawdzić). W związku z tym zbiór RN wraz z tymi działaniami jest
przestrzenią wektorową (lub liniową) nad ciałem R liczb rzeczywistych. Elementem zerowym
jest wektor 0, którego wszystkie współrzędne są równe 0.
Przestrzeń RN – jako przestrzeń liniowa – ma bazę, tzn. maksymalny układ wektorów
liniowo niezależnych. Najczęściej używaną bazę w RN stanowi zbiór tzw. wersorów osi {ej }N
j=1 ,
1 ). Tak więc, dla j = 1, ..., N, e = (0, ..., 0, 1, 0, ..., 0),
gdzie ej = (δkj )N
,
tzw.
baza
kanoniczna
(
j
k=1
gdzie 1 występuje na j-tym miejscu.
N
ĆWICZENIE: Sprawdzić, że zbiór {ej }N
j=1 jest bazą w R .
Oczywiście wymiar RN (jako przestrzeni wektorowej nad R) wynosi N: dim RN = N.
1
Przypomnijmy, że tzw. delta Kroneckera δkj :=
1
0
gdy
gdy
k = j;
k 6= j.
4
1. PRZESTRZEŃ EUKLIDESOWA
ILOCZYN SKALARNY I NORMA Dla wektorów x, y ∈ RN określamy iloczyn skalarny tych
wektorów
N
X
hx, yi = x · y :=
xi yi
i=1
oraz normę wektora x
!1/2
kxk :=
X
xi2
√
=
x · x.
i=1
1.1.1 TWIERDZENIE: Iloczyn skalarny i norma mają następujące własności: dla x, y, z ∈ RN
oraz α ∈ R
(i) hx, yi = hy, xi;
(ii) hαx, yi = αhx, yi;
(iii)hx + y, zi = hx, zi + hy, zi;
(iv) kxk ≥ 0, kxk = 0 wtedy i tylko wtedy, gdy x = 0;
(v) kαxk = |α|kxk;
(vi) |x · y| ≤ kxkkyk (nierówność Cauchy’ego-Schwarza);
(vii) kx + yk ≤ kxk + kyk (nierówność trójkąta lub nierówność Minkowskiego);
(viii) kx − zk ≤ kx − yk + ky − zk.
DOWÓD: Własności (i), (ii), (iii), (iv) oraz (v) są natychmiastowe własność (vi) jest innym zapisem
P
2 P
P
N
N
N
2
2
nierówności Cauchy’ego-Schwarza (która mówi, że
a
b
≤
a
b
dla
i
i
i=1
i=1 i
i=1 i
dowolnych układów a1 , ..., aN , b1 , ..., bN liczb rzeczywistych). Własność (vii) wynika z nierówności Cauchy’ego-Schwarza oraz własności (ii) – (iii):
kx + yk2 = (x + y) · (x + y) = x · x + 2x · y + y · y ≤
kxk2 + 2kxkkyk + kyk2 = (kxk + kyk)2 .
Wreszcie (viii) wynika z (vii) jeśli zastąpić x przez x − y, zaś y przez y − z.
ĆWICZENIE: Sprawdzić, że równość |hx, yi| = kxkkyk zachodzi wtedy i tylko wtedy, gdy
istnieje stała λ ∈ R taka, że x = λy, zaś równość hx, yi = kxkkyk zachodzi wtedy i tylko wtedy,
gdy istnieje λ ≥ 0 taka, ze x = λy.
Własności (i) – (iii) pozwalają nazywać RN przestrzenią z iloczynem skalarnym, zaś własności (iv) – (vii) pozwalają nazywać te przestrzeń przestrzenią unormowaną (skończonego
wymiaru), tzn. przestrzenią euklidesową.
RN JAKO PRZESTRZEŃ METRYCZNA Własności normy pozwalają uważać, że RN jest przestrzenią metryczną wraz z odległością (metryką):
d(x, y) := kx − yk, x, y ∈ RN .
Mamy bowiem:
(1) d(x, y) = 0 wtedy i tylko wtedy x = y;
(2) d(x, y) = d(y, x);
(3) d(x, z) ≤ d(x, y) + d(y, z)
dla dowolnych x, y, z ∈ RN .
Własność (1) wynika wprost z (iv), (2) wynika z (v), zaś (3) to nic innego niż (viii). Wielkość
kx − yk mierzy odległość pomiędzy x i y (wykonać ilustrację).
1.1. PODSTAWOWE DEFINICJE
5
Podaną normę (i metrykę) w RN nazywa się euklidesową; Czytelnik (przy pomocy np.
internetu) powinien przekonać się, że nie są one jedynymi użytecznymi normami i metrykami
w RN : są inne – niekiedy znacznie wygodniejsze. Jednak jedynie ta norma jest „kompatybilna”z
iloczynem skalarnym.
ĆWICZENIE: Zinterpretować metrykę euklidesową i na przykład nierówność trójkąta w
języku geometrycznym.
PROSTOPADŁOŚĆ WEKTORÓW Wektory x, y ∈ RN są prostopadłe (piszemy też x⊥y), jeśli
hx, yi = 0. Dla A ⊂ RN , definiujemy
A⊥ := {x ∈ RN | x⊥a dla dowolnego a ∈ A}.
ĆWICZENIE: Jeśli A ⊂ B ⊂ RN , to A ⊂ A⊥⊥ := (A⊥ )⊥ oraz A⊥ ⊃ B⊥ .
Ma miejsce twierdzenie Pitagorasa: jeśli x, y ∈ RN są prostopadłe, to
kx + yk = kxk2 + kyk2 .
Dowód jest natychmiastowy:
kx + yk2 = hx + y, x + yi = hx, xi + 2hx, yi + hy, yi = kxk2 + kyk2 .
ĆWICZENIE: Podać interpretację (szkolną) geometryczną twierdzenia Pitagorasa.
Nierówność Cauchy’ego-Schwarza pozwala interpretować cosinus kąta pomiędzy wektorami x, y ∈ RN , x 6= 0 6= y. Mianowicie kładziemy
cos ^{x, y} :=
hx, yi
.
kxkkyk
Z nierówności Cauchy’ego-Schwarza wynika, że | cos ^{x, y}| ≤ 1 i cos ^{x, y} = 1, wtedy i
tylko wtedy, gdy istnieje λ > 0 taka, że x = λy, czyli wtedy i tylko wtedy, gdy wektory x i y
mają ten sam kierunek i zwrot.
Zauważmy, że układ (ej )j=1,...,N tworzy bazę ortonormalną w RN , tzn. kej k = 1 i hej , ei i = δji
dla dowolnych j, i = 1, ..., N. Zauważmy też, że jeśli x = (x1 , ..., xN ), to dla j = 1, ..., N
* N
+
N
X
X
hx, ei i =
xj ej , ei =
xj hej , ei i = xi ,
j=1
j=1
PN
PN
czyli x =
j=1 hx, ej iej . Jeśli więc x =
j=1 aj ej (tzn. aj , j = 1, ..., N, są współczynnikami
rozwinięcia x w postaci kombinacji liniowej wersorów (ej )N
j=1 ), to aj = hx, ej i (przypomnieć
definicję bazy w przestrzeni liniowej).
Zbiór A ⊂ Rn jest prostą przechodzącą przez punkt a ∈ RN o wektorze kierunkowym
v=
6 0, gdy
A = {x ∈ Rn | x = a + tv, t ∈ R}.
W takim razie prosta przechodząca przez dwa punkty a, b ∈ Rn , a 6= b, to zbiór
A = {x = a + t(b − a) | t ∈ R} = {x = (1 − t)a + tb | t ∈ R}.
Zauważmy, że gdy a = 0, to
A⊥ = {y ∈ RN | y⊥v}
6
jest hiperpodprzestrzenią prostopadłą do A.
Odcinkiem domkniętym (odp. odcinkiem otwartym) łączącym punkty a, b ∈ R, a 6= b,
nazywa się zbiór
[a; b] := {x = (1 − t)a + tb | t ∈ [0, 1]
(odp. (a; b) := {x = (1−t)a+tb | t ∈ (0, 1)}). Gdy N = 1 to odcinki są domkniętymi przedziałami
(prostej), zaś odcinki otwarte przedziałami otwartymi.
Mówimy, że zbiór A ⊂ RN jest wypukły, gdy dla dowolnych a, b ∈ A, a 6= b, [a; b] ⊂ A
(uwaga: zbiory wypukłe w R nazywa się przedziałami).
Zbiór A ⊂ RN jest ograniczony, gdy istnieje M ≥ 0 takie, że
kxk ≤ M dla dowolnego x ∈ A.
W ramach ćwiczeń należy umieć przedstawiać graficznie podzbiory R2 , R3 itp.
ĆWICZENIE: Zilustrować zbiór A punktów (x, y, z) ∈ R3 , których współrzędne spełniają
następujące warunki:
(1) x 2 + y 2 < z2 ; |z| > 1;
(2) x 2 + y 2 + z2 < 2x; 2|z| < 1;
(3) x 2 − y 2 − z2 > 1; z > 0.
Czy zbiory te są ograniczone? czy są wypukłe?
FUNKCJE I ODWZOROWANIA Przedmiotem naszego zainteresowania będą funkcje rzeczywiste lub odwzorowania wektorowe wielu zmiennych. Chodzi o funkcje (odwzorowania) postaci f : A → RM , gdzie dziedzina A ⊂ RN oraz N, M ≥ 1. Jest to funkcja N-zmiennych,
przyjmująca wartości w RM . Gdy M = 1,to mowa jest o funkcjach rzeczywistych, zaś gdy
M > 1, o funkcjach wektorowych. Funkcje wektorowe nazywa się też odwzorowaniami, przekształceniami lub operatorami (2 ).
Mówiąc poglądowo, są to funkcje które punktom (wektorom) x = (x1 , ..., xN ) ∈ A przyporządkowują punkty (wektory) y = (y1 , ..., yM ) = f(x) ∈ RM .
Niech πi : RM → R będzie rzutowaniem na i-tą współrzędną, i = 1, ..., M, tzn. funkcją
zadaną wzorem πi (y) = πi (y1 , ..., yM ) := yi , które punktowi y ∈ RM przyporządkowuje jego
i-tą współrzędną. Niech fi := πi ◦ f : A → R dla i = 1, ..., M. Zatem, dla dowolnego x ∈ A,
f(x) = (f1 (x), ..., fM (x)).
Piszemy wtedy f = (f1 , ..., fM ). Funkcje fj nazywa się (funkcjami) współrzędnymi funkcji (odwzorowania lub przekształcenia) f. Na ogół badanie f przeprowadza się w oparciu o funkcje
współrzędne.
PROBLEM DZIEDZINY NATURALNEJ (LUB INTEGRALNEJ) Często mamy do czynienia z odwzorowaniem (funkcją) zadaną konkretnym wzorem: np.
r
x
f(x, y) =
− 1.
2
x + y 2 + 2x
W takiej sytuacji obowiązkiem Czytelnika jest wyznaczenie dziedziny naturalnej Df funkcji
f, tzn. maksymalnego zbioru punktów (x, y) ∈ R2 , dla których wyrażenie f(x, y) ma sens. W
2
Ta terminologia jest niesprecyzowana: w gruncie rzeczy odzwierciedla „geometrię” kryjącą się za danym przyporządkowaniem.
1.2. ELEMENTY ALGEBRY LINIOWEJ
7
powyższej sytuacji widzimy
(
Df =
)
1
1 2
2
2
2
+ y ≥ , (x + 1) + y < 1 .
(x, y) ∈ R | x +
2
4
2
Należy umieć również zilustrować graficznie dziedzinę Df .
ĆWICZENIE: Wyznaczyć dziedzinę naturalną funkcji:
x
(1) f(x, y) = arc cos 2x+y
;
1+ln(x−y)
(2) f(x, y) = √
;
2
2
1−x −y
p
(3) f(x, y, z) = arc sin(x 2 + y 2 + z2 − 2z) 2 − x 2 − y 2 − z2 .
Wykresem (lub grafem) funkcji f : A → RM nazywa się zbiór
Gr (f) := {(x, y) ∈ A × RM | y = f(x)}.
POJĘCIE KRZYWEJ Krzywą w RN nazywamy odwzorowanie γ : [a, b] → Rn , gdzie a ≤ b
i γ = (γ1 , ..., γN ), którego wszystkie współrzędne γj , j = 1, ..., N, są ciągłe (przypomnieć definicję ciągłości funkcji rzeczywistych jednej zmiennej). Krzywa γ zwana jest łukiem zwykłym,
gdy jej obcięcie γ|(a,b) jest odwzorowaniem różnowartościowym. Krzywa jest zamknięta, gdy
γ(a) = γ(b). Krzywa jest regularna, gdy dla każdego j = 1, ..., N, γj ∈ C 1 (przypomnieć pojęcie
różniczkowalności
funkcji rzeczywistych jednej zmiennej i pojęcie klasy C 1 gładkości) oraz
qP
N
0
0
0
2
kγ 0 (t)k :=
j=1 [γj (t)] 6= 0 dla t ∈ [a, b], gdzie pochodna γ (t) := (γ1 (t), ..., γN (t)), t ∈ [a, b]
(w krańcach a, b mamy na myśli odpowiednie pochodne jednostronne – przypomnieć pojęcie pochodnych jednostronnych (lewo i prawostronnych) dla funkcji rzeczywistych jednej
zmiennej).
Nośnikiem krzywej γ : [a, b] → RN nazywa się zbiór Γ = {γ(t) | t ∈ [a, b]}, czyli obraz
odwzorowania γ.
UWAGA: Niekiedy nośnik Γ utożsamia się z krzywą. Wtedy odwzorowanie γ nazywa się
parametryzacją krzywej Γ.
ĆWICZENIE: (1) Podaj dwie różne parametryzacje odcinka [p; q], gdzie p = (p1 , ..., pN ), q =
(q1 , ..., qN ) ∈ RN (pierwsza to np. γ = (γ1 , ..., γn ) : [0, 1] → RN , gdzie γj (t) = pj + t(qj − pj ),
j = 1, ..., N, t ∈ [0, 1] (syntetycznie γ(t) = p + t(q − p), t ∈ [0, 1]). Należy wymyślić jeszcze
przynajmniej dwie inne parametryzacje.
(2) Co jest nośnikiem krzywej γ : [0, 2π] → R2 , gdzie γ1 (t) = 2 cos t, γ2 (t) = 3 sin t, t ∈ [0, 2π]?
UWAGA: Byłoby wskazane, by Czytelnik przyzwyczaił się do robienia ilustracji na płaszczyźnie R2 i w przestrzeni R3 !
1.2
Elementy algebry liniowej
(do czytania w razie potrzeby)
1.2.A
Macierze i wektory
Przypomnijmy, że macierzą A o M-wierszach i N-kolumnach (M, N ∈ N) (lub macierzą (M ×
N)-wymiarową) o współczynnikach rzeczywistych nazywamy funkcję
A : {1, , ..., M} × {1, ..., N} → R.
8
Jeżeli aij := A(i, j) dla 1 ≤ i ≤ M, 1 ≤ j ≤ N, to liczby aij nazywamy współczynnikami macierzy
A i piszemy A = [aij ] i=1,...M lub
j=1,...,N


a11 a12 ... a1N
 a21 a22 ... a2N 


A= .
..
..  ;
..
 ..
.
.
. 
aM1 aM2 ... aMN
wyrażenia

a1j
 .. 
 .  i [ai1 , ai2 , ..., aiN ], i = 1, ..., M, j = 1, ..., N,
aMj

nazywamy odpowiednio j-tą kolumną i i-tym wierszem macierzy A.
Zbiór macierzy (M × N)-wymiarowych oznaczamy symbolem MM×N lub MMN (R), jeśli
chcemy podkreślić, że mamy do czynienia z macierzami o współczynnikach rzeczywistych
(oczywiście MMN (C) oznacza zbiór macierzy (M × N)-wymiarowych o współczynnikach zespolonych).
Jak dobrze wiadomo zbiór MMN jest (rzeczywistą) przestrzenią liniową: dla macierzy
A, B ∈ MMN , A = [aij ] i=1,...,M , B = [bij ] i=1,...,M oraz λ ∈ R,
j=1,...,N
j=1,...,N
A + B := [aij + bij ] ∈ MMN oraz λA := [λaij ] ∈ MMN .
Macierzą transponowaną (lub sprzężoną) do macierzy A = [aij ] i=1,...,M ∈ MMN nazywamy
j=1,...,N
macierz AT := [bij ] i=1,...,N ∈ MNM , gdzie bij = aji dla wszystkich i = 1, ..., N i j = 1 = 1, ..., M.
j=1,...,M
Tak więc


a11 a21 ... aM1
 a12 a22 ... aM2 


AT =  .
..
..  .
..
 ..
.
.
. 
a1N a2N ... aMN
ĆWICZENIE: Znaleźć macierz transponowaną do macierzy
3 4 5 −1
1 0 4 2
Macierze można mnożyć: jeśli A = [aij ] i=1,...,M i B = [bjk ] j=1,...,N (tzn. A jest macierzą (M ×N)j=1,...,N
k=1,...,K
wymiarową, zaś B – macierzą (N×K)-wymiarową), to iloczyn (tzw. iloczyn Cauchy’ego) C = A·B
jest macierzą (M × K)-wymiarową, C = [cik ] i=1,...,M , gdzie
k=1,...,K
cik := ai1 b1k + ai2 b2k + ... + aiN bNk =
N
X
aij bjk , i = 1, ..., M, k = 1, ..., K.
j=1
Mnożenie macierzy ilustruje poniższy zapis



a11
a12 ... a1N
 ..
..
..  b11 ...
 .

.
. 

  b21 ...
 ai1

a
...
a
12
iN  · 

 .
 ..
..
..   ..
 .
.
. 
bN1 ...
aM1 aM2 ... aMN
b1k
b2k
..
.
bNk

b1K

b2K 

..  .
. 
... bNK
...
...
9
Tak więc, ażeby otrzymać wyraz cik należy pierwszy wyraz ai1 z i-tego wiersza macierzy A
pomnożyć przez pierwszy wyraz b1k z k-tej kolumny, drugi wyraz tego wiersza przez drugi
wyraz tej kolumny i tak dalej. Wreszcie ostatni wyraz i-tego wiersza mnożymy przez ostatni
wyraz k-tej kolumny i uzyskane iloczyny należy dodać.
ĆWICZENIE: Pomnożyć macierze A i B, gdzie

1
1
3 4 5 −1
A=
; B=
2
1 0 4 2
−9

3 9 −3
0 4
2
.
3 −1 0 
3 1
0
Dość szczególną rolę odgrywają macierze wymiaru (N × 1), czyli macierze o N-wierszach
i jednej kolumnie. Od tej pory zawsze będziemy utożsamiać wektory (punkty) x = (x1 , ..., xN )
z „wektorami”, czyli macierzami, jednokolumnowymi
 
x1
 x2 
 
x :=  .  .
 .. 
xN
Zauważmy, że taka macierz (wektor) jest macierzą sprzężoną do macierzy jednowierszowej
[x1 , ..., xN ], czyli
 
x1
 x2 
 
x :=  .  = [x1 , ..., xN ]T .
 .. 
xN
Opisane utożsamienie jest izomorfizmem przestrzeni liniowej RN oraz MN1
Jeśli A = [aij ] i=1,...,M ∈ MMN oraz x = [x1 , ..., xN ]T ∈ RN , to iloczyn
j=1,...,N
(1.2.1)
A · x = y = [y1 , ..., yM ]T ∈ RM ,
gdzie
(1.2.2)
yi :=
N
X
aij xj , i = 1, ..., M.
j=1
Łatwo dostrzec, że (A · B)T = BT · AT ; a zatem, w szczególności (A · x)T = xT · AT .
Zauważmy wreszcie, że dla x, y ∈ RN ,
hx, yi = xT · y.
Symbol · mnożenia macierzy często opuszcza się pisząc AB lub Ax.
W świetle przyjętych oznaczeń ma sens następująca (i dość wygodna notacja). Niech A =
[aij ] i=1,...,M ∈ MMN i niech
j=1,...,N


a1j


aj =  ...  , j = 1, ..., N,
aMj
10
tzn. aj = [a1j , ..., aMj ]T ∈ RM , będzie j-tą kolumną A, j = 1, ..., N. Piszemy wtedy
A = [a1 |a2 |....|aN ].
(1.2.3)
Tak więc zapis ten uwzględnia wektorowy charakter kolumn: macierz A powstaje poprzez
„ułożenie” obok siebie N-kolumn (wektorów) aj , j = 1, ..., N. Ma wobec tego sens następująca
definicja.
Rzędem kolumnowym macierzy A ∈ MMN nazywa się maksymalną liczbę rank A jej
liniowo niezależnych kolumn. Podobnie można mówić o rzędzie wierszowym macierzy A.
Każdy jej wiersz można traktować jako wektor [ai1 , ai2 , ..., aiN ]T ∈ RN i, wobec tego, rzędem
wierszowym macierzy A nazywa się maksymalną liczbę jej liniowo niezależnych wierszy. Tzw.
twierdzenie o rzędzie orzeka, że rząd wierszowy i kolumnowy są równe. Stąd wspólną ich
wartość nazywa się rzędem macierzy. Oczywiście rank A ≤ min{M, N}.
ĆWICZENIE: Znaleźć rząd macierzy:


3 4 5 −1
A = 1 0 4 2 
2 8 0 2
1.2.B
Przekształcenia liniowe
Wśród odwzorowań wielu zmiennych określonych na przestrzeni RN i o wartościach w RM
szczególną rolę odgrywają przekształcenia liniowe, stanowiące główny przedmiot zainteresowania algebry liniowej (a także analizy funkcjonalnej). Przypomnijmy, że przekształcenie
(operator, odwzorowanie) A : RN → RM jest liniowe, jeżeli jest jednorodne, tzn. dla dowolnego
x ∈ RN i λ ∈ R,
A(λx) = λA(x)
oraz addytywne, tzn. dla dowolnych x, y ∈ RN ,
A(x + y) = A(x) + A(y).
Łatwo zobaczyć, że przekształcenie A : RN → RM jest liniowe wtedy i tylko wtedy, gdy dla
dowolnych x, y ∈ RN , λ, µ ∈ R,
A(λx + µy) = λA(x) + µA(y).
Zbiór przekształceń liniowych RN → RM oznaczamy symbolem L(RN , RM ). Zbiór ten jest
przestrzenią liniową nad ciałem R wraz z dodawaniem i mnożeniem przez skalary rzeczywiste
określonymi następująco: dla A, B ∈ L(RN , RM ) i λ ∈ R,
(A + B)(x) := A(x) + B(x), (λA)(x) := λA(x), x ∈ RN ;
łatwo zobaczyć, że tak określone przekształcenia A + B i λA są liniowe.
Złożenie B ◦ A : RN → RK przekształceń liniowych A : RN → RM , B : RM → RK jest
przekształceniem liniowym.
Jeśli A : RN → RM jest przekształceniem liniowym, to jądrem A nazywamy zbiór
Ker A := {x ∈ RN | A(x) = 0}
(czasem stosowany jest też symbol N(A)), zaś obrazem lub zakresem nazywa się zbiór
Im A = {y = A(x) | x ∈ RN }
11
(czasem używa się symbolu R(A)). Jest jasne, że Ker A i Im A są podprzestrzeniami liniowymi
odpowiednio w RN i RM ; stąd dim Ker A ≤ N i dim Im A ≤ M. Dobrze znane i bardzo ważne
twierdzenia Kroneckera-Capelliego orzeka, że
dim Ker A + dim Im A = N,
z którego wynika, że przekształcenie A jest injekcją wtedy i tylko wtedy, gdy N ≤ M i
dim Im A = N (lub równoważnie: Ker A = {0}) oraz A jest surjekcją wtedy i tylko wtedy,
gdy N ≥ M i dim Im A = M (lub równoważnie: dim Ker A = N − M).
Przekształcenia liniowe injektywne nazywa się monomorfizmami, surjektywne – epimorfizmami, zaś bijektywne – izomorfizmami. Zauważmy, że jeśli przekształcenie liniowe A ∈
L(RN , RM ) jest bijekcją (izomorfizmem), to N = M i przekształcenie odwrotne A−1 : RN → RN
jest także liniowe (sprawdzić).
Jeśli A : RN → RM jest przekształceniem liniowym, to przekształcenie transponowane
AT : RM → RN zdefiniowane jest następująco: dla y ∈ RM ,
AT (y) := x ∈ RN ⇐Ñ dla dowolnego z ∈ RN , hz, xi = hA(z), yi.
Łatwo zobaczyć, że AT jest poprawnie zdefiniowanym przekształceniem liniowym i
Im AT = (Ker A)⊥ , Ker AT = (Im A)⊥ .
Pokażemy dla przykładu pierwszą równość. Jeśli x = AT (y), gdzie y ∈ RM , oraz z ∈ Ker A,
to hz, xi = hA(z), yi = 0, czyli x ∈ (Ker A)⊥ . To dowodzi, że Im AT ⊂ (Ker A)⊥ . Pokażemy
teraz, że (Im AT )⊥ ⊂ Ker A; to wystarczy, gdyż wówczas Im AT = (Im AT )⊥⊥ ⊃ (Ker A)⊥ . Niech
z ∈ (Im AT )⊥ ; zatem dla każdego y ∈ RM , hA(z), yi = hz, AT (y)i = 0. Stąd A(z) = 0 i z ∈ Ker A.
Z podanych wzorów i twierdzenia Kroneckera-Capelliego wynika, że
(1.2.4)
dim Im AT = dim(Ker A)⊥ = N − dim Ker A = dim Im A (3 ).
Poza tym widzimy, że A jest monomorfizmem (odp. epimorfizmem) wtedy i tylko wtedy, gdy
AT jest epimorfizmem (odp. monomorfizmem).
Przypomnijmy, że już powyżej zdefiniowaliśmy rzutowanie πj : RN → R, j = 1, ..., N, na
j-tą współrzędną, tzn. πj (x) = xj dla x = (x1 , ..., xN ) ∈ RN . Jest to oczywiście przekształcenie
liniowe oraz
πj (x) = hx, ej i, x ∈ RN , j = 1, ..., N,
gdzie – jak zwykle – ej jest j-tym wektorem z bazy kanonicznej w RN .
PRZYKŁAD: Jeśli A = [aij ] i=1,...,M ∈ MMN , to przekształcenie A : RN → RM dane, dla x =
j=1,...,N
(x1 , ..., xN ) ∈ RN , wzorem A(x) =: y = (y1 , ..., yM ), gdzie
y := A · x,
P
tzn. yi = N
j=1 aij xj , j = 1, ..., M, jest przekształceniem liniowym (byłoby wskazane, by Czytelnik to dokładnie sprawdził).
Powyższy przykład jest uniwersalny w tym sensie, że dla dowolnego przekształcenia A ∈
L(RN , RM ) istnieje (dokładnie jedna) macierz A = [aij ] i=1,...,M ∈ MMN taka, że A(x) = A · x
j=1,...,N
3
W tym miejscu trzeba zauważyć, że RN = Ker A ⊕ (Ker A)⊥ , więc N = dim Ker A + dim(Ker A)⊥ .
12
dla każdego x ∈ RN (utożsamionego z x = [x1 , ..., xn ]T ). W tym celu wystarczy przyjąć, że dla
i = 1, ..., M i j = 1, ..., N
aij := πi ◦ A(ej ),
(1.2.5)
gdzie ej jest j-tym wektorem z bazy kanonicznej w RN , zaś πi : RM → R jest rzutowaniem
na i-tą współrzędną. Innymi słowy j-tą kolumnę macierzy A tworzy wektor A(ej ), j = 1, ..., N.
Pozostawiamy Czytelnikowi sprawdzenie, że wówczas rzeczywiście
A(x) = A · x
P
dla każdego x ∈ RN , tzn. A(x) = y, gdzie yi = N
j=1 aij xj dla i = 1, ..., M.
Warto też zwrócić uwagę na następujący wzór
(1.2.6)
πi ◦ A(x) =
N
X
aij xj , x = (x1 , ..., xN ), i = 1, ..., M.
j=1
Można również (będąc ostrożnym jeśli chodzi o notację) napisać
aij = hei , A(ej )i, i = 1, ..., M, j = 1, ..., N,
gdzie „pierwsze” ei oznacza i-ty wektor z bazy kanonicznej w RM , zaś „drugie” ej oznacza
j-ty wektor z bazy kanonicznej w RN (tego typu „błąd” notacyjny, czy raczej nonszalancja,
nie powinien jednak prowadzić do nieporozumień dla uważnego Czytelnika; nieraz jeszcze
będziemy mieć do czynienia z taką sytuacją).
Tak skonstruowaną macierz A nazywamy stowarzyszoną z przekształceniem A i, na odwrót, przekształcenie liniowe A wyznaczone przez macierz A nazywamy stowarzyszonym z
macierzą.
Na przykład przekształcenie identycznościowe I : RN → RN (I(x) := x dla każdego x ∈ RN )
jest stowarzyszone z macierzą jednostkowa I := [δij ] i=1,...,n (jest to macierz kwadratowa, która
j=1,...,n
ma na „przekątnej” jedynki, zaś pozostałe współczynniki są zerami).
ĆWICZENIE: Znaleźć macierz przekształcenia: A : R3 → R2 danego wzorem
A(x, y, z) = (x − y + z, x + 3z), (x, y, z) ∈ R3 .
Pokazaliśmy więc, że istnieje wzajemnie jednoznaczna odpowiedniość pomiędzy zbiorami
(a właściwie izomorfizm pomiędzy przestrzeniami liniowymi) L(RN , RM ) przekształceń liniowych i MMN macierzy (M × N)-wymiarowych. Odpowiedniość ta jest bijekcją a nawet – jak
łatwo zobaczyć – izomorfizmem liniowym, tzn. dla przekształceń A, B ∈ L(RN , RM ), z którymi
stowarzyszone są macierze A, B ∈ MMN , sumie A+B odpowiada macierz A+B, zaś iloczynowi
λA, gdzie λ ∈ R, odpowiada macierz λA. Izomorfizm ten pozwala utożsamiać przekształcenie
A ∈ L(RN , RM ) z macierzą A ∈ MMN z nim stowarzyszoną. W dalszym ciągu często będziemy dokonywać tego utożsamienia bez specjalnych komentarzy i nawet niekiedy używać tego
samego symbolu A dla oznaczenia przekształcenia i macierzy z nim stowarzyszonej (należy
jednak pamiętać, że formalnie rzecz biorąc, są to różne obiekty).
Jest jeszcze jedna miła okoliczność. Otóż, jeżeli B : RK → RN i A : RN → RM są przekształceniami liniowymi, z którymi stowarzyszone są macierze B ∈ MNK i A ∈ MMN , to ze
złożeniem A ◦ B : RK → RM stowarzyszony jest iloczyn macierzowy A · B ∈ MMK .
Warto też zauważyć, że jeśli z przekształceniem A ∈ L(RN , RM ) stowarzyszona jest macierz
13
A ∈ MMN , to obraz Im A jest podprzestrzenią w RM rozpiętą przez wektory A(ej ), j = 1, ..., N,
czyli kolumny macierzy A. Stąd wynika, że dim Im A = rank A; dlatego też można mówić o
rzędzie przekształcenia liniowego kładąc rank A = rank A.
Niech A ∈ L(RN , RM ) i niech macierz B ∈ MNM będzie stowarzyszona z przekształceniem
transponowanym AT ∈ L(RM , RN ). Wtedy, dla dowolnego y ∈ RM i z ∈ RN ,
hz, AT (y)i = zT · (B · y) = (BT · z)T · y.
Z drugiej strony, z definicji przekształcenia transponowanego
hz, AT (y)i = hA(z), yi = (A · z)T · y.
Stąd B = AT ; czyli z przekształceniem transponowanym AT stowarzyszona jest macierz transponowana AT . Stąd, między innymi, z równości (1.2.4) wynika, że
rank AT = dim Im AT = dim Im A = rank A,
co stanowi dowód wspomnianego twierdzenia o rzędzie.
Przekształcenie liniowe A ∈ L(RN , RM ) jest monomorfizmem wtedy i tylko wtedy, gdy
N ≤ M i rząd przekształcenia rank A = rank A jest maksymalny, tzn. równy N; A jest epimorfizmem, wtedy i tylko wtedy, gdy N ≥ M i rank A = M. W konsekwencji przekształcenie A
jest izomorfizmem wtedy i tylko wtedy, gdy N = M i rank A = rank A = N. W takiej sytuacji
istnieje przekształcenie odwrotne A−1 : RN → RN (tzn. A−1 ◦A = I = A ◦A−1 ) i jest ono liniowe.
Odpowiada mu (stowarzyszona z nim jest) macierz B ∈ MNN taka, że B · A = I = A · B. Tę
macierz nazywamy macierzą odwrotną do A i oznaczamy symbolem A−1 . W takim razie macierz A ∈ MMN jest odwracalna (tzn. ma macierz odwrotną) wtedy i tylko wtedy, gdy M = N
i rank A = N (mówimy wtedy też, że macierz A jest nieosobliwa).
Wykorzystując powyższą zależność rzędu macierzy i wymiaru obrazu przekształcenia liniowego z nią stowarzyszonego łatwo pokazać, że jeśli A ∈ MMN , B ∈ MNK , to rank (A · B) ≤
min{rank A, rank B}; jeżeli rank B = N, to rank (A · B) = rank A, zaś jeśli rank A = N, to
rank (A · B) = rank B (stąd wynika znane stwierdzenie, mówiące że tzw. operacje elementarne na kolumnach lub wierszach nie zmieniają rzędu macierzy). Jeśli A, B ∈ MMN , to
rank (A + B) ≤ rank A + rank B, a jeśli M = N, to rank A + rank B − N ≤ rank (A + B).
Przekształcenia liniowe φ : RN → R (czyli elementy przestrzeni L(RN , R) nazywamy funkcjonałami lub formami liniowymi. Jeżeli φ ∈ L(RN , R) jest funkcjonałem liniowym, to stowarzyszona z nim macierz ma wymiar (1 × N), tzn. jest to macierz jedno wierszowa [a1 , ..., aN ],
w której (zgodnie ze wzorem (1.2.5))
aj = φ(ej ), j = 1, ..., N.
Wobec tego, dla dowolnego x ∈ RN (wykorzystując wzory (1.2.1) i (1.2.2)) mamy
 
x1
N
 x2  X
 
φ(x) = [a1 , ..., an ] ·  .  =
aj xj = ha, xi,
 .. 
j=1
xN
gdzie a = (a1 , ..., an ).
Na odwrót, dla dowolnego a ∈ RN , funkcja φ : RN → R dana wzorem φ(x) := ha, xi, x ∈ RN ,
jest funkcjonałem liniowym. Istnieje wobec tego kolejna, już trzecia, wzajemnie jednoznaczna
14
odpowiedniość (izomorfizm): tym razem pomiędzy przestrzenią L(RN , R) funkcjonałów liniowych a przestrzenią RN (4 ).
Formalnie rzecz biorąc zdefiniowaliśmy wzajemnie jednoznaczną odpowiedniość U, w
której każdemu funkcjonałowi φ ∈ L(RN , R) odpowiada takie wektor U(φ) = a ∈ RN , że
φ(x) = hx, ai = hx, U(φ)i. Nietrudno zobaczyć, że U jest (wzajemnie jednoznacznym) przekształceniem liniowym (tzn. U(φ1 + φ2 ) = U(φ1 ) + U(φ2 ) i U(λφ) = λU(φ) dla dowolnych
φ1 , φ2 , φ ∈ L(RN , R) oraz λ ∈ R).
UWAGA: Zwyczajowo przestrzeń L(RN , R) funkcjonałów (form) liniowych oznacza się symbolem (RN )∗ i nazywa przestrzenią sprzężoną lub dualną do RN . Jest to przestrzeń liniowa. Dla
przekształcenia A ∈ L(RN , RM ) można rozważyć przekształcenie A∗ : (RM )∗ → (RN )∗ zadane
wzorem: dla dowolnego ψ ∈ (RM )∗ ,
A∗ (ψ) := φ ∈ (RN )∗ gdzie φ(x) = ψ(A(x)), x ∈ RN .
Ponieważ U : (RN )∗ → RN , można więc określić złożenie U ◦ A∗ ◦ U −1 : RM → RM (ale uwaga:
tutaj „pierwsze” z lewej U działa z (RN )∗ do RN , zaś „drugie” – z (RM )∗ do RM ). Sprawdzimy,
że AT = U ◦ A∗ ◦ U −1 : RM → RM . Oznaczmy P := U ◦ A∗ ◦ U −1 . Rzeczywiście, jeśli y ∈ RM ,
to U −1 (y) := ψ ∈ (RM )∗ , gdzie ψ(z) = hz, yi dla z ∈ RM . Następnie A∗ (ψ) := φ ∈ (RN )∗ , gdzie
φ(x) = ψ(A(x)) dla dowolnego x ∈ RN . Wreszcie U(φ) := a ∈ RN , gdzie dla dowolnego x ∈ RN ,
hx, ai = φ(x). Zatem P(y) = a, gdzie hx, ai = φ(x) = ψ(A(x)) = hA(x), yi dla każdego x ∈ RN .
Tak więc P(y) = AT (y).
Uznając, że odpowiedniość U jest „ukryta” w utożsamieniu (RN )∗ z RN , często nie rozróżnia
się przekształceń AT i A∗ (nazywając je przekształceniem sprzężonym).
1.2.1 LEMAT (o anulatorze): Załóżmy, że φ ∈ L(RN , R), A ∈ L(RN , RM ). Wówczas Ker A ⊂ Ker φ
wtedy i tylko wtedy, gdy istnieje funkcjonał Λ ∈ L(RM , R) taki, że φ = Λ ◦ A.
DOWÓD: Dostateczność jest oczywista. Wykażemy konieczność. Przypuśćmy, że φ 6= 0 (jeśli
φ = 0, to teza jest oczywista, o ile przyjąć, że Λ = 0). Identyfikujemy φ z niezerowym wektorem
a ∈ RN taki, że φ(x) = hx, ai dla dowolnego x ∈ RN .
Przypuśćmy, że a 6∈ X := Im AT = AT (RM ), gdzie AT ∈ L(RM , RN ) jest operatorem sprzężonym (transponowanym) do A. Wówczas RN = X ⊕ X ⊥ (suma prosta) i a = a1 + a2 , gdzie
a1 ∈ X i a2 ∈ X ⊥ . Zauważmy, że a2 6= 0, bo gdyby a2 = 0, to a = a1 ∈ X. Skoro a2 ∈ X ⊥ , to
ha2 , xi = 0 dla dowolnego x ∈ X; a więc dla każdego z ∈ RM ,
0 = ha2 , AT (z)i = hA(a2 ), zi.
W takim razie A(a2 ) = 0, czyli a2 ∈ Ker A ⊂ Ker φ i
0 = φ(a2 ) = ha2 , ai = ha2 , a1 + a2 i = ka2 k2 .
Wobec tego a2 = 0: sprzeczność.
Pokazaliśmy, że a ∈ AT (RM ). Istnieje wobec tego z ∈ RM takie, że a = AT (z). Stąd, dla
4
Podczas pierwszej identyfikacji utożsamiamy RN z przestrzenią macierzy MN1 , podczas drugiej: przestrzeń
L(RN , RM ) z MMN , a podczas trzeciej RN z M1N . Istnieje bardzo formalna metoda pozwalająca zrobić porządek
w przyjmowanych przez nas utożsamieniach. Otóż biorąc pod uwagę drugą z identyfikacji, utożsamiając RN z
MN1 de facto utożsamiamy RN z przestrzenią L(R, RN ), zaś utożsamiając RN z M1N de facto utożsamiamy RN z
przestrzenią L(RN , R). Ja widać formalne znaczenie obu identyfikacji jest zasadniczo różne. Wyjaśnienie tej istotnej
różnicy będzie zrozumiałe dla wszystkich znających przynajmniej elementy teorii kategorii i funktorów. Ponieważ
nie mamy zamiaru wchodzić głębiej w tę teorię, powiemy tylko tyle: przyporządkowanie identyfikacyjne, w którym
przestrzeń RN identyfikujemy z MN1 jest funktorem kowariantnym, zaś przyporządkowanie identyfikacyjne, w
którym RN identyfikujemy z M1N jest funktorem kontrawariantnym.
15
dowolnego x ∈ RN ,
φ(x) = hx, ai = hx, AT (z)i = hA(x), zi = Λ ◦ A(x)
gdzie Λ(y) = hy, zi dla y ∈ RM .
1.2.C
Wyznaczniki
Przypomnijmy notację (1.2.3). Zgodnie z tą notacją, dla macierzy A = [aij ] i=1,...,N ∈ MNN piszej=1,...,N
my
A = [a1 |a1 |...|aN ],
gdzie aj jest j-tą kolumną macierzy A.
Wyznacznikiem nazywamy funkcję det : MNN → R spełniającą następujące własności:
(i) (Liniowość ze względu na kolumny) Dla dowolnych kolumn (wektorów) a, b ∈ RN oraz
λ ∈ R,
det[...|a ± b|...] = det[...|a|...] ± det[...|b|...], det[...|λa|...] = λ det[...|a|...];
(ii) (Skośna symetryczność) dla dowolnych wektorów a, b ∈ RN ,
det[...|a|b|...] = − det[...|b|a|...](5 )
(iii) (Normalizacja) det I = 1, gdzie I jest macierzą jednostkową.
Z własności (ii) wynika, że jeśli macierz A ma dwie jednakowe kolumny, to det A = 0;
ogólniej z własności (i), (ii) oraz (iii) wynika, że det A = 0 wtedy i tylko wtedy, gdy rank A < N
(tzn. wtedy i tylko wtedy, gdy macierz jest nieosobliwa).
Można wykazać, że istnieje tylko jedna funkcja o podanych własnościach, a wyznacznik
macierzy A = [aij ] można wyliczyć posługując się następującym wzorem rekurencyjnym Laplace’a. Niech Mij (A) oznacza macierz wymiaru (N −1)×(N −1) powstałą poprzez wykreślenie
i-tego wiersza i j-tej kolumny w macierzy A, tzn.


a11 ... a1,j−1 a1,j+1 ... a1N
 .
..
..
.. 
..
..
 .

.
.
.
.
. 
 .
a

 i−1,1 ... ai−1,j−1 ai−1,j+1 ... ai−1,N 
Mij (A) = 
.
 ai+1,1 ... ai+1,j−1 ai+1,j+1 ... ai+1,N 


 ..
..
..
.. 
.
.
.
.
 .
.
.
.
.
. 
aN1 ... aN,j−1 aN,j+1 ... aNN
Wtedy, dla dowolnego j = 1, ..., N, ma miejsce tzw. rozwinięcie Laplace’a względem j-tej kolumny
N
X
det A =
(−1)i+j aij det Mij (A)
i=1
5
Równoważnie: dla dowolnej permutacji σ ∈ SN (6 ) i dowolnych wektorów aj , j = 1, ..., N,
det[a1 |a2 |...|aN ] = sgn σ det[aσ(1) |aσ(2) |...|aσ(N) ].
16
lub, dla dowolnego i = 1, ..., N, rozwinięcie względem i-tego wiersza
det A =
N
X
(−1)i+j aij det Mij (A).
j=1
Wyrażenie (−1)i+j det Mij (A) nazywa się dopełnieniem algebraicznym wyrazu aij macierzy A.
Warto zauważyć, że jeśli det A 6= 0, to dla dowolnego i = 1, ..., N (odp. dla j = 1, ..., N)
istnieje j = 1, ..., N (odp. i = 1, ..., N) takie, że aij det Mij (A) 6= 0.
Inny ważny wzór (który często przyjmuje się jako definicję wyznacznika) orzeka, że
X
(1.2.7)
det A =
sgn σ a1σ(1) a2σ(2) ...aNσ(N) ,
σ∈SN
gdzie SN oznacza zbiór permutacji zbioru {1, ..., N}, zaś sgn σ jest znakiem permutacji σ ∈ SN .
Wiadomo (i jest to oczywiste w świetle podanych wzorów), że dla każdej macierzy A ∈
MNN ,
det A = det AT
oraz ma miejsce tzw. wzór Cauchy’ego-Bineta (7 ):
det A · B = det A det B,
gdzie B ∈ MNN . Ponadto
det(−A) = (−1)N det A.
ĆWICZENIE: Oblicz wyznacznik macierzy

8
1
A=
0
1
4
0
1
0

5 −1
4 2

3 2
2 0
Wzór rekurencyjny Laplace’a pozwala na obliczenie współczynników macierzy odwrotnej
= [bij ] do macierzy nieosobliwej A ∈ MNN . Przypuśćmy, że ta macierz jest odwracalna;
wtedy A · A−1 = I i 1 = det(A · A−1 ) = det A det A−1 , czyli det A 6= 0 i det A−1 = det1 A . Ponadto
można wykazać, że dla dowolnych i, j = 1, ..., N,
A−1
bij =
ĆWICZENIE: Znajdź macierz
2
1
(−1)i+j det Mji (A)
.
det A
X spełniającą równanie:
1 6 −10
5
1 −1
·X=
+
.
3
1 2
2 2 −2
Jeśli det A 6= 0, to kolumny macierzy są liniowo niezależne (gdyby tak nie było, to –
zgodnie z przyjętą definicją – wyznacznik by znikał); zatem rank A = N. Tym samym widzimy,
że macierz A jest nieosobliwa wtedy i tylko wtedy, gdy det A 6= 0.
7
Jacques Philippe Marie Binet (ur. 2 lutego 1786 w Rennes, zm. 12 maja 1856 w Paryżu) – francuski matematyk,
fizyk i astronom. Jacques Philippe Marie Binet był absolwentem École Polytechnique, a następnie wykładowcą
na tej uczelni. Zajmował się teorią liczb i algebrą macierzy, jest autorem jawnego wzoru na n-ty wyraz ciągu
Fibonacciego. Od 1823 roku przez ponad 30 lat zajmował katedrę astronomii w Colle‘ge de France. 1 maja 1821
roku został odznaczony Legią Honorową V klasy, w 1843 roku wybrany na członka Francuskiej Akademii Nauk.
17
Jeśli A ∈ L(RN , RN ) jest przekształceniem liniowym, to wyznacznikiem A nazwiemy liczbę
det A := det A, gdzie A ∈ MNN jest macierzą stowarzyszoną A.
Warto też pamiętać, że dla dowolnej macierzy A ∈ MMN , rank A = r wtedy i tylko, gdy
istnieje podmacierz kwadratowa B macierzy A wymiaru (r × r) (tzn. macierz powstająca z A
poprzez wykreślenie M − r wierszy i N − r kolumn; przypomnijmy, że rank A ≤ min{M, N}),
której wyznacznik det B 6= 0 i każda podmacierz kwadratowa wymiaru (s × s), gdzie s > r, ma
wyznacznik równy 0.
1.2.D
Układy równań liniowych
Rozważmy następujący układ

a11 x1



 a21 x1
..

.



aM1 x1
M równań z N niewiadomymi
+ a12 x2
+ a22 x2
+ ... + a1N xN
+ ... + a2N xN
+ aM2 x2 + ... + aMN xN
= b1
= b2
..
.
= bM .
w którym liczby aij oraz bi dla i = 1, ..., M, j = 1, ..., N są dane, zaś poszukiwane są liczby xj ,
j = 1, ..., N, zadośćczyniące powyższym równościom.
Z układem tym stowarzyszamy tzw. macierz

a11 a12
 a21 a22

A= .
..
 ..
.
aM1 aM2
układu, tzn. macierz A = [aij ] i=1,...M lub
j=1,...,N

... a1N
... a2N 

..  .
..
.
. 
... aMN
Wówczas rozwiązanie polega na znalezienia takiego wektora x = [x1 , ..., xN ]T , że
A · x = b,
gdzie b = [b1 , ..., bM ]T jest tzw. kolumną wyrazów wolnych (jest to, jak widać, wektor w RM ).
Tak więc rozwiązanie danego układu de facto sprowadza się do znalezienia rozwiązania x ∈
RN takiego, że A(x) = b, gdzie A jest przekształceniem liniowym odpowiadającym macierzy
A.
Układ, który nie ma rozwiązań, nazywa się sprzecznym; jeżeli zbiór rozwiązań układu
jest niepusty, to nazywa się go niesprzecznym. Układ niesprzeczny, który ma dokładnie jedno
rozwiązanie, nazywa się oznaczonym; układy o więcej niż jednym rozwiązaniu nazywa się nieoznaczonymi -– w taki przypadku układ ma nieskończenie wiele rozwiązań. Układ niedookreślony, w którym jest mniej równań niż niewiadomych, tzn. M < N jest na ogół nieoznaczony;
układ nadokreślony mający więcej równań niż niewiadomych (tzn. gdy M > N) zazwyczaj jest
sprzeczny; zaś układ, który ma tyle równań co niewiadomych (N = M) jest często oznaczony.
Z twierdzenie Kroneckera-Capellego wynika następujący podstawowy fakt.
1.2.2 TWIERDZENIE (Kroneckera-Capellego-Rouché (8 )): Niech A ∈ MMN . Wówczas:
(1) jeśli N > M, to układ Ax = 0 ma rozwiązanie x 6= 0;
8
Eugéne Rouché (ur. 18 sierpnia 1832 w Sommiéres, zm. 19 sierpnia 1910 w Lunel) – matematyk francuski. Był
absolwentem słynnej École Polytechnique w Paryżu, która ukończył w 1852 r. Następnie pracował jako nauczyciel
matematyki w (nie mniej słynnym) liceum Karola Wielkiego, profesor w École Centrale. Znane jest jego twierdzenie z analizy zespolonej (twierdzenie Rouché’go) opublikowane w 1862 r., a także sformułowany to rezultat z
algebry liniowej.
18
(2) układ Ax = b ma rozwiązanie (jest niesprzeczny) wtedy i tylko wtedy, gdy
rank A = rank [a1 |a2 |...|aN |b],
przy czym wówczas zbiór rozwiązań tworzy podprzestrzeń afiniczną wymiaru N − rank A;
w szczególności jest to układ oznaczony, gdy rank A = N;
(3) jeśli N = M, to układ Ax = b ma rozwiązanie dla dowolnego b wtedy i tylko wtedy,
gdy układ Ax = 0 ma jedynie rozwiązanie zerowe.
Macierz Au := [a1 |a2 |...|aN |b], o której mowa w powyższym twierdzenie nazywa się macierzą dołączoną i powstaje poprzez „dopisanie” po prawej stronie do macierzy A kolumny
wyrazów wolnych (patrz też notacja (1.2.3). Oczywiście liczba liniowo niezależnych kolumn w
macierzy dołączonej może być, co najwyżej, większa niż liczba tego rodzaju kolumn w macierzy układu; zatem rank Au ≥ rank A. Warto by Czytelnik przypomniał z wykładu algebry
liniowej metody rozwiązywania układów niesprzecznych.
W świetle twierdzenia Kroneckera-Capelliego układ kwadratowy Ax = b, tzn. gdy N = M,
jest oznaczony wtedy i tylko wtedy, gdy rank A = N, a więc, gdy det A 6= 0. Wtedy o jego
metodzie poszukiwania rozwiązań mówi następujące twierdzenie.
1.2.3 TWIERDZENIE (reguła Cramera (9 )): Niech A ∈ MNN będzie macierzą kwadratową i
det A 6= 0. Wtedy układ Ax = b ma dokładnie jedno rozwiązanie x = [x1 , ..., xN ]T , gdzie
xi =
det Bi
, i = 1, ..., N,
det A
gdzie Bi := [a1 |...|ai−1 |b|ai+1 |...|aN ] jest macierzą powstałą z A poprzez zastąpienie i-tej kolumny przez kolumnę wyrazów wolnych.
ĆWICZENIE: (1) Metodą Cramera rozwiązać układ równań:

 2x + y − z = −1
3x + y + z = 0

−x + 2y − 5z = 0.
(2) Wykorzystując twierdzenie Kroneckera-Capellego rozwiązać układ równań:
3x − 5y + z − 2t = 0
−x + y − z + 3t = 1.
1.2.E
Przekształcenia wieloliniowe
Rozważymy jedynie szczególny przypadek. Dla k ∈ N, przekształcenie
N
A : RkN = R
... × RN} → RM
| × {z
k
nazywamy k-liniowym, jeśli dla każdego i = 1, ..., k przekształcenie A jest liniowe jako funkcja
i-tej zmiennej, przy ustalonych pozostałych zmiennych. Tzn. dla dowolnych skalarów α, β ∈ R
9
Gabriel Cramer (ur. 31 lipca 1704 w Genewie, zm. 4 stycznia 1752) – szwajcarski matematyk i fizyk. Był uczniem
Johanna Bernoulliego (opublikował jego dzieła) i profesorem uniwersytetu w Genewie. Cramer opublikował szereg
prac z zakresu teorii wyznaczników (wzory Cramera), analizy matematycznej, teorii krzywych algebraicznych (m.in.
badał własności tzw. diabelskiej krzywej) oraz historii matematyki. W 1728 podał propozycję rozwiązania tzw.
paradoksu petersburskiego. W 1750 r. podaje (sformułowane poniżej) wzory (ponoć już wcześniej odkryte przez
Colina Maclaurina w 1729 r.) wyrażające rozwiązanie układu równań za pomocą wyznaczników.
19
oraz x1 , x2 , ..., xi−1 , xi0 , xi00 , xi+1 , ..., xk ∈ RN
A(x1 , ..., xi−1 , αxi0 + βxi00 , xi+1 , .., xk ) =
αA(x1 , ...xi+1 , xi0 , xi+1 , ..., xk ) + βA(x1 , ..., xi−1 , xi00 , xi+1 , ..., xk ).
Zbiór przekształceń k-liniowych oznaczamy symbolem Lk (RN , RM ). Tworzy on przestrzeń
liniową z dodawaniem i mnożeniem przez liczby rzeczywiste zdefiniowanymi w oczywisty sposób. Zauważmy, że L(RN , RM ) = L1 (RN , RM ).
Przekształcenie k-liniowe A : RkN → RM jest symetryczne, jeżeli dla dowolnej permutacji
σ ∈ Sk oraz x1 , ..., xk ∈ RN ,
A(x1 , ..., xk ) = A(xσ(1) , ..., xσ(k) );
oraz skośnie symetryczne lub alternujące, jeżeli
A(x1 , ..., xk ) = sgn σA(xσ(1) , ..., xσ(k) ).
Zbiór symetrycznych (odp. alternujących) przekształceń k-liniowych oznaczamy Lsk (RN , RM )
(odp. Lak (RN , RM )).
ĆWICZENIE: Sprawdzić, że zbiory Lsk (RN , RM ) i Lak (RN , RM ) są podprzestrzeniami liniowymi w
Lk (RN , RM ).
Podobnie jak w przypadku przekształceń liniowych, z każdym przekształceniem k-liniowym
A : RkN → RM można stowarzyszyć macierz wielowskaźnikową (a konkretnie (k+1)-wskaźnikową)
A = [aij1 j2 ...jk ] i=1,...,M , gdzie
js =1,...,N, s=1,...,k
aij1 ...jk := hei , A(ej1 , ..., ejk ), i = 1, ..., M, j1 , ..., jk ∈ {1, ..., N},
gdzie – jak poprzednio – ei jest i-tym wersorem osi w RM , zaś ejs , s = 1, ..., k, jest js -tym wersorem osi w RN . Zatem dla dowolnych x1 , ..., xk ∈ RN , gdzie dla s = 1, ..., k, xs = (xs1 , ...xsN ),
A(x1 , ..., xk ) = y = (y1 , ..., yM ), gdzie
(1.2.8)
yi =
N
X
aij1 ...jk x1j1 · ... · xkjk , i = 1, ..., M.
j1 ,...jk =1
Jeśli przekształcenie k-liniowe A jest symetryczne, to dla dowolnych i = 1, ..., M, j1 , ..., jk ∈
{1, ..., M} i dowolnej permutacji σ ∈ Sk ,
(1.2.9)
aij1 j2 ...jk = aijσ(1) jσ(2) ...jσ(k) ,
tzn. liczba aij1 ...jk nie zależy od porządku wskaźników.
Z obserwacją tą wiąże się pewna przydatna konwencja notacyjna, którą teraz pokrótce
omówimy.
Notacja multiindeksowa
10
N-wymiarowym multiindeksem nazywamy uporządkowany układ α = (α1 , α2 , ..., αN ) ∈ ZN
+ ( )
liczb całkowitych nieujemnych αj (j = 1, ..., N). Dla danych α = (α1 , ..., αN ), β = (β1 , ..., βN ) ∈ ZN
+
10
Z+ := {0.1, ...}.
20
wprowadzamy oznaczenia:
α ± β := (α1 ± β1 , ...αN ± βN ), |α| :=
N
X
αj , α! := α1 !...αN !,
j=1
α ≤ β ⇔ ∀ j = 1, ..., N αj ≤ βj
oraz, jeśli α ≤ β, to
β
β!
:=
.
α!(β − α)!
α
Liczbę |α| nazywa się zwykle długością multiindeksu α. Ponadto, dla danego wektora x =
(x1 , ..., xN ) ∈ RN , kładziemy
x α = x1α1 ...xNαN .
ĆWICZENIE: Aby zrozumieć użyteczność wprowadzonej notacji, polecamy Czytelnikowi wyprowadzenie wzoru
X
n! α
h .
(x1 + ... + xN )n =
α!
N
α∈Z+ , |α|=n
Przypuśćmy teraz, że A ∈ Lsk (RN , RM ). Niech x = (x1 , ..., xN ) ∈ RN . Zgodnie ze wzorem
(1.2.8), jeśli y = A(x, x, ..., x) i y = (y1 , ..., yM ), to
(1.2.10)
yi =
N
X
aij1 ...jk xj1 · ... · xjk dla i = 1, ..., M.
j1 ,...,jk =1
We wzorze tym sumowanie odbywa się po wszystkich k-elementowych układach uporządkowanych (j1 , ..., jk ), w których js = 1, ..., N dla s = 1, ..., k. Ponieważ A jest odwzorowaniem
symetrycznym, ma zatem miejsce zależność (1.2.9), i iloczyn xj1 ...xjk nie zależy od porządku w
wybranym układzie, więc składnik aij1 ...jk xj1 ...xjk również nie zależy od porządku. Powiemy, że
układy (j1 , ..., jk ) oraz (i1 , ..., ik ) są równoważne, gdy różnią się jedynie porządkiem elementów.
Innymi słowy, jeżeli układy (j1 , ..., jk ) i (i1 , ..., ik ) są równoważne, to
aij1 ...jk xj1 ...xjk = aii1 ...ik xi1 ...xik ,
tak więc równoważne układy dają ten sam wkład do wzoru (1.2.10). Każdemu układowi postaci
(j1 , ..., jk ) można przyporządkować multiindeks α = (α1 , ..., αN ) ∈ ZN
+ , gdzie αj , dla j = 1, ..., N,
jest liczbą wystąpień liczby j w układzie (j1 , ..., jk ). Jest jasne, że wówczas |α| = k oraz
aij1 ...jk xj1 · ... · xjk = aiα x α ,
(∗)
gdzie przyjęliśmy aiα = aij1 ...jk tzn.
aiα = hei , A(ej1 , ..., ejk )i, i = 1, ..., M, α ∈ ZN
+ , |α| = k.
Jest jasne, że układom równoważnym odpowiada ten sam multiindeks. Na odwrót, danemu
multiindeksowi α ∈ ZN
+ o długości |α| = k można przyporządkować układ (j1 , ..., jk ), w którym 1 występuje α1 razy, 2 występuje α2 razy itd. Opisane przyporządkowania są wzajemnie
jednoznoznaczne w tym sensie, że układom równoważnym odpowiada ten sam multiindeks,
zaś układy odpowiadające multiindeksowi są równoważne. Mówiąc nieco „mądrzej” opisaliśmy
bijekcję pomiędzy zbiorem klas abstrakcji relacji równoważności układów postaci (j1 , ..., jk ) a
zbiorem multiindeksów α ∈ ZN
+ o długości k. Należy jeszcze obliczyć liczebność każdej z klas
21
abstrakcji tej relacji, tzn. obliczyć ile układów odpowiada danemu multiindeksowi α ∈ ZN
+ o
długości k.
ĆWICZENIE: Stosując indukcję matematyczną nietrudno udowodnić, że liczba ta wynosi
Wobec tego każde wyrażenie (∗) występuje we wzorze
można napisać
yi =
(1.2.11)
X
α∈ZN
+ , |α|=k
k!
α!
k!
α!
razy. A zatem zamiast (1.2.10)
k!
aiα x α dla i = 1, ..., M.
α!
Czytelnik musi przyznać, że otrzymany wzór (1.2.11) jest znacznie bardziej „ekonomiczny” niż
wzór (1.2.10).
W szczególności, jeśli φ : R2N → R jest przekształceniem 2-liniowym (mówi się, że φ
jest funkcjonałem dwuliniowym lub formą dwuliniową), to stowarzyszona jest z nim macierz
kwadratowa A = [aij ] i=1,...,N ∈ MNN , gdzie aij = φ(ei , ej ) (tutaj ei (odp. ej ) jest i-tym (odp. j-tym)
j=1,...,N
wersorem osi w RN ) oraz dla x = (x1 , ...xN ) ∈ RN oraz y = (y1 , ..., yN ) ∈ RN ,
φ(x, y) =
N
X
aij xi yj .
i,j=1
Łatwo dostrzec, że
φ(x, y) = hx, A(y)i = xT · A · y,
gdzie – jak zwykle – wektory x i y (zapisane w postaci kolumnowej!) odpowiadają x i y,
natomiast A jest przekształceniem liniowym stowarzyszonym z macierzą A.
Stąd wynika następująca charakteryzacja form dwuliniowych: przekształcenie φ : RN ×
→ R jest dwuliniowe wtedy i tylko wtedy, gdy istnieje przekształcenie liniowe A : RN → RN
takie, że
φ(x, y) = hx, A(y)i, x, y ∈ RN .
RN
Dla dowodu wystarczy zauważyć, że tym istniejącym przekształceniem liniowym jest przekształcenie stowarzyszone z macierzą A.
Jest jasne, że forma dwuliniowa φ ∈ L2 (RN , R) jest symetryczna wtedy i tylko wtedy, gdy
macierz A z nią stowarzyszona jest symetryczna, tzn. A = AT oraz alternująca, gdy A = −AT
(w szczególności aii = 0 dla dowolnego i = 1, ..., N.
1.2.F
Formy kwadratowe i ich określoność
Niech φ ∈ L2 (RN , R) będzie formą dwulinową. Funkcję F : RN → R daną wzorem
F(x) := φ(x, x), x ∈ RN ,
nazywa się funkcjonałem kwadratowym lub formą kwadratową.
UWAGA: (i) Funkcja F : RN → R jest formą kwadratową wtedy i tylko wtedy, gdy dla dowolnych λ ∈ R i x ∈ RN , F(λx) = λ 2 F(x) oraz przekształcenie ψ : RN × RN → R, dane wzorem
ψ(x, y) := 21 (F(x + y) − F(x) − F(y)) dla x, y ∈ RN , jest symetryczną formą dwuliniową (mówimy też, że symetryczna forma dwuliniowa ψ odpowiada formie kwadratowej F lub, że ją
wyznacza).
22
Konieczność podanego warunku jest oczywista (wystarczy zauważyć, że wtedy ψ(x, y) =
x, y ∈ RN , gdzie φ jest formą dwuliniową z definicji. Dla dowodu dostateczności wystarczy zauważyć, że F(x) = ψ(x, x) dla x ∈ RN .
1
2 (φ(x, y) + φ(y, x)),
Jeśli F : RN → R jest formą kwadratową, to stowarzyszona z nią jest macierz symetryczna
A = [aij ] i=1,...,N ∈ MNN taka, że
j=1,...,N
F(x) =
N
X
aij xi xj , x = (x1 , ..., xn ) ∈ RN ,
i,j=1
oraz
aij =
lub
1
(F(ei + ej ) − F(ei ) − F(ej )) = ψ(ei , ej ), i, j = 1, ..., N,
2
F(x) = xT · A · x = hx, A(x)i,
gdzie A ∈ L(RN , RN ) jest przekształceniem stowarzyszonym z macierzą A.
1.2.4 DEFINICJA: Mówimy, że forma kwadratowa F : RN → R jest dodatnia (odp. nieujemna,
niedodatnia, ujemna), jeżeli dla dowolnego x ∈ RN , x 6= 0, F(x) > 0 (odp. F(x) ≥ 0, F(x) ≤ 0,
F(x) < 0).
Mówimy, że forma kwadratowa jest dodatnio (odp. ujemnie) określona, jeżeli istnieje stała
c > 0 taka, że dla każdego x ∈ RN , x 6= 0, F(x) ≥ ckxk2 (odp. F(x) ≤ −ckxk2 ).
Jest jasne, że forma kwadratowa F jest ujemnie określona wtedy i tylko wtedy, gdy forma
−F jest dodatni określona.
1.2.5 FAKT: Forma kwadratowa F : RN → R jest dodatnio (odp. ujemnie) określona wtedy i
tylko wtedy, gdy jest dodatnia (odp. ujemna).
DOWÓD: Oczywiście, jeśli forma F jest dodatnio określona, to jest dodatnia. Na odwrót załóżmy,
że forma jest dodatnia. Niech c := inf x∈S N−1 F(x) (11 ). Oczywiście dla każdego x ∈ S N−1 ,
F(x) > 0. Ciągłość F wraz ze zwartością sfery S N−1 implikuje, że c > 0. Jeśli x ∈ RN oraz
x 6= 0, to kxk1 x ∈ S N−1 i c ≤ F(kxk−1 x) = kxk−2 F(x), czyli F(x) ≥ ckxk2 . To dowodzi dodatniej
określoności F. Analogicznie pokazujemy, że ujemne formy kwadratowe są ujemnie określone.
Następujące twierdzenie stanowi bardzo wygodne kryterium określoności form kwadratowych.
1.2.6 TWIERDZENIE (Sylvestera): Niech F : RN → R będzie formą kwadratową, zaś A =
[aij ] i=1,...,N macierzą z nią stowarzyszoną. Forma jest dodatnio (odp. ujemnie) określona wtedy
j=1,...,N
i tylko wtedy, gdy dla dowolnego i = 1, ..., N, det Ai > 0 (odp. (−1)i det Ai > 0), gdzie Ai oznacza macierz powstałą z macierzy A poprzez odrzucenie ostatnich N − i wierszy i kolumn,
tzn.


a11 a12 ... a1i
a21 a22 ... a2i 


Ai =  .
..
..  .
.
.
.
 .
.
.
. 
ai1 ai2 ... aii
Niezbyt przyjemny dowód tego twierdzenia można znaleźć w dobrych podręcznikach algebry liniowej.
11
Przypomnijmy to, że S N−1 := {x ∈ RN | kxk = 1} jest tzw. (N − 1)-wymiarową sferą.
1.3. ELEMENTY TOPOLOGII PRZESTRZENI EUKLIDESOWYCH
1.3
23
Elementy topologii przestrzeni euklidesowych
1.3.A
Zbieżność ciągów
N 12
N
13
Rozważmy ciąg (xn )∞
n=1 ⊂ R ( ), gdzie xn = (xn1 , ..., xnN ) ∈ R dla n ∈ N ( ). Ciąg ten
jest zbieżny do granicy x = (x1 , ..., xN ), o ile dla dowolnego ε > 0 istnieje takie n0 ∈ N, że
kxn − xk < ε przy n ≥ n0 . Piszemy wtedy x = limn→∞ xn lub xn → x przy n → ∞
UWAGA: Mamy xn → x przy n → ∞ wtedy i tylko wtedy, gdy ciąg liczbowy (kxn − xk)∞
n=1
jest zbieżny do 0 (uzasadnić).
Dla uproszczenia notacji często piszemy (xn ) zamiast (xn )∞
n=1 oraz xn → x zamiast xn → z
przy n → ∞ licząc na domyślność Czytelników.
Ciąg jest zbieżny, gdy jest zbieżny do jakiejś granicy.
ĆWICZENIE: (i) Pokaż, że ciąg zbieżny ma jednoznacznie wyznaczoną granicę.
(ii) Udowodnij, że ciąg zbieżny jest ograniczony (tzn. zbiór jego wyrazów jest ograniczony).
(iii) Pokazać, że dowolny podciąg ciągu zbieżnego jest również zbieżny do tej samej granicy.
(iv) Pokazać, że jeśli każdy właściwy podciąg ciągu (xn ) zawiera podciąg zbieżny, to ciąg ten
jest zbieżny.
1.3.1 FAKT: Ciąg (xn ) jest zbieżny do x wtedy i tylko wtedy, gdy dla każdego j = 1, ..., N,
xj = limn→∞ xnj . Tak więc zbieżność ciągu w RN jest równoważna tzw. zbieżności po współrzędnych.
DOWÓD: Istotnie: jeśli xn → x w RN , to dla dowolnego j = 1, ..., N,
v
u N
uX
0 ≤ |xnj − xj | ≤ t (xni − xi )2 = kxn − xk → 0;
i=1
z twierdzenia o trzech ciągach wnosimy, że xnj → xj , gdy n → ∞. Na odwrót, jeżeli, dla
dowolnego j = 1, ..., N, xnj → xj , to limn→∞ (xnj − xj )2 = 0. Zatem
N
X
0 = lim
n→∞
(xnj − xj )2 .
j=1
√
Ciągłość funkcji · implikuje, że także limn→∞ kxn − xk = 0, co jest równoważne zbieżności
ciągu (xn ) do granicy x.
Warto ten fakt zilustrować „graficznie”: jeśli rozpiszemy wyrazy ciągu w postaci nieskończonej tablicy:
x1 = (x11 , x12 , ..., x1N )
x2 = (x21 , x22 , ..., x2N )
..
..
..
..
.
.
.
.
xn = (xn1 , xn2 , ..., xnN )
↓
↓
↓
↓
x = (x1 ,
x2 , ..., xN ),
12
N
Ten zapis jest niepoprawny; należałoby napisać {xn }∞
co znaczy, że zbiór wyrazów ciągu (xn ) jest
n=1 ⊂ R
zawarty w RN . Piszemy (xn ) ⊂ RN dla skrótu „(xn ) jest ciągiem o wyrazach w przestrzeni RN ”
13
Czytelnik powinien w tym miejscu zrozumieć przyjętą notację: kolejne wyrazy rozważanego ciągu zależą od
n ∈ N, poza tym oczywiście – jako elementy przestrzeni RN – posiadają współrzędne. Symbol xnj , n ∈ N, 1 ≤ j ≤ N,
odpowiada j-tej współrzędnej n-tego wyrazu ciągu.
24
w której zbieżność, przy n → ∞, ciągu stojącego w lewej kolumnie jest równoważna zbieżności
ciągów tworzących kolumny stojące po prawej stronie.
UWAGA: W przypadku ciągów o wyrazach w RN nie mówi się o granicach niewłaściwych
(przypomnieć to pojęcie w odniesieniu do ciągów liczbowych). Można jednak mówić o takich
ciągach (xn ) ⊂ RN , że kxn k → ∞. O nich także mówi się niekiedy, że „dążą do nieskończoności”.
PRZYKŁADY: Zbadać
zbieżność następujących ciągów o wyrazie ogólnym:
n−1 1 √
(1) xn = 2n+1
, 2n , n n ;
√
√
(2) xn = 2 − n1 , n2 , n + 1 − n, −1 .
ĆWICZENIE: Pokaż, że ograniczony ciąg (xn ) ⊂ RN ma podciąg zbieżny (tzw. uogólnione
twierdzenie Bolzano-Weierstrassa).
To łatwe ćwiczenie ma wiele zastosowań, a poza tym w dowodzie pojawia się dość istotne
rozumowanie. Przypuśćmy, że kxn k ≤ M dla wszystkich n ∈ N (ograniczoność zbioru {xn }∞
n=1 ).
Ustalmy j = 1, ..., N. Mamy
2
xnj
≤
N
X
2
xni
= kxn k2 ≤ M 2 , n ∈ N.
i=1
Oznacza to, że ciąg (liczbowy) (xnj )∞
n=1 jest ograniczony. Z (klasycznego) twierdzenie BolzanoWeierstrassa ciąg (xnj ) ma podciąg zbieżny.
Problem w tym, że taki podciąg zależy od liczby j. Aby ten problem rozstrzygnąć rozważmy szczególny przypadek: N = 2. W pierwszym kroku wybieramy podciąg zbieżny ciągu
(xn1 ). Powiedzmy, że jest to ciąg o numerach n1 < n2 < ..., tzn. wiemy, że ciąg (xnk 1 )∞
k=1 jest
∞
zbieżny do granicy x1 . W drugim kroku rozważamy ciąg drugich współrzędnych (xnk 2 )k=1 . Jest
to podciąg ciągu (xn2 ); niestety nie musi być zbieżny, lecz – jako podciąg ciąg ograniczonego –
jest on ograniczony. Ma zatem podciąg zbieżny do granicy x2 ; jest to podciąg podciągu ciągu
(xn2 ), a zatem jest to też podciąg ciągu (xn2 ) i ma postać (xnkm 2 ), gdzie nk1 < nk2 < ... jest
podciągiem ciągu (nk )∞
k=1 . Wreszcie wracamy do zbieżnego do (pod)ciągu (xnk 1 ) zbieżnego do
x1 . Ciąg (xnkm 1 )∞
jest
jego podciągiem – jest on więc również zbieżny do x1 . Tym sposobem
m=1
uzyskaliśmy podciąg (xnkm 1 , xnkm 2 )∞
m=1 wyjściowego ciągu (xn = (xn1 , xn2 )) zbieżny do punktu
(x1 , x2 ). Czytelnik powinien uogólnić to rozumowanie na przypadek dowolnego N ≥ 2. Takie „piętrowe” rozumowanie jest obecne w wielu argumentacjach dotyczących funkcji wielu
zmiennych i każdy powinien je doskonale zrozumieć i opanować.
Przestrzeń metryczna RN jest przestrzenią zupełną, tzn.
1.3.2 TWIERDZENIE: Ciąg (xn ) ⊂ RN jest zbieżny wtedy i tylko wtedy, gdy spełnia tzw. warunek
Cauchy’ego (lub jest ciągiem Cauchy’ego), tzn. dla dowolnego ε > 0 znajdzie się taką liczbę
n0 ∈ N, że dla n, m ≥ n0 , kxn − xm k < ε.
DOWÓD: Zacznijmy od konieczności podanego warunku: zakładamy, że ciąg (xn ) jest zbieżny,
x = limn→∞ xn , i wybierzmy dowolne ε > 0. Z definicji (zbieżności) wynika, że istnieje liczba
n0 taka, że kxn − xk < ε/2, o ile n ≥ n0 . Weźmy dowolne n, m ≥ n0 . Wtedy kxn − xk < ε/2
oraz kx − xm k = kxm − xk < ε/2. Stąd
kxn − xm k = k(xn − x) + (x − xm )k ≤ kxn − xk + kx − xm k < ε/2 + ε/2 = ε.
Dla dowodu dostateczności załóżmy obecnie, że ciąg (xn ) spełnia warunek Cauchy’ego. Pokażemy, że ciąg ten jest zbieżny. W tym celu należy skonstruować punkt x = (x1 , ..., xN ) i
25
pokazać, że x = limn→∞ xn . Ustalmy numer współrzędnej j = 1, ..., N. Twierdzę, że ciąg liczbowy j-tych współrzędnych (xnj ) spełnia warunek Cauchy’ego. W tym celu weźmy ε > 0. Z
założenia znajdziemy n0 ∈ N takie, że
v
u N
uX
|xnj − xmj | ≤ t (xni − xmi )2 = kxn − xm k < ε.
i=1
Wobec tego istnieje xj = limn→∞ xnj ∈ R. Skoro xj jest wyznaczone dla dowolnego j = 1, ..., N,
to uzyskujemy punkt x := (x1 , ..., xN ) oraz xn → x przy n → ∞ (bo ma miejsce zbieżność po
współrzędnych).
UWAGA: Należy zauważyć, że jeśli ciągi (xn ) i (yn ) o wyrazach w RN sa zbieżne, to również
ciąg (xn ± yn ) jest zbieżny (udowodnić). Co np. będzie granicą ciągu sum?
Czy ma sens (w kontekście powyższego) mówić o ciągu iloczynów (xn yn ) lub ilorazów
(x + n/yn )? Czy ma sens mówić o ciągach „monotonicznych” w RN ?
ĆWICZENIE: (2) Jeśli ciąg liczbowy (λn ) jest zbieżny do 0, zaś ciąg (xn ) ⊂ RN jest ograniczony,
to λn xn → 0 (dostrzec różnicę: jedno 0 to zero „liczbowe”, drugie zero to wektor w RN – to
częsta okoliczność).
(2) Przypuśćmy, że λn ∈ R i λn → λ. Jeśli (xn ) ⊂ RN i xn → x, to λn xn → λx.
Rzeczywiście
kλn xn − λxk ≤ |λn − λ|kxn k + |λ|kxn − xk.
Pierwszy składnik dąży do 0 z pierwszej części ćwiczenia, drugi też (dlaczego?). Zatem i ich
suma dąży do 0. Reszta wynika z twierdzenia o trzech ciągach.
(3) Naśladując powyższy dowód pokazać, że jeżeli xn → x i yn → y, to hxn , yn i → hx, yi.
UWAGA: Do ciągów i manipulacji ciągami należy się dobrze przyzwyczaić: często się ich
używa.
1.3.B
Zbiory otwarte, domknięte i inne
Kulą w RN otwartą (odp. domkniętą) o środku w punkcie p ∈ RN i promieniu r > 0 nazywamy
zbiór
B(p, r) := {x ∈ RN | kx − pk < r} (odp. D(p, r) := {x ∈ RN | kx − pk ≤ r}).
Wygodnie też mówić o tzw. sąsiedztwie
S(p, r) := {x ∈ RN | 0 < kx − pk < r}.
ĆWICZENIE: Opisać analitycznie kulę otwartą i domkniętą na płaszczyźnie R2 i w przestrzeni
R3 .
UWAGA: Ciąg (xn ) ⊂ RN jest zbieżny do x, tzn. xn → x, o ile każda kula o środku w x
zawiera prawie wszystkie wyrazy ciągu (uzasadnić to stwierdzenie przypominając frazę „prawie
wszystkie).
UWAGA: Kule otwarte o środku w punkcie p nazywa się czasem jego otoczeniami, zaś sąsiedztwa otoczeniami „nakłutymi”. Terminologia jest jasna z geometrycznego punktu widzenia.
Niech A ⊂ RN . Punkt x ∈ A jest punktem wewnętrznym, gdy istnieje liczba r > 0 taka, że
B(x, r) ⊂ A.
26
ZBIORY OTWARTE Zbiór U ⊂ RN jest otwarty, gdy każdy jego punkt jest punktem wewnętrznym; a zatem: dla dowolnego x ∈ U istnieje taka liczba rx > 0 (zależna od x), że
B(x, rx ) ⊂ U.
ĆWICZENIE: (1) Pokazać, że kula otwarta B(p, r) jest zbiorem otwartym.
(2) Udowodnić, że jeśli w rodzinie {Ui }i∈I (skończonej lub nie) każdy ze zbiorów Ui ⊂ RN ,
S
i ∈ I, jest otwarty, to suma mnogościowa i∈I Ui jest zbiorem otwartym.
(3) Pokazać, że powyższy fakt jest prawdziwy dla iloczynu mnogościowego jedynie dla
rodzin skończonych.
ZBIORY DOMKNIĘTE Zbiór K ⊂ RN jest domknięty, gdy jego dopełnienie RN \ K jest
otwarte.
PRZYKŁAD: Kula domknięta D(p, r) jest zbiorem domkniętym.
Rzeczywiście: pokażemy, że dopełnienie RN \ D(p, r) jest otwarte. Weźmy x 6∈ D(p, r),
tzn. kx − pk > r. Niech rx = kx − pk − r > 0. Pokażemy, że B(x, rx ) ⊂ RN \ D(p, r), tzn.
B(x, rx ) ∩ D(p, r) = ∅. Gdyby tak nie było, to znalazłby się punkt y ∈ B(x, rx ) ∩ D(p, r), czyli
kx − yk < rx oraz kp − yk ≤ r; a więc
kx − pk ≤ kx − yk + ky − pk < rx + r = kx − pk :
sprzeczność.
ĆWICZENIE: Iloczyn mnogościowy dowolnej rodziny zbiorów domkniętych jest domknięty,
a suma skończonej rodziny zbiorów domkniętych jest domknięta.
ĆWICZENIE: (1) Który ze zbiorów z ćwiczenia ze strony 6 jest otwarty, a który domknięty?
(2) Wykaż, że zbiór par (p, q) takich, że trójmian x 2 + px + q ma pierwiastki rzeczywiste
jest zbiorem domkniętym.
1.3.3 TWIERDZENIE: (Ciągowa charakteryzacja domkniętości zbioru) Zbiór K ⊂ RN jest domknięty wtedy i tylko wtedy, gdy wraz z każdym ciągiem zbieżnym elementów zbioru K
należy doń granica, tzn. jeśli (xn ) ⊂ K i xn → x, to x ∈ K.
DOWÓD: Konieczność: Niech (xn ) ⊂ K i x = limn→∞ xn . Przypuśćmy, że x 6∈ K; czyli x ∈ RN \K.
Ten zbiór jest otwarty; zatem istnieje takie r > 0, że B(x, r) ∩ K = ∅. Z drugiej strony (ze zbieżności wynika, że) do kuli B(x, r) należą prawie wszystkie wyrazy ciągu: sprzeczność.
Dostateczność: Przypuśćmy nie wprost, że zbiór K nie jest domknięty, tzn. jego dopełnienie nie jest otwarte, czyli znajdzie się punkt x 6∈ K, który nie jest punktem wewnętrznym
dopełnienia. Innymi słowy każda kula wokół x ma punkty wspólne z K (jeszcze inaczej: x jest
punktem skupienia zbioru K). Zatem dla każdego n ∈ N znajdzie się punkt xn ∈ K ∩ B(x, 1/n).
Oznacza to, w szczególności, że xn → x (rzeczywiście 0 ≤ kxn − xk < 1/n → 0). Z założenia
x ∈ K: sprzeczność.
PUNKTY SKUPIENIA Niech p ∈ RN i A ⊂ RN . Mówimy, że p jest punktem skupienia zbioru
A, gdy dla każdego r > 0 przecięcie S(p, r) ∩ A 6= ∅. Innymi słowy w każdym otoczeniu punktu
p znajdą się punkty ze zbiory A od niego różne.
UWAGA: Punkty skupienia zbioru A nie muszą do A należeć!
ĆWICZENIE: (1) Pokazać, że p jest punktem skupienia zbioru A wtedy i tylko wtedy, gdy
istnieje ciąg (xn ) ⊂ A taki, że xn 6= p dla wszystkich n ∈ N oraz xn → p przy n → ∞.
(2) Sprawdź, że dowolny punkt p ∈ RN taki, że kpk = 4 jest punktem skupienia kuli B(0, 4).
(3) Pokazać, że zbiór K jest domknięty wtedy i tylko wtedy, gdy w jego dopełnieniu nie ma
punktów skupienia zbioru K.
27
Punkt p ∈ A, który nie jest punktem skupienia nazywa się punktem izolowanym zbioru.
BRZEG ZBIORU Brzegiem zbioru A ⊂ RN nazwiemy zbiór punktów p ∈ RN , w których
dowolnym otoczeniu znajdą się punkty zbioru A i jego dopełnienia.
ĆWICZENIE: Znaleźć brzegi zbiorów z ćwiczenia ze strony 6.
OBSZARY Mówimy, że zbiór U jest obszarem, gdy jest otwarty i jest łukowej spójności: dla
dowolnych p, q ∈ U znajdzie się taka krzywa γ : [0, 1] → RN , że p = γ(0), q = γ(1) (jest to
więc krzywa, której „końcami” są punkty p i q) o nośniku zawartym w U (tzn. γ(t) ∈ T dla
dowolnego t ∈ [0, 1].
ĆWICZENIE: (1) Czy zbiór {(x, y) ∈ R2 | 4 < x 2 + y 2 < 9} jest obszarem?
(2) Który ze zbiorów z ćwiczenia ze strony 6 jest obszarem?
UWAGA: Czasem mówi się, że obszary to zbiory otwarte i spójne. Zainteresowany Czytelnik
może sprawdzić w literaturze co oznacza, że zbiór A ⊂ RN jest spójny i sprawdzić, że w
przypadku zbiorów otwartych wspomniana wyżej łukowa spójność i spójność są równoważne.
POJĘCIE ZBIORU ZWARTEGO Powiadamy, że zbiór A ⊂ RN jest zwarty, gdy ma następującą
własność: każdy ciąg (xn ) ⊂ A zawiera podciąg zbieżny do granicy należącej do zbioru A.
UWAGA: Pojęcie zwartości jest jednym z fundamentalnych pojęć współczesnej matematyki.
ĆWICZENIE: Każdy zbiór zwarty jest ograniczony i domknięty.
Rzeczywiście, gdyby ten zbiór nie był ograniczony, to dla dowolnego n ∈ N znalazłby się w
nim punkt xn o długości kxn k > n. Ten ciąg nie może zawierać podciągu zbieżnego (dlaczego?).
Dowód domkniętości pozostawiam Czytelnikowi.
Który ze zbiorów z ćwiczenia ze strony 6 jest zwarty?
Jak się okazuje podane wyżej własności są również dostateczne dla zwartości.
1.3.4 TWIERDZENIE: (Charakteryzacja zwartości) Zbiór A ⊂ RN jest zwarty wtedy i tylko wtedy,
gdy jest ograniczony i domknięty.
DOWÓD: Konieczność była przedmiotem ćwiczenia. Dla dostateczności weźmy ciąg (xn ) ⊂ A.
Ciąg ten jest ograniczony; zatem – z uogólnionego twierdzenie Bolzano-Weierstrassa, zawiera podciąg zbieżny do pewnego x ∈ RN . Z kolei domkniętość A i ciągowa charakteryzacja
domkniętości implikują, że x ∈ A.
.
Mimo tej charakteryzacji, która – w zasadzie – umożliwia nie stosowanie pojęcia zwartości,
często będziemy mówić o zbiorach zwartych (14 ).
DOMKNIĘCIE ZBIORU Niech A ⊂ RN . Domknięciem zbioru A, oznaczanym symbolem A,
nazywamy zbiór powstały poprzez dołączenie do niego wszystkich jego punktów skupienia.
ĆWICZENIE: (ciągowa charakteryzacja domknięcia). Punkt p ∈ A wtedy i tylko wtedy, gdy
istnieje ciąg (xn ) ⊂ A taki, że xn → p.
Znaleźć domknięcie zbioru {(x, y, z) ∈ R3 | x 2 + y 2 < z2 , |z| < 1}
OŚRODKOWOŚĆ PRZESTRZENI RN Przestrzeń RN jest ośrodkowa, tzn. istnieje w niej przeliczalny podzbiór A taki, że A = RN (mówi się w takiej sytuacji, że zbiór A jest gęsty w RN .
Tym zbiorem jest np. zbiór
QN := {(q1 , ..., qn ) | qj ∈ Q, j = 1, ..., N}
(tutaj Q oznacza zbiór wszystkich liczb wymiernych).
14
W innych przestrzeniach zwartość zawsze implikuje ograniczoność i domkniętość, lecz nie na odwrót!.
28
ĆWICZENIE: Sprawdzić, że jeśli A ⊂ RN , to A jest gęsty wtedy i tylko wtedy, gdy w dowolnej
kuli znajdują się punkty ze zbioru A.
Wykorzystując tę charakteryzację wykaż, że istotnie zbiór QN jest gęsty w RN . Dlaczego
ten zbiór jest przeliczalny?
ĆWICZENIE: Pokazać, że dowolny zbiór otwarty U ⊂ RN można przedstawić w postaci
przeliczalnej sumy mnogościowej kul otwartych (a także kul domkniętych)(15 ).
OTWARTE I DOMKNIĘTE PODZBIORY DOWOLNEGO ZBIORU Niech A ⊂ RN . Mówimy, że
zbiór G ⊂ A jest otwarty (dodając dla porządku: w A), gdy G = A ∩ U, gdzie U ⊂ RN jest
otwarty.
ĆWICZENIE: Zbiór G ⊂ A jest otwarty wtedy i tylko wtedy, gdy dla dowolnego x ∈ G istnieje
εx > 0 takie, że B(x, εx ) ∩ A ⊂ G.
Analogicznie definiuje się domknięte podzbiory zbioru A: zbiór F ⊂ A jest domknięty w
A, gdy F = A ∩ K, gdzie K ⊂ RN jest domknięty.
ĆWICZENIE: Jak przy pomocy ciągów scharakteryzować domkniętość (w A) zbioru F ⊂ A?
1.4
Funkcje i odwzorowania wielu zmiennych
Jak wspomniano poprzednio głównym przedmiotem zainteresowania są odwzorowania postaci
f : A → RM ,
gdzie A ⊂ RN , N, M ≥ 1, oraz – w szczególności – funkcje f : A → R.
1.4.A
Granica funkcji w punkcie
Niech p ∈ RN będzie punktem skupienia zbioru A ⊂ RN i rozważmy funkcję f : A → R.
Granicą (właściwą) funkcji f w punkcie p nazywamy liczbę g ∈ R taką, że dla każdego
ε > 0 istnieje δ > 0 o tej własności, że jeśli x ∈ A oraz 0 < kx − pk < δ, to |f(x) − g| < ε.
Piszemy wtedy g = limx→p f(x) lub f(x) → g, gdy x → p (czasem pisząc jeszcze x ∈ A, aby
zaznaczyć jaka jest dziedzina funkcji f).
Czasem piszemy też
lim
(x1 ,...,xN )→(p1 ,...,pN )
f(x1 , ..., xN ) lub
lim
x1 →p1 ,...,xn →pn
f(x1 , ..., xn ).
Jest to tzw. definicja Cauchy’ego. Można też sformułować tzw. definicję Heinego. Według
tej definicji liczba g ∈ R jest granicą f w punkcie p, jeżeli dla dowolnego ciągu (xn ) ⊂ A
takiego, że xn 6= p dla wszystkich n ∈ N oraz xn → p, mamy iż f(xn ) → g
1.4.1 TWIERDZENIE: Definicje Cauchy’ego i Heinego granicy funkcji w punkcie są równoważne.
Dowód jest bezpośrednim powtórzeniem dowodu w sytuacji gdy f jest funkcją rzeczywista
jednej zmiennej.
Wskazówka: rozważyć zbiór A punktów leżących w U o współrzędnych wymiernych oraz kul o wymiernych
promieniach o środkach ze zbioru A całkowicie zawartych w U.
15
1.4. FUNKCJE I ODWZOROWANIA WIELU ZMIENNYCH
29
ĆWICZENIE: Przytoczyć dowód naśladując wspomniany wyżej.
UWAGA: Obie definicje są równoważne: pierwsza z nich odgrywa rolę przede wszystkim
„teoretyczną”, druga ma zastosowanie praktyczne, szczególnie podczas dowodzenia, że granica
nie istnieje. Należy zaznaczyć, że obliczanie z definicji granic funkcji wielu zmiennych nie jest
łatwe.
PRZYKŁAD: (1) Obliczyć granicę
p
lim
x→0,y→0
16 + x 2 + y 2 − 4
.
x2 + y2
W celu obliczenia granicy można postępować następująco:
1. Przede wszystkim widać, że funkcja „pod” znakiem granicy określona jest wszędzie poza
punktem (0, 0); zatem punkt ten jest punktem skupienia dziedziny. Zauważmy, że zbieżność
x → 0, y → 0 oznacza, że (x, y) → (0, 0), a to – z kolei – że kxk → 0 (byłoby korzystnie, gdyby
Czytelnik precyzyjnie to uzasadnił),a więc też k(x, y)k2 → 0. Wtedy
p
p
16 + x 2 + y 2 − 4
16 − k(x, y)k2 − 4
=
.
x2 + y2
k(x, y)k2
W taki razie
p
√
16 + x 2 + y 2 − 4
16 + t − 4
= lim
,
lim
2
2
t→0
t
x +y
(x,y)→(0,0)
gdzie podstawiliśmy t := x 2 + y 2 = k(x, y)k2 . Tak więc
√
√
√
( 16 + t − 4)( 16 + t + 4)
1
1
16 + t − 4
√
=
=√
→ .
t
8
( 16 + t + 4)t
16 + t + 4
2. Teraz można posłużyć się definicją Cauchy’ego: ustalmy dowolne ε > 0 i postaramy się
wyznaczyć taką liczbę δ > 0, że jeśli |t| < δ (czy znak modułu jest potrzebny?), to
√
16 + t − 4 1 − < ε.
t
8
Prosty rachunek pozwoli na wyznaczenie potrzebnej liczby δ (Czytelnik ten rachunek zechce
przeprowadzić).
(2) Pokażemy, że funkcja f zadana wzorem
f(x, y, z) =
xyz
x 3 + y 3 + z3
i określona na zbiorze A := {(x, y, z) ∈ R3 | x 3 + y 3 + z3 6= 0} nie ma granicy w punkcie
p = (0, 0, 0).
Przede wszystkim: punkt p = (0, 0, 0) jest punktem skupienia zbioru A (sprawdzić). W celu
wykazania, że granicy brak wystarcza wskazać dwa ciągi zbieżne do p (o wyrazach różnych od
p), np. (xn , yn , zn ) oraz (xn0 , yn0 , zn0 ) i takie, że ciągi (f(xn , yn , zn )) oraz (f(xn0 , yn0 , zn0 )) są rozbieżne
lub zbieżne do różnych granic. Gdyby granica istniała, to taka sytuacja nie byłaby możliwa.
Na przykład: weźmy xn = xn0 = yn = yn0 = zn = 1/n lecz zn0 = 0. Ciągi te spełniają podane
warunki bo f(xn , yn , zn ) = 1/3 i f(xn0 , yn0 , zn0 ) = 0 (są to ciągi stałe) a więc zbieżne do granic 1/3
i 0, odpowiednio.
30
ĆWICZENIE Obliczyć granice lub wykazać, że granica nie istnieje:
2
2
(1) lim(x,y)→(0,0) √ x2 +y2 ;
(2)
(3)
(4)
(5)
x +y −1
xy
lim(x,y)→(0,0) x 2 +y 2 ;
4
4
lim(x,y)→(0,0) xx 2 −y
;
−y 2
5
lim(x,y)→(1,−1) (x−1)2 +(y+1)
2;
xy
lim(x,y)→(0,0) x−y ; (6) lim(x,y)→(a,b) x y
GRANICE NIEWŁAŚCIWE I W NIESKOŃCZONOŚCI W podobny sposób można określić granicę
niewłaściwą: piszemy limx→p f(x) = +∞ (odp. limx→p f(x) = −∞), gdy dla dowolnej liczby
M ∈ R istnieje δ > 0 o tej własności, że f(x) > M (odp. f(x) < M), o ile 0 < kx − pk < δ.
Piszemy g = limkxk→∞ f(x), gdzie g ∈ R, gdy dla dowolnego ε > 0 znajdzie się liczba
R > 0 taka, że |f(x) − g| < ε, o ile kxk > R.
ĆWICZENIE: Czytelnik poda definicję Heinego granic niewłaściwych i granicy w nieskończoności.
Warunkiem koniecznym i dostatecznym istnienia granicy (właściwej, niewłaściwej lub w
nieskończoności) jest tzw. warunek Cauchy’ego (rozważymy przypadek granicy właściwej w
punkcie skupienia dziedziny)
1.4.2 TWIERDZENIE: Niech f : A → R, gdzie A ⊂ RN , i niech p ∈ RN będzie punktem skupienia
zbioru A. Granica limx→p f(x) istnieje wtedy i tylko wtedy, gdy dla dowolnego ε > 0 istnieje
taka liczba δ > 0, że |f(x) − f(x 0 )| < ε dla dowolnych liczb x, x 0 ∈ A, takich że 0 < |x − p|, |x 0 −
p| < δ.
DOWÓD polega na powtórzeniu argumentów z dowodu analogicznego faktu dla funkcji jednej
zmiennej.
GRANICE ITEROWANE Rozważmy dla prostoty funkcję 2 zmiennych f : A → R, gdzie
A = X × Y ⊂ R2 , gdzie X, Y ⊂ R. Niech p = (a, b) ∈ R2 , gdzie a jest punktem skupienia
zbioru X, zaś b – punktem skupienia zbioru Y . Wówczas p jest punktem skupienia zbioru A
(sprawdzić). Prawdziwe jest następujące twierdzenie:
Jeśli istnieje granica (podwójna) g = lim(x,y)→(a,b) f(x, y) (w sensie właściwym lub niewłaściwym) i dla dowolnego x ∈ X istnieje granica limy→b f(x, y), to istnieje granica limx→a limy→b f(x, y)
i jest równa g. Analogicznie, jeżeli istnieje granica podwójna oraz dla każdego y ∈ Y istnieje
limx→a f(x, y), to istnieje granica limy→b limx→a f(x, y) i jest równa g.
W szczególności, jeśli spełnione są założenia obu części twierdzenia, to
lim lim f(x, y) = lim lim f(x, y).
x→a y→b
y→b x→a
Są to tzw. granice iterowane (w tej sytuacji, dla odróżnienia, granicę lim(x,y)→(a,b) f(x, y)
nazywa się granicą podwójną). Tak więc jeśli mamy przekonanie, że spełnione są założenie
którejś z części powyższego faktu, to g możemy obliczyć w następujący sposób: najpierw, ustaliwszy dowolnie x ∈ X, policzymy gx := limy→b f(x, y), a następnie obliczymy limx→a gx =
limx→a limy→b f(x, y). Lub, ustaliwszy dowolnie y ∈ Y , policzymy gy := limx→a f(x, y), a następnie obliczymy limy→b gy = limy→b limx→a f(x, y).
Należy jednak stwierdzić dobitnie, że można to zrobić jedynie gdy spełnione są założenia
twierdzenia.
PRZYKŁAD: Niech
f(x, y) =
31
x − y + x2 + y2
x+y
dla (x, y) ∈ (0, +∞) × (0, +∞). Kładąc a = 0 = b mamy dla ustalonego y ∈ (0, +∞)
gy = lim f(x, y) = y − 1 oraz lim gy = lim (y − 1) = −1;
x→0
y→0
y→0
zaś dla ustalonego x ∈ (0, +∞),
gx = lim f(x, y) = x + 1 oraz lim gx = lim (x + 1) = 1.
y→0
x→0
x→0
Spełnione są drugie części założeń, lecz – w skutek braku równości wnosimy, że granica
podwójna nie istnieje (można się o tym przekonać nie zależnie biorąc ciągi (1/n, 0) oraz (0, 1/n):
sprawdzić).
A zatem nie należy obliczać granic poprzez przejście do granic iterowanych, chyba że
są po temu przesłanki w postaci spełnionych założeń twierdzenia.
UWAGA: Innym zabiegiem, niekiedy ułatwiającym obliczenie granicy, jest skorzystanie z
następującego faktu: jeśli istnieje granica właściwa g = limx→p f(x), gdzie f : A → R, A ⊂ RN
i p ∈ RN jest punktem skupienia, oraz h : R → R jest funkcją ciągłą, to limx→p h ◦ f(x) = h(g).
PRZYKŁAD: Oblicz granice
x 4 −y 4
lim
(x,y)→(0,0)
e x2 −y 2 ,
lim
(x,y)→(e,1)
ln
x
.
y
GRANICE FUNKCJI WEKTOROWYCH O granicach (właściwych lub w nieskończoności) można też mówić w odniesieniu do funkcji wektorowych: na przykład jeżeli f : A → RM , gdzie
A ⊂ RN oraz M > 1, p jest punktem skupienia zbioru A i g ∈ RM , to piszemy
g = lim f(x)
x→p
jeśli dla dowolnego ε > 0 istnieje δ > 0 taka, że kf(x) − gk < ε, o ile 0 < kx − pk < δ.
UWAGA: Po raz pierwszy mamy tu do czynienia z pewną niedogodnością notacyjną: Czytelnik zauważył, że o ile x ∈ A ⊂ RN i zapis kx − pk oznacza odległość punktów x i p w
przestrzeni RN , o tyle f(x) ∈ RM i, wobec tego, pisząc kf(x) − gk mamy na myśli odległość w
przestrzeni RM . Czytelnik każdorazowo powinien rozumieć co dany symbol oznacza i uważnie
go interpretować.
ĆWICZENIE: Sformułować definicję Heinego granicy funkcji wektorowej (we wszystkich
przypadkach).
1.4.3 TWIERDZENIE: Przypuśćmy, że A ⊂ RN , p ∈ RN jest punktem skupienia dziedziny A
funkcji f : A → RM , gdzie f = (f1 , ..., fM ). Wówczas granica (właściwa) limx→p f(x) istnieje
wtedy i tylko wtedy, gdy dla dowolnego i = 1, ..., M istnieje granica limx→p fi (x).
DOWÓD: Dowód konieczności pozostawiam Czytelnikowi (wystarczy naśladować dowód faktu
1.3.1). Dostateczność. Zakładamy, że dla dowolnego i = 1, ..., M istnieje gi := limx→p fi (x).
Niech g := (g1 , ..., gM ) ∈ RM . Pokażemy, że g = limx→p f(x). W tym celu weźmy dowolny ciąg
(xn ) ⊂ A taki, że xn 6= p dla n ∈ N i xn → x. Jasne, że wówczas, przy każdym i = 1, ..., M,
fi (xn ) → gi . Wobec tego, wykorzystując fakt 1.3.1 otrzymamy, że f(xn ) = (f1 (xn ), ..., fM (xn )) →
(g1 , ..., gM ) = g, co – w świetle definicji Heinego – dowodzi tezy.
32
ĆWICZENIE: Przeprowadzić dowód w oparciu o definicję Cauchy’ego
Fakt ten wskazuje, że obliczanie granic funkcji wektorowych sprowadza się do obliczania
granic funkcji skalarnych.
Granice funkcji wielu zmiennych mają własności algebraiczne analogiczne do własności
granic funkcji jednej zmiennej. Przykładowo;
1.4.4 FAKT: Załóżmy, że f, g : A → R, A ⊂ RN i p ∈ RN jest punktem skupienia zbioru A. Jeśli
istnieją granice limx→p f(x) i limx→p g(x), to istnieje granica limx→p (f(x) + g(x)) i jest równa
sumie granic.
DOWÓD przeprowadzi Czytelnik samodzielnie.
ĆWICZENIE: Sformułować analogiczny fakt dla różnicy, iloczynu i ilorazu dwóch funkcji.
Analogiczne fakty (poza iloczynem i ilorazem (dlaczego?) mają miejsce dla granic odwzorowań
wektorowych. Udowodnić.
ĆWICZENIE: Pokazać, że
x3 + y3
= 0.
(x,y)→(0,0) x 2 + y 2
lim
1.4.B
Ciągłość funkcji
Tak jak poprzednio rozważamy funkcję f : A → R. Niech a ∈ A. Mówimy, że funkcja f jest
ciągła w punkcie a, gdy dla dowolnego ε > 0 istnieje δ > 0 o tej własności, że jeśli x ∈ A oraz
kx − ak < δ, to |f(x) − f(a)| < ε.
Jest to definicja Cauchy’ego ciągłości funkcji w punkcie. Definicja Heinego orzeka, że
funkcja f jest ciągła w punkcie a, gdy dla dowolnego ciągu (xn ) ⊂ A, jeśli xn → a (czyli
a = limn→∞ xn ), to f(xn ) → f(a) (czyli limn→∞ f(xn ) = f(a)).
Innymi słowy, mówiąc nieco kolokwialnie, funkcje ciągłe w punkcie a przeprowadzają
ciągi zbieżne do a na ciągi zbieżne do f(a)
ĆWICZENIE: Obie definicje ciągłości są równoważne. Udowodnić ten fakt.
UWAGA: (1) O ciągłości mowa tylko w punktach dziedziny. Sformułowanie: „funkcja f(x) =
x ∈ R \ {0} jest nieciągła w x = 0” jest niepoprawne. Ta funkcja jest ciągła (tzn. ciągła we
wszystkich punktach swojej dziedziny).
(2) Jeśli a ∈ A jest punktem izolowanym tego zbioru, to każda funkcja f : A → R jest ciągła.
Jest to stwierdzenie dość paradoksalne, lecz prawdziwe, a wynika z faktu, iż jedynym ciągiem
o wyrazach ze zbioru A, który jest zbieżny do a jest ciąg stały, tzn. ciąg (xn ), w którym xn = 1
dla wszystkich n ∈ N. Wówczas f(xn ) = f(x) przy n ∈ N i, oczywiście f(xn ) = f(x) → f(a).
Stąd płynie wniosek, że ciągłość funkcji f : A → R jest interesująca jedynie w punktach
a ∈ A, które są punktami skupienia zbioru A (powyżej mieliśmy do czynienia z a ∈ A, który
był punktem izolowanym). W tym kontekście zachodzi:
1
x,
1.4.5 TWIERDZENIE: Niech f : A → R, gdzie A ⊂ RN i niech a ∈ A będzie punktem skupienia
dla A. Wówczas f jest ciągła w punkcie a wtedy i tylko wtedy, gdy
lim f(x) = f(a).
x→a
DOWÓD: Wynika natychmiast z definicji Heinego (przeprowadzić dowód).
33
Mówimy, że funkcja f : A → R jest ciągła, gdy jest ona ciągła w każdym punkcie swojej
dziedziny.
1.4.6 TWIERDZENIE: Zwykłe działania algebraiczne na funkcjach ciągłych są funkcjami ciągłymi. A więc, jeśli f, g : A → R, gdzie A ⊂ RN , są funkcjami ciągłym w punkcie a ∈ A , to w
tym punkcie są ciągłe: suma i różnica f ± g, iloczyn f · g oraz iloraz f/g (o ile jest poprawnie
określony, tzn. g(x) 6= 0 dla dowolnego x ∈ A.
DOWÓD ponownie jest powtórzeniem analogicznego rezultatu dla funkcji jednej zmiennej. Przeprowadzę dla przykładu dowód dla iloczynu. Posłużymy się (nieco bardziej w tej sytuacji niezręczną) definicją Cauchy’ego. Zakładamy, że funkcje f i g są ciągłe w a ∈ A. Aby dowieść
ciągłości w punkcie a funkcji fg załóżmy najpierw, że f(a) 6= 0 i wybierzmy ε > 0 oraz
ε
liczby δ1 , δ2 > 0 takie,
n by |f(x)
o − f(a)| < 2M ,gdzie M := ε + |g(a)|, o ile kx − ak < δ1 i
ε
|g(x) − g(a)| < min ε, 2|f(a)|
, o ile kx − ak < δ2 . Niech δ := min{δ1 , δ2 }. Jeśli x ∈ A oraz
kx − ak < δ, to kx − ak < δ1 oraz kx − ak < δ2 , czyli jednocześnie
|f(x) − f(a)| <
ε
ε
, |g(x) − g(a)| < ε oraz |g(x) − g(a)| <
.
2M
2|f(a)|
W takim razie |g(x)| < ε + |g(a)| = M oraz
|(fg)(x) − (fg)(a)| = |f(x)g(x) − f(a)g(a)| ≤ |g(x)||f(x) − f(a)| + |f(a)||g(x) − g(a)| < ε.
Czytelnik uzupełni rozumowanie w przypadku, gdy f(a) = 0.
CIĄGŁOŚĆ ODWZOROWAŃ Definicja ciągłości dla funkcji wektorowych jest analogiczna:
funkcja (odwzorowanie) f : A → RM , gdzie A ⊂ RN i M > 1 jest ciągła w punkcie a ∈ A, gdy
dla każdego ε > 0 istnieje δ > 0 taka, że kf(x) − f(a)k < ε, o ile x ∈ A i kx − ak < δ.
1.4.7 FAKT: Funkcja f = (f1 , ..., fM ) jest ciągła w a ∈ A wtedy i tylko wtedy, gdy dla każdego
i = 1, ..., M, funkcja współrzędna fi jest tam ciągła.
DOWÓD oparty na definicji Heinego i fakcie 1.3.1 jest natychmiastowy.
UWAGA: Z tego wynika, że krzywa, z definicji, jest ciągłym odwzorowaniem γ : [0, 1] → RM .
Funkcjom i odwzorowaniom ciągłym przysługuje wiele własności analogicznych do własności ciągłych funkcji jednej zmiennej.
1.4.8 FAKT: Złożenie funkcji ciągłych jest funkcją ciągłą.
ĆWICZENIE: Sformułować ten fakt z wszystkimi szczegółami i udowodnić.
1.4.9 TWIERDZENIE: Niech f : A → RM będzie odwzorowaniem ciągłym.
(1) Jeśli zbiór A ⊂ RN jest spójny (odp. łukowo spójny), to obraz f(A) jest spójny (odp. łukowo
spójny).
(2) Jeśli zbiór A jest zwarty, to f(A) jest zbiorem zwartym (domkniętym i ograniczonym); w
szczególności funkcja f jest ograniczona, a więc istnieje M ≥ 0, że kf(x)k ≤ M dla wszystkich
x ∈ A. Gdy M = 1 (tzn. f : A → R), to istnieją takie punkty x1 , x2 ∈ A, że f(x1 ) = minx∈A f(x) i
f(x2 ) = maxx∈A f(x).
DOWÓD: (1) Zajmiemy się łukową spójnością. W celu pokazania tej własności dla obrazu f(A)
obierzmy y0 , y1 ∈ f(A), a więc y0 = f(x0 ), y1 = f(x1 ), gdzie x0 , x1 ∈ A; mamy wskazać krzywą
γ : [0, 1] → f(A) łączącą te punkty. Z założenia istnieje krzywa κ : [0, 1] → A taka, że κ(0) = x0 i
κ(1) = x1 . Oczywiście funkcja γ := f ◦ κ jest krzywą (przypomnij definicję krzywej i fakt 1.4.8)
34
łączącą punkty y0 i y1 .
(2) Jeżeli ciąg (yn ) ⊂ f(A), to yn = f(xn ), gdzie xn ∈ A dla n ∈ N. Dany jest więc ciąg
(xn ) ⊂ A, który, zgodnie z założeniem zwartości, ma podciąg xnk → x0 ∈ A przy k → ∞. Stąd
ynk = f(xnk ) → f(x0 ) =: y0 . Czy zbiór f(A) jest zwarty.
Jeśli M = 1, to wartości α := infx∈A f(x) oraz β := supx∈A f(x) są poprawnie zdefiniowane,
bo f jest funkcja ograniczoną. Poza tym zbiór f(A) jest domknięty, a stąd
α ∈ f(A) oraz β ∈ f(A).
Wynika z następującego rozumowania: z definicji kresu: dla wszystkich y ∈ f(A), α ≤ y oraz,
dla danego ε > 0 istnieje yε ∈ f(A), że yε < α + ε. Biorąc ε = 1/n, gdzie n ∈ N otrzymamy
więc yn ∈ f(A), że α ≤ yn < α + 1/n. innymi słowy (yn ) jest ciągiem o wyrazach w zbiorze
f(A) zbieżnym do α. Z ciągowej charakteryzacji domkniętości zbiorów wynika, że α ∈ f(A) tzn.
istnieje taki element x1 ∈ A, że α = f(x1 ). Jako ćwiczenie zakończyć dowód dla β.
2
ĆWICZENIE: Niech f(x, y) := sin 1+xxy
2 +y 2 dla (x, y) ∈ R . Pokazać, że f jest funkcją ciągłą.
Podobnie dla funkcji (pamiętać o dziedzinie):
2
(1) f(x, y) = x 2x+y+y
2 −1 ;
xy
dla (x, y) 6= (0, 0);
x
yz
x 2 +y 2
(2) f(x, y, z) = ln(e + e ); (3) f(x, y) =
0
dla x = 0 = y.
ĆWICZENIE: Wykazać, że funkcja
(
f(x, y) =
xy 2
x 3 +y 3
0
dla (x, y) 6= (0, 0);
dla x = 0 = y
nie jest ciągła, lecz jest ciągła względem każdej ze zmiennych z osobna. Przeprowadzić dyskusję tego zjawiska i wyciągnąć wnioski („ciągłość względem zespołu zmiennych” i ciągłość
względem zmiennych i związki).
ĆWICZENIE: Przypuśćmy, że funkcja f : (a, b) × (c, d) → R jest ciągła ze względu na każdą
ze zmiennych z osobna i, dla dowolnego y ∈ (a, b), funkcja f(·, y) : (a, b) → R jest niemalejąca.
Pokazać, że f jest wówczas funkcją ciągłą.
ĆWICZENIE: Niech U będzie obszarem i f : U → R funkcją ciągłą. Pokazać, że jeśli istnieją
punkty x1 , x2 ∈ U takie, że f(x1 ) < 0 < f(x2 ), to f ma miejsce zerowe, tzn. istnieje x0 ∈ U,
ze f(x0 ) = 0 (wskazówka mieści się w definicji obszaru). Zauważyć, że w dowodzie istotna jest
łukowa spójność zbioru U, a nie jego otwartość. Oczywiście ma miejsce również tzw. własność
Darboux: jeśli f jest funkcją rzeczywistą ciągłą o łukowo spójnej dziedzinie A, x1 , x2 ∈ A, to
dla dowolnego λ ∈ R leżącego pomiędzy liczbami f(x1 ) i f(x2 ) istnieje taki x ∈ A, że f(x) = λ.
TOPOLOGICZNA CHARAKTERYZACJA CIĄGŁOŚCI
1.4.10 TWIERDZENIE Funkcja f : A → RM jest ciągła wtedy i tylko wtedy, gdy przeciwobraz
f −1 (U) dowolnego zbioru otwartego U ⊂ RM jest otwarty w A. Podobnie f jest ciągła wtedy i
tylko wtedy, gdy przeciwobraz f −1 (F) dowolnego zbioru domkniętego F ⊂ RM jest domknięty
w A.
DOWÓD: Przypuśćmy, że f jest odwzorowaniem ciągłym i U ⊂ RM jest zbiorem otwartym. Niech
x ∈ f −1 (U) ⊂ A. Oczywiście f(x) ∈ U, więc (z definicji zbioru otwartego) znajdziemy ε > 0 takie,
że B(f(x), ε) ⊂ U. Z ciągłości (w punkcie x) istnieje δ > 0 taka, że dla y ∈ A, jeżeli ky − xk < δ,
to kf(y) − f(x)k < ε: innymi słowy f(y) ∈ B(f(x), ε). Tak więc f(B(x, δ) ∩ A) ⊂ B(f(x), ε) ⊂ U. To
oznacza, że B(x, δ) ∩ A ⊂ f −1 (U) i kończy dowód konieczności podanego warunku.
35
Dla dostateczności załóżmy, że podany warunek zachodzi, ustalmy a ∈ A: pokażemy, że
f jest ciągłe w a. Ustalmy ε > 0. Zbiór U := B(f(a), ε) jest otwarty, czyli jego przeciw obraz
f −1 (U) jest też otwarty. Oczywiście a ∈ f −1 (U); więc istnieje δ > 0 taka, że B(a, δ) ∩ A ⊂ f −1 (U).
Stąd: jeśli x ∈ A oraz kx − ak < δ, to x ∈ A ∩ B(a, δ) i x ∈ f −1 (U). Czyli f(x) ∈ U = B(f(a), ε) i
kf(x) − f(a)k < ε.
.
ĆWICZENIE: Dowód drugiej części pozostawiam Czytelnikowi (wskazówka jeśli zbiór F ⊂
RM jest domknięty, to U : RM \ F jest otwarty i f −1 (F) = A \ f −1 (U)).
JEDNOSTAJNA CIĄGŁOŚĆ Poza „zwykłą” ciągłością istotną rolę odgrywają funkcje (lub odwzorowania) jednostajnie ciągłe i spełniające warunek Lipschitza. Mówimy, że odwzorowanie
f : A → RM jest jednostajnie ciągłe, gdy dla dowolnego ε > 0 istnieje liczba δ > 0 taka, że dla
x, x 0 ∈ A, jeśli kx − x 0 k < δ, to kf(x) − f(x 0 )k < ε.
1.4.11 TWIERDZENIE: Jeżeli odwzorowanie f : A → RM jest ciągłe a zbiór A jest zwarty, to jest
ono jednostajnie ciągłe.
DOWÓD: Przypuśćmy, że odwzorowanie f nie jest jednostajnie ciągłe. Tak więc znajdzie się jakąś
liczbę ε0 > 0 o tej własności, że dla wszystkich n ∈ N znajdą się punkty xn , xn0 ∈ A dla których
kf(xn ) − f(xn0 )k ≥ ε0 mimo, że kxn − xn0 k < 1/n. Zwartość implikuje, że ciąg (xn ) ma podciąg
zbieżny; dla uproszczenia przyjmijmy (i bez utraty ogólności – zweryfikować to stwierdzenie),
że już xn → x ∈ A. Wtedy też xn0 → x. Stąd f(xn ) → f(x) i f(xn0 ) → f(x): sprzeczność.
ĆWICZENIE: Zbadać jednostajną ciągłość funkcji
p
f(x, y, z) = x 2 + y 2 + z2 ;
p
f(x, y, z) = |xyz|.
WARUNEK LIPSCHITZA Mówimy, że f : A → RM spełnia warunek Lipschitza (lub , że jest
funkcją lipschitzowską), gdy istnieje liczba L ≥ 0 taka, że dla dowolnych x, y ∈ A,
kf(x) − f(y)k ≤ Lkx − yk.
Stałą L nazywa się stałą Lipschitza funkcji f.
ĆWICZENIE: Uzasadnić dlaczego odwzorowania spełniające warunek Lipschitza są jednostajnie ciągłe. Sprawdzić w literaturze co oznacza, że funkcja spełnia lokalnie warunek Lipschitza. Czy takie funkcje są jednostajnie ciągłe? Znać przykłady funkcji ciągłych lecz nieciągłych
jednostajnie.
1.4.C
Ciągłość odwzorowań liniowych
Niech A : RN → RM będzie przekształceniem liniowym, z którym stowarzyszona jest macierz
A = [aij ] i=1,...,M ∈ MMN .
j=1,...,N
1.4.12 FAKT: Przekształcenie A jest ciągłe.
DOWÓD: Najpierw zauważmy, że rzutowanie πj : RN → R jest ciągłe. Rzeczywiście dla x =
(x1 , ..., xN ) ∈ RN , y = (y1 , ..., yN ) ∈ RN
|πj (x) − πj (y)| = |xj − yj | ≤ kx − yk,
co oznacza, że πj spełnia warunek Lipschitza ze stałą 1. Oczywiście iloczyn απj , gdzie j = 1, ..., N
i α ∈ R, jest również odwzorowaniem ciągłym.
36
Wystarczy pokazać, że dla dowolnego i = 1, ..., M, odwzorowanie πi ◦ A : RN → R (czyli
i-ta współrzędna odwzorowania A) jest ciągłe (tutaj πi : RM → R jest rzutowaniem na i-tą
współrzędna). Ze wzoru (1.2.5) mamy
πi ◦ A(x) =
N
X
aij xj , x = (x1 , ..., xN ) ∈ RN .
j=1
Zatem
πi ◦ A(x) =
N
X
aij πj (x);
j=1
zatem πi ◦ A, jako suma odwzorowań ciągłych, jest odwzorowaniem ciągłym (nawet więcej
spełnia warunek Lipschitza).
NORMA PRZEKSZTAŁCENIE LINIOWEGO Niech A ∈ L(RN , RM ). Połóżmy
(1.4.12)
kAk :=
sup
kA(x)k
x∈RN ,kxk=1
(tutaj ponownie mamy do czynienia z „błędem” notacyjnym: po prawej stronie „pierwsza” jest
norma w RN , zaś „druga” to norma w RM ). Odwzorowanie RN 3 x 7Ï kA(x)k – jako złożenie
ciągłego odwzorowania A i ciągłej funkcji normy – jest ciągłe. Zbiór {x ∈ RN | kxk = 1} jest
domknięty (jest to przeciwobraz zbioru {1} poprzez ciągłą funkcję normy) i ograniczony, czyli
zwarty. Z twierdzenia Weierstrassa 0 ≤ kAk < ∞. Liczbę kAk nazywamy normą przekształcenia liniowego A.
Zauważmy, że ma miejsce ważne oszacowanie
(1.4.13)
kA(x)k ≤ kAkkxk, x ∈ RN .
Dla x = 0 to jest oczywiste; jeśli zaś x 6= 0, to kkxk−1 xk = kxk−1 kxk = 1 i
kxk−1 kA(x)k = kA(kxk−1 x)k ≤ kAk.
Z oszacowania 1.4.13 wynika również, że
kAk = sup kA(x)k.
kxk≤1
Rzeczywiście kAk ≤ sup{kA(x)k | kxk ≤ 1}, bo kres górny po większym zbiorze {x ∈ RN |
kxk ≤ 1} jest niemniejszy niż kres górny po zbiorze mniejszym {x | kxk = 1}; z drugiej strony
dla dowolnego x ∈ RN , kxk ≤ 1, kA(x)k ≤ kAkkxk = kAk, czyli sup{kA(x)k | kxk ≤ 1} ≤ kAk.
1.4.13 UWAGA: Zauważmy, że skończoność normy kAk wynikała z ciągłości. Gdyby wiadomo
było, że kAk < ∞, to oszacowanie (1.4.13) pozwala na inny dowód ciągłości przekształcenia A:
dla dowolnych x, y ∈ RN ,
kA(x) − A(y)k = kA(x − y)k ≤ kAkkx − yk;
czyli A spełnia warunek Lipschitza ze stałą Lip(A) ≤ kAk. W istocie Lip(A) = kAk. Wynika to z
następującego wzoru
(1.4.14)
kAk = inf{c ≥ 0 | ∀ x ∈ RN kA(x)k ≤ ckxk}.
37
Rzeczywiście: nierówność ≥ wynika natychmiast z nierówności (1.4.13). Z drugiej strony niech
c0 oznacza prawą stronę równości (1.4.14). Z definicji kresu dolnego, dla dowolnego ε i x ∈ RN ,
kA(x)k ≤ (c0 + ε)kxk. Wobec tego
kAk = sup kA(x)k ≤ c0 + ε.
kxk=1
Z dowolności ε wynika, że kAk ≤ c0 .
Za chwilę zobaczymy jak, nie wykorzystując ciągłości A, można wykazać, że kAk < ∞. Nazwy „norma przekształcenia” używamy nie bez kozery.
1.4.14 FAKT: Dla A, B ∈ L(RN , RM ) i λ ∈ R:
kAk = 0 wtedy i tylko wtedy, gdy A = 0 (tzn. A ≡ 0), kλAk = |λ|kAk oraz kA + Bk ≤ kAk + kBk.
Jeżeli A ∈ L(RN , RM ), B ∈ L(RM , RK ), to B ◦ A ∈ L(RN , RK ) i
kB ◦ Ak ≤ kBkkAk.
(1.4.15)
W szczególności, jeżeli A ∈ L(RN , RN ), n ∈ N i An := A
... ◦ A}, to
| ◦ {z
n
kAn k ≤ kAkn .
(1.4.16)
Jeżeli przekształcenie A ∈ L(RN , RN ) jest izomorfizmem, to
kAk−1 ≤ kA−1 k.
DOWÓD: Łatwo dostrzec, że dla A ∈ L(RN , RM ) mamy kAk = 0 wtedy i tylko wtedy, gdy A = 0
oraz kλAk = |λ|kAk dla dowolnego λ ∈ R. Podobnie, gdy B ∈ L(RN , RM ), to oraz
kA + Bk = sup kA(x) + B(x)k ≤ sup (kA(x)k + kB(x)k)
kxk=1
kxk=1
≤ sup kA(x)k + sup kB(x)k = kAk + kBk.
kxk=1
kxk=1
W celu dowodu drugiej części zauważmy, że dla dowolnego x ∈ RN ,
kB ◦ A(x)k ≤ kBkkA(x)k ≤ kBkkAkkxk.
Ze wzoru (1.4.14) wynika, że
kB ◦ Ak = inf{c ≥ 0 | kB ◦ Ak ≤ ckxk} ≤ kBkkAk.
Wreszcie ze wzoru (1.4.15) wynika, że 1 = kA−1 ◦ Ak ≤ kA−1 kkAk, czyli kA−1 k ≥ kAk−1 .
ĆWICZENIE: Czy jest prawdą, że kA−1 k = kAk−1 ?
NORMA PRZEKSZTAŁCENIA WIELOLINIOWEGO Niech A ∈ Lk (RN , RM ). Podobnie jak poprzednio połóżmy
(1.4.17)
kAk =
sup
x1 ,...,xk ∈RN , kxs k=1
kA(x1 , ..., xk )k.
Wykażemy, że 0 ≤ kAk < ∞. Pierwsza nierówność jest oczywista. Dla dowodu drugiej nierówności przyjmijmy (dla uproszczenia rachunków), że k = 2. Niech x = (x1 , ..., xN ), y =
38
(y1 , ..., yN ) ∈ RN , kxk = kyk = 1 i niech z = (z1 , ..., zM ) = A(x, y). Ponadto niech [aijk ] i=1,...,M
j,k=1,...,N
będzie macierzą stowarzyszoną z przekształceniem A, tzn.
zi =
N
X
aijk xj yk , i = 1, ..., M.
j,k=1
Zatem
kA(x, y)k2 = kzk2 =
M
X
zi2 =
M
X


i=1
i=1
N
X
2
aijk xj yk  .
j,k=1
Z nierówności Cauchy’ego-Schwarza

2
N
X
aijk xj yk  ≤ 

j,k=1
Zatem

N
X
j,k=1

2 
aijk
N
X


xj2 yk2  = 
j,k=1
N
X


2 
aijk
kxk2 kyk2 = 
N
X

2 
aijk
.
j,k=1
j,k=1
v
v
uM N
uM N
uX X
uX X
2
2
t
kA(x, y)k ≤
aijk , czyli kAk ≤ t
aijk
.
i=1 j,k=1
i=1 j,k=1
Ogólnie (dla dowolnego k)
v
uM
N
uX X
aij2 1 ...jk < ∞,
kAk ≤ t
i=1 j1 ,...,jk =1
gdzie [aij1 ...jk ] jest macierzą stowarzyszoną z przekształceniem A.
Analogicznie jak poprzednio można pokazać, że
(1.4.18)
kA(x1 , ...., xk )k ≤ kAkkx1 k...kxk k, dla x1 , ..., xk ∈ RN .
Wynika stąd, że A jest przekształceniem ciągłym, choć – przeciwnie niż w przypadku przekształceń liniowych – na ogół nie jest ono jednostajnie ciągłe. Dowód w ogólnej sytuacji jest
rachunkowo złożony; dlatego rozważymy tylko sytuację k = 2. Niech xn → x0 , yn → y0 w RN .
Wtedy
kA(xn , yn ) − A(x0 , y0 )k ≤ kA(xn , yn ) − A(x0 , yn )k + kA(x0 , yn ) − A(x0 , y0 )k ≤
kAkkxn − x0 kkyn k + kAkkx0 kkyn − y0 k → 0.
UWAGA: Czytelnik na pewno dostrzegł w tym miejscu „mnogość” oznaczeń k · k. W każdym
z przypadków symbol k · k może oznacza inną „normę” (tj. normę w innej przestrzeni). Bezwzględnie należy zachować dużą ostrożność i za każdym razem używając tego symbolu mieć
pełną kontrolę czego on dotyczy.
Rozdział
2
Rachunek różniczkowy
2.1
2.1.A
Pochodne
Pochodne funkcji wektorowych jednej zmiennej
Niech f : (a, b) → RM , gdzie −∞ ≤ a < b ≤ +∞ i M ≥ 1. Wtedy f = (f1 , ..., fM ), gdzie
fi : (a, b) → R. Niech t ∈ (a, b). Powiadamy, że odwzorowanie f jest różniczkowalne w punkcie
t, gdy istnieje granica
f(t + s) − f(t)
lim
.
s→0
s
Granicę tę nazywa się pochodną odwzorowania f w punkcie t i oznacza symbolem f 0 (t).
Oczywiście pochodna jest w tym przypadku wektorem (elementem przestrzeni RM ); zatem
f 0 (t) = (a1 , ..., aM ), gdzie ai ∈ R, dla i = 1, ..., M; lub w zapisie macierzowym
 
a1
 a2 
 
f 0 (t) = [a1 , ..., aM ]T =  .  .
 .. 
aM
Jaką postać mają współczynniki ai przy i = 1, ..., M? Łatwo pokazać, że
2.1.1 TWIERDZENIE: Odwzorowanie f jest różniczkowalne w punkcie t ∈ (a, b) wtedy i tylko
wtedy, gdy każda z funkcji fi , i = 1, ..., M, jest różniczkowalna w punkcie t i wówczas f 0 (t) =
0
(t)), tzn. ai = fi0 (t) dla wszystkich i = 1, ..., M.
(f10 (t), ..., fM
Wynika stąd, że w zasadzie wszystkie fakty dotyczące pochodnych funkcji (rzeczywistych
jednej zmiennej) przenoszą się na przypadek funkcji wektorowych jednej zmiennnej choć,
oczywiście, trzeba zachować ostrożność.
Na przykład: funkcje różniczkowalne są ciągłe; jeżeli odwzorowania f, g : (a, b) → RM
są różniczkowalne w punkcie t, to ich suma, różnica są odwzorowaniami różniczkowalnymi i
(f ± g)0 (t) = f 0 (t) ± g 0 (t)
UWAGA: (1) Twierdzenie o pochodnej iloczynu (lub ilorazu) nie ma sensu, chyba, że mowa
o iloczynie skalarnym tych funkcji. Mianowicie można określić funkcję
F(t) := hf(t), g(t)i =
M
X
i=1
fi (t)gi (t), t ∈ (a, b).
40
2. RACHUNEK RÓŻNICZKOWY
Jeśli odwzorowania f i g są różniczkowalne w punkcie t, to funkcja F jest też tam różniczkowalna i
F 0 (t) = hf 0 (t), g(t)i + hf(t), g 0 (t)i.
Rzeczywiście
0
F (t) =
M
X
i=1
!0
fi gi
M
X
(t) =
0
(fi gi ) (t) =
i=1
M
X
(fi0 (t)gi (t) + fi (t)gi0 (t)) = hf 0 (t), gt)i + hf(t), g 0 (t)i.
i=1
(2) Niestety, dla odwzorowań f : (a, b) → RM , gdzie M > 1, nie zachodzi odpowiednik twierdzenia Lagrange’a. Przypomnijmy to twierdzenie: jeśli funkcja f : [a, b] → R jest różniczkowalna
(lub ciągła, zaś pochodna f 0 (t) istnieje dla t ∈ (a, b))(1 ) , to istnieje θ ∈ (0, 1) taka, że
f(b) − f(a) = f 0 (a + θ(b − a))(b − a).
Innymi słowy znajdzie się punkt pośredni t ∈ (a, b) taki, że f(b) − f(a) = f 0 (t)(b − a).
Dla kontrprzykładu rozważmy odwzorowanie f : R → R2 dane wzorem f(t) := (cos t, sin t),
t ∈ R. Wówczas f(0) = q
f(2π) = (1, 0). Jednak dla dowolnego t ∈ (0, 2π), f 0 (t) = (− sin t, cos t)
i, wobec tego kf 0 (t)k = sin2 (t) + cos2 t = 1. Zatem równość 0 = f(2π) − f(0) = 2πf 0 (t) jest
wykluczona dla każdego punktu pośredniego t ∈ (0, 2π).
UWAGA: W sytuacji funkcji f : (a, b) → R2 lub f : (a, b) → R3 współrzędne odwzorowania f
zwykle oznacza się symbolami x, y, z itp. tzn. pisze się f(t) = (x(t), y(t)) lub f(t) = (x(t), y(t), z(t))
dla t ∈ (a, b). Ponadto (szczególnie w omawianych sytuacjach) odwzorowania takie nazywa się
krzywymi (co ma sens szczególnie z geometrycznego punktu widzenia). Takiej terminologii
będziemy używać „bez ostrzeżenia”.
2.1.B
Pochodne kierunkowe i cząstkowe funkcji wielu zmiennych
Niech f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, i x = (x1 , ..., xN ) ∈ U. Niech wektor
h ∈ RN , h 6= 0. Dla małego (co do wartości bezwzględnej) t ∈ R, wyrażenie f(x + th) jest
określone (uzasadnienie: zbiór U jest otwarty, więc B(x, ε) ⊂ U dla pewnego ε > 0; jeśli więc
|t| < ε/khk, to x + th ∈ B(x, ε), bo k(x + th) − xk = |t|khk < ε). Można więc dla takich t
rozważać wyrażenie
f(x + th) − f(x)
∈R
t
oraz jego granicę przy t → 0, o ile – oczywiście – istnieje.
Jeśli istnieje (w sensie właściwym) granica
f(x + th) − f(x)
,
t→0
t
lim
to jej wartość nazywa się pochodną kierunkową funkcji f w punkcie x w kierunku wektora
h i oznacza symbolem f 0 (x; h).
POCHODNE CZĄSTKOWE Niech j = 1, ..., N. W szczególności pochodną kierunkową w
punkcie x w kierunku wektora ej (wersora z bazy kanonicznej) nazywa się pochodną cząstkową względem j-tej zmiennej i oznacza symbolem fxj (x) lub fj0 (x) lub ∂x∂ j f(x), a także f|j (x) (to
Gdy mowa o różniczkowalności funkcji określonych na przedziale domkniętym to w punktach a lub b mowa
jest o pochodnych jednostronnych.
1
2.1. POCHODNE
41
ostatnie oznaczenie jest najlepsze, lecz najrzadziej stosowane).
Jeśli mamy do czynienia z funkcją dwóch lub trzech zmiennych, które – jak zwykle oznacza
się symbolami x, y, z, to pisząc fx (x, y, z) lub fx0 (x, y, z), fy0 (x, y, z) itp. mamy na myśli pochodną cząstkową względem pierwszej, drugiej zmiennej. Oznaczenia są różne, ale wszystkie są
czytelne.
W każdym razie (w wyjściowej sytuacji)
f|j (x) := f 0 (x; ej ).
W praktyce pochodna cząstkowa jest pochodną w punkcie t = xj funkcji jednej zmiennej
t 7Ï f(x1 , x2 , ..., xj−1 , t, xj+1 , ..., xN ),
tzn. funkcji, w której ustalamy (jako parametry) wszystkie, poza j-tą, współrzędne punktu x i
„uzmiennieniu” podlega tylko j-ta zmienna.
PRZYKŁAD: Zilustrujemy to na przykładzie. Niech
f(x, y, z) = x 2 z − (x + y)z
określonej w całej przestrzeni. Obliczymy fx (x, y, z). Ma się rozumieć, że ustalamy zmienne
y, z (traktujemy je chwilowo jako parametry) i różniczkujemy względem x, tzn.
f(x + t, y, z) − f(x, y, z)
= (f(·, y, z))0 (x) = 2xz − z.
t→0
t
fx (x, y, z) = lim
Zauważmy, że f(x + t, y, z) = f((x, y, z) + t(1, 0, 0)) = f((x, y, z) + te1 ).
Mamy następujące reguły algebraiczne obliczania pochodnych kierunkowych:
2.1.2 FAKT: Przypuśćmy, że f, g : U → R, x ∈ U, h ∈ RN i pochodne kierunkowe f 0 (x; h),
g 0 (x; h) istnieją. Wtedy:
(1) pochodna (f ± g)0 (x; h) istnieje i
(f ± g)0 (x; h) = f 0 (x; h) ± g 0 (x; h);
(2) pochodna (fg)0 (x; h) istnieje i
(fg)0 (x; h) = f 0 (x; h)g(x) + f(x)g 0 (x; h);
(3) jeśli g(x) 6= 0 dla x ∈ U, to istnieje (f/g)0 (x; h) i mamy
(f/g)0 (x; h) =
1
(f 0 (x; h)g(x) − f(x)g 0 (x; h)).
[g(x)]2
DOWÓD: jest to właściwie powtórzenie dowodu odpowiedniego twierdzenia o różniczkowaniu
sum, iloczynów i ilorazów funkcji jednej zmiennej. Nie mniej warto, by Czytelnik poćwiczył.
Dla przykładu uzasadnimy drugi wzór. Niech φ(t) := f(x + th). Z definicji
f 0 (x; h) = lim
t→0
f(x + th) − f(x)
φ(t) − φ(0)
= lim
= φ0 (0).
t→0
t
t
Analogicznie – kładąc ψ(t) := g(x + th) – dostaniemy
g 0 (x; h) = ψ 0 (0).
42
Ponadto
(fg)(x + th) − (fg)(x)
φ(t)ψ(t) − φ(0)ψ(0)
= lim
= (φψ)0 (0) = φ0 (0)ψ(0) + φ(0)ψ 0 (0).
t→0
t→0
t
t
lim
Otrzymany wzór kończy dowód.
UWAGA: Jeśli istnieje f 0 (x; h) i α ∈ R, to istnieje f 0 (x; αh) i
f 0 (x; αh) = αf 0 (x; h).
Czyli pochodna kierunkowa jest jednorodna ze względu na kierunek (wektor) h.
Niestety pochodna kierunkowa nie jest addytywna ze względu na kierunki. Innymi słowy:
jeśli nawet istnieją pochodne f 0 (x; h1 ) i f 0 (x; h2 ) w kierunku dwóch wektorów h1 , h2 ∈ RN , to
bynajmniej nie musi istnieć pochodna f 0 (x; h1 +h2 ) ani (nawet jeżeli istnieje) nie musi zachodzić
równość f 0 (x; h1 + h2 ) = f 0 (x; h1 ) + f 0 (x : h2 ).
PRZYKŁAD: Ma to miejsce dla funkcji
xy
x 3 +y 3
f(x, y) =
0
gdy (x, y) 6= (0, 0);
gdy x = 0 = y.
Wtedy fx (0, 0) = f 0 ((0, 0); e1 ) = 0 = f 0 ((0, 0); e2 ) = fy (0, 0) lecz
t2
t→0 2t 3
f 0 ((0, 0); (1, 1)) = f 0 ((0, 0); e1 + e2 ) = lim
nie istnieje.
Kolejny przykład wskazuje, że funkcja może posiadać pochodne we wszystkich kierunkach
w zadanym punkcie, lecz może tam nie być ciągła.
PRZYKŁAD: Rozważmy funkcję
(
f(x, y) =
xy 2
x 2 +y 4
0
gdy (x, y) 6= (0, 0);
gdy x = 0 = y.
Wtedy, dla dowolnego h = (a, b)
ab2
=
f ((0, 0); (a, b)) = lim 2
t→0 a + t 2 b4
0
0
b2
a
gdy a = 0
gdy a =
6 0.
Oczywiście wartość f 0 ((0, 0); h) nie zależy w sposób addytywny od h (sprawdzić) i – ponadto
funkcja f nie jest ciągła (w punkcie (0, 0)): sprawdzić.
Jest jeszcze gorzej.
PRZYKŁAD: Niech
(
f(x, y) =
x4y2
x 8 +y 4
0
gdy (x, y) 6= (0, 0);
gdy x = 0 = y.
Ta funkcja ma pochodną f 0 ((0, 0; h) = 0 dla dowolnego h (więc, w szczególności, wyrażenie
f 0 ((0, 0; h) zależy liniowo od h), lecz również nie jest ciągła.
UWAGA: Jeśli mamy do czynienia z funkcją f : U → R, x ∈ U oraz: dla dowolnego h ∈ RN
istnieje f 0 (x; h) przy czym wyrażenie f 0 (x; h) zależy liniowo od h, to mówi się, że f jest słabo
różniczkowalna w punkcie x.
2.1. POCHODNE
43
Jak widzieliśmy w poprzednim przykładzie: f jest słabo różniczkowalna w punkcie (0, 0),
lecz nie jest tam ciągła.
KONKLUZJA: Zatem: pojęcie pochodnej kierunkowej jest zbyt słabe z punktu widzenia elementarnych intuicji.
2.1.3 TWIERDZENIE (I-sze o wartości średniej) Niech f : U → R, gdzie U jest zbiorem otwartym.
Załóżmy, że x0 , x1 ∈ U i odcinek [x0 ; x1 ] łączący te punkty zawiera się w zbiorze U. Niech
h := x1 − x0 . Jeśli dla dowolnego x ∈ [x0 , x1 ] istnieje pochodna f 0 (x; h), to istnieje θ ∈ (0, 1)
taka, że
f(x1 ) − f(x0 ) = f 0 (x0 + θh; h).
Rozważmy funkcję pomocniczą g : [0, 1] → R daną wzorem
g(t) := f(x0 + th), t ∈ [0, 1].
Zauważmy, że dla każdego t ∈ [0, 1].
g(t + s) − g(t)
f((x0 + th) + sh) − f(x0 + th)
= lim
= f 0 (x0 + th; h)
s→0
s→0
s
s
g 0 (t) = lim
(dla t = 0 lub t = 1 mowa o odpowiednich pochodnych jednostronnych). Zatem g jest funkcją
(jednej zmiennej) różniczkowalną i, wykorzystując twierdzenie Lagrange’a, znajdziemy θ ∈
(0, 1) takie, że
f(x1 ) − f(x0 ) = g(1) − g(0) = g 0 (θ) = f 0 (x0 + θh; h).
2.1.C
Różniczkowalność i pochodna funkcji wielu zmiennych
Niech f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, i x ∈ U. Mówimy, że funkcja f
jest różniczkowalna w punkcie x, gdy istnieje przekształcenie liniowe A ∈ L(RN , R) (czyli
funkcjonał liniowy) taki, że
lim
h→0
f(x + h) − f(x) − A(h)
= 0.
khk
Powyższy warunek równoważny jest stwierdzeniu, że przyrost funkcji tzn. wyrażenie f(x +
h) − f(x), przy przyroście argumentu h ∈ RN wyraża się wzorem
f(x + h) − f(x) = A(h) + khkε(h),
(∗)
gdzie wyraz A(h) zależy w sposób liniowy od przyrostu h, zaś reszta khkε(h) jest rzędu mniejszego niż przyrost, tzn. wyrażenie ε(h) → 0, gdy h → 0 i ε(0) = 0 (2 ).
UWAGA: Warto, by Czytelnik zapoznał się w tym miejscu tzw. notacją Landau’a lub notacją
„o” małe. Otóż zamiast opisywać jakąś wielkość skalarną (lub wektorową) jako np. ε(h)khk,
gdzie ε(h) → 0, przy h → 0, pisze się o(khk) i czyta: wielkość ta jest o małe od h, przy h → 0.
Np.:
f(x) = o(|x|)
2
Tu wytłuszczyliśmy słowo równoważny – dlaczego: to stanie się czytelne po lekturze podrozdziału dotyczącego
dwukrotnej różniczkowalności.
44
przy x → 0 oznacza, że
f(x)
= 0.
x→0 |x|
lim
Jest to wygodna i krótka notacja, która pozwala napisać: funkcja f : U → R jest różniczkowalna
w punkcie x ∈ U wtedy i tylko wtedy, gdy
f(x + h) = f(x) + A(h) + o(khk), h → 0.
Mówimy, że funkcja f jest różniczkowalna, jeśli jest różniczkowalna w każdym punkcie
swej dziedziny.
UWAGA: Podaną definicję i podany wzór interpretacyjny należy dobrze zrozumieć (w szczególności z formalnego punktu widzenia): we wzorach tych h oznacza przyrost argumentu, a
więc element w przestrzeni RN , tymczasem „reszta” ε(h) (pomnożona przez długość przyrostu
khk) jest miarą „odstępstwa” przyrostu funkcji od „kawałka” A(h) liniowo zależnego od h. Tak
więc, mówiąc nieco kolokwialnie, funkcja jest różniczkowalna w punkcie x, jeśli dla dostatecznie małych przyrostów h argumentu, przyrost funkcji f(x + h) − f(x) jest, w przybliżeniu,
funkcją liniową przyrostu.
PRZYKŁAD: Funkcja stała f : U → R (tzn. f(x) ≡ c = const. dla x ∈ U) jest różniczkowalna.
Rzeczywiście przekształcenie zerowe zadośćczyni definicji.
2.1.4 TWIERDZENIE: Jeśli funkcja f jest różniczkowalna w punkcie x, to dla dowolnego wektora
h ∈ RN istnieje pochodna kierunkowa f 0 (x; h) i
f 0 (x; h) = A(h),
gdzie A ∈ L(RN , R) jest przekształceniem liniowym z definicji różniczkowalności. Wynika
stąd, że przekształcenie to jest wyznaczone jednoznacznie: nazywa się je pochodną funkcji
f w punkcie x i oznacza symbolem f 0 (x) (tak więc f 0 (x) = A). Macierz stowarzyszoną z
pochodną f 0 (x) nazywa się macierzą Jacobiego funkcji f w punkcie x i oznacza symbolem
Jf (x). Macierz ta ma jeden wiersz i N kolumn, przy czym w j-tej (j = 1, ..., N) kolumnie stoi
pochodna cząstkowa funkcji f względem j-tej zmiennej, a więc
Jf (x) = [f|1 (x), f|2 (x), ..., f|N (x)].
W związku z tym mamy dla małego przyrostu
0
f(x + h) − f(x) = f (x)(h) + khkε(h) =
N
X
hj f|j (x) + khkε(h)
j=1
gdzie ε(h) → 0 przy h → 0.
DOWÓD: Ustalmy wektor h ∈ RN , dla małych t ∈ R, t 6= 0, x + th ∈ U (pamiętajmy, że zbiór U
jest otwarty) i
f(x + th) − f(x)
1
|t|
= (A(th) + ε(th)kthk) = A(h) + khkε(th) → 0,
t
t
t
gdy t → 0. Tak więc f 0 (x; h) = A(h). Gdyby inne przekształcenie liniowe B ∈ L(RN , R) realizowało definicję różniczkowalności, to dla każdego h ∈ RN mielibyśmy
A(h) = f 0 (x; h) = B(h),
45
2.1. POCHODNE
co dowodzi, że A ≡ B. A więc kolejne stwierdzenie (i pojawiająca się tam definicja pochodnej)
ma sens. W szczególności, dla h = ej , j = 1, ..., N mamy
f|j (x) = f 0 (x; ej ) = A(ej ).
Jak pamiętamy: jeśli macierz [a1 , ..., aN ] jest stowarzyszona z przekształceniem liniowym f 0 (x),
to jej elementy wyznaczamy ze wzoru
aj = A(ej ) = f|j (x).
Jeżeli więc funkcja f jest różniczkowalna w x, to dla małych przyrostów h
0
f(x + h) − f(x) = f (x)(h) + ε(h)khk =
N
X
hj f|j (x) + khkε(h),
(∗)
j=1
gdzie limh→0 ε(h) = 0.
PRZYKŁAD: Niech A : RN → R będzie funkcjonałem liniowym o macierzy A ∈ M1×N
i niech f(x) := A(x) dla x ∈ RN . Wówczas funkcja f jest różniczkowalna i dla dowolnego
x ∈ RN , f 0 (x) = A oraz Jf (x) = A.
UWAGA: (1) W świetle twierdzenia różniczkowalność i istnienie pochodnej to do pewnego
stopnia synonimy; należy jednak pamiętać, że zanim zdefiniuje się pochodną należy zdefiniować pojęcie różniczkowalności.
(2) Zgodnie z ogólną umową będziemy często utożsamiać pochodną (która jest przekształceniem liniowym) z macierzą Jacobiego i będziemy pisać
f 0 (x) = [f|1 (x), ..., f|N (x)].
(2) Praktyczna wartość powyższego twierdzenia polega na następującej metodzie weryfikacji
(z definicji) różniczkowalności funkcji f : U → R w punkcie x ∈ U:
a. Zanim sprawdzimy różniczkowalność musimy sprawdzić czy istnieją pochodne cząstkowe (istnienie pochodnych kierunkowych, a w szczególności pochodnych cząstkowych jest
warunkiem koniecznym różniczkowalności).
b. Zgodnie z twierdzeniem, jeśli f jest różniczkowalna w x, to jej macierz Jacobiego musi
mieć postać [f|1 (x), ..., f|N (x)]. Tak więc, żeby sprawdzić, że funkcja jest różniczkowalna należy sprawdzić, czy przekształcenie liniowe, którego macierzą jest [f|1 (x), ..., f|N (x)] zadośćczyni
warunkom z definicji.
PRZYKŁAD: Sprawdzić czy funkcja f : R2 → R zadana wzorem
f(x, y) = xy + x, (x, y) ∈ R2 ,
jest różniczkowalna w punkcie (x, y) ∈ R2 .
Widzimy, że fx (x, y) = y + 1 i fy (x, y) = x. Rozważamy przekształcenie liniowe A : R2 → R,
którego macierzą jest [y + 1, x] (pamiętajmy, że tu punkt (x, y) jest ustalony). Jak wiadomo, dla
dowolnego h = (h1 , h2 ) ∈ R2 , mamy
A(h) = (y + 1)h1 + xh2 .
Obliczymy teraz przyrost
f((x, y)+h)−f((x, y)) = f(x+h1 , y+h2 )−f(x, y) = (x+h1 )(y+h2 )+(x+h1 )−xy−x = A(h)+h1 h2 .
46
Należy teraz sprawdzić czy reszta h1 h2 jest postaci ε(h)khk, gdzie ε(h) → 0 przy h → 0. Mamy
ε(h) =
h1 h2
h1 h2
h1
=q
≤
h2 → 0.
khk
|h2 |
h12 + h22
Ponieważ punkt (x, y) był wybrany dowolnie, to możemy skonkludować, że f jest funkcją
różniczkowalną.
Widać, że przedstawiona procedura może być uciążliwa. Dysponujemy jednak warunkiem
dostatecznym różniczkowalności, który towarzysząc opisanej procedurze daje dobre narzędzie
do badania różniczkowalności.
2.1.5 TWIERDZENIE: Przypuśćmy, że dana jest funkcja f : U → R, gdzie zbiór U ⊂ RN jest
otwarty. Niech x ∈ U i załóżmy, że w pewnym otoczeniu punktu x (tzn. w pewne kuli B(x, r)
o środku w x i promieniu r > 0) istnieją wszystkie pochodne cząstkowe funkcji f, tzn. dla
dowolnego y z tego otoczenia istnieją pochodne f|j (y), j = 1, ..., N. Co więcej zakładamy, że
dla dowolnego j = 1, ..., N funkcje
B(x, r) 3 y 7Ï f|j (y)
są ciągłe w punkcie x. Wówczas funkcja f jest różniczkowalna w x.
W tym miejscu nie podamy dowodu (opiera się on na I-szym twierdzeniu o wartości
średniej).
UWAGA: W świetle podanego warunku można dowód różniczkowalności można przeprowadzać następująco:
1. Sprawdzić istnienie pochodnych cząstkowych w otoczeniu interesującego nas punktu z dziedziny i ich ciągłość w tym punkcie;
2. Wykorzystać poprzednie twierdzenie, by napisać postać pochodnej w tym punkcie (lub jej
macierzy Jacobiego).
PRZYKŁAD: Wróćmy do poprzedniego przykładu (f(x, y) = xy + x. Dla dowolnego punktu
(x, y) ∈ R2 ,
fx (x, y) = y + 1, fy (x, y) = x.
Jak widać pochodne cząstkowe istnieją wszędzie i (jako funkcje fx , fy : R2 → R są ciągłe
(sprawdzić). Zatem funkcja f jest różniczkowalna i
f 0 (x, y) = [y + 1, x].
UWAGA: Warto też wspomnieć o metodzie „wydzielania części liniowej”. Zgodnie z definicją
(i uwagą po niej występującej), żeby stwierdzić różniczkowalność w punkcie x ∈ U funkcji
f : U → R (gdzie U jest – jak zwykle – zbiorem otwartym) wystarczy przedstawić przyrost
f(x + h) − f(x) w postaci sumy składnika zależnego od h w sposób liniowy i reszty rzędu
mniejszego niż khk.
ĆWICZENIE: Na przykład: niech f : RN → R będzie formą kwadratową wyznaczoną przez
formę dwuliniową φ : RN × RN → R. Czy f jest funkcją różniczkowalną?
Można rozumować tak:
f(x + h) − f(x) = φ(x + h, x + h) − φ(x, x) = φ(x, h) + φ(h, x) + φ(h, h).
2.1. POCHODNE
47
Składnik φ(h, h) jest rzędu mniejszego niż khk (dlaczego), zaś reszta jest liniowa zależna od h.
Czytelnik zechce przypomnieć podrozdział o formie ψ (dwuliniowej symetrycznej) odpowiadającej f i zechce dostrzec, że f(x + h) − f(x) = 2ψ(x, h) + φ(h, h), czyli odwzorowanie liniowe
h 7Ï 2ψ(x, h) jest pochodną f w punkcie x.
Przypomnijmy, że istnienie pochodnych kierunkowych w danym punkcie w kierunku dowolnego wektora a także ich liniowa zależność od kierunku nie implikowało ciągłości funkcji
w tym punkcie.
2.1.6 TWIERDZENIE: Jeśli funkcja f : U → R jest różniczkowalna w punkcie x, to jest tam
ciągła.
DOWÓD: Niech (xn ) ⊂ U i xn → x. Mamy udowodnić, że f(xn ) → f(x), czyli f(xn ) − f(x) → 0,
gdy n → ∞. Kładąc hn := xn − x, n ∈ N, możemy napisać
f(xn ) − f(x) = f(x + hn ) − f(x) = f 0 (x)(hn ) + ε(hn )khn k
(lub od razu f(xn ) − f(x) = f 0 (x)(xn − x) + ε(xn − x)kxn − xk). Jak wiemy przekształcenie liniowe
f 0 (x) jest ciągłe, a zatem f 0 (x)(hn ) → 0, bo – oczywiście hn → 0). Ponadto ε(hn ) → 0 i khn k → 0.
W taki razie f(xn ) − f(x) → 0.
.
2.1.7 TWIERDZENIE: Załóżmy, że funkcje f, g : U → R, gdzie U ⊂ RN jest zbiorem otwartym,
są różniczkowalne w punkcie x ∈ U. Wówczas funkcje f ± g, fg oraz f/g (o ile iloraz jest
poprawnie zdefiniowany) są różniczkowalne w x i
(f ± g)0 (x) = f 0 (x) ± g 0 (x), (fg)0 (x) = g(x)f 0 (x) + f(x)g 0 (x),
1
(f/g)0 (x) =
(g(x)f 0 (x) − f(x)g 0 (x)).
[g(x)]2
UWAGA: Zanim przystąpimy do dowodu należy dobrze zrozumieć tezę (również pod względem formalnym. Otóż pochodna jest (z definicji) przekształceniem liniowym. Zatem w lewych
stronach podanych wzorów znajdują się przekształcenia liniowe, po prawej stronie również:
w pierwszym ze wzorów mamy sumę dwóch przekształceń f 0 (x) i g 0 (x); w drugim wzorze po
prawej stronie mamy sumę przekształcenia g(x)f 0 (x) (tzn. iloczyn przekształcenia f 0 (x) przez
skalar g(x)) oraz przekształcenia f(x)g 0 (x) (tzn. iloczyn przekształcenia g 0 (x) przez skalar f(x))
– kolejność mnożenia ma znaczenie, gdyż w przestrzeniach wektorowych (a taką przestrzenią
jest zbiór przekształceń liniowych L(RN , R) elementami której sa rozważane pochodne) mnożymy wektory przez skalary z lewej strony. Analogicznie interpretujemy ostatni z podanych
wzorów, z tym że mamy tam do czynienia z różnicą przekształceń.
DOWÓD: Dla przykładu podamy dowód ostatniej równości (polecając Czytelnikowi dowody
pozostałych wzorów). Dla uproszczenia notacji i bez zmniejszenia ogólności można założyć, że
f ≡ 1 : niech B := g 0 (x). Chcemy dowieść, że przekształcenie C : RN → R zadane wzorem
C(h) = −
1
g 2 (x)
B(h), h ∈ RN ,
jest pochodną funkcji F := 1/g (oczywiście milcząco pojawia się założenie o poprawności tej
funkcji, czyli zakładamy, że g nie ma miejsc zerowych w dziedzinie U). Przede wszystkim łatwo
widać, że C jest przekształceniem liniowym. Należy więc sprawdzić, że
lim
h→0
F(x + h) − F(x) − C(h)
= 0.
khk
48
Wstawiając otrzymamy
g(x + h) − g(x) − B(h)
F(x + h) − F(x) − C(h)
1
=−
+
khk
g(x + h)g(x)
khk
1
1
1
−
B(h).
g 2 (x) g(x + h)g(x) khk
Pierwszy składnik dąży do 0 przy h → 0, bo – z definicji różniczkowalności g w punkcie x
mamy
g(x + h) − g(x) − B(h)
lim
= 0;
h→0
khk
1
drugi składnik jest tez zbieżny do 0, bo wyrażenie khk
B(h) ograniczone jest przez normę kBk,
1
zaś wyrażenie g 21(x) − g(x+h)g(x)
dąży do zera (a wynika to z ciągłości g w punkcie x (czyli
g(x + h) → g(x), gdy h → 0).
POJĘCIE GRADIENTU Jeśli f : V → R, gdzie V ⊂ RN jest zbiorem otwartym, jest funkcja
różniczkowalną w punkcie x ∈ V , to pochodna f 0 (x) jest przekształceniem (funkcjonałem)
liniowym (elementem przestrzeni L(RN , R), tzn. przestrzeni sprzężonej (RN )∗ ). Jak wspomniano
w rozdziale dotyczącym algebry liniowej przestrzeń sprzężoną (RN )∗ można utożsamiać z RN
(w tym utożsamieniu funkcjonałowi φ ∈ (RN )∗ odpowiada wektor U(φ) o tej własności, że
φ(x) = hx, U(φ)i).
Wektor U(f 0 (x)) nazywa się gradientem funkcji f w punkcie x i oznacza symbolem ∇f(x).
Zatem


f|1 (x)
 f|2 (x) 


∇f(x) =  . 
 .. 
f|N (x)
.
Podamy teraz ważną interpretację wektora gradientu funkcji. Przypomnijmy, ze dla wekhx,yi
nazywa się cosinusem kąta pomiędzy
torów x, y ∈ RN , x, y 6= 0, wielkość cos ^{x, y} = kxkkyk
wektorami x i y. Używając tego zapisu mamy: dla dowolnego wektora h ∈ RN ,
f 0 (x; h) = hh, ∇f(x)i = k∇f(x)kkhk cos ^{h, ∇f(x)}.
Jeśli khk = 1, to
f 0 (x; h) = k∇f(x)k cos ^{h, ∇f(x)} ≤ k∇f(x)k
i f 0 (x; h) = k∇f(x)k wtedy i tylko wtedy, gdy wektory h i ∇f(x) wyznaczają ten sam kierunek
i mają ten sam zwrot.
Wykazaliśmy więc, że
2.1.8 TWIERDZENIE: Gradient ∇f(x) wyznacza kierunek, w którym wartość pochodnej kierunkowej jest możliwie największa. Jest to jednocześnie kierunek największego wzrostu funkcji
f.
2.1.D
Pochodne odwzorowań
Rozważmy odwzorowanie f : U → RM , gdzie U ⊂ RN jest zbiorem otwartym i niech f =
(f1 , ..., fM ). Tak więc fi : U → R dla dowolnego i = 1, ..., M.
2.1. POCHODNE
49
Mówimy, że odwzorowanie f jest różniczkowalne w punkcie x ∈ U, jeżeli istnieje przekształcenie liniowe A ∈ L(RN , RM ) takie, że
f(x + h) − f(x) − A(h)
= 0,
h→0
khk
lim
czyli przyrost funkcji f(x + h) − f(x) można przedstawić w postaci części liniowo zależnej od
przyrostu argumentu h i reszty rzędu mniejszego niż h, tzn.
f(x + h) − f(x) = A(h) + khkε(h),
gdzie ε(h) ∈ RM i ε(h) → 0, przy h → 0.
Widzimy więc, że w przypadku odwzorowań (funkcji wektorowych wielu zmiennych) mamy do czynienia z sytuacją podobną do funkcji wielu zmiennych.
2.1.9 TWIERDZENIE: Jeśli odwzorowanie f : U → RM jest różniczkowalne w punkcie x ∈
U, to przekształcenie liniowe A z definicji jest wyznaczone jednoznacznie. nazywa się je
pochodną odwzorowania f w punkcie x i oznacza symbolem f 0 (x). Macierz A = [aij ] ∈
MM×N stowarzyszoną z pochodną nazywa się macierzą Jacobiego i oznacza Jf (x) (3 ). Jej
współczynniki wyrażają się następującymi wzorami
aij = fi|j (x),
a więc w i-tym wierszu i w j-tej kolumnie stoi pochodna cząstkowa i-tej funkcji współrzędnej
względem j-tej zmiennej.
DOWÓD: Przypuśćmy, że przekształcenia liniowe A i B zadośćczynią warunkom z definicji.
Wtedy
f(x + h) − f(x) − A(h)
f(x + h) − f(x) − B(h)
B(h) − A(h)
= lim
− lim
= 0.
h→0
h→0
h→0
khk
khk
khk
lim
Ustalmy wektor h ∈ RN . Jeśli t ∈ R i t → 0+ , to
B(th) − A(th)
B(h) − A(h)
= lim
= 0.
t→0
khk
tkhk
Stąd A(h) = B(h). Z dowolności ustalonego h wynika, że A ≡ B.
Niech i = 1, ..., M i j = 1, ..., N. Wówczas (wykorzystując liniowość i ciągłość rzutowania
πi : RM → R) mamy
fi (x + tej ) − fi (x)
1
= lim πi (f(x + tej ) − f(x)) =
t→0
t→0 t
t
1
πi lim (tA(ej ) + ε(tej )|t| = πi (A(ej )) = aij .
t→0 t
fi|j (x) = lim
Związki różniczkowalności odwzorowania i jego funkcji współrzędnych opisuje następujący fakt.
2.1.10 TWIERDZENIE: Odwzorowanie f jest różniczkowalne w punkcie x ∈ U wtedy i tylko
wtedy, gdy dla dowolnego i = 1, ..., M, funkcja współrzędna fi jest różniczkowalna w tym
punkcie. Wtedy też
fi0 (x) = πi ◦ f 0 (x).
Gdy N = M, to macierz Jacobiego Jf (x) jest kwadratowa; jej wyznacznik det Jf (x) nazywa się jakobianem
odwzorowania f w punkcie x.
3
50
DOWÓD: Konieczność: ustalmy i = 1, ..., M. Dla dowolnego (dostatecznie małego) h ∈ RN ,
fi (x + h) − fi (x) = πi (f(x + h) − f(x)) = πi (f 0 (x)(h) + khkε(h)) = πi ◦ f 0 (x) + khkεi (h),
gdzie εi (h) := πi (ε(h)), zaś ε(h) → 0 przy h → 0; oczywiście εi (h) → 0 dla h → 0. Pokazaliśmy
więc, że funkcja fi jest różniczkowalna o pochodnej fi0 (x) = πi ◦ f 0 (x).
Dostateczność: wystarczy sprawdzić, że przekształcenie liniowe A : RN → RM zadane
wzorem
0
(x)(h)), h ∈ RN ,
A(h) := (f10 (x)(h), ..., fM
zadośćczyni definicji. Jest to natychmiastowe.
Z podanej charakteryzacji wynikają wszystkie własności pochodnej odwzorowań, analogiczne do sformułowanych powyżej w odniesieniu do funkcji. W szczególności odwzorowania
różniczkowalne są ciągłe, różniczkowalność zachowuje się przy wykonalnych działaniach algebraicznych.
Oczywiście w przypadku odwzorowań można mówić też o pochodnych kierunkowych.
Mianowicie, jeżeli h ∈ RN jest ustalonym wektorem, to dla x ∈ U granica (o ile istnieje)
f 0 (x; h) := lim
t→0
f(x + th) − f(x)
∈ RM
t
nazywana jest pochodną kierunkową odwzorowania f w punkcie x w kierunku wektora h.
Jeśli h = ej , j = 1, ..., N, to pochodną kierunkową f 0 (x; ej ) nazywa się pochodną cząstkową
odwzorowania i oznacza – jak zwykle symbolem f|j (x) (ważne by dostrzec, że f|j (x) ∈ RM ).
Nie będziemy tego pojęcia szczegółowo omawiać. Ograniczymy się tylko do stwierdzenia,
że jeżeli odwzorowanie f : U → RM jest różniczkowalne w punkcie x, to dla dowolnego h ∈ RN
istnieje pochodna kierunkowa f 0 (x; h) i
f 0 (x; h) = f 0 (x)(h).
Dowód przebiega analogicznie do dowodu analogicznego faktu dla funkcji.
2.1.E
Komentarz
Poczynimy teraz ważne spostrzeżenie.
UWAGA: (1) Jeżeli na funkcję f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, patrzeć
jako na odwzorowanie f : U → RM , gdzie M = 1, to widzimy, że dwie podane wyżej definicje
nie różnią się między sobą: w obu przypadkach pochodna jest przekształceniem liniowym z
L(RN , RM ).
(2) Jeśli na „krzywą” f : (a, b) → RM patrzyć jako na odwzorowanie f : (a, b) ⊂ RN → RM ,
gdzie N = 1, to (zgodnie z przyjętą wyżej definicją) jej pochodną f 0 (t) w punkcie t ∈ (a, b) jest
przekształcenie liniowe w L(R, RM ) o macierzy w MM×1 ; a więc – zgodnie z utożsamieniami
z rozdziału o macierzach – wektor w RM . To ponownie zgadza się z rozważaniami z początku
tego rozdziału.
(3) Spójrzmy wreszcie na „zwykłą” funkcję f : (a, b) → R, gdzie −∞ ≤ a < b ≤ +∞, jak na
odwzorowanie f : U → RM , gdzie U = (a, b) ⊂ RN , N = 1 jest zbiorem otwartym, zaś M = 1.
Z jednej strony, zakładając, że jest ona różniczkowalna w sensie funkcji rzeczywistych
51
2.1. POCHODNE
jednej zmiennej w punkcie x ∈ (a, b), to pochodna (zgodnie z rachunkiem różniczkowym
funkcji jednej zmiennej) jest liczbą
f 0 (x) = lim
t→0
f(x + t) − f(x)
.
t
Z drugiej jednak strony, przyjmując podany punkt widzenia i zakładając, że jest ona różniczkowalna w x w podanym wyżej sensie, to pochodna funkcji f w punkcie x jest przekształceniem liniowym A ∈ L(R, R). Skąd bierze się ta (formalna) różnica?
Przede wszystkim zauważmy, że jeśli f jest różniczkowalna (w zwykłym sensie), to przekształcenie liniowe o macierzy [a], gdzie a = f 0 (x), zadośćczyni powyższej definicji; zatem
mamy do czynienia z różniczkowalnością w sensie powyższym. Jeżeli zaś f jest funkcją różniczkowalną w tym „nowym” sensie, tzn. mamy pewne odwzorowanie liniowe A ∈ L(R, R) i
[a] jest jego macierzą, to liczba a jest pochodną naszej funkcji w zwykłym sensie, bowiem a
jest wartością jaką A przyjmuje na „wektorze” jednostkowym e = 1 (w R baza jest jednoelementowa i tworzy ją singleton {1}). Jest to więc pochodna kierunkowa funkcji f w kierunku
wektora e = a, a więc a = f 0 (x; e) = limt→0 f(x+te)−f(x)
= limt→0 f(x+t)−f(x)
= f 0 (x). A zatem różt
t
nica polega tylko na formalnym spojrzeniu. Z jednej strony pochodna jest liczbą, z drugiej zaś
przekształceniem liniowym o jednoelementowej macierzy, której jedynym współczynnikiem
jest właśnie ta liczba f 0 (x). Biorąc pod uwagę konieczność tego typu identyfikacji sporo miejsca poświęciliśmy tej kwestii w podrozdziale dotyczącym elementów algebry liniowej. Gorąco
polecamy Czytelnikowi namysł na tymi sprawami: jest to niezbędne dla dobrego rozumienia
2.1.F
Reguła łańcucha
Pochodna zachowuje się dobrze przy złożeniach funkcji
2.1.11 TWIERDZENIE: Rozważmy funkcje f : U → RK , gdzie U ⊂ RN jest zbiorem otwartym
oraz g : V → RM , gdzie V ⊂ RK jest też zbiorem otwartym oraz f(U) ⊂ V (określone jest więc
poprawnie złożenie g ◦ f : U → RM ). Załóżmy, że funkcja f jest różniczkowalna w punkcie
x ∈ U, zaś funkcja g jest różniczkowalna w punkcie y := f(x). Wówczas funkcja g ◦ f jest
różniczkowalna w punkcie x i jej pochodna wyraża się wzorem
(g ◦ f)0 (x) = g 0 (y) ◦ f 0 (x) = g 0 (f(x)) ◦ f 0 (x).
(∗)
Dowód tego twierdzenie (bez pewnych upraszczających życie założeń) jest dość technicznie
skomplikowany. Należy jednak dokładnie rozumieć ten wzór (również pod względem formalnym). Po lewej stronie mamy pochodną funkcji g ◦f, a zatem przekształcenie liniowe RN → RM .
Po prawej stronie znajduje się złożenie przekształcenia liniowego A := f 0 (x) : RN → RK z
przekształceniem g 0 (y) = g 0 (f(x)) : RK → RM . Pamiętając, że złożeniu przekształceń liniowych odpowiada macierz będącą iloczynem Cauchy’ego macierz odpowiadających składanym
przekształceniom możemy odtworzyć macierz Jacobiego odwzorowania g ◦ f. Z jednej strony
wiemy, że jest to macierz postaci [(gi ◦ f)|j (x)] i=1,...,M (Czytelnik bez wątpienia dostrzega, że i-tą
j=1,...,N
funkcja współrzędną odwzorowania g ◦ f jest funkcja gi ◦ f), z drugiej macierz ta jest iloczynem
macierzy Jacobiego odwzorowania g w punkcie y, czyli macierzy [gi|k (y)] i=1,...,M przez macierz
k=1,...,K
Jacobiego odwzorowania f w punkcie x, czyli macierz [fk|j (x)] k=1,...,K . Tak więc
j=1,...,N
[(gi ◦ f)|j (x)] i=1,...,M = [gi|k (y)] i=1,...,M · [fk|j (x)] k=1,...,K .
j=1,...,N
k=1,...,K
j=1,...,N
52
Biorąc pod uwagę definicję iloczynu Cauchy’ego macierzy otrzymujemy wzór: dla dowolnych
i = 1, ..., M i j = 1, ..., N,
(gi ◦ f)|j (x) =
K
X
gi|k (y)fk|j (x) =
k=1
K
X
(gi|k ◦ f)(x)fk|j (x).
(∗∗)
k=1
UWAGA: Czytelnik powinien zapamiętać wzór (∗∗) (albo zapamiętać, znacznie łatwiejszy do
zapamiętania wzór (∗) i umieć wyprowadzić wzór (∗∗)). Szczególnie jest to ważne w praktycznych zastosowaniach i przy różnych konfiguracjach liczb N, K i M. Na przykład gdy
N = 1 = M, K dowolne, N, M dowolne i K = 1 (jest to najczęstsza sytuacja, w której tego wzoru się używa).
2.1.G
Twierdzenia o wartości średniej
Omówiliśmy już I-sze twierdzenie o wartości średniej dla funkcji (i poddaliśmy krytyce takie
twierdzenie w przypadku odwzorowań wektorowych jednej zmiennej).
Pojawią się teraz dwa twierdzenia.
2.1.12 TWIERDZENIE (II-gie o wartości średniej) Przypuśćmy, że f : U → R, gdzie U ⊂ RN jest
zbiorem otwartym, x0 , x1 ∈ U i odcinek [x0 ; x1 ] ⊂ U. Jeżeli funkcja f jest różniczkowalna w
każdym punkcie x ∈ [x0 ; x1 ], to istnieje θ ∈ (0, 1) taka, że
f(x1 ) − f(x0 ) = f 0 (x0 + θ(x1 − x0 ))(x1 − x0 ).
Zanim przystąpimy do dowodu należy podany wzór dobrze interpretować. Po lewej stronie
mamy różnicę dwóch liczb, zaś po prawej wartość f 0 (x)(h) jaką pochodna w punkcie pośrednim
x := x0 + θ(x1 − x0 ) odcinka [x0 ; x1 ] przyjmuje na wektorze h := x1 − x0 . Jest to dość oczywiste,
lecz Czytelnik powinien (choćby w tym przypadku) umiejętnie „odczytywać” wzory.
DOWÓD: Założona różniczkowalność implikuje, że w każdym punkcie x ∈ [x0 ; x1 ] istnieje pochodna kierunkowa f 0 (x; x1 − x0 ), Z I-szego twierdzenia o wartości średniej, dla pewnego
θ ∈ (0, 1)
f(x1 ) − f(x0 ) = f 0 (x0 + θ(x1 − x0 ); x1 − x0 ) = f 0 (x0 + θ(x1 − x0 ))(x1 − x0 ).
2.1.13 TWIERDZENIE (o przyrostach) Niech f : U → RM , gdzie U ⊂ RN jest zbiorem otwartym,
x0 , x1 ∈ U i odcinek [x0 ; x1 ] ⊂ U. Jeśli odwzorowanie f jest różniczkowalne w każdym punkcie
x odcinka [x0 ; x1 ], to istnieje θ ∈ (0, 1) takie, że
kf(x1 ) − f(x0 )k ≤ kf 0 (x0 + θ(x1 − x0 ))kkx1 − x0 k.
UWAGA: Po lewej stronie jest długość (norma) przyrostu f(x1 ) − f(x0 ). Po prawej stronie
mamy do czynienia z iloczynem normy kf 0 (x)k przekształcenia liniowego f 0 (x) (gdzie x =
x0 + θ(x1 − x0 ) jest pewnym punktem pośrednim z odcinka [x0 ; x1 ]) oraz długości (normy)
przyrostu x1 −x0 argumentu. Stąd nazwa twierdzenia. Wskazane byłoby, aby Czytelnik dostrzegł
różnicę twierdzenia o przyrostach i twierdzenia o wartości średniej i znał przykład kiedy to
twierdzenie nie zachodzi (a w twierdzeniu o przyrostach występuje ostra nierówność).
2.1. POCHODNE
53
DOWÓD: Niech z = f(x1 ) − f(x0 ) ∈ RM i zdefiniujmy funkcję pomocniczą φ : [0, 1] → R dana
wzorem
φ(t) = hz, f((1 − t)x0 + tx1 )i.
Korzystając z twierdzenia o różniczkowaniu funkcji złożonej i reguły łańcucha, funkcja φ jest
ciągła i różniczkowalna w dowolnym punkcie t ∈ (0, 1);
φ0 (t) = hz, f 0 ((1 − t)x0 + tx1 )(x1 − x0 )i.
Z twierdzenia Lagrange’a, istnieje θ ∈ (0, 1) takie, że
kf(x1 ) − f(x0 )k2 = hz, f(x1 ) − f(x0 )i = φ(1) − φ(0) = φ0 (θ).
Zatem
kf(x1 ) − f(x0 )k2 = hz, f 0 (x0 + θ(x1 − x0 ))(x1 − x0 )i ≤ kzkkf 0 (x0 + θ(x1 − x0 ))kkx1 − x0 k =
= kf(x1 ) − f(x0 )kkf 0 (x0 + θ(x1 − x0 )x)kkx1 − x0 k.
2.1.H
Różniczkowalność i funkcje klasy C 1
Niech f : U → RM , gdzie U ⊂ RN . Do tej pory mówiliśmy o różniczkowalności f w punkcie
x ∈ U.
Jeżeli odwzorowanie f jest różniczkowalne w dowolnym punkcie zbioru U, to mówimy, że
f jest odwzorowaniem różniczkowalnym.
Jeśli funkcja f jest różniczkowalna, to jest ona ciągła.
Jeśli f jest odwzorowaniem różniczkowalnym, to określone jest odwzorowanie
f 0 : U → L(RN , RM ), ; U 3 x 7Ï f 0 (x) ∈ L(RN , RM ),
które nazywa się pochodną funkcji f.
W szczególności jeśli f jest funkcją, tzn. M = 1, to pochodna
f 0 : U → L(RN , R)
przyporządkowuje punktom x ∈ U funkcjonał liniowy f 0 (x) ∈ (RN )∗ . W tej sytuacji można też
rozważać odwzorowanie gradientu
∇f : U → RN ,
które każdemu punktowi x ∈ U przyporządkowuje gradient ∇f(x).
Jest jasne, że jeśli funkcja f jest różniczkowalna, to dla każdego x ∈ U i j = 1, ..., N, istnieje
pochodna cząstkowa f|j (x). Określona jest więc funkcja f|j : U → R, która każdemu punktowi
x ∈ U przyporządkowuje liczbę f|j (x).
Mówimy, że funkcja różniczkowalna f jest klasy C 1 , jeżeli dla dowolnego j = 1, ..., N,
pochodna f|j : U → R jest funkcją ciągłą.
54
2.2
Pochodne wyższych rzędów
2.2.A
Pochodne drugiego rzędu
Rozważmy funkcję f : U → R, gdzie U ⊂ RN jest zbiorem otwartym. Niech i, j = 1, ..., N i
załóżmy, że w otoczeniu B(x, r) punktu x ∈ U, istnieje pochodna cząstkowa f|i (y), y ∈ B(x, r).
Innymi słowy określona jest funkcja RN ⊃ B(x, r) 3 y 7Ï f|i (y) ∈ R, która punktowi y przyporządkowuje pochodną cząstkową f|i (y). Przypuśćmy, że funkcja ta ma w punkcie x pochodną
cząstkową względem j-tej zmiennej, tzn. istnieje pochodna cząstkowa
f|i (x + tej ) − f|i (x)
.
t→0
t
(f|i )|j (x) = lim
Pochodną tę nazywa się pochodną cząstkową drugiego rzędu w punkcie x względem i-tej i
j-tej zmiennej i oznacza symbolem f|ij (x).
UWAGA: (1) Gdy mamy do czynienia z dwoma lub trzema zmiennymi x, y, z.. stosuje się
00 , itp. Tutaj oczywiście
też zapis fxx , fxy
00
fxy
= fxy = f|12 .
(2) Na ogół kolejność różniczkowania ma znaczenie, tzn. f|ij (x) 6= f|ji (x).
PRZYKŁAD: Rozważmy funkcję
(
f(x, y) :=
xy(x 2 −y 2 )
x 2 +y 2
0
dla (x, y) 6= (0, 0);
dla x = 0 = y.
Wtedy, dla dowolnego (x, y) ∈ R2 mamy fx (0, y) = −y, fy (x, 0) = x skąd
fxy (0, 0) = −1 i fyx (0, 0) = 1.
Ma miejsce jednak następujący rezultat.
2.2.1 TWIERDZENIE (Schwarza): Jeśli dla danych i, j = 1, ..., N w pewnym otoczeniu punktu x
istnieją pochodne f|ij oraz f|ji oraz są funkcjami ciągłymi w punkcie x, to f|jk (x) = f|kj (x).
Za chwilę udowodnimy twierdzenie nieco ogólniejsze.
Przyjmujemy teraz następującą definicję. Mówimy, że funkcja f : U → R jest dwukrotnie
różniczkowalna w punkcie x ∈ U, jeżeli jest różniczkowalna w otoczeniu punktu x i dla
dowolnego i = 1, ..., N, pochodna cząstkowa f|i jest (jako funkcja określona w tym otoczeniu)
funkcją różniczkowalną w punkcie x.
UWAGA: Podana definicja jest bez wątpienia dość trudna i wymaga uwagi. Przede wszystkim
żądamy, by istniała taka liczba r > 0, że w otoczeniu B(x, r) istnieje pochodna f 0 , tzn. dla
dowolnego y ∈ B(x, r) istnieje f 0 (y). W szczególności, dla każdego i = 1, ..., N, istnieje pochodna
cząstkowa f|i (y), y ∈ B(x, r). W taki razie określona jest funkcja f|i : B(x, r) → R, która
każdemu punktowi y ∈ B(x, r) przyporządkowuje pochodną cząstkową f|i (y) w punkcie y. W
definicji dwukrotnej różniczkowalności żądamy, aby każda z tych funkcji f|i : B(x, r) → R,
i = 1, ..., N, była różniczkowalna w punkcie x. Oznacza to, że dla dowolnego i = 1, ..., N,
istnieje przekształcenia liniowe Ai ∈ L(RN , R) takie, że
f|i (x + h) − f|i (x) − Ai (h)
= 0.
h→0
khk
lim
2.2. POCHODNE WYŻSZYCH RZĘDÓW
55
Biorąc pod uwagę powyższą notację zdefiniujmy przekształcenie A : RN ×RN → R wzorem:
dla h = (h1 , ..., hN ), k ∈ RN
N
X
A(h, k) =
hi Ai (k).
i=1
2.2.2 TWIERDZENIE: Przy założeniu, że f jest funkcją dwukrotnie różniczkowalną w punkcie
x mamy:
(i) odwzorowanie A jest przekształceniem dwuliniowym i symetrycznym, tzn.
A(h, k) = A(k, h), h, k ∈ RN ;
(ii) dla dowolnych i, j = 1, ..., N, istnieje pochodna cząstkowa f|ij (x) oraz
f|ij (x) = A(ei , ej ) = A(ej , ei ) = f|ji (x).
DOWÓD: Ustalmy i = 1, ..., N. Różniczkowalność w punkcie x funkcji f|i (zadanej na otoczeniu
B(x, r)) implikuje istnienie pochodnej cząstkowej f|ij (x) = (f|i )|j (x).
Sprawdzimy dwuliniowość odwzorowania A: Niech h = (h1 , ..., hN ), k, k1 , k2 ∈ RN i α ∈ R.
Wtedy
A(h, k1 + k2 ) =
N
X
hi Ai (k1 + k2 ) =
i=1
N
X
hi (Ai (k1 ) + Ai (k2 )) = A(h, k1 ) + A(h, k2 ).
i=1
Analogicznie weryfikujemy jednorodność względem drugiej zmiennej: A(h, αk) = αA(h, k).
Niech teraz h, h1 , h2 , k ∈ RN . Sprawdzimy, że A(αh, k) = αA(h, k) oraz A(h1 +h2 , k) = A(h1 , k)+
A(h2 , k). Jeśli h = (h1 , ..., hN ), to αh = (αh1 , ..., αhN ) i
A(αh, k) =
N
X
αhi Ai (k) = α
i=1
N
X
hi Ai (K) = αA(h, k).
i=1
1
2
1
2
Podobnie jeśli h1 = (h11 , ..., hN
) oraz h2 = (h12 , ..., hN
), to h1 + h2 = (h11 + h12 , ..., hN
+ hN
) i
wobec tego
A(h + h , k) =
1
2
N
X
i=1
(hi1
+
hi2 )Ai (k)
N
X
=
i=1
hi1 Ai (k)
N
X
+
hi2 Ai (k) = A(h1 , k) + A(h2 , k).
i=1
Dowód symetryczności formy liniowej A (już możemy używać tej nazwy) jest znacznie
trudniejszy i przewidziany jest dla nieco ambitniejszego Czytelnika. Wystarczy pokazać, że
A(ei , ej ) = A(ej , ei ) dla dowolnych i, j = 1, ..., N, tzn. że f|ij (x) = f|ji (x) (Czytelnik powinien
sprawdzić. ze rzeczywiście wystarczy tyle dowieść). W tym celu rozważ funkcję pomocniczą
φ(t, s) := f(x + tei + sej )
zdefiniowaną w otoczeniu punktu (0, 0) ∈ R2 . Tak zdefiniowana funkcja jest różniczkowalna,
bowiem jej pochodne cząstkowe (z reguły łańcucha)
φt (t, s) = f 0 (x+tei +sej )(ei ) = f|i (x+tei +sej ) oraz φs (t, s) = f 0 (x+tei +sej )(ej ) = f|j (x+tei +sej ).
Jest ona także dwukrotnie różniczkowalna w punkcie (0, 0), gdyż, jak widać, jej pochodne
cząstkowe φt i φs są różniczkowalne w (0, 0). Co więcej
φts (0, 0) = f|ij (x) i φst (0, 0) = f|ji (x).
56
Oczywiście pochodne φtt (0, 0) oraz φss (0, 0) również istnieją.
Tak więc mamy pokazać, że
φts (0, 0) = φst (0, 0).
W tym celu pokażemy, że
1
[φ(t, t) − φ(0, t) − φ(t, 0) − φ(0, 0)] = φst (0, 0).
t→0 t 2
φts (0, 0) = lim
(∗)
Zajmiemy się najpierw pierwszą równością. Dla uproszczenia rachunków wprowadzimy jeszcze inną funkcję:
1
ψ(t, s) := φ(t, s) − t 2 φtt (0, 0) − tsφts (0, 0).
2
Widzimy (poprze bezpośredni rachunek), że ψtt (0, 0) = 0 = ψts (0, 0). Ponadto ψ ma te same
własności co φ: jest dwukrotnie różniczkowalna w punkcie (0, 0).
Jeśli udowodnimy, że
1
0 = lim
t→0 t 2
[ψ(t, t) − ψ(0, t) − ψ(t, 0) − ψ(0, 0)],
o (biorąc pod uwagę, że ψ(t, t) = φ(t, t) − 12 t 2 φtt (0, 0) − t 2 φts (0, 0), ψ(0, t) = φ(0, t), ψ(t, 0) =
φ(t, 0) − 12 t 2 φtt (0, 0) i ψ(0, 0) = φ(0, 0)) udowodnimy de facto, że rzeczywiście
1
[φ(t, t) − φ(0, t) − φ(t, 0) − φ(0, 0)] = φts (0, 0).
t→0 t 2
lim
Tak więc naszym celem jest pokazać, że
1
[ψ(t, t) − ψ(0, t) − ψ(t, 0) − ψ(0, 0)] = 0
t→0 t 2
lim
(∗∗)
pamiętając, że ψtt (0, 0) = 0 = ψts (0, 0). Funkcja ψt jest różniczkowalna w (0, 0). Możemy więc
napisać
p
ψt (t, s) − ψt (0, 0) = tψtt (0, 0) + sψts (0, 0) + η(t, s) t 2 + s2 ,
gdzie η(t, s) → 0 o ile t, s → 0. Tak więc
p
ψt (t, s) − ψt (0, 0) = η(t, s) t 2 + s2
lub, inaczej zapisując,
p
ψ|1 (t, s) − ψ|1 (0, 0) = η(t, s) t 2 + s2 .
Weźmy ε > 0; istnieje wówczas δ > 0 taka, że |η(t, s)| < ε, o ile |t|, |s| < δ. Ustalmy |t| < δ. Dla
s ∈ [−|t|, |t|] połóżmy
ξ(s) := ψ(s, t) − ψ(s, 0).
Wtedy
ξ(t) − ξ(0) = ψ(t, t) − ψ(t, 0) − ψ(0, t) − ψ(0, 0).
I dalej, dla s ∈ (−|t|, |t|)
p
ξ 0 (s) = ψ|1 (s, t) − ψ|1 (s, 0) = ψ|1 (s, t) − ψ|1 (0, 0) − ψ|1 (s, 0) + ψ|1 (0, 0) = η(s, t) s2 + t 2 + η(s, 0)|s|.
Tak więc, dla s ∈ (−|t|, |t|),
p
√
√
|ξ 0 (s)| ≤ η(s, t) s2 + t 2 + η(s, 0)|s| < 2|t|ε + ε|t| = |t|(1 + 2)ε.
57
Z twierdzenia Lagrange’a (odnośnie funkcji ξ)
√
|ψ(t, t) − ψ(t, 0) − ψ(0, t) − ψ(0, 0)| = |ξ(t) − ξ(0)| ≤ |t|2 (1 +
2)ε.
Dowodzi to, że
1
lim
t→0 t 2
[ψ(t, t) − ψ(t, 0) − ψ(0, t) − ψ(0, 0)] = 0
tak jak żądaliśmy.
W celu dowodu drugiej z potrzebnych równości w (∗) wprowadzamy nową funkcje pomocniczą ψ(t, s) = φ(t, s) − 12 s2 φss (0, 0) − tsφst (0, 0) i, analogicznie jak wyżej dowodzimy, ze
1
[ψ(t, t) − ψ(0.t) − ψ(t, 0) − ψ(0.0)] = 0
t→0 t 2
lim
co oznacza, że zachodzi druga z równości (∗).
Udowodnione twierdzenie jest ważne również z tego powodu, że i teraz, obok dwukrotnej różniczkowalności, można mówić o drugiej pochodnej. Mianowicie jeżeli f : U → R jest
funkcją dwukrotnie różniczkowalną w punkcie x ∈ U, to formę dwuliniową symetryczną
A ∈ Ls2 (RN , R) taką, że dla i, j = 1, ..., N, A(ei , ej ) = f|ij (x) nazywamy drugą pochodną lub
pochodną drugiego rzędu funkcji f w punkcie x i oznaczamy symbolem f 00 (x). Macierz stowarzyszoną z drugą pochodną f 00 (x) nazywa się macierzą Hessa funkcji f w punkcie x i
oznacza Hf (x). Oczywiście
Hf (x) = [f|ij (x)]i,j=1,...,N .
Jeśli więc h = (h1 , ..., hN ), k = (k1 , ..., kN ) ∈ RN , to
00
f (x)(h, k) =
N
X
hi kj f|ij (x)
i,j=1
lub
f 00 (x)(h, k) = [h1 , ..., kN ]Hf (x)[k1 , ..., kN ]T =
N
X
hi kj f|ij (x).
i,j=1
Jeszcze inaczej zapisując: jeśli Hf (x) ∈ L(RN , RN ) oznacza przekształcenie liniowe, z którym
stowarzyszona jest macierz Hessa, to
f 00 (x)(h, k) = hh, Hf (x)(k)i.
UWAGA: (1) W podanej definicji drugiej pochodnej kryje się pewne niebezpieczeństwo: nie
orzeka ona, że jeżeli funkcja f ma pochodne cząstkowe drugiego rzędu w punkcie x, ani
nawet, że jest różniczkowalna i ma pochodne cząstkowe drugiego rzędu, to forma dwuliniowa
A ∈ Ls2 (RN , R) taka, że A(ei , ej ) = f|ij (x), gdzie i, j = 1, ..., N, jest jej pochodną drugiego
rzędu. Definicja ta mówi, że jeśli funkcja f jest dwukrotnie różniczkowalna, to taka forma
dwuliniowa jest pochodną drugiego rzędu. Zatem zanim będziemy mówić o drugiej pochodnej,
przekonajmy się, że jest ona dwukrotnie różniczkowalna.
Udowodnimy teraz następujące ważne twierdzenie:
2.2.3 TWIERDZENIE: Załóżmy, że funkcja f : U → R, gdzie U jest zbiorem otwartym w RN , jest
funkcją dwukrotnie różniczkowalną w punkcie x. Wówczas, dla dostatecznie małych h ∈ RN
ma miejsce zależność
1
f(x + h) − f(x) = f 0 (x)(h) + f 00 (x)(h, h) + ε(h)khk2 ,
2
58
gdzie ε(h) → 0, gdy h → 0.
Niekiedy mówi się, że treścią twierdzenia jest wzór Taylora do rzędu drugiego z resztą w
postaci Peano.
DOWÓD (dla chętnych): Niech ε > 0 takie, że B(x, ε) ⊂ U i niech h ∈ RN , 0 < khk < ε. Wtedy,
dla t ∈ [0, khk], x + th ∈ U. Rozważmy funkcję g : [0, khk] → R daną wzorem
g(t) := f(x + tkhk−1 h), t ∈ [0, khk].
Wtedy g(khk) = f(x + h) i g(0) = f(x). Funkcja pomocnicza g jest różniczkowalna (patrz np.
lemat 2.2.13) i wykorzystując regułę łańcucha
g 0 (t) = khk−1 f 0 (x + tkhk−1 h)(h)
(sprawdzić), czyli g 0 (0) = khk−1 f 0 (x)(h) oraz
g 00 (0) = khk−2 f 00 (x)(h, h)
(przeliczyć). Ze wzoru Taylora (dla funkcji rzeczywistych jednej zmiennej)
1
1
g(t) = g(0) + g 0 (0)t + g 00 (0)t 2 + ε(t)t 2 = f(x) + tkhk−1 f 0 (x)(h) + t 2 khk−1 f 00 (x)(h, h) + ε(t)t 2 ,
2
2
gdzie ε(t) → 0 przy t → 0. W szczególności dla t = khk mamy
1
f(x + h) = g(khk) = f(x) + f 0 (x)(h) + f 00 (x)(h, h) + ε(khk)khk2 .
2
FRAGMENT DODATKOWY
Przyjrzyjmy się jeszcze raz powyższemu twierdzeniu.
(1) Biorąc pod postać drugiej pochodnej i jej związek z pochodnymi cząstkowymi drugiego
rzędu, dla h = (h1 , ..., hN ),
N
X
f 00 (x)(h, h) =
hi hj f|ij (x).
i,j=1
RN
f 00 (x)(h, h)
Ponadto odwzorowanie
3 h 7Ï
jest formą kwadratową, którą wyznacza forma
00
dwuliniowa f (x) (por. definicję formy kwadratowej).
(2) Czytelnik powinien porównać wzór z twierdzenia Taylora ze wzorem (∗) i stwierdzeniem
ze strony 45. Mamy do czynienia z sytuacją bardzo podobną: dwukrotna różniczkowalność
implikuje, że przyrost funkcji dwukrotnie różniczkowalnej jest równy sumie składnika liniowo
zależnego od przyrostu h (jest nim składnik f 0 (x)(h)), składnika zależnego kwadratowo od h
(jest nim składnik 12 f 00 (x)(h, h)) oraz składnika rzędu mniejszego niż kwadrat khk2 przyrostu,
tzn. składnika postaci khk2 ε(h), w którym ε(h) → 0 przy h → 0.
(3) O ile jednak warunek (∗) ze strony 43 (istnienie funkcjonału A ∈ L(RN , R) zadośćczyniącego zależności (∗) ze strony 43) był równoważny różniczkowalności f punkcie x, to
warunek analogiczny w przypadku dwukrotnej różniczkowalności nie jest niestety prawdziwy.
Załóżmy mianowicie, że f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, jest funkcją
59
różniczkowalną, x ∈ U oraz istnieje forma dwuliniowa symetryczna B ∈ Ls2 (RN , R) taka, że
dla dostatecznie małych przyrostów h ∈ RN
1
f(x + h) − f(x) = f 0 (x)(h) + B(h, h) + khk2 ε(h),
2
gdzie ε(h) → 0, gdy h → 0. Pytanie brzmi: czy funkcja f jest dwukrotnie różniczkowalna?
Odpowiedź brzmi: nie.
PRZYKŁAD: Rozważmy funkcję f(x) = x 3 sin x13 dla x 6= 0 i f(0) = 0. Czytelnik zechce
pokazać, że funkcja ta jest różniczkowalna: w istocie f 0 (0) = 0 i f 0 (x) = 3x 2 sin x13 − x3 cos x13 dla
x 6= 0. Zatem pochodna f 0 nie jest ciągła w 0, czyli f nie może być różniczkowalna w punkcie
x = 0. Z drugiej jednak strony kładąc B ≡ 0 mamy
f(h) = f(0 + h) − f(0) = f 0 (0)h + B(h, h) + ε(h)|h|,
gdzie ε(h) = |h|−1 f(h) → 0, gdy h → 0.
(4) Konkluzja: dwukrotnej różniczkowalności w punkcie nie można zdefiniować „na wzór
i podobieństwo” różniczkowalności w punkcie zastępując odwzorowanie liniowe odwzorowaniem dwuliniowym.
Cierpliwy czytelnik jednak doczeka się za chwilę definicji dwukrotnej różniczkowalności
pozostającej w pełnej analogii z definicją różniczkowalności.
(5) Ciekawe jest, że jeśli funkcja dwukrotnie różniczkowalna f : U → R w punkcie x ∈ U
dopuszcza dla małych h przedstawienie w postaci:
1
f(x + h) = f(x) + A(h) + B(h) + khk2 ε(h),
2
gdzie A ∈ L(RN , R) i B jest formą kwadratową na RN , to f 0 (x) = A oraz f 00 (x) = φ, gdzie φ
jest symetryczną forma dwuliniową wyznaczającą formę kwadratową B.
ĆWICZENIE: Udowodnić to stwierdzenie.
Powyższy przykład mówi, że przyjętego założenia o dwukrotnej różniczkowalności nie
można opuścić (dlaczego?).
Załóżmy teraz, że funkcja f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, będzie
różniczkowalna. W związku z tym poprawnie zdefiniowane jest odwzorowanie gradientu
∇f : U → RN , U 3 x 7Ï ∇f(x) oraz ∇f = (f|1 , ..., f|N ).
Niech x ∈ U. Możemy rozważać różniczkowalność ∇f w punkcie x i pochodną (∇f)0 (x). Jak
pamiętamy (twierdzenie 2.1.10) różniczkowalność w punkcie x ma miejsce wtedy i tylko wtedy,
gdy każda z funkcji współrzędnych odwzorowania ∇f, czyli każda z pochodnych cząstkowych
f|j jest różniczkowalna w punkcie x, a więc wtedy i tylko, gdy f jest różniczkowalna w sensie
przyjętej przez nas definicji.
Otrzymaliśmy więc twierdzenie:
2.2.4 TWIERDZENIE: Funkcja różniczkowalna f : U → R jest dwukrotnie różniczkowalna w
punkcie x ∈ U wtedy i tylko wtedy, gdy odwzorowanie gradientu ∇f : U → RN jest różniczkowalne w punkcie x.
60
Zgodnie z definicją, macierzą Jacobiego odwzorowania ∇f w punkcie x jest macierz, w
której w i-tym wierszu i w j-tej kolumnie stoi j-ta pochodna cząstkowa i-tej funkcji współrzędnej
odwzorowania ∇f, czyli jest to macierz [(f|i )|j (x)]i,j=1,...,N = [f|ij (x)]i,j=1,...,N . Innymi słowy
Hf (x) = J∇f (x),
i – wobec tego – odwzorowanie liniowe Hf (x) stowarzyszone z macierzą Hessa jest pochodną
gradientu ∇f, tzn. Hf (x) = (∇f)0 (x) i dla dowolnych h, k ∈ RN
f 00 (x)(h, k) = hh, Hf (x)(k)i = hh, (∇f)0 (x)(k)i.
Kolejnym krokiem jest, podobnie jak w przypadku różniczkowalności w punkcie, pytanie
o prosty warunek dostateczny dwukrotnej różniczkowalności w punkcie.
2.2.5 TWIERDZENIE: Niech funkcja f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, będzie
funkcją różniczkowalną i niech x ∈ U. Funkcja f jest dwukrotnie różniczkowalna w punkcie
x, jeśli w otoczeniu punktu x istnieją wszystkie pochodne cząstkowe drugiego rzędu i są one
funkcjami ciągłymi w x.
DOWÓD: Ustalmy i = 1, ..., N. Z założenia w pewnej kuli B(x, r) istnieją pochodne cząstkowe
f|ij , tzn. dla dowolnego y ∈ B(x, r) oraz j = 1, ..., N istnieje
f|ij (y) = (f|i )|j (y),
i, dodatkowo, funkcja B(x, r) 3 y 7Ï f|ij (y) = (f|i )|j (y) jest ciągła w x. Wykorzystując warunek
dostateczny różniczkowalności stwierdzamy, że funkcja f|i jest różniczkowalna. To dzieje się
dla wszystkich i = 1, ..., N. Tak więc – w świetle naszej definicji – funkcja f jest dwukrotnie
różniczkowalna w punkcie x.
A więc w celu weryfikacji dwukrotnej różniczkowalności w punkcie x ∈ U należy: obliczyć
pochodne cząstkowe (pierwszego rzędu), zobaczyć czy są one ciągłe (to będzie gwarantować,
że f jest funkcją różniczkowalną), obliczyć pochodne cząstkowe drugiego rzędu i sprawdzić,
czy są one ciągłe w punkcie x.
2.2.B
Pochodne wyższych rzędów funkcji
Przypuśćmy, że f : U → R, gdzie U ⊂ RN , jest funkcją dwukrotnie różniczkowalną, tzn. jest
ona dwukrotnie różniczkowalna w każdym punkcie x ∈ U. Wówczas, dla dowolnego x ∈ U i
dla wszystkich i, j = 1, ..., N, istnieje pochodna cząstkowa (drugiego rzędu) f|ij (x). Mam więc
poprawnie określoną funkcję drugiej pochodnej cząstkowej
f|ij : U → R.
Ustalmy punkt x ∈ U. Jeśli, dla dowolnych i, j = 1, ..., N, funkcja pochodnej cząstkowej f|ij
jest różniczkowalna w punkcie x, to mówimy, że funkcja f jest trzykrotnie różniczkowalna w
punkcie x.
Załóżmy, że funkcja f jest trzykrotnie różniczkowalna w punkcie x. Ustalmy i, j = 1, ..., N.
Różniczkowalność pochodnej f|ij w punkcie x implikuje istnienie pochodnej cząstkowej (f|ij )|k (x)
dla wszystkich k = 1, ..., N. Pochodną tę nazywamy pochodną cząstkową trzeciego rzędu
względem zmiennych o numerach i, j i k i oznaczamy symbolem f|ijk (x).
61
Rozumując analogicznie (wykorzystując de facto rozumowanie z twierdzenia 2.2.2) łatwo
pokazać, że
2.2.6 TWIERDZENIE: Jeśli funkcja f : U → R, gdzie U ⊂ RN , jest trzykrotnie różniczkowalna w punkcie x, to przekształcenie trójliniowe A ∈ L3 (RN , R) wyznaczone przez macierz
trójwskaźnikową [f|ijk (x)]i,j,k=1,...,N jest symetryczne i
f|ijk (x) = A(ei , ej , ek )
dla dowolnych i, j, k = 1, ..., N. Przekształcenie A nazywa się pochodną trzeciego rzędu funkcji f w punkcie x i oznacza symbolem f 000 (x).
ĆWICZENIE: Udowodnić to twierdzenie w oparciu o twierdzenie 2.2.2 i następującą obserwację: funkcja f : U → R jest trzykrotnie różniczkowalna wtedy i tylko wtedy, gdy każda
pochodna cząstkowa f|j : U → R, j = 1, ..., N, jest dwukrotnie różniczkowalna w punkcie x.
Podobnie definiujemy różniczkowalność dowolnego rzędu n ≥ 1 w punkcie funkcji f :
U → R. Zakładamy, że funkcja f jest (n−1)-krotnie różniczkowalna. Wobec tego, dla dowolnego
układy liczb i1 , ..., in−1 = 1, ..., N i x ∈ U istnieje pochodna cząstkowa (n − 1)-szego rzędu, tzn.
f|i1 i2 ...in−1 (x), czyli funkcja
f|i1 ...in−1 : U → R.
Ustalmy x ∈ U. Mówimy, że funkcja f jest n-krotnie różniczkowalna w punkcie x, jeśli
każda z pochodnych cząstkowych f|i1 ...in−1 jest funkcją różniczkowalną w punkcie x.
Jeśli funkcja f jest n-krotnie różniczkowalna w punkcie x ∈ U, to dla dowolnych i1 , ..., in−1 =
1, ..., N oraz dla dowolnego in = 1, ..., N istnieje pochodna cząstkowa (f|i1 ...in−1 )|in (x), którą
oznaczamy symbolem f|i1 ...in−1 in (x) i nazywamy pochodną cząstkową n-tego rzędu funkcji f w
punkcie x względem zmiennych o numerach i1 , ..., in .
Wprost z definicji wynika następujący warunek konieczny i dostateczny n-krotnej różniczkowalności funkcji w punkcie.
2.2.7 FAKT: Funkcja f : U → R jest n-krotnie różniczkowalna w punkcie x, gdzie n ≥ 2, wtedy
i tylko wtedy, gdy dla dowolnego j = 1, ..., N, pochodna cząstkowa f|j : U → R jest funkcją
(n − 1)-krotnie różniczkowalną w x.
Podobnie jak poprzednio (używając np. indukcji matematycznej) można udowodnić, że
przekształcenie n-liniowe wyznaczone przez macierz n-wskaźnikową postaci [f|i1 ...in (x)]i1 ,...in =1,...,N
jest symetryczne. Nazywamy je pochodną n-tego rzędu funkcji f w punkcie x i oznaczamy
symbolem f (n) (x).
KONKLUZJA: Mówiąc ogólnie: przypuśćmy, że f : U → R, gdzie U ⊂ RN jest zbiorem
otwartym. Niech n ∈ N. Jeżeli funkcja f jest n-krotnie różniczkowalna w punkcie x (co – w
przypadku, gdy n ≥ 2 – oznacza, że istnieją pochodne cząstkowe (n − 1)-szego rzędu określone
na U i są różniczkowalne w x), to pochodną jest odwzorowanie n-liniowe symetryczne f (n) (x) ∈
Lsn (RN , R), którego macierzą jest macierz n-wskaźnikowa [f | i1 ...in (x)]i1 ,...,in =1,...,N .
Tak więc, jeśli h1 , ..., hn ∈ RN , hi = (hi1 , ..., hiN ), to
f (n) (x)(h1 , ..., hn ) =
N
X
h1i1 ..hnin f|i1 ...in (x).
(∗)
i1 ,....in =1
ĆWICZENIE: Czytelnik powinien w miarą swobodnie kontrolować podaną (niestety dość
złożoną) notację.
62
Rozumując indukcyjnie otrzymujemy następujący warunek dostateczny n-krotnej różniczkowalności w punkcie x.
2.2.8 TWIERDZENIE: Jeśli wszystkie pochodne cząstkowe n-tego rzędu funkcji (n − 1)-krotnie
różniczkowalnej f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, istnieją w pewnym otoczeniu punktu x ∈ U i są w tym punkcie ciągłe, to funkcja f jest n-krotnie różniczkowalna.
PRZYKŁAD: Niech funkcja f : R2 → R zadana będzie wzorem f(x, y) = x 3 y 2 − y sin x.
Zbadaj trójkrotną różniczkowalność i oblicz pochodną 3-ego rzędu a także oblicz wartość
f 000 (x, y)(h1 , h2 , h3 ), gdzie h1 = (2, 0), h2 = (1, 2), h3 = (1, 1).
Rozpoczynamy od pochodnych pierwszego rzędu:
fx (x, y) = 3x 2 y 2 − y cos x, fy = 2x 3 y − sin x;
pochodne cząstkowe fx , fy określone są na całej płaszczyźnie i są ciągłe. Zatem f jest funkcją
różniczkowalną i, dla dowolnego (x, y) ∈ R2
f 0 (x, y) = [3x 2 y 2 − y cos x, 2x 3 y − sin x],
tzn. macierz Jacobiego Jf (x, y) ma postać j.w.
Obliczamy pochodne cząstkowe drugiego rzędu
fxx = 6xy 2 + y sin x, fxy = 6x 2 y − cos x = fyx , fyy = 2x 3 .
Pochodne cząstkowe drugiego rzędu określone są na całej płaszczyźnie i są ciągłe. Wobec
tego funkcja f jest dwukrotnie różniczkowalna i, dla dowolnego (x, y) ∈ R2 ,
6xy 2 + y sin x 6x 2 y − cos x
00
f (x, y) =
,
6x 2 y − cos x
2x 3
tzn. macierzą Hessa Hf (x, y) ma postać j.w.
Obliczamy pochodne cząstkowe trzeciego rzędu:
fxxx = 6y 2 + y cos x, fxxy = 12xy + sin x = fxyx = fyxx , fyyy = 0, fyyx = 6x 2 = fyxy = fxyy .
Pochodne cząstkowe trzeciego rzędu są określone na całej płaszczyźnie i są ciągłe. Wobec
tego f jest funkcją różniczkowalną. Dla dowolnego (x, y) ∈ R2 macierzą trzeciej pochodnej
jest macierz trójwskaźnikowa o współczynnikach, którymi są pochodne cząstkowe trzeciego
rzędu.
Aby obliczyć wartość f 000 (x, y)(h1 , h2 , h3 ) zgodnie ze wzorem (∗) należy policzyć
fxxx h11 h21 h31 = (6y 2 + y cos x)2 · 1 · 1 = 12y 2 + 2y cos x;
fxxy h11 h21 h32 = (12xy + sin x)2 · 1 · 1 = 24xy + 2 sin x;
fxyx h11 h22 h31 = (12xy + sin x)2 · 2 · 1 = 48xy + 4 sin x;
fyxx h12 h21 h31 = (12xy + sin x)0 · 1 · 1 = 0;
fyyy h12 h22 h32 = 0;
fyxy h12 h21 h32 = 0;
fxyy h11 h22 h32 = (6x 2 )2 · 2 · 1 = 24x 2 ;
63
fyyx h12 h22 h31 = 0
i wszystkie wyniki dodać. Otrzymujemy więc:
f 000 (x, y)(h1 , h2 , h3 ) = 24x 2 + 12y 2 + 2y cos x + 6 sin x + 72xy.
NOTACJA MULTIINDEKSOWA Rozważmy multiindeks α = (α1 , ..., αN ) ∈ ZN
+ długości n =
PN
|α| =
j=1 αj i funkcję f : U → R, która jest n-krotnie różniczkowalna w punkcie x ∈
U. Wówczas pochodne cząstkowe n-tego rzędu są symetryczne. Symbolem ∂α f(x) lub f|α (x)
oznaczamy pochodną cząstkowa funkcji f w punkcie x, w której różniczkowanie względem
pierwszej zmiennej odbywa się α1 razy, różniczkowanie względem drugiej zmiennej odbywa
się α2 razy, itp. tzn różniczkowanie względem zmiennej o numerze j (j = 1, ..., N) odbywa się
αj razy (czyli ogółem różniczkowanie odbywa się |α| = n razy. Ta notacja jest poprawna, gdyż
wartość f|α (x)∂α f(x) nie zależy od porządku różniczkowania.
β
2.2.9 FAKT: Przypuśćmy, że dla dowolnego β ∈ ZN
+ , |β| ≤ n − 1, pochodne cząstkowe ∂ f
α
istnieją w U i są ciągłe, zaś pochodne ∂ f rzędu |α| = n istnieją w otoczeniu punktu x ∈ U
i są w tym punkcie ciągłe. Wtedy funkcja f jest n-krotnie różniczkowalna w punkcie x. Jest to po prostu inne sformułowanie twierdzenia 2.2.8
Jest też jeszcze inna korzyść ze stosowania notacji multiindeksowej. Wykorzystując mianowicie rozumowanie z fragmentu dotyczącego algebry liniowej, można pokazać, że wartość
f (n) (x) na zespole (h, ..., h), w którym wektor h ∈ RN wzięto n razy wynosi
X
f (n) (x)(h, ..., h) =
α∈ZN
+ , |α|=n
n! α α
h ∂ f(x).
α!
(∗)
Podany wzór jest dość syntetyczny w porównaniu do (∗) zastosowanego w sytuacji, w której
h1 = h2 = ... = hn = h = (h1 , ..., hN ), a mianowicie
f
(n)
(x)(h, ..., h) =
N
X
hi1 hi2 ...hin f|i1 ...in (x).
i1 ,...,in =1
RACHUNEK POCHODNYCH WYŻSZEGO RZĘDU Dla pochodnych n-tego rzędu obowiązuję podobne wzory jak w przypadku pochodnych rzędy pierwszego.
2.2.10 TWIERDZENIE: Jeśli f, g : U → R, gdzie U ⊂ RN jest zbiorem otwartym, są funkcjami
n-krotnie różniczkowalnymi w punkcie x ∈ U, to funkcja f ± g jest n-krotnie różniczkowalna
w punkcie x i
(f ± g)(n) (x) = f (n) (x) ± g (n) (x)
oraz, dla dowolnego multiindeksu α ∈ ZN
+ długości |α| = n mamy
∂α (f ± g)(x) = ∂α f(x) ± ∂α g(x).
Również funkcja fg jest n-krotnie różniczkowalna w punkcie x. Wtedy też, dla dowolnego
multiindeksu α ∈ ZN
+ , |α| = n mamy
X
∂α (fg)(x) =
∂β f(x)∂α−β g(x).
β∈ZN
+ , β≤α
Jest to tzw. wzór Leibniza.
64
DOWÓD: Pokażemy część pierwszą (dowód drugiej części można znaleźć w literaturze). Teza
twierdzenie jest prawdziwa dla n = 1. Niech n ≥ 2 i załóżmy, ze teza jest słuszna dla n − 1.
Funkcje f i g są n-krotnie różniczkowalne; są więc również (n − 1)-krotnie różniczkowalne i,
dla każdego multiindeksu β ∈ Z+N , |β| = n−1 mamy, z założenia indukcyjnego, że ∂β (f +g)(x) =
∂β f(x) + ∂β g(x). Pochodne cząstkowe ∂f β i ∂β g są funkcjami różniczkowalnymi w punkcie x,
co implikuje, że funkcja ∂β f + ∂g β jest tam różniczkowalna i dla dowolnego i = 1, ..., N
(∂β f + ∂g β )|i (x) = (∂β f)|i (x) + (∂g β )|i (x).
N
Jeśli α ∈ ZN
+ i |α| = n, to istnieje β ∈ Z+ , |β| = n − 1, że α = (β1 , ..., βi + 1, ..., βN ). W takim razie
∂α (f + g)(x) = (∂β (f + g))|i (x) = (∂β f + ∂g β )|i (x) = (∂β f)|i (x) + (∂g β )|i (x) = ∂α f(x) + ∂g α f(x).
Z przeprowadzonego rachunku wynika też, ze dla dowolnych i1 , ..., in = 1, ..., N
(f + g)|i1 ...in (x) = f|i1 ...in (x) + g|i1 ...in (x),
co natychmiast implikuje, że (f + g)(n) = f (n) (x) + g (n) (x) i kończy dowód.
2.2.C
Pochodne wyższych rzędów odwzorowań
Przypuśćmy, że dane jest odwzorowanie f = (f1 , ..., fM ) : U → RM , gdzie U ⊂ RN jest zbiorem
otwartym. Niech x ∈ U i n ∈ N.
Mówimy, że odwzorowanie f jest n-krotnie różniczkowalne w punkcie x, jeżeli każda z
funkcji współrzędnych fi , i = 1, ..., M, jest w tym punkcie n-krotnie różniczkowalna.
UWAGA: Rozważymy nieco bardziej szczegółowo przypadek n = 2. Dwukrotna różniczkowalność odwzorowania f w punkcie x oznacza, że:
(1) odwzorowanie f jest różniczkowalne; stąd, dla dowolnego j = 1, ..., N, określone jest
odwzorowanie pochodnej cząstkowej f|j : U → RM , które x ∈ U przyporządkowuje pochodną
cząstkową f|j (x) (por. str. 50);
(2) dla dowolnego j = 1, ..., N, odwzorowanie f|j jest różniczkowalne w x.
Pochodną n-tego rzędu lub n-tą pochodną w punkcie x ∈ U odwzorowania n-krotnie różniczkowalnego w punkcie x jest przekształcenie n-liniowe symetryczne f (n) (x) ∈ Lsn (RN , RM )
takie, że dla każdego i = 1, ..., M,
πi ◦ f (n) (x) = fi (x).
(n)
Tak więc dla h1 , ..., hn ∈ RN , jeżeli y = (y1 , ..., yM ) = f (n) (x)(h1 , ..., hn ), to
N
X
yi =
h1 i1 ...hn in fi|i1 ...in (x)
i1 ,...,in =1
oraz, gdy h1 = ... = hn = h, to
yi =
X
α∈ZN
+ , |α|=n
n! α α
h ∂fi (x).
α!
Dla pochodnych wyższych rzędów odwzorowań obowiązują te same praktycznie własności
jak w przypadku funkcji.
2.2.11 TWIERDZENIE: Przypuśćmy, ze odwzorowanie f : U → RM , gdzie U ⊂ RN , jest n-krotnie
różniczkowalne w punkcie x ∈ U, zaś odwzorowanie g : V → RK , gdzie V ⊂ RM jest zbiorem
65
otwartym i f(U) ⊂ V , jest n-krotnie różniczkowalne w punkcie y := f(x). Wówczas złożenie
g ◦ f : U → RK jest poprawnie określone i n-krotnie różniczkowalne w punkcie x.
DOWÓD: Dowód przeprowadzimy przy pomocy indukcji matematycznej. Teza jest słuszna, gdy
n = 1. Weźmy n ≥ 2 i załóżmy, że odwzorowania f i g są (n-krotnie różniczkowalne w
punktach x i y, odpowiednio. Są więc one różniczkowalne i, zgodnie z regułą łańcucha, i-ta
funkcja współrzędna złożenia g ◦ f (tzn. funkcja gi ◦ f) ma pochodne cząstkowe postaci
(gi ◦ f)|j =
K
X
(gi|k ◦ f)fk|j , j = 1, ..., N.
k=1
Wyrażenie po prawej stronie jest sumą iloczynów funkcji postaci gi|k ◦f i fk|j , gdzie k = 1, ..., K.
Dla dowolnego k = 1, ..., K, funkcja gi|k : V → R jest (n − 1)-krotnie różniczkowalna, odwzorowanie f jest też (n−1)-krotnie różniczkowalne. Zatem z założenia indukcyjnego złożenie gi|k ◦f
jest (n − 1)-różniczkowalne. Ponieważ funkcja fk|j jest również (n − 1)-krotnie różniczkowalna,
to iloczyn (gi|k ◦ f)fk|j i ich suma są funkcjami (n − 1)-krotnie różniczkowalnymi. Pokazaliśmy
więc, że każda funkcja współrzędna odwzorowania g ◦ f ma (n − 1)-krotnie różniczkowalne
wszystkie pochodne cząstkowe pierwszego rzędu. Oznacza to, że funkcje współrzędne odwzorowania g ◦ f są n-krotnie różniczkowalne, a więc że samo odwzorowanie g ◦ f jest n-krotnie
różniczkowalne.
Niestety „reguła łańcucha” dla pochodnych wyższych rzędów jest znacznie bardziej skomplikowana. Ograniczę się tylko do wzoru na drugą pochodną złożenia odwzorowań dwukrotnie
różniczkowalnych. Przyjmijmy założenia powyższego twierdzenie przy n = 2. Wtedy, dla dowolnych u, v ∈ RN ,
(g ◦ f)00 (x)(u, v) = g 00 (f(x))(f 0 (x)(u), f 0 (x)(v)) + g 0 (f(x))(f 00 (x)(u, v)).
Wzór ten trzeba bardzo starannie odczytywać!
Wzoru dla pochodnych trzeciego i wyższych rzędów są znacznie bardziej skomplikowane.
2.2.D
Funkcje i odwzorowania klasy C n
Mówimy, że funkcja f : U → R, gdzie U ⊂ RN jest zbiorem otwartym, jest klasy C n ,n ∈ N, jeżeli
jest n-krotnie różniczkowalna (tzn. jest n-krotnie różniczkowalna w każdym punkcie zbioru
U) i każda jej pochodna cząstkowa n-tego rzędu jest funkcją ciągłą.
2.2.12 FAKT: Na to by funkcja f : U → R była klasy C n potrzeba i wystarcza, aby dla dowolα
4
nego α ∈ ZN
+ , |α| ≤ n, pochodna ∂ f istniała i była funkcją ciągłą ( )
DOWÓD: Konieczność podanego warunku jest natychmiastowa. Dla dowodu dostateczności zauważmy, że z istnienia i ciągłości pochodnych cząstkowych pierwszego rzędu implikuje różniczkowalność funkcji f. Analogicznie, z istnienia i ciągłości pochodnych cząstkowych drugiego rzędu wynika dwukrotna różniczkowalność. Rozumując podobnie otrzymamy n-krotną
różniczkowalność i ciągłość pochodnych cząstkowych n-tego rzędu.
ĆWICZENIE: (1) Znaleźć przykład funkcji klasy C n , która nie jest klasy C n+1 (dla dowolnego
n ∈ N).
(2) Czasem mówi się, że funkcja f : U → R jest klasy C 0 , jeżeli jest ciągła. Udowodnić, że dla
dowolnego n ∈ N, C n ⊂ C n−1 ⊂ ... ⊂ C 1 ⊂ C 0 .
4
Równoważnie: istnieją i są ciągłe wszystkie pochodne cząstkowe rzędu k 6= n.
66
Podobnie mówimy, że odwzorowanie f : U → RM jest klasy C n , n ≥ 0, jeśli każda funkcja
współrzędna fi , i = 1, ..., M, odwzorowania f jest klasy C n oraz, że jest ono klasy C ∞ , gdy jest
klasy C n dla dowolnego n ≥ 1.
ĆWICZENIE: (1) Podać przykład odwzorowania klasy C ∞ .
(2) Złożenie odwzorowań klasy C n jest odwzorowaniem klasy C n .
2.2.E
Wzór Taylora
Podobnie jak w przypadku funkcji rzeczywistych jednej zmiennej, ważną rolę w rachunku różniczkowym funkcji wielu zmiennych pełni twierdzenie Taylora. Czytelnik zechce przypomnieć
udowodniony wcześniej wzór Taylora do drugiego rzędu, który przedyskutowaliśmy wcześniej
Rozważmy funkcję f : U → R, gdzie U ⊂ RN jest zbiorem otwartym.
Zaczniemy od następującego lematu.
2.2.13 LEMAT: Jeśli funkcja f jest n-krotnie różniczkowalna, to funkcja g : [0, T] → R, gdzie
T > 0 jest tak dobrane aby x + th ∈ U przy t ∈ [0, T], dana wzorem
g(t) := f(x + th), t ∈ [0, T],
jest również n-krotnie różniczkowalna i, dla każdego 0 ≤ k ≤ n,
g (k) (t) = f (k) (x + th)(h, ..., h).
| {z }
k
Jeśli f jest (n + 1)-krotnie różniczkowalna w punkcie x, to funkcja g jest (n + 1)-krotnie
różniczkowalna w punkcie t = 0 oraz
g (n+1) (0) = f (n+1) (x)(h, ..., h).
| {z }
n+1
Dla uproszczenia notacji będziemy pisać:
hk := (h, ..., h), k ∈ N.
| {z }
k
DOWÓD: Dla k = 1 lemat jest prawdziwy (wynika to z reguły łańcucha). Przypuśćmy, że
podany fakt zachodzi dla pewnego k < n i udowodnimy go dla k. Zgodnie z założeniem
indukcyjnym, dla t ∈ [0, T],
g (k−1) (t) = f (k−1) (x + th)(hk−1 ).
Funkcja y 7Ï φ(y) = f (k−1) (y)(hk−1 ) jest różniczkowalna; ponadto g (k−1) (t) = φ(x + th). Znowu,
korzystając z reguły łańcucha, mamy
g(k)(t) = (g (k−1) )0 (t) = φ0 (x + th)(h).
Lecz jednocześnie
φ0 (y)(h) = f (k) (y)(hk ).
Analogicznie
kg (n+1) (0) − f (n+1) (x)(hn+1 )k = lim khk
t→0
kg (k) (t) − g (k) (0) − f (n+1) (hn , th)k
= 0.
kthk
67
Jako pierwszy udowodnimy wzór Taylora z reszta w postaci Peano.
2.2.14 TWIERDZENIE: Załóżmy, że funkcja f jest (n − 1)-krotnie różniczkowalna w zbiorze U
oraz n-krotnie różniczkowalna w punkcie x. Wtedy, dla dowolnego h ∈ RN takiego, że {x +th |
t ∈ [0, 1]} ⊂ U, ma miejsce następujący wzór:
f(x + h) = f(x) +
1 0
1
f (x)(h) + ... + f (n) (x)(hn ) + ε(h)khkn
1!
n!
gdzie ε(h) → 0 gdy h → 0 w RN .
DOWÓD: Dowód jest w zasadzie analogiczny do dowodu wzoru Taylora wcześniej rozważanego. Dla ustalonego h ∈ RN o podanej własności rozważmy funkcję g : [0, khk] → R daną
wzorem
h
, t ∈ [0, khk].
g(t) = f x + t
khk
Zgodnie z lematem, funkcja g jest n − 1 krotnie różniczkowalna i g (n) (0) istnieje. Z twierdzenia
Taylora z resztą w postaci Peano istnieje funkcja ε : [0, 1] → R taka, że ε(t) → 0 gdy t → 0
oraz
n
X
1 (k)
g(t) =
g (0)t k + εi (t)t n .
k!
k=0
Z drugiej strony, zgodnie z lematem, dla 0 ≤ k ≤ n, g (k) (0) = khk−k f (k) (x)(hk ). W takim razie,
kładąc t = khk, mamy
f(x + h) =
n
X
k=0
Stąd
1
f (k) (x)(hk )khkk + ε(khk)khkn .
khkk k!
n
X
1 (k)
f(x + h) =
f (x)(hk ) + ε(h)khkn .
k!
k=0
UWAGA: Używając notacji multiindeksowej można wzór Taylora zapisać następująco:
f(x + h) =
X
α∈ZN
+ , |α|6=n
1 α
∂f (x)hα + ε(h)khkn .
α!
ĆWICZENIE: Wyprowadzić ten wzór (wykorzystując formułę (∗) ze strony 63).
2.2.15 WNIOSEK Jeśli f : U → R jest funkcją (n−1)-krotnie różniczkowalną i n-krotnie różniczkowalną w punkcie x0 ∈ U, to dla pewnego δ > 0 takiego, że B(x0 , δ) ⊂ U oraz x ∈ B(x0 , δ),
f(x) =
n
X
1 (k)
f (x0 )((x − x0 )k ) + η(x)kx − x0 kn ,
k!
k=0
gdzie η(x) → 0 gdy x → x0 lub, wykorzystując notację multiindeksową
f(x) =
X 1
∂α f(x0 )(x − x0 )α + η(x)kx − x0 kn .
α!
|α|≤n
68
DOWÓD: Pierwszy ze wzorów wynika natychmiast z poprzedniego jeśli przyjąć, że h = x − x0
oraz η(x) = ε(x − x0 ).
Przy nieco silniejszych założeniach można podać inne postacie reszty we wzorze Taylora.
2.2.16 TWIERDZENIE: Załóżmy, że f : U → R jest funkcją (n + 1)-krotnie różniczkowalną. Niech
x0 ∈ U oraz x ∈ U jest takim punktem, że odcinek {x0 + t(x − x0 ) | t ∈ [0, 1]} jest zawarty w
U. Wówczas
n
X
1 (k)
f (x0 )((x − x0 )k ) + Rn (x)
f(x) =
k!
k=0
gdzie
Rn (x) =
1
f (n+1) (x0 + θ(x − x0 ))kx − x0 kn+1
(n + 1)!
dla pewnego θ ∈ (0, 1).
DOWÓD jest analogiczny z wykorzystaniem reszty w postaci Lagrange’a we wzorze Taylora dla
funkcji pomocniczej g : [0, 1] → R danej wzorem
g(t) = f(x0 + t(x − x0 )), t ∈ [0, 1].
Wtedy g jest funkcją (n + 1) różniczkowalną i (wykorzystując lemat 2.2.13) dla 1 ≤ k ≤ n + 1,
g (k) (t) = f (k) (x0 + t(x − x0 ))((x − x0 )k ).
Istnieje θ ∈ (0, 1) takie, że
n
X
1
1 (k)
g (0)t k +
g (n+1) (θ).
g(1) = g(0) +
k!
(n + 1)!
k=1
Stąd już mamy tezę.
Używając notacji multiindeksowej możemy napisać
f(x) =
X 1
X 1
∂α f(x0 )(x − x0 )α +
∂α f(x0 + θ(x − x0 ))(x − x0 )α .
α!
α!
|α|≤n
|α|=n+1
ĆWICZENIE: Podać dwie wersje twierdzenia o wzorze Taylora dla odwzorowań f : U → RM .
Szczególna uwaga jest wskazana w przypadku wzoru Taylora z resztą w postaci Lagrange’a!
(Czytelnik powinien przyjrzeć się twierdzeniu 2.1.13 o przyrostach).
2.2.F
Ekstrema funkcji wielu zmiennych
Podobnie jak w przypadku funkcji rzeczywistych jednej zmiennej, rachunek różniczkowy może
być użyteczny podczas badania ekstremów funkcji wielu zmiennych.
2.2.17 DEFINICJA: Rozważmy funkcję f : U → R. Mówimy, że funkcja f osiąga lokalne minimum (odp. maksimum) w punkcie x0 ∈ U jeżeli istnieje δ > 0 takie, że B(x0 , δ) ⊂ U oraz
f(x) ≥ f(x0 ) (odp. f(x) ≤ f(x0 )) dla dowolnego x ∈ B(x0 , δ). Mówimy o minimum (lub maksimum) globalnym gdy powyższe nierówności zachodzą dla dowolnego x ∈ U. O minimach (lub
maksimach) lokalnych (lub globalnych) mówimy, że są ścisłe, jeśli dla x ∈ B(x0 , δ) (lub x ∈ U)
mamy f(x) > f(x0 ) (lub f(x) < f(x0 )) o ile x 6= x0 .
69
Interesować nas będą przede wszystkim warunki konieczne i dostateczne istnienia ekstremów. Zaczniemy od prostego kryterium Fermata; jest to warunek konieczny.
2.2.18 TWIERDZENIE: Jeżeli funkcja f : U → R osiąga ekstremum lokalne w punkcie x0 ∈ U i
jest w tym punkcie różniczkowalna, to f 0 (x0 ) = 0 (tzn. dla dowolnego h ∈ RN , f 0 (x0 )(h) = 0).
Dowód: Przypuśćmy dla ustalenia uwagi, że w punkcie x0 funkcja f osiąga minimum. Niech
h ∈ RN . Jak wiadomo pochodna kierunkowa funkcji f w punkcie x0
f 0 (x0 ; h) = f 0 (x0 )(h).
Z drugiej strony
f(x0 + th) − f(x0 )
f(x0 + th) − f(x0 )
f(x0 + th) − f(x0 )
= lim−
= lim+
.
t→0
t→0
t→0
t
t
t
f 0 (x0 ; h) = lim
Zauważmy, że licznik w powyższych wyrażeniach jest liczbą nieujemną, zaś mianownik liczba
ujemną (odp. dodatnią). Wobec tego f 0 (x0 ; h) ≤ 0 (odp. f 0 (x0 ; h) ≥ 0). Zatem f 0 (x0 ; h) = 0.
2.2.19 TWIERDZENIE: Jeśli f osiąga minimum (odp. maksimum) w punkcie x0 ∈ U oraz f jest
dwukrotnie różniczkowalna w x0 , to forma kwadratowa wyznaczona przez drugą pochodną
f 00 (x0 ) jest nieujemna (odp. niedodatnia).
DOWÓD: Załóżmy, że w x0 funkcja f przyjmuje minimum. Znajdziemy
więc
takie otoczenie
δ
δ
N
B(x0 , δ), że dla x ∈ B(x0 , δ), f(x) ≥ f(x0 ). Niech h ∈ R , dla t ∈ − khk , khk , x0 + th ∈ B(x0 , δ);
zatem f(x0 + th) ≥ f(x0 ). Z kolei ze wzoru Taylora (z reszta w postaci Peano), dla takich t
mamy
1 2 00
0
2
2 1 00
0 ≤ f(x0 +th)−f(x0 ) = tf (x0 )(h)(h)+ t f (x0 )(h, h)+ε(th)kthk = t
f (x0 )(h, h) + ε(th)khk
2
2
gdzie ε(th) → 0 o ile t → 0. W takim razie
1
1 00
2
0 ≤ lim f (x0 )(h, h) + ε(th)khk = f 00 (x0 (h, h).
t→0 2
2
W przypadku maksimum postępując podobnie uzyskując, że f 00 (x0 )(h, h) ≤ 0.
Powyższy warunek konieczny jest już znacznie bliższy warunkowi dostatecznemu. Zachodzi mianowicie następujący fakt.
2.2.20 TWIERDZENIE: Załóżmy, że funkcja f : U → R jest dwukrotnie różniczkowalna w punkcie x0 . Jeśli f 0 (x0 ) = 0 oraz druga pochodna f 00 (x0 ) jest dodatnio (odp. ujemnie) określona, to
w x0 funkcja f przyjmuje ścisłe lokalne minimum (odp. maksimum).
DOWÓD: Przypuśćmy, że druga pochodna jest dodatnio określona. Zgodnie z wzorem Taylora
(z resztą w postaci Peano), dla pewnego δ > 0 i x ∈ B(x0 , δ),
f(x) − f(x0 ) =
1 00
f (x0 )(x − x0 , x − x0 ) + η(x)kx − x0 k2
2
gdzie η(x) → 0 przy x → x0 . Jednocześnie, z założenia istnieje c > 0 takie, że f 00 (x0 )(h, h) ≥
ckhk2 . Istnieje więc ε ∈ (0, δ) takie, że |η(x)| < c2 , o ile kx − x0 k < ε. Niech x ∈ B(x0 , ε).
Wówczas
1 00
2
2 1
f(x) − f(x0 ) = f (x0 )(x − x0 , x − x0 ) + η(x)kx − x0 k ≥ kx − x0 k
c + ε(x) > 0.
2
2
70
Przypadek ujemnej określoności prowadzi do nierówności f(x) − f(x0 < 0 przy x ∈ B(x0 , ε).
W celu stwierdzenie dodatniości (dodatniej określoności) lub ujemnej określoności formy
kwadratowej wyznaczonej przez drugą pochodną f 00 (x0 ) wykorzystujemy twierdzenie Sylvestera do macierzy Hessa Hf (x0 ).
2.3
Teoria odwzorowań
2.3.A
Twierdzenie o funkcji uwikłanej
Załóżmy obecnie, że f : U → RM , gdzie U ⊂ RN+K jest zbiorem otwartym. Przestrzeń RN+K
traktujemy jako iloczyn kartezjański RN × RK , zaś punkt z ∈ RN+K – jako parę (x, y), gdzie
x ∈ RN , y ∈ RK . Nieco dokładniej: jeśli z = (z1 , ..., zN , zN+1 , ..., zN+K ) oraz x = (x1 , ..., xN ) i
y = (y1 , ..., yK ), to x1 = z1 , ..., xN = zN oraz y1 = zN+1 , ..., yK = zN+K .
Niech z0 = (x0 , y0 ) ∈ U. Powiemy, że odwzorowanie f jest różniczkowalne w punkcie
z0 względem (zespołu zmiennych) y, jeśli odwzorowanie pomocnicze y 7Ï g(y) := f(x0 , y)
określona na zbiorze otwartym V := {y ∈ RK | (x0 , y) ∈ U} jest różniczkowalna w punkcie y0 .
ĆWICZENIE: Sprawdzić, że zbiór V jest rzeczywiście otwarty.
Pochodną g 0 (y0 ) funkcji g w punkcie y0 nazywamy pochodną odwzorowania f w punkcie
z0 = (x0 , y0 ) względem (zespołu zmiennych) y i oznaczamy symbolem fy0 (z0 ).
UWAGA: (1) Oznaczenie to nie powinno prowadzić do żadnych nieporozumień (5 ). Jeśli
bowiem M = 1, to różniczkowalność względem y (rozumiana w powyższym sensie) oznacza
∂f
po prostu istnienie pochodnej cząstkowej ∂y
(z0 ) względem ostatniej zmiennej.
(2) Wróćmy jeszcze przez chwilę do odwzorowania pomocniczego g : V → RM wyżej
wprowadzonego.; przypomnijmy, że V ⊂ RK jest zbiorem otwartym Oczywiście można mówić
o pochodnych cząstkowych odwzorowania g w punkcie y0 . Na przykład: dla j = 1, ..., K można
rozważać gi|j (y0 ), gdzie gi jest i-tą funkcja współrzędną odwzorowania g. Jest chyba jasne, że
gi (y) = fi (x0 , y) dla y ∈ V , gdzie fi jest i-tą funkcją współrzędną odwzorowania f oraz
gi|j (y0 ) = fi|N+j (z0 ).
W związku z tym macierzą stowarzyszoną z pochodną fy0 (z0 ) ∈ L(RK , RM ) jest macierz
[fi|N+j (z0 )] i=1,...,M .
j=1,...,K
W analogiczny sposób można mówić o różniczkowalności i o pochodnej odwzorowania f
w punkcie z0 względem (zespołu zmiennych) x oznaczanej symbolem fx0 (z0 ).
ĆWICZENIE: Podać precyzyjną definicję różniczkowalności względem x i omówić postać
macierzy stowarzyszonej z fx0 (z0 ).
Czytelnik bez trudu udowodni, że
2.3.1 TWIERDZENIE: Jeżeli odwzorowanie f jest różniczkowalne w punkcie z0 , to jest różniczkowalne w tym punkcie względem obu (zespołów) zmiennych. Dodatkowo, dla dowolnego
h ∈ RN+M postaci h = (u, v), gdzie u ∈ RN , v ∈ RM , mamy
f 0 (z0 )(h) = fx0 (z0 )(u) + fy0 (z0 )(v).
Przypomnijmy, że do tej pory pisaliśmy fy0 lub fy dla oznaczania pochodnych cząstkowych funkcji dwóch lub
trzech zmiennych x, y, z.
5
2.3. TEORIA ODWZOROWAŃ
71
W zasadzie wszystkie fakty dotyczące pochodnych mają miejsce dla pochodnych względem
zespołu zmiennych. Na przykład Czytelnik bez trudu wykaże następującą wersję twierdzenia
o przyrostach.
2.3.2 LEMAT: Jeśli punkty (x0 , y1 ), (x0 , y2 ) należą do zbioru U i odcinek je łączący zawiera się
w U, funkcja f : U → RM , gdzie U ⊂ RK = RN × RL , jest różniczkowalna we wszystkich
punktach tego odcinka względem (zespołu zmiennych) y, to istnieje punkt c należący do
odcinka łączącego te punkty taki, że
kf(x0 , y1 ) − f(x0 , y2 )k ≤ kfy0 (c)kky1 − y2 k.
Podamy teraz jedno z fundamentalnych twierdzeń teorii odwzorowań wielu zmiennych,
tzw. twierdzenie o funkcji uwikłanej. W tym sformułowaniu K = M i obowiązuje przyjęta
notacja i terminologia.
2.3.3 TWIERDZENIE: Niech f : U → RM , gdzie U ⊂ RN × RM jest zbiorem otwartym. Załóżmy,
że:
(i) f jest odwzorowaniem ciągłym;
(ii) dla pewnego z0 = (x0 , y0 ) ∈ U, f(z0 ) = 0;
(iii) odwzorowanie f jest różniczkowalne względem y w dowolnym punkcie z ∈ U;
(iv) pochodne cząstkowe odwzorowania f względem zmiennych wchodzących w skład
zespołu zmiennych y są odwzorowaniami ciągłymi w punkcie z0 ;
(v) przekształcenie liniowe fy0 (z0 ) ∈ L(RM , RM ) jest izomorfizmem.
Wówczas istnieją liczby ε, δ > 0 takie, że B(x0 , ε) × B(y0 , δ) ⊂ U, oraz dokładnie jedna
funkcja ciągła g : B(x0 , ε) → B(y0 , δ) taka, że:
(I) dla każdego x ∈ B(x0 , ε), f(x, g(x)) = 0;
(II) dla dowolnych x ∈ B(x0 , ε) oraz y ∈ B(y0 , δ), jeśli f(x, y) = 0, to y = g(x); w szczególności g(x0 ) = y0 .
Jeżeli dodatkowo odwzorowanie f jest różniczkowalne w punkcie z0 , to funkcja g jest
różniczkowalna w punkcie x0 i
g 0 (x0 ) = −[fy0 (x0 , y0 )]−1 ◦ fx0 (x0 , y0 )).
Jeśli funkcja f jest klasy C 1 , to funkcja g jest klasy C 1 i, dla dowolnego x ∈ B(x0 , ε),
g 0 (x) = −[fy0 (x, g(x))]−1 ◦ fx0 (x, g(x)).
Jeśli f jest klasy C n , to g jest także klasy C n .
DOWÓD tego twierdzenie nie jest specjalnie trudny; jest jednak dość technicznie złożony. Podamy go w przypadku, gdy N = M = 1. Jednocześnie dowód będzie tak skonstruowany, że
uważny Czytelnik będzie umieć go przenieść do przypadku ogólnego bez kłopotów.
Kładziemy N = M = 1. Założenia oznaczają, że U ⊂ R2 jest zbiorem otwartym, funkcja f : U → R jest ciągła, f(x0 , y0 ) = 0, dla dowolnego (x, y) ∈ U istnieje pochodna cząstkowa
fy (x, y), funkcja U 3 (x, y) 7Ï fy (x, u) jest ciągła w punkcie (x0 , y0 ) i wreszcie A := fy (x0 , y0 ) 6= 0
(zweryfikować, że to są rzeczywiście założenia, przy których pracujemy).
Zdefiniujmy pomocniczą funkcję T : U → R wzorem
T(x, y) := y − A−1 · f(x, y), (x, y) ∈ U.
Funkcja T jest ciągła, a więc w szczególności,
T(x, y) → T(x0 , y0 ) = y0 ,
72
gdy (x, y) → (x0 , y0 ). Ponadto, dla dowolnego (x, y), funkcja T jest różniczkowalna w punkcie
(x, y) względem y, tzn. istnieje pochodna cząstkowa Ty (x, y) i
Ty (x, y) = 1 − A · fy (x, y).
Ciągłość pochodnej cząstkowej fy w (x0 , y0 ) implikuje, że również pochodna cząstkowa Ty jest
tam ciągła, czyli
Ty (x, y) → Ty (x0 , y0 ) = 1 − A−1 · A = 0,
gdy (x, y) → (x0 , y0 ).
Biorąc te dwie okoliczności pod uwagę (i pamiętając, ze zbiór U jest otwarty) znajdziemy
liczby ε > 0 i δ > 0 takie, że:
(x0 − ε, x0 + ε) × [y0 − δ, y0 + δ] ⊂ U;
1
1
oraz |T(x, y0 ) − T(x0 , y0 )| = |T(x, y0 ) − y0 | < δ
2
2
(tu kolejność doboru jest następująca: korzystając z ciągłości najpierw wybieramy ε, δ > 0 tak,
aby |Ty (x, y)| < 1/2 dla x, y takich, że |x − x0 | < ε i |y − y0 | ≤ δ i jednocześnie (x0 − ε, x0 + ε) ×
[y0 − δ, y0 + δ] ⊂ U; następnie, wykorzystując ciągłość odwzorowania x 7Ï T(x, y0 ) możemy
ewentualnie zmniejszyć ε, tak aby |T(x, y0 ) − T(x0 , y0 )| < δ/2).
Zauważmy, że wówczas
|Ty (x, y)| <
T : (x0 − ε, x0 + ε) × [y0 − δ, y0 + δ] → (y0 − δ, y0 + δ).
Istotnie: niech |x − x0 | ≤ ε, |y − y0 | ≤ δ. Z lematu 2.3.2 (a w naszej sytuacji, tzn. gdy M = 1, ze
zwykłego twierdzenia Lagrange’a) istnieje θ ∈ (0, 1) , że
1
|T(x, y) − y0 | ≤ |T(x, y) − T(x, y0 )| + |T(x, y0 ) − y0 | ≤ |Ty (x, y0 + θ(y − y0 )||y − y0 | + δ < δ.
2
Na tej samej zasadzie, dla ustalonego x ∈ (x0 − ε, x0 + ε) oraz dowolnych y, y 0 ∈ [y0 − δ, y0 + δ]
znajdziemy taką θ ∈ (0, 1), że
|T(x, y) − T(x, y 0 )| ≤ |Ty (x, y 0 + θ(y − y 0 ))||y − y 0 | ≤
1
|y − y 0 |.
2
W dalszym ciągu wykorzystamy bardzo ważne twierdzenie, zwane twierdzeniem Banacha
o punkcie stałym, które jest znacznie ogólniejsze, lecz w naszej sytuacji brzmi następująco:
Jeśli F : (α, β) × [a, b] → (a, b) jest odwzorowaniem ciągłym i istnieje stała k ∈ [0, 1) taka,
że dla dowolnych x ∈ (α, β) oraz y, y 0 ∈ [a, b], |T(x, y) − T(x, y 0 )| ≤ k|y − y 0 |, to istnieje dla
każdego x ∈ (α, β) istnieje dokładnie jeden punkt stały funkcji T(x, ·), tzn. element g(x) ∈ (a, b),
że g(x) = T(x, g(x)). Ponadto funkcja (α, β) 3 x 7Ï g(x) ∈ (a, b) jest ciągła.
W naszej sytuacji α = x0 − ε, β = x0 + ε, a = y0 − δ, b = y0 + δ i k = 12 . Widzimy więc,
że istnieje dokładnie jedna funkcja ciągła g : (x0 − ε, x0 + ε) → (y0 − δ, y0 + δ) taka, że dla
x ∈ (x0 − ε, x0 + ε),
g(x) = T(x, g(x)) = g(x) − A−1 · f(x, g(x)) ⇐Ñ f(x, g(x)) = 0.
Jeśli x ∈ (x0 − ε, x0 + ε), y ∈ (y0 − δ, y0 + δ) i f(x, y) = 0, to T(x, y) = y, a stąd y = g(x). To
kończy dowód pierwszej części twierdzenia.
Dowód różniczkowalności funkcji g jest dość złożony i go tu pominiemy. Wiemy, że 0 =
73
f(x, g(x)) dla x ∈ (x0 − ε, x0 + ε). Funkcja (x0 − ε, x0 + ε) 3 x 7Ï h(x) := f(x, g(x)) jest więc
stała i jest złożeniem funkcji x 7Ï (x, g(x)) i funkcji f. Wobec tego, z reguły łańcucha
0 = h0 (x0 ) = fx (x0 , g(x0 )) + fy (x0 , g(x0 ))g 0 (x0 ) = fx (x0 , y0 ) + fy (x0 , y0 )g 0 (x0 ),
czyli
g 0 (x0 ) = −[fy0 (x0 , y0 )]−1 fx (x0 , y0 ).
Dowód przedostatniej części twierdzenia pozostawiam czytelnikom. Pokażemy część ostatnią
rozumując indukcyjnie. Dla n = 1 jest to prawda w świetle części przedostatniej. Przypuśćmy,
że teza jest słuszna dla n − 1. A więc ponieważ C n ⊂ C n−1 , wnosimy, że g jest funkcją klasy
cn−1 . W taki razie skoro g 0 (x) = −[fx (x, g(x))]−1 fx (x, g(x)). Po prawej stronie mamy iloczyn
złożeń funkcji klasy C n−1 ; zatem g 0 jest klasy C n−1 , czyli g jest klasy C n .
2.3.B
Twierdzenie o lokalnym odwracaniu odwzorowań
Jedną z najważniejszych konsekwencji twierdzenia o funkcji uwikłanej (a w zasadzie faktem
równoważnym) jest następujące twierdzenie o lokalnym odwracaniu odwzorowań. Byłoby
wskazane, aby Czytelnik przypomniał różne wersje twierdzenia o odwracalności funkcji rzeczywistych jednej zmiennej. Dla przykładu: jeśli f : (a, b) → R jest funkcją różniczkowalną
o nieznikającej pochodnej (tzn. f 0 (x) 6= 0 dla x ∈ (a, b)), to f jest funkcją ciągłą, różnowartościową, obrazem przedziału (a, b) jest przedział otwarty (A, B), istnieje funkcja odwrotna
f −1 : (A, B) → R. Funkcja odwrotna jest różniczkowalna (a więc też ciągła) i dla dowolnego
y ∈ (A, B), (f −1 )0 (y) = f 0 1(x) , gdzie y = f(x), x ∈ (a, b); jeśli f jest klasy C 1 , to także f −1 jest klasy
C1. .
W przypadku odwzorowań wielu zmiennych sprawa jest znacznie bardziej skomplikowana.
Mówi o tym następujące twierdzenie (a także następny podrozdział).
2.3.4 TWIERDZENIA: Niech f : U → RM , gdzie U ⊂ RM jest zbiorem otwartym, oraz x0 ∈ U.
Jeżeli f jest różniczkowalna w otoczeniu punktu x0 , pochodna f 0 jest ciągła w punkcie x0 ∈ U
oraz f 0 (x0 ) jest izomorfizmem (tzn. rank f 0 (x0 ) = M lub, równoważnie, jakobian det Jf (x0 ) 6= 0),
to istnieje ε > 0 oraz otoczenie W punktu x0 , W ⊂ U, takie, że f(W ) = B(f(x0 ), ε) oraz
funkcja ciągła g : B(f(x0 ), ε) → W taka, że dla dowolnego y ∈ B(f(x0 ), ε), f(g(y)) = y oraz,
dla dowolnego x ∈ W , g(f(x)) = x (tzn. f|W jest funkcją odwracalną i gt = f −1 jest funkcja
do niej odwrotną). Ponadto funkcja g jest różniczkowalna w punkcie y0 = f(x0 ) oraz g 0 (y0 ) =
[f 0 (x0 )]−1 .
Jeśli f jest funkcja klasy C 1 , to g też jest klasy C 1 i, dla x ∈ W , g 0 (f(x)) = [f 0 (x)]−1 .
Ogólniej, jeśli f jest klasy C n , to g jest klasy C n .
DOWÓD: Bez zmniejszenia ogólności można założyć, że f 0 (x) istnieje dla dowolnego x ∈ U.
Rozważmy odwzorowanie F : U × RM → RM dane wzorem
F(x, y) = y − f(x), x ∈ U, y ∈ RM .
Wówczas F(x0 , y0 ) = 0, F jest odwzorowaniem różniczkowalnym i, dla dowolnego (x, y) ∈
U × RM ,
Fx0 (x, y) = −f 0 (x), Fy0 (y) = I.
Ponadto pochodne Fx0 , Fy0 są ciągłe w punkcie (x0 , y0 ) oraz pochodna Fx0 (x0 , y0 ) jest izomorfizmem. Z twierdzenia o funkcji uwikłanej istnieją liczby ε, δ > 0 oraz funkcja ciągła
74
g : B(y0 , ε) → B(x0 , δ) taka, że B(x0 , δ) × B(y0 , ε) ⊂ U oraz F(g(y), y) = 0 dla dowolnego
y ∈ B(y0 , ε); dodatkowo, jeśli (x, y) ∈ B(x0 , δ) × B(y0 , ε) i F(x, y) = 0, to x = g(y).
Dla każdego y ∈ B(y0 , ε), 0 = F(g(y), y) = y − f(g(y)), tzn. y = f(g(y)). Niech
W := f −1 (B(y0 , ε)) ∩ B(x0 , δ).
Oczywiście zbiór W jest otwarty i x0 ∈ W . Niech x ∈ W . Wtedy y = f(x) ∈ B(y0 , ε) i F(x, y) =
y − f(x) =; czyli x = g(y), tzn. x = g(f(x)).
Spełnione są także założenia drugiej części twierdzenia o funkcji uwikłanej; zatem funkcja
g jest różniczkowalna w punkcie y0 i
g 0 (y0 ) = −[Fx0 (x0 , y0 )]−1 ◦ Fy0 (x0 , y0 ) = [f 0 (x0 )]−1 .
Jeśli f jest klasy C 1 , to i funkcja F jest klasy C 1 . Zatem z trzeciej części twierdzenia o funkcji
uwikłanej wynika, że (przy odpowiednim doborze ε i δ; konkretnie takim, by pochodna f 0 (x)
była odwracalna dla x ∈ B(x0 , δ)) funkcja g jest klasy C 1 oraz
g 0 (f(x)) = [f 0 (x)]−1
dla x ∈ W .
Jeżeli f jest klasy C n , to F też jest klasy C n ; co, na mocy ostatniej części twierdzenia o
funkcji uwikłanej, dowodzi, że g jest klasy C n .
2.3.5 UWAGA Nie należy sądzić, że – tak jak w przypadku funkcji rzeczywistych jednej zmiennej
– jeśli f : U → RN , gdzie U ⊂ RN , N > 1, jest zbiorem otwartym, jest funkcją różniczkowalną i
pochodna f 0 (x) jest izomorfizmem dla dowolnego x ∈ U, to f jest funkcją różnowartościową.
Poniższy przykład może nas o tym przekonać.
2.3.6 PRZYKŁAD: Rozważmy funkcję f : U → R2 , gdzie U := {(x, y) ∈ R2 | x 6= 0}, zadaną
wzorem
f(x, y) := (x cos y, x sin y),
dla (x, y) ∈ U. Wtedy, dla każdego (x, y) ∈ U,
cos y −x sin y
,
J(x,y) f =
sin y x cos y
więc det J(x,y) f = x 6= 0. Niestety funkcja f nie jest różnowartościowa, bo f(x, y) = f(x, y + 2π)
dla dowolnych (x, y) ∈ U.
2.3.C
Odwzorowania regularne, dyfeomorfizmy
Niech f : U → RM , gdzie U ⊂ RN jest zbiorem otwartym. Mówimy, że odwzorowanie f jest
regularne, gdy jest klasy C 1 i, dla dowolnego x ∈ U, rząd rank Jf (x) macierzy Jacobiego
odwzorowania f w punkcie x jest maksymalny (a zatem wynosi N, gdy N ≤ M oraz M, gdy
N > M).
PRZYKŁAD: Przypuśćmy, że g : U → R jest funkcją klasy C 1 i rozważmy odwzorowanie
f : U → RM , gdzie M = N + 1, dane wzorem
f(x) = (x, g(x)), x ∈ U.
75
Wówczas f jest odwzorowaniem klasy C 1 (jego funkcje współrzędne mają postać f1 (x) =
x1 , ..., fN (x) = xN i fM = fN+1 (x) = g(x) i są funkcjami klasy C 1 ). Oczywiście, dla każdego
x ∈ U,


1
0
...
0
 0
1
...
0 


 ..
.
..  .
.
..
..
Jf (x) =  .
. 


 0
0
...
1 
g|1 (x) g|2 (x) ... g|N (x)
Zatem rank Jf (x) = N.
DYFEOMORFIZMY Mówimy, że odwzorowanie f : U → RM jest dyfeomorfizmem, gdy jest
ono regularne, różnowartościowe i odwzorowanie odwrotne f −1 : f(U) → U jest ciągłe (6 ).
PRZYKŁAD: Odwzorowanie f z poprzedniego przykładu jest dyfeomorfizmem, gdyż f jest
różnowartościowe, f(U) = Gr (g) jest wykresem odwzorowania g i odwzorowanie odwrotne
f −1 : Gr (g) → U, dane wzorem f −1 (x, g(x)) = x, x ∈ U, jest oczywiście ciągłe.
Można udowodnić, że każde odwzorowanie regularne f : U → RM , gdzie M ≥ N, jest,
z dokładnością do pewnego dyfeomorfizmu, odwzorowaniem na wykres, czyli takim jak w
przykładzie. Natomiast, wykorzystując twierdzenie o funkcji uwikłanej dowodzi się, że:
2.3.7 TWIERDZENIE: Jeżeli f : U → RM jest dyfeomorfizmem, to M ≥ N.
W zasadzie dowodzi się, że odwzorowania regularne w przestrzeń niższego wymiaru nie
mogą być różnowartościowe.
UWAGA: Z definicji odwzorowania regularne i dyfeomorfizmy są klasy C 1 . Czasem jednak
żąda się więcej mówiąc o odwzorowaniach regularnych lub dyfeomorfizmach klasy C k , gdzie
k > 1.
Zasadniczym faktem dotyczącym dyfeomorfizmów jest następujące twierdzenie.
2.3.8 TWIERDZENIE: Jeśli odwzorowanie f : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, jest
regularne (klasy C k z k > 1) i różnowartościowe, to:
(i) f(U) jest zbiorem otwartym (jest to tzw. niezmienniczość obszaru (7 );
(ii) f jest dyfeomorfizmem;
(iii) odwzorowanie odwrotne f −1 : f(U) → RN jest również dyfeomorfizmem;
(iv) dla dowolnego x ∈ U, pochodna f 0 (x) jest izomorfizmem przestrzeni RN , zaś dla dowolnego y ∈ f(U), (f −1 )0 (y) = [f 0 (x)]−1 , gdzie y = f(x).
DOWÓD: To, że f 0 (x) jest izomorfizmem jest oczywiste: dla wszystkich x ∈ U, rank Jf (x) = N,
więc macierz Jacobiego odwzorowania f w każdym punkcie jest nieosobliwa. Pokażemy, że
zbiór f(U) jest otwarty: w tym celu bierzemy y0 ∈ f(U) i x0 ∈ U takie, że y0 = f(x0 ). Ponieważ
f 0 (x0 ) jest izomorfizmem i f jest klasy C 1 , z twierdzenia o lokalnym odwracaniu odwzorowań,
istnieje ε > 0 oraz otoczenie W punktu x0 oraz funkcja g : B(y0 , ε) → W klasy C 1 (a także
klasy C k , gdy f jest klasy C k ) taka, że y = f(g(y)) dla y ∈ B(y0 , ε) i g(f(x)) = x dla x ∈ W ,
oraz g 0 (y0 ) = [f 0 (x0 )]−1 . Stąd wynika, że B(y0 , ε) ⊂ f(U), czyli f(U) jest zbiorem otwartym.
Jednocześnie zauważmy, że odwzorowanie odwrotne f −1 : f(U) → U istnieje (patrz przypis) i
g = f −1 |B(y0 ,ε) . Tak więc odwzorowanie f −1 jest ciągłe, tej klasy gładkości co g. Reszta została
Przypomnijmy, że jeśli odwzorowanie h : X → Y , gdzie X i Y są dowolnymi zbiorami, to h jest różnowartościowe
wtedy i tylko wtedy, gdy istnieje odwzorowanie odwrotne h−1 : h(X) → X.
7
Pamiętamy, że obraz zbioru łukowo spójnego jest łukowo spójny: tak więc ta nazwa jest adekwatna do treści
twierdzenia.
6
76
już udowodniona.
W tym miejscu warto przypomnieć przykład 2.3.6: odwzorowanie tam określone jest regularne, lecz nie jest dyfeomorfizmem, gdyż nie jest różnowartościowe.
Z udowodnionego twierdzenia wynika też użyteczny wniosek (niekiedy przyjmowany jako
definicja dyfeomorfizmu).
2.3.9 WNIOSEK: Odwzorowanie f : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, jest dyfeomorfizmem wtedy i tylko wtedy, gdy f jest bijekcją na swój obraz, obraz f(U) jest otwarty i
odwzorowania f i f −1 : f(U) → RN są klasy C 1 .
ĆWICZENIE: Udowodnić, ze złożenie dyfeomorfizmów jest dyfeomorfizmem.
Warto jeszcze wprowadzić następującą terminologię: niech, jak zwykle f : U → RM , gdzie
U ⊂ RN jest zbiorem otwartym, będzie odwzorowaniem różniczkowalnym Mówimy, że punkt
x ∈ U jest punktem regularnym odwzorowania f, jeśli rank Jf (x) jest maksymalny. Punkt
x ∈ U jest punktem krytyczny odwzorowania f, jeśli nie jest punktem regularnym dla f. Punkt
y ∈ RM jest wartością regularną odwzorowania f, jeżeli zbiór f −1 (y) nie zawiera punktów
krytycznych; w przeciwnym razie mówimy, że y jest wartością krytyczną.
UWAGA: Z punktu widzenia tej terminologii, twierdzenie Fermata (o warunkach koniecznych istnienia ekstremów lokalnych) można wypowiedzieć następująco. Jeśli funkcja f : U → R
jest różniczkowalna w punkcie x, w którym przyjmuje ekstremum lokalne, to x jest jej punktem krytycznym.
Ma też miejsce ważne twierdzenie.
2.3.10 TWIERDZENIE (Sarda): Jeśli odwzorowanie f : U → RM , gdzie U ⊂ RN jest zbiorem
otwartym, jest klasy C 1 ∩ C N−M+1 , to zbiór jej wartości krytycznych jest zbiorem brzegowym
(tzn. zbiór wartości krytycznych nie ma punktów wewnętrznych).
Pewne uzupełnienie tego twierdzenie podamy poniżej.
2.3.D
Różniczkowanie funkcji na zbiorach nieotwartych
Do tej pory rozważaliśmy tylko różniczkowalność funkcji lub odwzorowań zdefiniowanych
na zbiorach otwartych. Niekiedy jednak istnieje potrzeba mówić o różniczkowalności funkcji
określonych na zbiorach, które otwarte nie są. Poniżej omówimy dwie z takich sytuacji.
Przypuśćmy, że V ⊂ RN . Mówimy, że odwzorowanie f = (f1 , ..., fM ) : V → RM , gdzie M ≥ 1,
jest n-krotnie różniczkowalne n ≥ 1 (odp. klasy C r , r ≥ 1), jeżeli istnieje zbiór otwarty U ⊂ RN ,
V ⊂ U, oraz odwzorowanie n-krotnie różniczkowalne (klasy C r ) F = (F1 , ..., fM ) : U → Rm
takie, że F|V = f (zauważmy, że Fi |V = fi dla i = 1, ..., M). Wówczas też przez n-tą pochodną
odwzorowania f w punkcie x ∈ V , oznaczaną f 0 (x), rozumiemy pochodną F 0 (x). Podobna terminologia dotyczy pochodnych cząstkowych: np. dla x ∈ V , fi|j (x) := Fi|j (x) itp.
Mówimy, że odwzorowanie f jest regularne, jeśli jest różniczkowalne i (istniejące) odwzorowanie F : U → RM jest regularne (tzn. klasy C 1 i rank F 0 (y) = min{N, M} dla wszystkich
y ∈ U. Analogicznie f jest dyfeomorfizmem, jeżeli dyfeomorfizmem jest F : U → RM .
UWAGA: (1) Na to by f było regularne (odp. dyfeomorfizmem) klasy C r , r ≥ 1, potrzeba i
wystarcza, aby było klasy C r i rank f 0 (x) = min{N, M} dla dowolnego x ∈ V (odp. f jest klasy
C 1 i jest homeomorfizmem na swój obraz); to nie jest natychmiastowe w dowodzie.
(2) Dla dowolnego zbioru domkniętego K ⊂ RN istnieje funkcja g : RN → R klasy C ∞
77
takie, że {x ∈ RN | g(x) = 0} = K. Stąd wynika, że f : V → RM jest klasy C r wtedy i tylko wtedy,
gdy istnieje odwzorowanie F : RN → RM klasy C r takie, że F|V = f.
(3) Jeśli f : V → RM
jest odwzorowaniem klasy C r , to przedłużenie F : U → RM , o którym mowa w definicji nie
jest jednoznacznie wyznaczone przez f. Nie mniej jednak, jeżeli V jest zawarty w domknięciu
swego wnętrza, to dla x ∈ V pochodna f (k) (x) ∈ Lk (RN , RM ), gdzie 1 ≤ k ≤ r, jest wyznaczona
jednoznacznie.
Niekiedy wystarcza inne podejście: przypuśćmy, że zbiór U ⊂ RN jest otwarty oraz U ⊂
V ⊂ U i niech f : V → RM . Mówimy wówczas, że odwzorowanie f jest klasy C 1 , jeśli obcięcie
g := f|U : U → RM jest odwzorowaniem klasy C 1 i dla dowolnych i = 1, ..., M oraz j = 1, ...., N
istnieje funkcja ciągła hij : U → R taka, że hij |U = gi|j .
W takiej sytuacji, gdy x ∈ V , to za pochodną cząstkową fi|j (x), i = 1, ..., M, j = 1, ..., N,
uznajemy wartość hij (x). Należy zauważyć, że dla x ∈ V
hij (x) =
lim
y→x, y∈U
fi|j (y),
a więc wartość fi|j (x) jest wyznaczona jednoznacznie.
UWAGA: (1) Jest jasne, że odwzorowanie f : V → RM (gdzie U ⊂ V ⊂ U, gdzie U ⊂ RN jest
zbiorem otwartym) klasy C 1 w sensie poprzedniej definicji jest klasy C 1 w sensie powyższej.
(2) Obie podane definicje (orzekające kiedy odwzorowanie f : V → RM jest klasy C 1 są
równoważne w wielu sytuacjach, na przykład gdy V jest kostką w RN , tzn. zbiorem postaci
V = [a1 , b1 ] × [a2 , b2 ] × ... × [aN , bN ], a ogólniej mówiąc gdy V = Ω, gdzie Ω ⊂ RN jest zbiorem
otwartym, zaś brzeg ∂Ω jest tzw. N − 1-wymiarową rozmaitością z kantami.
Rozdział
3
Całka Riemanna funkcji wielu zmiennych
Czytelnik powinien przypomnieć definicję całki Riemanna dla funkcji ograniczonych f : [a, b] →
R. Oto krótkie przypomnienie: niech f : [a, b] → R, gdzie −∞ < a ≤ b < +∞, będzie funkcją
ograniczoną, tzn. istnieją liczby m, M ∈ R takie, że m ≤ f(x) ≤ M dla wszystkich x ∈ [a, b].
Jeśli P jest podziałem przedziału [a, b] (tzn. P = {x0 , x1 , ..., xn }, gdzie a = x1 < x2 < ... <
xn = b), to
n
X
L(f, P) :=
inf f(x)(xi − xi−1 )
i=1
x∈[xi−1 ,xi ]
jest tzw. dolną sumą całkową Darboux dla funkcji f odpowiadającą podziałowi P, zaś
U(f, P) :=
n
X
sup
i=1 x∈[xi ,xi−1 ]
f(x)(xi − xi−1 )
jest górną sumą całkową Darboux dla f względem P.
Niech P będzie podziałem [a, b]. Jeżeli Q jest podziałem [a, b] drobniejszym niż P (inaczej:
jest zagęszczeniem lub podpodziałem podziału P), a więc gdy P ⊂ Q, to
m(b − a) ≤ L(f, P) ≤ L(f, Q) ≤ U(f, Q) ≤ U(f, P) ≤ M(b − a),
a jeśli Q jest dowolnym podziałem [a, b], to L(f, P) ≤ U(f, Q).
Symbolem P[a, b] oznaczamy rodzinę wszystkich podziałów odcinka [a, b]. Powyższe nierówności implikują, że zbiory {L(f, P) | P ∈ P[a, b]} i {U(f, P) | P ∈ P[a, b]} są ograniczone,
a wyrażenia
Z
a
b
Z
f(x) dx := sup{L(f, P) | P ∈ P[a, b]},
a
b
f(x) dx := inf{U(f, P) | P ∈ P[a, b]},
Rb
zwane całką dolną i całką górną, odpowiednio, są poprawnie określone. Oczywiście a f(x) dx ≤
Rb
a f(x) dx.
Mówi się, że funkcja f jest całkowalna w sensie Riemanna na [a, b] i pisze f ∈ R[a,
R b b], gdy
całka dolna jest równa całce górniej i ich wspólną wartość oznacza się symbolem a f(x) dx i
Rb
nazywa całką Riemanna funkcji f na przedziale [a, b]. Czasem pisze się po prostu a f.
79
3.1. CAŁKA NA PROSTOKĄCIE
3.1
Całka na prostokącie
N-wymiarową kostką (domkniętą) nazywamy zbiór C będący produktem N przedziałów, tzn.
C = [a1 , b1 ] × [a2 , b2 ] × ... × [aN , bN ],
gdzie aj , bj ∈ R i aj ≤ bj dla wszystkich j = 1, ..., N. Będą nas interesować przede wszystkim
kostki niezdegenerowane, tzn. takie że aj < bj , j = 1, ..., N.
Objętością kostki C nazwiemy liczbę
vol(C) := (b1 − a1 )(b2 − a2 )...(bN − aN ).
Podziałem kostki C nazwiemy układ P := (P 1 , ..., P N ), gdzie P j jest podziałem odcinka
j
j
j
[aj , bj ]; piszemy też P ∈ P(C). Jest jasne, że jeżeli P j := {x0 , x1 , ..., xnj }, gdzie j = 1, ..., N,
j
j
j
j
x0 = aj oraz xnj = bj , to podział Pj dzieli odcinek [aj , bj ] na nj mniejszych odcinków [xk−1 , xk ],
k = 1, ..., nj , natomiast P dzieli kostkę C na n := n1 · ... · nN „mniejszych” kostek. W dalszym
ciągu (z pełną świadomością, że nie jest to doskonała notacja) piszemy S ∈ P, mając na myśli
jedną z tych „małych” kostek powstałych w wyniku tego rozbicia podziału P.
Podział Q = (Q 1 , ..., Q N ) ∈ P(C) jest zagęszczeniem podziału P (lub podziałem drobniejszym niż P, lub też podpodziałem podziału P), gdy dla dowolnego 1 ≤ j ≤ N, P j ⊂ Q j ,
tzn. podział Q j jest zagęszczeniem podziału P j . Jeśli P = (P 1 , ..., P N ) oraz Q = (Q 1 , ..., Q N ), to
podział (P 1 ∪ Q 1 , ..., P N ∪ Q N ) jest ich wspólnym zagęszczeniem.
W przyszłości przyda się nam następujący prosty fakt.
3.1.1 FAKT: Jeżeli {Ui }i∈I jest dowolnym pokryciem otwartym kostki domkniętej C, to istnieje
podział P ∈ P(C) o tej własności, że dla dowolnego S ∈ P istnieje takie i ∈ I, że S ⊂ Ui . Załóżmy, że C jest niezdegenerowaną kostką domkniętą, f : C → R jest funkcją ograniczoną, P ∈ P(C) oraz S ∈ P. Wtedy definiujemy
mS (f, P) = inf f(x), MS (f, P) := sup f(x).
x∈S
x∈S
Oczywiście, jeżeli m ≤ f(x) ≤ M, x ∈ C, to
m ≤ mS (f, P) ≤ MS (f, P) ≤ M
dla każdej kostki S ∈ P.
Dolną, odp. górną sumą całkową funkcji f odpowiadającą podziałowi P nazywamy liczbę
X
X
L(f, P) =
mS (f, P)vol(S) U(f, P) :=
MS (f, P)vol(S).
S∈P
S∈P
Analogicznie jak w przypadku funkcji jednej zmiennej dowodzimy, że mają miejsce następujące własności:
3.1.2 FAKT: Jeśli P, P 0 , Q, Q 0 ∈ P(C), P 0 jest zagęszczeniem P, zaś Q 0 zagęszczeniem Q, to
m vol(C) ≤ L(f, Q) ≤ L(f, Q 0 ) ≤ U(f, P 0 ) ≤ U(f, P) ≤ Mvol(C).
Wobec tego zbiory {L(f, P)}P∈P(C) , {U(f, P)}P∈P(C) są ograniczone. Pozwala to, podobnie
jak poprzednio, przyjąć następującą definicję.
80
3. CAŁKA RIEMANNA FUNKCJI WIELU ZMIENNYCH
Mówimy, że funkcja f jest całkowalna (w sensie Riemanna) na kostce C jeśli dolna całka
Z
f(x) dx := sup L(f, P)
C
jest równa całce górnej
P∈P(C)
Z
C
f(x) dx := inf U(f, P).
P∈P(C)
Jeśli funkcja (ograniczona) f : C → R jest całkowalna, to piszemy też f ∈ R(C), zaś wspólną
wartość całek górnej i dolnej oznacza się symbolami
Z
Z
Z
f=
f(x) dx =
f(x1 , ..., xN ) dx1 ...dxN
C
C
C
i nazywa wielokrotną (dokładniej N-krotną) całką Riemanna.
Oczywiście dla dowolnej funkcji ograniczonej f : C → R i P ∈ P(C),
Z
Z
L(f, P) ≤ f ≤ f ≤ U(f, P).
C
C
Jeśli zaś f ∈ R(C), to dla dowolnego podziału P ∈ P(C) mamy
Z
Z
Z
L(f, P) ≤ f ≤
f(x) dx ≤ f ≤ U(f, P).
C
C
C
Zauważmy w tym miejscu też, że jeżeli C = [a, b] jest przedziałem domkniętym, a więc
1-wymiarową kostką, to funkcja ograniczona f : [a, b] → R jest całkowalna w sensie Riemanna
(zdefiniowanym w pierwszej części skryptu) wtedy i tylko wtedy, gdy jest całkowalna w wyżej
podanym sensie i
Z
Z b
f(x) dx =
f(x) dx.
[a,b]
a
Analogicznie, dla dowolnej funkcji ograniczonej f : [a, b] → R mamy
Z
Z b
Z
Z b
f(x) dx =
f(x) dx,
f(x) dx =
f(x) dx.
[a,b]
a
[a,b]
a
R
PRZYKŁAD: (a) Funkcja stała f(x) = c dla x ∈ C jest całkowalna i C c dx = cvol(C).
(b) Funkcja f : C → R, która przyjmuje wartość 1 gdy x ∈ QN ∩ C oraz 0 w przeciwnym
razie, nie jest całkowalna (sprawdzić).
UWAGA: (1) Definiując całkę założyliśmy, że kostka C jest niezdegenerowana. Dla kostek
zdegenerowanych uznajemy, że każda funkcja jest tam całkowalne i jej całka jest zerem.
(2) Jeśli f : X → R, gdzie X ⊂ RN i kostka C ⊂ X, to powiada się, że funkcja f jest
całkowalna na C, jeżeli jest ona ograniczona na C i jej obcięcie f|C ∈ R(C); piszemy wtedy
też, że f ∈ R(C). Jak widać, fakt że funkcja określona jest na jakimś nadzbiorze kostki C, nie
ma żadnego znaczenia z punktu widzenia całkowalności na C.
Podobnie, jak w przypadku funkcji jednej zmiennej, można bez trudu udowodnić następujący warunek konieczny i dostateczny całkowalności:
3.1.3 TWIERDZENIE: Funkcja ograniczona f : C → R jest całkowalna w sensie Riemanna na
kostce C ⊂ RN wtedy i tylko wtedy, gdy dla dowolnego ε > 0 istnieje taki podział P ∈ P(C)
kostki C, że
U(f, P) − L(f, P) < ε.
81
R
R
DOWÓD: Konieczność: Ustalmy ε > 0; skoro C f = C f, to (przypominając definicję kresu
górnego) istnieje taki podział P1 ∈ P(C), że
Z
Z
f − ε/2 < L(f, P1 ) ≤
f;
C
R
skoro zaś
C
f=
R
C f,
C
to znajdzie się taki podział P2 ∈ P(C), że
Z
Z
f ≤ U(f, P2 ) <
f + ε/2.
C
C
Niech P = P1 ∪ P2 będzie wspólnym zagęszczeniem podziałów P1 i P2 . Wtedy
Z
Z
f − ε/2 < L(f, P1 ) ≤ L(f, P) ≤ U(f, P) ≤ U(f, P2 ) <
f + ε/2.
C
C
Stąd U(f, P) − L(f, P) < ε.
Dla dowodu dostateczności podanego warunku weźmy dowolne ε > 0 i dobierzmy podział
P ∈ P(C) tak, by U(f, P) − L(f, P) < ε. Wówczas
Z
Z
L(f, P) ≤ f ≤ f.
C
C
Z dowolności ε wynika, że całki dolna i górna są równe, a więc, że f ∈ R(C).
Czytelnik zechce też udowodnić (naśladując odpowiednie twierdzenie dotyczące całki Riemanna funkcji jednej zmiennej) następujący odpowiednik twierdzenia Darboux-Riemanna.
3.1.4 TWIERDZENIE: Niech C będzie kostką domkniętą i f : C → R funkcją ograniczoną. Wówczas f ∈ R(C) wtedy i tylko wtedy, gdy istnieje granica sum całkowych Riemanna przy średnicach podziałów dążących do 0, tzn. istnieje liczba s ∈ R taka, że dla dowolnego ε > 0 istnieje taka liczba δ, że dla dowolnego podziału P ∈ P(C) o średnicy µ(P)
:= maxS∈P diam (S)
<δ
P
1
( ) i dla dowolnego
naboru Ξ = {ξS }S∈P , gdzie ξS ∈ S, mamy s − S∈P f(ξS )vol(S) < ε.
R
Wówczas też C f(x) dx = s.
Całce wielokrotnej przysługuje wiele własności analogicznych jak w przypadku zwykłej
całki. I tak mamy następujące twierdzenie:
3.1.5 TWIERDZENIE: Załóżmy, że funkcje f, g : C → R są całkowalne. Wtedy:
(i) dla dowolnego λ ∈ R, funkcje λf oraz f ± g są całkowalne i
Z
Z
Z
Z
Z
λf = λ
f,
(f ± g) =
f±
g;
C
C
C
R
C
C
R
(ii) Jeśli f ≤ g na kostce C, to C f ≤ C g;
(iii) Jeśli C = C1 ∪C2 ∪...∪Cn , gdzie Ci jest kostką domkniętą (i = 1, ..., n) i pokrycie {Ci }ni=1
kostkami kostki C jest regularne (2 ), to f ∈ R(C) wtedy i tylko wtedy, gdy fi := f|Ci ∈ R(Ci )
dla wszystkich i = 1, ..., n i wtedy
Z
n Z
X
f=
fi .
C
i=1
Ci
Średnicą zbioru A ⊂ RN jest liczba diam (A) := sup{kx − yk | x, y ∈ A}.
Mianowicie powiemy, że rodzina kostek niezdegenerowanych {Ci }ni∈1 jest regularnym rozbiciem kostki C, gdy
dla dowolnych i, j = 1, ..., n, przecięcie Ci ∩ Cj jest podzbiorem
(być może pustym) ich wspólnej ściany, a więc
S
gdy kostki tego pokrycia nie zachodzą na siebie oraz ni=1 Ci = C. Zauważmy, że jeżeli {Ci }i∈I jest regularnym
rozbiciem kostki C, to wnętrza kostek Ci , i = 1, ..., n, są rozłączne.
1
2
82
DOWÓD: nie jest trudny. Przeprowadzenie odpowiedniego rozumowania w odniesieniu do części (ii) pozostawiamy czytelnikowi (dowód jest w istocie analogiczny do dowodu dotyczącego
zwykłej (jednokrotnej) całki Riemanna). Dla przykładu pokażemy szkice dowodów pierwszej
równości z części (i) oraz części (iii).
Niech ε > 0. Z twierdzenie 3.1.3 istnieją podziały P1 , P2 ∈ P(C) takie, że
U(f, P1 ) − L(f, P1 ) < ε/2,
U(g, P2 ) − L(g, P2 ) < ε/2.
Jeśli Q := P1 ∪ P2 jest wspólnym zagęszczeniem podziałów P1 , P2 , to – wykorzystując fakt 3.1.2
– otrzymamy, że
U(f, Q) − L(f, Q) < ε/2 i U(g, Q) − L(g, Q) < ε/2.
Zauważmy teraz, że dla dowolnej kostki S ∈ Q,
MS (f + g, Q) = sup(f + g)(x) ≤ MS (f, Q) + MS (g, Q).
x∈S
Analogicznie mS (f + g, Q) ≥ mS (f, Q) + mS (g, Q). Stąd
X
U(f + g, Q) =
MS (f + g, Q)vol(S) ≤ U(f, Q) + U(g, Q),
L(f + g, Q) ≥ L(f, Q) + L(g, Q),
S∈Q
czyli
U(f + g, Q) − L(f + g, Q) ≤ U(f) − L(f, Q) + U(g, Q) − L(g, Q) < ε.
Dowodzi to, że f + g ∈ R(C). Ponadto
Z
L(f, Q) + L(g, Q) ≤ L(f + g, Q) ≤
C
(f + g)(x) dx ≤ U(f + g, Q) ≤ U(f, Q) + U(g, Q),
Z
L(f, Q) + L(g, Q) ≤
Stąd
C
Z
f(x) dx +
C
g(x) dx ≤ U(f, Q) + U(g, Q).
Z
Z
Z
(f + g)(x) dx −
f(x) dx +
g(x) dx < ε.
C
C
C
Biorąc pod uwagę dowolność ε, kończymy dowód pierwszej równości z części (i).
(iii) Przypuśćmy, że f ∈ R(C) i wybierzmy 1 ≤ i ≤ n oraz ε > 0. Istnieje wówczas
podział P ∈ P(C), dla którego U(f, P) − L(f, P) < ε. Bez zmniejszenia ogólności (biorąc w
razie potrzeby odpowiednie zagęszczenie), można założyć, że P zawiera wszystkie wierzchołki
kostki Ci , i = 1, ...n. Wobec tego Pi := Ci ∩ P jest podziałem kostki Ci oraz
U(fi , Pi ) − L(fi , Pi ) ≤ U(f, P) − L(f, P) < ε.
Dowodzi to, że fi ∈ R(Ci ).
Na odwrót załóżmy, że dla dowolnego i = 1, ..., n, funkcja fi jest całkowalna na Ci . Wobec
tego, istnieją podziały Pi ∈ P(Ci ) takie, że U(fi , Pi ) − L(fi , Pi ) < n−1 ε. Niech P będzie takim
podziałem kostki C, że P1 ∪ P2 ∪ ... ∪ Pn ⊂ P. Jest jasne, że wówczas P ∩ Ci jest zagęszczeniem
podziału Pi dla dowolnego i = 1, ..., n. Zatem U(fi , P ∩ Ci ) − L(fi , P ∩ Ci ) < ε/n. Stąd
n
X
U(f, P) − L(f, P) =
[U(fi , P ∩ Ci ) − L(fi , P ∩ Ci )] < ε.
i=1
83
Tak więc f ∈ R(C). Oczywiście z powyższej nierówności wynika, że
Z
n Z
X
fi (x) dx < ε,
f(x) dx −
C
Ci
i=1
co dowodzi równości z części (iii).
Analogicznie jak w przypadku zwykłej całki Riemanna dowodzimy, że:
3.1.6 TWIERDZENIE: Jeśli f : C → R jest funkcją ciągłą, to jest całkowalna. Ogólniej: jeśli
funkcja f : C → R jest całkowalna, φ : [a, b] → R jest ciągła (gdzie przedział [a, b] ⊃ f(C)), to
funkcja φ ◦ f jest również całkowalna.
Byłoby wskazane, by Czytelnik podał pełny dowód tego twierdzenia, a także następnego
(wystarczy w odpowiedni sposób zmodyfikować dowody analogicznych twierdzeń z pierwszej
części skryptu).
Dzięki temu twierdzeniu można istotnie rozszerzyć klasę funkcji całkowalnych.
3.1.7 PRZYKŁAD: (a) Jeśli f, g ∈ R(C), to fg, max{f, g}, min{f, g} ∈ R(C).
(b) Jeśli f ∈ R(C), to |f| ∈ R(C) oraz
Z Z
f ≤
|f|.
C
C
Dla dowodu tych własności
wystarczy powołać się na drugą część poprzedniego
twierdzenia:
p
p
na przykład |f| = f 2 ; tak więc |f| jest złożeniem f i funkcji ciągłej y 7Ï y 2 .
ĆWICZENIE: Jak dowieść, że max{f, g} jest funkcją całkowalną?
Wspomnijmy jeszcze twierdzenie o wartości średniej:
3.1.8 TWIERDZENIE: Jeśli f : C → R jest funkcją ciągłą, to istnieje taki punkt ξ ∈ C, że
Z
f = f(ξ)vol(C).
C
DOWÓD: Niech m = infC f, M = supC f. Z twierdzenia Weierstrassa wartości m, M są przyjmowane, a więc – biorąc pod uwagę łukową spójność
(wypukłość) kostki C i ciągłość wnoR
simy,
że
f(C)
=
[m,
M].
Ponieważ
mvol(C)
≤
f
≤
Mvol(C), to wartość pośrednia m ≤
C
R
−1
≤ M jest przyjmowana w pewnym punkcie ξ ∈ C na mocy własności Darboux
C f[vol(C)]
przysługującej funkcjom ciągłym.
3.1.A
Zbiory nieistotne i kryterium całkowalności
Aby, w pełni scharakteryzować klasę funkcji całkowalnych w sensie Riemanna (przypomnijmy, że nie zostało to zrobione poprzednio: podaliśmy tylko kilka warunków dostatecznych
całkowalności) potrzebować będziemy potrzebować pojęcia zbioru nieistotnego.
Mówimy, że rodzina (przeliczalna) kostek N-wymiarowych {Ci }∞
i=1 jest pokryciem zbioru
A ⊂ RN , jeżeli
∞
[
A⊂
Ci .
i=1
84
Podzbiór A ⊂ RN jest nieistotny w sensie Jordana, jeśli dla dowolnego ε > 0 istnieje jego co najwyżej przeliczalne pokrycie {Ci }∞
i=1 , gdzie Ci , i ∈ N, jest domkniętą kostką, oraz
P∞
3
i=1 vol(Ci ) < ε ( ).
UWAGA: (1) Niektórzy autorzy nazywają zbiory nieistotne zbiorami miary zero (w sensie
Jordana). Jak się później okaże, nie jest to szczęśliwe określenie.
(2) Oczywiście dowolny zbiór skończony lub przeliczalny jest nieistotny; w szczególności
zbiór liczb wymiernych jest nieistotny.
(3) Kostka domknięta (niezdegenerowana) nie jest zbiorem nieistotnym. Można pokazać,
że: kostka domknięta C jest zbiorem nieistotnym wtedy i tylko wtedy, gdy jest zdegenerowana
i wówczas vol(C) = 0.
ĆWICZENIE: (1) Wykazać, że dowolna kostka zdegenerowana jest zbiorem nieistotnym.
(2) Wykazać, że wykres dowolnej funkcji ciągłej f : A → R, gdzie A ⊂ RN jest zbiorem
nieistotnym.
(3) Czy nośnik każdej krzywej jest nieistotny? (Nie: sprawdzić w internecie (lub w literaturze) czym jest krzywa Peano). A co można powiedzieć o krzywych regularnych?
3.1.9 FAKT: (1) Jeśli zbiór A ⊂ RN jest nieistotny oraz B ⊂ A, to również zbiór B jest nieistotny.
S
(2) Jeśli, dla dowolnego j ∈ N, zbiór Aj jest nieistotny, to także suma ∞
j=1 Aj jest zbiorem
nieistotnym.
DOWÓD: Pierwsza część jest oczywista. Dla dowodu drugiej części ustalmy ε > 0; dla dowolj
nego j ≥ 1 istnieje pokrycie {Ci }∞
i=1 zbioru Aj składające się z kostek domkniętych takie,
P∞
j
j
że i=1 vol(Ci ) < 2εj . Rodzina kostek {Ci }∞
i,j=1 jest przeliczalna i po ustawieniu jej w ciąg (w
dowolny sposób) uzyskamy, że
∞
X
j
vol(Ci ) < ε.
i,j=1
ĆWICZENIE: Wykazać, że zbiór nieistotny jest zbiorem brzegowym (tzn. nie ma punktów
wewnętrznych).
UWAGA: Należy być ostrożnym posługując się pojęciem zbioru nieistotnego. Rozważmy
dla przykładu N-wymiarową kostkę niezdegenerowaną C. Wówczas vol(C) > 0 i nie jest to
zbiór nieistotny. Jeśli jednak rozważyć tę kostkę jako podzbiór przestrzeni RN+1 (czyli de facto
utożsamić ją ze zbiorem C × {0}), to staje się ona kostką zdegenerowaną, a tym samym,
zbiorem nieistotnym. Wobec tego nieistotność jest pojęciem ściśle związanym z położeniem
zbioru w konkretnej przestrzeni.
Przejdziemy obecnie do zapowiedzianej charakteryzacji funkcji całkowalnych.
3.1.10 TWIERDZENIE: Niech C ⊂ RN będzie kostką domkniętą i f : C → R funkcją ograniczoną. Funkcja f jest całkowalna w sensie Riemanna wtedy i tylko wtedy, gdy zbiór D jej
nieciągłości jest zbiorem nieistotnym.
Przypomnijmy, że x ∈ D (tzn. x jest punktem nieciągłości funkcji f) jeśli f nie jest ciągła
w tym punkcie, czyli istnieje ε > 0 o tej własności, że dla każdego δ > 0 znajdziemy y ∈ C
taki, że kx − yk < δ, lecz |f(x) − f(y)| ≥ ε.
P
Tzn. szereg
vol(Ci ) jest zbieżny i jego suma jest mniejsza niż ε. Przypomnijmy jeszcze, że zbieżność tego
szeregu jest równoważna ograniczoności ponieważ jego wyrazu są nieujemne.
3
85
Zbiór D można też opisać nieco inaczej. Mianowicie, dla dowolnego x ∈ C niech
W (x) := max{f(x), lim sup f(y)}; w(x) := min{f(x), lim inf f(y)}
y→x
y→x
(liczby te są poprawnie określone i skończone, bo funkcja f jest ograniczona) oraz niech
oscylacja f w punkcie x
o(f, x) := W (x) − w(x).
Jest jasne, że f jest ciągła w punkcie x wtedy i tylko wtedy, gdy o(f, x) = 0. Rzeczywiście, jeśli
f jest ciągła w punkcie x ∈ C, to f(x) = limy→x f(y) (każdy punkt kostki jest jej punktem
skupienia). Istnienie granicy oznacza, że granice górna i dolna funkcji f w punkcie c są równe
i równe f(x), czyli W (x) = w(x) i o(f, x) = 0. Na odwrót równość W (x) = w(x) oznacza, że
lim sup f(y) = f(x) = lim inf f(y),
y→x
y→x
co oznacza, że istnieje limy→x f(y) = f(x), czyli że f jest ciągła w x.
Wobec tego,
∞
[
D=
Dn ,
n=1
gdzie Dn := {x ∈ C | o(f, x) ≥ 1/n}. Rzeczywiście, gdy x ∈ D, to o(f, x) > 0, czyli znajdzie się
S
takie n ∈ N, że o(f, x) ≥ 1/n, tj. x ∈ Dn . Na odwrót, gdy x ∈ ∞
n=1 , to x ∈ Dn dla pewnego
n ∈ N, a więc o(f, x) ≥ 1/n > 0, tzn. x ∈ D.
UWAGA: Można pokazać, że funkcja C 3 x 7Ï W (x) jest półciągła z góry, zaś C 3 x 7Ï
w(x) jest półciągła z dołu. Udowodnimy ten drugi fakt. Niech λ < m(x), tzn. λ < f(x) i λ <
lim infy→x f(y) = supη>0 inf 0<kx−yk<η, y∈C f(y). Zatem, z definicji kresu górnego, istnieje taka
η > 0, że inf 0<kx−yk<η, y∈C f(y) > λ. To z kolei oznacza, dla dowolnego y ∈ C, jeśli 0 <
ky − xk < η, to f(y) > λ. Lecz również f(x) > η. W takim razie, f(y) > λ dla dowolnego y ∈ C,
o ile ky − xk < η. Analogicznie można wykazać górną półciągłość funkcji W (·).
Ponieważ funkcja −w(·) jest półciągła z góry, więc funkcja C 3 x 7Ï o(f, x) jest półciągła
z góry. Oznacza to, że zbiór Dn jest domknięty co, wraz z jego ograniczonością, implikuje, że
jest to zbiór zwarty. W konsekwencji zbiór D jest również zwarty.
Nieobowiązkowy DOWÓD (twierdzenia 3.1.10): Załóżmy, że |f(x)| ≤ M dla dowolnego x ∈ C.
Zaczniemy od dowodu dostateczności podanego warunku dla całkowalności. Niech ε > 0.
4
Skoro D jest zbiorem nieistotnym, to istnieje rodzina {Ui }∞
i=1 kostek otwartych ( ) taka, D ⊂
S∞
P∞
i=1 vol(Ui ) < ε. Z kolei, dla dowolnego x ∈ C \ D znajdziemy otwartą kostkę
i=1 Ui oraz
Ux taką, że
sup f(y) − inf f(y) < ε
(∗)
y∈Ux
y∈Ux
(Czytelnik zechce to sprawdzić). Rodzina U := {Ui } ∪ {Ux }x∈C\D tworzy pokrycie otwarte
kostki C. Z warunku Heinego-Borela wynika, że istnieje skończone podpokrycie {V1 , ..., Vn }
pokrycia U (oznacza to, że Vj ∈ U dla dowolnego j = 1, ..., n). Korzystając z faktu 3.1.1,
znajdziemy podział taki P ∈ P(C), że dowolna kostka S ∈ P zawiera się w jednym z elementów
podpokrycia {Vi }ni=1 .
Dla dowolnej kostki S ∈ P możliwe są więc dwa przypadki:
4
W definicji zbioru nieistotnego można zastąpić kostki domknięte otwartymi i na odwrót. Dowód tego może
być niezłym ćwiczeniem.
86
(1) istnieje taki punkt x ∈ C \ D, że S ⊂ Ux lub
(2) istnieje takie i ≥ 1, że S ⊂ Ui .
Rodzinę kostek S ∈ P spełniających pierwszy warunek oznaczmy P(1) , a rodzinę kostek
S ∈ P spełniających drugi warunek oznaczmy P(2) (5 ). Gdy S ∈ P(1) , to MS (f, P) − mS (f, P) < ε
na mocy warunku (∗), a gdy S ∈ P(2) , to na pewno MS (f, P) − mS (f, P) < 2M. Wobec tego
U(f, P) − L(f, P) <
X
[MS (f) − mS (f)]vol(S) +
s∈P1
εvol(C) + 2M
X
[MS (f) − mS (f)]vol(S) <
S∈P2
m
X
vol(Ui ) < εvol(C) + 2Mε
i=1
co, na mocy dowolności ε, dowodzi całkowalności funkcji f.
Na odwrót załóżmy, że f ∈ R(C). Wystarczy pokazać, że dla dowolnego n ∈ N, zbiór Dn jest
nieistotny. Ustalmy ε > 0 i rozważmy podział P ∈ P(C) taki, że U(f, P)−L(f, P) < ε/n (istnienie
takiego podziału wynika z twierdzenia 3.1.3). Symbolem Q oznaczmy rodzinę tych kostek S ∈ P,
dla których int S ∩ Dn 6= ∅. Wtedy, dla S ∈ Q, MS (f, P) − mS (f, P) ≥ n1 . Istotnie, skoro S ∈ Q, to
istnieje punkt x ∈ int S, z o(f, x) ≥ n1 . Zatem istnieje takie η > 0, że B(x, η) ⊂ C i dla dowolnego
y ∈ B(x, η), ms (f, P) ≤ f(y) ≤ MS (f, P). Wobec tego mS (f, P) ≤ w(x) < W (x) ≤ MS (f, P), czyli
o(f, x) = W (x) − w(x) ≤ MS (f, P) − mS (f, P).
Stąd
X
1X
vol(S) ≤
[MS (f) − mS (f)]vol(S) ≤ U(f, P) − L(f, P) < ε/n.
n
S∈Q
S∈Q
P
Tak więc S∈Q vol(S) < ε. Rodzina {S}S∈Q pokrywa te punkty ze zbioru Dn , które leżą we
wnętrzu którejś z kostek S ∈ P. Pozostałe punktu zbioru Dn należą do ścian kostek z podziału
P. Oczywiście ściany te (traktowane jako zdegenerowane kostki N-wymiarowe) mają objętość
0. W konsekwencji pokryliśmy zbiór Dn (skończoną) rodziną kostek domkniętych o łącznej
objętości mniejszej niż ε. To kończy dowód.
3.2
Miara Jordana i ogólna całka
W dotychczasowych rozważaniach zajmowaliśmy się całkowalnością funkcji zdefiniowanych
na kostkach. Za chwilę zajmiemy się całkowaniem funkcji o ogólniejszych dziedzinach. Najpierw jednak zbadamy dokładniej klasę zbiorów, na których będzie można zdefiniować całkę
Riemanna funkcji ograniczonych.
Niech A ⊂ RN będzie zbiorem ograniczonym. Funkcją charakterystyczną tego zbioru
nazywamy funkcję χA : RN → R daną wzorem
0 gdy x 6∈ A
χA (x) =
1 gdy x ∈ A.
Ponieważ A jest zbiorem ograniczonym, to istnieje kostka (domknięta) taka, że A ⊂ C. Niech
A ⊂ RN będzie zbiorem ograniczonym i niech C będzie kostką taką, że A ⊂ C.
MIERZALNOŚĆ W SENSIE JORDANA Powiadamy, że zbiór ograniczony A ⊂ RN jest mierzalny w sensie Jordana (piszemy A ∈ J lub A ∈ JN dla podkreślenia, że chodzi o podzbiory
5
Teoretycznie może się zdarzyć, że kostka S ∈ P(1) ∩ P(2) .
87
3.2. MIARA JORDANA I OGÓLNA CAŁKA
przestrzeni RN (6 )), jeśli jest całkowalna na kostce C takiej, że A ⊂ C jego funkcja charakterystyczna χA : C → R, a w zasadzie jej obcięcie do kostki C.
UWAGA: Powyższa definicja jest poprawna, tzn. nie zależy od wyboru kostki C. Istotnie:
jeśli C 0 jest inną kostką taką, że A ⊂ C 0 , to A ⊂ C ∩ C 0 . Całkowalność na C implikuje
całkowalność na C ∩ C 0 (Czytelnik zechce to sprawdzić, stosując rozumowanie podobne do
użytego w dowodzie twierdzenia 3.1.5 (iii)). To z kolei (zważywszy, że χA przyjmuje wartość 0
poza C ∩ C 0 ) implikuje całkowalność na C 0 .
PRZYKŁAD: Najprostszymi przykładami zbiorów mierzalnych w sensie Jordana są: zbiór pusty
i dowolna kostka domknięta. Wynika to wprost z definicji. Inne przykłady pojawią się później.
UWAGA: Warto bardzo starannie przeanalizować definicję mierzalności w sensie Jordana.
Załóżmy, że zbiór A jest ograniczony, C jest taką kostką domkniętą, że A ⊂ C i niech P będzie
dowolnym podziałem kostki C.
Dla dowolnej kostki S ∈ P możliwe są trzy przypadki:
(1) S ∩ A = ∅;
(2) S ∩ A 6= ∅ i S ∩ (RN \ A) 6= ∅;
(3) S ⊂ A.
Jeśli S spełnia pierwszy warunek, to mS (χA , P) = MS (χA , P) = 0; jeśli S spełnia drugi
warunek, to mS (χA , P) = 0 i MS (χA , P) = 1; zaś, jeśli S spełnia trzeci warunek, to mS (χA , P) =
MS (χA , P) = 1.
Symbolem P(i) oznaczymy rodzinę tych kostek S ∈ P, które spełniają warunek (i), i =
1, 2, 3; oczywiście rodziny te są rozłączne i
X
X
X
X
U(χA , P) =
vol(S) +
vol(S) =
vol(S)(7 ), L(χA , P) =
vol(S)
S∈P(2)
S∈P(3)
oraz
S∈P(2) ∪P(3)
U(χA , P) − L(χA , P) =
S∈P(3)
X
vol(S).
S∈P(2)
Ponadto
Z
C
X
χA (x) dx = sup L(χA , P) = sup
P∈P(C)
P∈P(C) S∈P
Z
C
P∈P(C)
(3)
X
χA (x) dx = inf U(χA , P) = inf
P∈P(C)
vol(S),
vol(S).
S∈P(2) ∪P(3)
MIARA ZEWNĘTRZNA I WEWNĘTRZNA JORDANA Jeśli A ⊂ RN jest zbiorem ograniczonym,
to liczbę
Z
m∗ (A) := χA (x) dx
C
nazywamy wewnętrzną miarą Jordana zbioru A, zaś liczbę
Z
m∗ (A) := χA (x) dx
C
6
Przyjęło się, że rodziny zbiorów mierzalnych (w sensie Jordana, Lebesgue’a i innych), oznacza się literami
gotyckimi J, L, itp.
7
Do rodziny P(2) ∪ P(3) należą kostki S ∈ P, które przecinają się za zbiorem A.
88
nazywamy zewnętrzną miarą Jordana zbioru A, gdzie C jest dowolną kostką domkniętą zawierającą zbiór A.
UWAGA: (1)Definicje te są ponownie poprawne, gdyż nie zależą od wyboru kostki domkniętej C zawierającej zbiór C. Istotnie, jeśli C 0 jest inną taką kostką, to C 00 := C ∩ C 0 jest również
kostką domkniętą zawierającą A i, oczywiście C 00 ⊂ C, C 00 ⊂ C 0 . Stąd wynika, że chcąc udowodnić niezależność miar wewnętrznej i zewnętrznej zbioru A od wyboru kostki, wystarczy
ograniczyć się do przypadku, w którym C 0 ⊂ C.
Dla dowolnego podziału P 0 ∈ P(C 0 ) bez trudu znajdziemy podział P ∈ P(C) tak, by P 0 ⊂ P
0
(wystarczy dokonać, odpowiednio rozumianego, „podziału” zbioru C \ C 0 ). Jeśli S ∈ P(3)
(tzn.
0
0
S ⊂ A), to S ∈ P(3) . Na odwrót, jeśli S ∈ P(3) , to S ∈ P(3) . Innymi słowy, P(3) = P(3) . Stąd
X
L(χA , P 0 ) =
X
vol(S) =
0
S∈P(3)
vol(S) = L(χA , P).
S∈P(3)
Zatem, po przejściu do kresów, otrzymamy, że
Z
Z
χA (x) dx ≤ χA (x) dx.
C0
C
Z drugiej strony, dla dowolnego podziału P ∈ P(C), rozważmy takie jego zagęszczenie Q, która
zawiera wszystkie wierzchołki kostki C 0 . Jest jasne, że Q 0 := C 0 ∩ Q jest podziałem kostki C 0 i,
0
analogicznie jak wyżej pokazujemy, że Q(3)
= Q(3) , tzn.
L(χA , Q 0 ) = L(χA , Q).
Wobec tego, po przejściu do kresów górnych,
Z
Z
χA (x) dx ≤
χA (x) dx.
C0
C
W konsekwencji
Z
C
Z
χA (x) dx =
Analogicznie można udowodnić, że
Z
C
C0
χA (x) dx.
Z
χA (x) dx =
C0
χA (x) dx.
To kończy dowód niezależności miar wewnętrznej i zewnętrznej od wyboru kostki zawierającej
zbiór A.
(2) Z uwagi na powyższe rozważania, przyjęta terminologia jest całkowicie jasna. Miarą
wewnętrzną zbioru A jest kres górny łącznej objętości „małych” kostek wyznaczonych przez
podziały P dowolnie wybranej kostki C zawierającej zbiór A, które są zawarte w zbiorze
A. Miarą zewnętrzną jest kres dolny łącznej objętości „małych” kostek wyznaczonych przez
podziały P dowolnie wybranej kostki C zawierającej zbiór A, które przecinają się ze zbiorem
A.
(3) Zauważmy jeszcze, że
(3.2.1)
m∗ (A) ≤ m∗ (A)
dla dowolnego zbioru ograniczonego A ⊂ RN .
89
w świetle przeprowadzonego rozumowania, otrzymujemy następującą charakteryzację.
3.2.1 TWIERDZENIE: Zbiór ograniczony A ⊂ RN jest mierzalny w sensie Jordana (A ∈ JN )
wtedy i tylko wtedy, gdy
m∗ (A) = m∗ (A).
DOWÓD: Zbiór A jest mierzalny wtedy i tylko wtedy, gdy, dla dowolnej kostki domkniętej
C zawierającej A, χA ∈ R(C) wtedy i tylko wtedy, gdy
Z
Z
m∗ (A) = χA (x) dx = χA (x) dx = m∗ (A).
C
C
3.2.2 LEMAT: Niech A będzie zbiorem ograniczonym. Jeśli A jest zbiorem nieistotnym, to
m∗ (A) = 0. Jeśli m∗ (A) = 0, to A jest zbiorem nieistotnym.
DOWÓD: Załóżmy, że A jest zbiorem nieistotnym i wybierzmy domkniętą kostkę C ⊃ A i
niech P będzie jej dowolnym podziałem. Jeśli S ∈ P(3) , tzn. S ∈ P i S ⊂ A, to S jest zbiorem
P
nieistotnym. Wtedy vol(S) = 0. W taki razie m∗ (A) = supP∈P(C) S∈P(3) vol(S) = 0.
Załóżmy teraz, że m∗ (A) = 0 i ponownie rozważmy kostkę C ⊃ A. Z określenia miary
zewnętrznej wynika, że dla dowolnego ε > 0 istnieje taki podział P ∈ P(C), że U(χA , P) < ε.
To oznacza, że rodzina P(2) ∪ P(3) kostek ma łączna objętość mniejszą niż ε i, oczywiście,
pokrywa zbiór A.
Twierdzenia odwrotne do podanych powyżej nie zachodzą. Zobaczymy to za chwilę.
MIARA JORDANA Przypuśćmy, że zbiór ograniczony A ⊂ RN jest mierzalny w sensie
Jordana. Wspólną wartość
m(A) := m∗ (A) = m∗ (A)
nazywamy (N-wymiarową) miarą Jordana zbioru A. Niekiedy, aby podkreślić, że chodzi o Nwymiarową miarę Jordana, będziemy pisać mN zamiast m.
Tak więc m : JN → R jest funkcją, która każdemu zbiorowi mierzalnemu w sensie Jordana
A ∈ JN przyporządkowuje jego N-wymiarową miarę Jordana m(A).
Z definicji miar wewnętrznej i zewnętrznej wynika, że
Z
(3.2.2)
m(A) =
χA (x) dx
C
gdzie C jest dowolna kostką domkniętą zawierającą zbiór A.
PRZYKŁAD: Jak wiemy ∅, C ∈ J, gdzie C jest domkniętą kostką. Z definicji wynika natychmiast,
że m(∅) = 0 i m(C) = vol(C). Wobec tego każda ze ścian S kostki C, będąc kostką domkniętą,
jest zbiorem mierzalnym o mierze 0 i m(S) = vol(S) = 0.
3.2.3 WNIOSEK: Jeśli A jest nieistotnym zbiorem mierzalnym, to m(A) = 0. I na odwrót: jeśli
zbiór A jest zbiorem mierzalnym i m(A) = 0, to A jest zbiorem nieistotnym.
DOWÓD: Z lematu 3.2.2, m∗ (A) = 0. Mierzalność implikuje, że m(A) = m∗ (A) = 0. Podobnie
jeżeli A jest mierzalny i m(A) = 0, to m∗ (A) = 0 i, ponownie z lematu 3.2.2, A jest nieistotny. Podamy teraz nieco inną charakteryzację mierzalności w sensie Jordana.
3.2.4 TWIERDZENIE: Zbiór ograniczony A ⊂ RN jest mierzalny w sensie Jordana wtedy i tylko
wtedy, gdy jego brzeg ∂A jest zbiorem nieistotnym.
90
DOWÓD: Niech C będzie taką kostką, że A ⊂ C. Funkcja charakterystyczna χA jest całkowalna
(to znaczy zbiór A jest mierzalny) wtedy i tylko wtedy, gdy zbiór D jej punktów nieciągłości jest
nieistotny. Zauważmy jednak, że w tym przypadku D = ∂A, tzn. x jest punktem nieciągłości
funkcji χA wtedy i tylko wtedy, gdy x ∈ ∂A. Istotnie, przypomnijmy, że ∂A := cl A\int A. Tak więc
x ∈ ∂A wtedy i tylko wtedy, gdy dla dowolnego δ > 0, B(x, δ) ∩ A 6= ∅ oraz B(x, δ) ∩ (RN \ A) 6= ∅.
Implikuje to, że o(χA , x) = 1; stąd χA nie jest ciągła w x. Z drugiej strony, jeżeli funkcja
charakterystyczna χA nie jest ciągła w x, to istnieje ε > 0 o tej własności, że dla każdego
δ > 0 istnieje taki punkt y ∈ B(x, δ), że |χA (x) − χA (y)| ≥ ε. Warunek ten może mieć miejsce
tylko gdy χA (x) = 1 oraz χA (y) = 0 (lub na odwrót). W każdym razie B(x, δ) ∩ A 6= ∅ oraz
B(x, δ) ∩ (RN \ A) 6= ∅, co dowodzi, że x ∈ ∂A.
WŁASNOŚCI MIARY JORDANA Zbadamy teraz pokrótce podstawowe własności zbiorów mierzalnych w sensie Jordana i miary Jordana. Zaczniemy od kilku ogólnych stwierdzeń.
3.2.5 TWIERDZENIE: Niech A, B ⊂ RN będą zbiorami ograniczonymi. Wówczas:
(1) Jeżeli A ∈ J, to m(A) ≥ 0.
(2) Jeśli A, B ∈ J, to A ∪ B, A ∩ B, A \ B ∈ J.
(3) Miara Jordana jest: addytywna, tzn., jeżeli A, B ∈ J i A ∩ B = ∅, to m(A ∪ B) =
m(A) + m(B); subaddytywna, tzn., jeśli A, B ∈ J, to m(A ∪ B) ≤ m(A) + m(B); monotoniczna,
tzn., gdy A, B ∈ J i A ⊂ B, to m(A) ≤ m(B) (ponadto m(B \ A) = m(B) − m(A)).
DOWÓD: (1) Skoro A ∈ J, to funkcja χA ∈ R(C), gdzie C jest kostką domkniętą zawierającą A.
Oczywiście χA ≥ 0. Zatem
Z
m(A) =
χA (x) dx ≥ 0.
C
Funkcja charakterystyczna zbioru pustego jest stale równa zero, więc m(∅) = 0.
(2), (3) Zauważmy, że
χA∪B = max{χA , χB }, χA∩B = min{χA , χB }.
Stąd, przy założeniu mierzalności zbiorów A i B (tj. całkowalności funkcji charakterystycznych
χA i χB na kostce C, która zawiera oba zbiory A, B), wynika całkowalność na C obu funkcji
χA∪B i χA∩B , a więc i mierzalność zbiorów A ∪ B i A ∩ B. Ponadto
χA + χB = max{χA , χB } + min{χA , χB } = χA∪B + χA∩B .
Zatem
Z
Z
Z
m(A) + m(B) =
χA (x) dx +
χB (x) dx = (χA (x) + χB (x)) dx =
C
C
C
Z
Z
=
χA∪B (x) dx +
χA∩B (x) dx = m(A ∪ B) + m(A ∩ B).
C
Zatem
C
m(A ∪ B) = m(A) + m(B) − m(A ∩ B) ≤ m(A) + m(B)
oraz, gdy A ∩ B = ∅, to
m(A ∪ B) = m(A) + m(B).
Niech ponownie C będzie kostką domkniętą, A, B ⊂ C. Wówczas, dla dowolnego x ∈ C,
χC\A (x) = 1 − χA (x). Wobec całkowalności funkcji stałej na C wnosimy, że χC\A jest funkcja
całkowalną na C; tzn. zbiór C \ A jest mierzalny. Zatem także B \ A = B ∩ (C \ A) jest zbiorem
91
mierzalnym.
Monotoniczność jest natychmiastową konsekwencją tego, że χA ≤ χB . Ponadto:
m(B) = m((B \ A) ∪ A) = m(B \ A) + m(A).
Własność (2) udowodnionego twierdzenia oznacza, że rodzina J jest tzw. pierścieniem zbiorów. Dokładniej mówiąc dowolną rodzinę A zbiorów (niekoniecznie podzbiorów przestrzeni
RN ) nazywamy pierścieniem zbiorów, jeżeli dla dowolnych A, B ∈ A, A ∩ B, A ∪ B, A \ B ∈ A.
S
Zauważmy, że jeśli rodzina A jest pierścieniem i {A1 , ..., An } ⊂ A, to ni=1 Ai ∈ A. W
szczególności więc zachodzi:
3.2.6 WNIOSEK: Suma skończona zbiorów mierzalnych w sensie Jordana jest zbiorem mierzalnym. Co więcej, jeśli {Ai }ni=1 jest rodziną zbiorów mierzalnych, to
!
n
n
X
[
m(Ai ),
m
Ai ≤
i=1
i=1
a gdy rodzina ta jest parami rozłączna (tzn. Ai ∩ Aj = ∅ dla dowolnych i, j = 1, ..., n, i 6= j), to
!
n
n
[
X
m
Ai =
m(Ai ).
i=1
i=1
Oba wzory można łatwo wykazać posługując się indukcją matematyczną względem n.
PRZYKŁAD: (1) Dowolna kostka U jest mierzalna w sensie Jordana i m(U) = vol(U). Istotnie,
brzeg ∂U jest (skończoną) sumą mnogościową wszystkich ścian domknięcia C kostki U, zaś
każda z tych ścian jest zbiorem mierzalnym nieistotnym; zatem m(∂U) = 0.
(2) Dowolny nieistotny zbiór zwarty (czyli domknięty i ograniczony) A jest mierzalny w
sensie Jordana. W szczególności każdy zbiór skończony jest mierzalny. Istotnie, skoro zbiór A
jest nieistotny, to ∂A ⊂ A jest też nieistotny; stąd A jest mierzalny i m(A) = 0.
Niestety rodzina J ma też kilka niedobrych własności.
3.2.7 UWAGA: Przede wszystkim należy zwrócić uwagę, że jeśli zbiór jest nieistotny, to nie musi
być zbiorem mierzalnym (nawet jeśli jest ograniczony). Zgodnie z lematem 3.2.2, jego miara
wewnętrzna m∗ (A) = 0, lecz może się zdarzyć, że m∗ (A) > 0. Dla przykładu rozważmy zbiór
R1
A = Q ∩ [0, 1]. Jako zbiór przeliczalny, ma on miarę 0, lecz m∗ (A) = 0 χA (x) dx = 1. Zauważmy
jeszcze, że brzegiem zbioru A jest cały odcinek [0, 1], który nie jest zbiorem nieistotnym.
Jest to bardzo niepokojąca okoliczność. W konsekwencji nie jest zbyt dogodne mówić
o zbiorach nieistotnych jako o zbiorach miary 0: mogłoby to bowiem oznaczać, że zbiory
nieistotne „mają miarę równą 0”.
Niestety również nie wszystkie zbiory otwarte i ograniczone są mierzalne. Dla przykładu:
ustawmy liczby wymierne z przedziału (0, 1) w ciąg (qi )∞
i=1 oraz, dla dowolnego i ∈ N rozważmy
1
1
odcinek Ui := (qi − δi , qi + δi ) ⊂ (0, 1), gdzie 0 < δi < 2i+3
; wtedy vol(Ui ) < 2i+2
. Zbiór
S∞
A := i=1 Ui ⊂ (0, 1) jest otwarty i ∂A = [0, 1] \ A. Przypuśćmy, że zbiór A jest mierzalny.
Wtedy ∂A – jako brzeg zbioru mierzalnego – byłby zbiorem nieistotnym. A zatem istniałoby
P∞
1
jego pokrycie odcinkami otwartymi {Vi }∞
i=1 vol(Vi ) < 4 . Jest jasne, że
i=1 o łącznej długości
∞
∞
suma rodzin {Ui }i=1 ∪ {Vi }i=1 pokrywa odcinek [0, 1]. Zwartość odcinka implikuje, że istnieją
zbiory Ui1 , ..., Uin i Vi1 , ..., Vim , które w sumie pokrywają odcinek [0, 1]. Każdy ze zbiorów Ui ,
92
Vi jest mierzalny, zatem również B := Ui1 ∪ ... ∪ Uin ∪ Vi1 ∪ ... ∪ Vim jest mierzalny i, na mocy
subaddytywności miary
m(B) ≤
n
X
m(Uik ) +
k=1
m
X
(Vik ) =
k=1
n
X
vol(Uik ) +
k=1
m
X
∞
vol(Vik ) <
k=1
1
1 X 1
= .
+
2+i
4
2
2
i=1
Zatem, z monotoniczności miary m(A) ≤ m(B) < 21 .
Z drugiej strony mierzalność A i odcinka [0, 1] implikuje, że ∂A jest mierzalny. Stąd
m(∂A) = 0. Zatem 1 = m([0, 1]) = m(A) + m(∂A) = m(A) < 12 , co jest oczywiście sprzeczne.
W konsekwencji również nie każdy zwarty (domknięty i ograniczony) zbiór jest mierzalny
(przykładem jest choćby brzeg ∂A zbioru skonstruowanego wyżej).
W dalszym ciągu potrzebować będziemy następującej własności zbiorów mierzalnych.
3.2.8 LEMAT: Mierzalność i miara Jordana są niezmiennicze ze względu na translacje. To
znaczy, jeśli A ⊂ RN jest zbiorem mierzalnym oraz z ∈ RN , to zbiór B := {a + z | a ∈ A} jest
mierzalny i m(B) = m(A).
DOWÓD: Rozważmy kostkę domkniętą C zawierającą A. Łatwo zobaczyć, że D := C + z jest
kostką zawierającą B. Niech Q będzie dowolnym podziałem kostki D. Jest jasne, że P := Q − z
jest podziałem kostki C. Ponadto, jeśli T ∈ Q, to S = T − z ∈ P, vol(S) = vol(T) oraz, jeśli
T ∈ Q(3) (przypomnijmy: oznacza to, że T ⊂ B), to S = T − z ⊂ A, czyli S ∈ P(3) . W takim razie
L(χB , Q) =
X
X
vol(T) =
T∈Q(3)
vol(S) = L(χA , P).
S∈P(3)
Ponieważ pomiędzy podziałami kostek C i D ma miejsce wzajemnie jednoznaczna odpowiedniość, to
m∗ (B) = sup L(χB , Q) = sup L(χA , P) = m∗ (A).
Q∈P(D)
Analogicznie pokazujemy, że
P∈P(C)
m∗ (B) = m∗ (A).
Stąd m∗ (B) = m∗ (B) = m(A). Dowodzi to, że zbiór B jest mierzalny i m(B) = m(A).
3.2.A
Całka na zbiorach mierzalnych w sensie Jordana
Rozważmy teraz funkcję ograniczoną f : A → R określoną na zbiorze mierzalnym A ⊂ RN .
Niech C będzie niezdegenerowaną kostką domkniętą zawierającą A.
3.2.9 DEFINICJA: Mówimy, że f jest całkowalna na A (i piszemy f ∈ R(A)), jeśli funkcja fA :
C → R dana wzorem
0
gdy x ∈
6 A
fA (x) :=
f(x) gdy x ∈ A.
jest całkowalna (na C). Jeśli f ∈ R(A), to
Z
Z
f(x) dx :=
fA (x) dx.
A
C
93
Definicja ta jest poprawna, tzn. nie zależy od wyboru C (prosty dowód pozostawiamy Czytelnikowi).
3.2.10 UWAGA: Z podanej definicji i wzoru (3.2.2) wynika następująca (najbardziej elementarna)
interpretacja geometryczna miary: jeśli zbiór A ⊂ RN jest mierzalny w sensie Jordana, to
Z
m(A) =
dx,
A
tzn. miara zbioru A ⊂ RN mierzalnego w sensie Jordana jest równa całce Riemanna z funkcji
f : A → R tożsamościowo równej 1.
Podobnie jak wyżej mamy następujący warunek konieczny i dostateczny całkowalności.
3.2.11 TWIERDZENIE: Jeżeli zbiór A ⊂ RN jest mierzalny w sensie Jordana, to funkcja ograniczona f : A → R jest całkowalna w sensie Riemanna wtedy i tylko wtedy, gdy zbiór jej
nieciągłości jest zbiorem nieistotnym.
DOWÓD: Załóżmy, że f ∈ R(A). Oznacza to, że całkowalna na C, gdzie C jest kostką domkniętą
zawierającą A, jest funkcja fA . W taki razie zbiór punktów nieciągłości funkcji fA jest zbiorem
nieistotnym. Jeśli x ∈ A jest punktem nieciągłości f, to również fA nie jest ciągła w x. Aby to
dostrzec, zauważmy, że istnieje ε > 0 takie, że dla dowolnego δ > 0 w zbiorze A znajdziemy
punkt y, ky − xk < δ, dla którego |f(y) − f(x)| ≥ ε. Jest jasne, że fA (y) = f(y) i fA (x) = f(x);
tak więc także fA (y) − fA (x)| ≥ ε.. Innymi słowy, zbiór punktów nieciągłości f zawiera się w
zbiorze nieciągłości fA ; stąd musi to być zbiór nieistotny.
Na odwrót, przypuśćmy, że zbiór punktów nieciągłości funkcji f jest nieistotny i rozważmy
dowolny punkt x, w którym funkcja fA nie jest ciągła. Oczywiście x ∈ A (bo w przeciwnym
razie fA ≡ 0 w otoczeniu x, czyli fA jest ciągła w x). Jeśli x 6∈ ∂A, to x ∈ int A i w pewnym jego
otoczeniu fA = f. Zatem w x nieciągła jest funkcja f. Widzimy więc, że x ∈ ∂A lub x należy
do zbioru punktów nieciągłości f. Zbiór ∂A – jako brzeg zbioru mierzalnego – jest nieistotny.
Widać więc, że zbiór punktów nieciągłości funkcji fA zawarty jest w sumie dwóch zbiorów
nieistotnych i dlatego sam musi być nieistotny.
Funkcjom całkowalnym na zbiorze mierzalnym przysługują własności podobne do wymienionych w poprzednim podrozdziale.
3.2.12 TWIERDZENIE: Załóżmy, że A ⊂ RN jest zbiorem mierzalnym w sensie Jordana oraz
f, g : A → R funkcjami ograniczonymi.
(i) Jeżeli f, g ∈ R(A), to f ± g ∈ R(A) oraz
Z
Z
Z
(f ± g)(x) dx =
f(x) dx ±
g(x) dx.
A
A
A
(ii) Jeśli f ∈ R(A), λ ∈ R, to λf ∈ R(A) oraz
Z
Z
λf(x) dx = λ f(x) dx.
A
A
R
R
(iii) Jeśli f, g ∈ R(A) oraz f ≤ g, to A f(x)
dx
≤
A g(x) dx. W szczególności: jeśli α ≤
R
Rf(x) ≤ β dla dowolnego x ∈ A, to αm(A) ≤ A f(x) dx ≤ βm(A). Ponadto, gdy m(A) = 0, to
A f(x) dx = 0.
(iv) Załóżmy, że A = A1 ∪A2 , gdzie A1 , A2 są zbiorami mierzalnymi rozłącznymi. Wówczas
f ∈ R(A) wtedy i tylko wtedy, gdy f 1 := f|A1 ∈ R(A1 ) oraz f 2 := f|A2 ∈ R(A2 ); ponadto
Z
Z
Z
1
f=
f (x) +
f 2 (x) dx.
A
A1
A2
94
DOWÓD: Dowody trzech pierwszych części wynikają natychmiast z definicji całki i z odnośnych
własności całki funkcji określonych na kostce (Czytelnik zechce te dowody przeprowadzić).
Podamy dowód ostatniej własności. Niech mianowicie C będzie taką kostką, że A ⊂ C. Rozłączność zbiorów A1 , A2 implikuje, że fA = fA1 1 + fA2 2 . Przy założeniu, że f i ∈ R(Ai ), tzn. że
fAi i ∈ R(C), i = 1, 2, widać – na mocy części (i) – że fA ∈ R(C). Na odwrót załóżmy, że f ∈ R(A).
Niech x ∈ A1 będzie punktem nieciągłości funkcji f 1 . Łatwo zobaczyć, że musi to być również
punkt nieciągłości funkcji f. A zatem zbiór punktów nieciągłości f 1 zawarty jest w zbiorze
punktów nieciągłości f; stąd wynika, że jest to zbiór nieistotny (bo taki jest zbiór punktów
nieciągłości f) i, z twierdzenia 3.2.11, f 1 jest całkowalna na A1 . Analogicznie dowodzimy, że
f 2 ∈ R(A2 ).
W takim razie
Z
Z
Z
Z
Z
1
2
1
f(x) dx =
fA (x) dx = (fA1 (x) + fA2 (x)) dx =
f (x) dx +
f 2 (x) dx.
A
C
C
A1
A2
3.2.13 TWIERDZENIE: Przypuśćmy, że φ : R → R jest funkcją ciągłą. Jeśli A ⊂ RN jest zbiorem
mierzalnym, f : A → R funkcja całkowalna, to φ ◦ f jest funkcją całkowalną.
DOWÓD: Jak zwykle rozważmy kostkę C ⊃ A. Całkowalność (poprawnie określonej) funkcji
φ ◦ f jest równoważna całkowalności na kostce C funkcji g, która przyjmuje wartość g(x) = 0
dla x ∈ C \ A oraz g(x) = φ ◦ f(x) dla x ∈ A. Rozważmy funkcję h = φ ◦ fA . Ponieważ
fA ∈ R(C), to także h ∈ R(C). Zauważmy, że dla x ∈ A, h(x) = φ ◦ f(x) = g(x), zaś dla x ∈ C \ A,
h(x) = λ := φ(0). Mierzalność zbioru A implikuje, że funkcja k := λ(1 − χA ) jest całkowalna.
Zatem g = h − k ∈ R(C).
3.2.14 WNIOSEK: Niech A ⊂ RN będzie zbiorem mierzalnym. Jeżeli f ∈ R(A), to |f| ∈ R(A)
oraz
Z Z
f ≤
|f|.
A
A
(ii) Jeśli f, g ∈ R(A), to fg, max{f, g}, min{f, g} ∈ R(A).
Dowód tych faktów przebiega analogicznie jak w przypadku funkcji określonych na kostce.
3.3
3.3.A
Metody obliczania całek
Całka iterowana na kostce
Omówimy teraz ważne twierdzenie, które umożliwia efektywne obliczanie całek.
Niech X ⊂ Rn oraz Y ⊂ Rm będą niezdegenerowanymi domkniętymi kostkami (odpowiednio n i m-wymiarowymi) i niech C := X × Y . Wtedy C ⊂ RN , gdzie N = n + m, jest
niezdegenerowaną kostką domkniętą. Dowolny punkt z ∈ C ma przedstawienie z = (x, y),
gdzie x ∈ X oraz y ∈ Y .
Jeśli f : C → R, to dla dowolnego, lecz ustalonego x ∈ X zdefiniowana jest funkcja
fx : Y → R wzorem fx (y) := f(x, y), y ∈ Y ; podobnie, dla dowolnego, lecz ustalonego y ∈ Y
zdefiniowana jest funkcja f y : X → R wzorem f y (x) := f(x, y), x ∈ X. Oczywiście funkcje
fx , f y są ograniczone (odp. na Y i X), o ile ograniczona jest funkcja f. A więc, przy założeniu
ograniczoności f, określone są funkcje
Z
Z
X 3 x 7Ï u(x) := fx (y) dy oraz X 3 x 7Ï l(x) := fx (y) dy.
Y
Y
95
3.3. METODY OBLICZANIA CAŁEK
Analogicznie zdefiniowane są funkcje
Z
Z
y
Y 3 y 7Ï u1 (y) := f (x) dx, Y 3 y 7Ï l1 (y) := f y (x) dx.
X
X
3.3.1 TWIERDZENIE (Fubiniego (8 )): Załóżmy, że f : C → R jest funkcją całkowalną. Wówczas
powyżej zdefiniowane funkcje u, l są całkowalne na X oraz zachodzą wzory:
Z Z
Z
Z
Z Z
u(x) dx =
f(z) dz =
fx (y) dy dx =
f(x, y) dy dx,
Z
C
X
X
C
Z
f(z) dz =
Z
X
l(x) dx =
X
Y
!
Z
X
Y
fx (y) dy
Z
dx =
Y
!
Z
f(x, y) dy
X
dx.
Y
Podobnie, całkowalne na Y są funkcje u1 i l1 i mają miejsce wzory:
Z Z
Z
Z Z
Z
y
f (x) dx dy =
f(x, y) dx dy,
u1 (y) dy =
f(z) dz =
C
Y
Y
C
Z
Z
f(z) dz =
Y
Z
l1 (y) dy =
X
Z
Y
X
Y
!
f y (x) dx
Z
dy =
X
!
Z
f(x, y) dx
Y
dy.
X
UWAGA: Zanim przystąpimy do dowodu zauważmy, że:
(1) Twierdzenie nie orzeka o całkowalności na kostce X funkcji f y (gdzie y ∈ Y ), ani
całkowalności na Y funkcji fx (gdzie x ∈ X). Wprawdzie wiadomo, że f jest funkcja całkowalną,
a więc jej zbiór nieciągłości funkcji f jest zbiorem nieistotnym, lecz nietrudno sobie wyobrazić,
że dla ustalonego x ∈ X, nieciągłości funkcji fx (lub f y przy ustalonym y ∈ Y ) położone w
kostce Y (odp. w X) nie będą tworzyć zbioru nieistotnego w Rm (odp. w Rn ) – Czytelnik
zechce przedstawić odpowiedni przykład. Stąd w powyższych wzorach mamy do czynienia z
odpowiednio całkami górnymi i dolnymi, które są zawsze zdefiniowane, o ile f jest funkcja
ograniczoną.
(2) Jeżeli jednak f jest funkcją ciągłą (a w praktyce najczęściej mamy do czynienia właśnie
z taką sytuacją), to również ciągłe (a wiec i całkowalne) są funkcje fx i f y (dla dowolnych x ∈ X
oraz y ∈ Y ). Wtedy
Z
Z
Z
Z
u(x) = fx (y) dy =
fx (y) dy = fx (y) dy = l(x), u1 (y) =
f y (x) dx = l1 (y)
Y
Y
Y
X
i są to – jak za chwilę udowodnimy (patrz poniżej lemat 3.3.3) – funkcje ciągłe; zatem są one
całkowalne i
Z
Z
Z Z
f(z) dz =
u(x) dx =
fx (y) dy dx,
C
X
Z
C
X
f(z) dz =
Y
Y
Z Z
Z
u1 (y) dy =
Y
X
y
f (x) dx dy.
Oczywiście powyższe wzory (których prawe strony nazywa się całkami iterowanymi) zachodzą również, gdy dla dowolnych x ∈ X (lub y ∈ Y ) całkowalne są funkcje fx (lub f y ).
R
3.3.2 UWAGA: Wzory te należy rozumieć następująco: w celu obliczenia całki C f(z), gdzie f
jest funkcją ciągłą, trzeba:
8
Fubini
96
(1) Ustalić zmienną x i obliczyć całkę l(x) = u(x) =
funkcją zmiennej x.
R
Y
f(x, y) dy. Otrzymany wynik jest
(2) Otrzymaną funkcję całkowalną u = l należy scałkować na kostce X.
3.3.3 LEMAT: Jeśli funkcja f : C → R jest ciągła, to funkcja u : X → R jest również ciągła.
Podobnie ciągła jest funkcja u1 : Y → R.
DOWÓD: Niech ε > 0. Jednostajna ciągłość f na (zwartej) kostce C oznacza, że istnieje taka
ε
δ > 0, że |f(z) − f(z0 )| < vol(Y
o ile z, z0 ∈ C i kz − z0 k < δ.
)
Niech x, x 0 ∈ X i kx − x 0 k < δ. Wówczas dla dowolnego y ∈ Y , kz − z0 k < δ, gdzie z = (x, y)
0
i z = (x 0 , y). Zatem
Z
Z
0
0
f(x , y) dy ≤
|u(x) − u(x )| = f(x, y) dy −
Y
Y
Z
ε
0
|f(x, y) − f(x , y)| dy ≤
≤
vol(Y ) = ε.
vol(Y
)
Y
W takim razie funkcja u jest jednostajnie ciągła. Dowód dla u1 przebiega analogicznie.
Nieobowiązkowy DOWÓD (twierdzenia 3.3.1): Przeprowadzimy dowód tylko dwóch pierwszych
wzorów (pozostałe dowodzi się analogicznie). Dowolny podział P ∈ P(C) wyznacza podziały
PX ∈ P(X), PY ∈ P(Y ) takie, że każda kostka S ∈ P jest iloczynem kartezjańskim S = SX × SY
pewnych kostek SX ∈ PX , SY ∈ PY . Wobec tego
X
X
L(f, P) =
mS (f, P)vol(S) =
mSX ×SY (f, P)vol(SX × SY ) =
S∈P
SX ∈PX , SY ∈PY

X

X

=
SX ∈PX
mSX ×SY (f, P)vol(SY ) vol(SX ).
SY ∈PY
Jeśli x ∈ SX , to oczywiście mSX ×SY (f, P) ≤ mSY (fx , PY ). Stąd dla x ∈ SX ,
X
mSX ×SY (f, P)vol(SY ) ≤
SY ∈PY
X
Z
mSY (fx , PY )vol(SY ) = L(fx , PY ) ≤
SY ∈PY
Y
fx (y) dy = l(x).
Z dowolności x ∈ SX otrzymujemy, że
X
mSX ×SY (f, P)vol(SY ) ≤ mSX (l, PX )
SY ∈PY
oraz
L(f, P) ≤
X
mSX (l, PX )vol(SX ) = L(l, PX ).
SX ∈PX
Rozumując analogicznie otrzymamy, że U(u, PX ) ≤ U(f, P).
W takim razie, biorąc pod uwagę, że l(x) ≤ u(x) dla x ∈ X,
L(f, P) ≤ L(l, PX ) ≤ U(l, PX ) ≤ U(u, PX ) ≤ U(f, P),
L(f, P) ≤ L(l, PX ) ≤ L(u, PX ) ≤ U(u, PX ) ≤ U(f, P).
Skoro funkcja f jest całkowalna, to dla dowolnego ε > 0 istnieje taki podział P ∈ P(C), że
U(f, P) − L(f, P) < ε. Stąd
U(l, PX ) − L(l, PX ) < ε oraz U(u, PX ) − L(u, PX ) < ε.
97
Dowodzi to, że u, l ∈ R(X). Dodatkowo liczby
L(f, P) i U(f, P). Zatem
Z
Z
< ε,
f(z) dz −
u(x)
dx
X
C
R
C f(z) dz,
R
X u(x) dx i
R
X
l(x) dx leżą pomiędzy
Z
Z
< ε,
f(z) dz −
l(x)
dx
X
C
co – wobec dowolności ε – dowodzi prawdziwości wzorów z twierdzenia Fubiniego.
Rozważymy teraz sytuację szczególną. Niech C = [a1 , b1 ] × ... × [aN , bN ] będzie domkniętą
i niezdegenerowaną kostką. Dla dowolnego k = 1, ..., N, niech
Ck := [a1 , b1 ] × ... × [ak−1 , bk−1 ] × [ak+1 , bk+1 ] × ... × [aN , bN ].
Oczywiście Ck jest niezdegenerowaną (N − 1)-wymiarową kostką domkniętą. Ewentualnie dokonując odpowiedniego przenumerowania można napisać, że
C = [ak , bk ] × Ck
i, podobnie jak wyżej – zamiast z ∈ C – napisać z = (x, y), gdzie x ∈ [ak , bk ] i y ∈ Ck .
Przy założeniu, że f : C → R jest funkcją ciągłą, mamy wówczas, że
!
Z
Z Z
Z
Z
bk
C
f(z) dz =
bk
ak
Ck
f(x, y) dy dx =
f(x, y) dx
Ck
dy.
ak
Rozumując indukcyjnie otrzymujemy następujący wniosek.
3.3.4 WNIOSEK: Jeżeli funkcja f : C → R jest ciągła, to
Z
C
bN
Z
f(z) dz =
Z
bN−1
Z
···
aN
b1
a1
aN−1
!
f(x1 , ..., xN ) dx1
!
dx2 · · ·
!
dxN−1
dxN .
R
Uzyskany wzór jest bardzo cenny. Pozwala on obliczać całkę wielokrotną C f(z) dz poprzez
tzw. iterację, tzn. N-krotne obliczanie zwykłych (jednokrotnych) całek Riemanna.
PRZYKŁAD: Obliczymy całkę
Z
C
(x 2 y − sin x cos y) dx dy,
gdzie C = [0, π/2] × [0, π/2].
Zgodnie z powyższym wnioskiem
Z
Z
π/2
Z
(x y − sin x cos y) dx dy =
C
Z
=
0
π/2 !
π/2
(x y − sin x cos y) dx
2
2
0
dy =
0
π/2
π/2
3
Z π/2 3
π
π 2
π5
x3
y − cos x cos y dy =
y − cos y dy =
y − sin y =
− 1.
3
24
48
192
0
0
0
ZADANIA: (1) Wykorzystując twierdzenie Fubiniego pokazać, że dla danej funkcji f : U → R,
gdzie U ⊂ RN jest zbiorem otwartym, jeśli pochodne cząstkowe II-go rzędu f|ij istnieją i są
ciągłe, to są równe.
98
3.3.B
Twierdzenie Fubiniego i zasada Cavalieriego
Wrócimy w tym miejscu do twierdzenia Fubiniego dla funkcji określonych na zbiorze A ⊂
RN = Rn × Rm mierzalnym w sensie Jordana. Sam zapis sugeruje, że ponownie zmiennej
z ∈ A nadamy postać z = (x, y), gdzie x ∈ Rn i y ∈ Rm . Rozważmy kostkę domkniętą C ⊃ A.
Rozkład RN = Rn × Rm wyznacza kostki domknięte X ⊂ Rn i Y ⊂ Rm takie, że C = X × Y .
Załóżmy, że funkcja f : AR→ R jest całkowalna
w sensie Riemanna. Wtedy całkowalna na
R
C jest funkcja fA : C → R i A f(z) dz = C fA (z) dz. Zgodnie z twierdzeniem Fubiniego 3.3.1
całkowalne na X są funkcje
Z
Z
X 3 x 7Ï fA (x, y) dy, X 3 x 7Ï fA (x, y) dy
Y
oraz
A
Z
Z
Z
f(z) dz =
C
Y
fA (z) dz =
X
!
Z
Y
fA (x, y) dy
Z Z
dx =
X
Y
fA (x, y) dy dx.
(∗)
R
Jeśli, dla dowolnego x ∈ X, całkowalna na Y jest funkcja fA (x, ·), to oczywiście Y fA (x, y) dy =
R
R
R
Y fA (x, y) dy = Y fA (x, y) dy i całkowalna funkcja X 3 x 7Ï Y fA (x, y) dy.
Warto zastanowić się co oznacza wzór (∗). Zacznijmy od następującej obserwacji. Dla ustalonego x ∈ X niech
Ax := {y ∈ Rm | (x, y) ∈ A};
innymi słowy, Ax jest rzutem na „oś” zmiennych y zbioru A ∩ [{x} × Rm ]. Oczywiście Ax ⊂ Y .
Przypuśćmy przez chwilę, że Ax 6= ∅ i niech g := fx : Ax → R, tzn.
g(y) := fx (y) = f(x, y), y ∈ Ax .
Widzimy, że funkcja g jest poprawnie określona i ograniczona. Co więcej, jeśli – jak wyżej –
określić gAx : Y → R wzorem
0,
gdy y 6∈ Ax ;
gAx (y) :=
g(y), gdy y ∈ Ax .
Jeżeli Ax = ∅, to nie ma sensu określać funkcji g, lecz można przyjąć, że – w tej sytuacji –
gAx (y) = 0 dla dowolnego y ∈ Y .
Zauważmy dalej, że po takich określeniach, mamy
gAx (y) = fA (x, y) dla dowolnego y ∈ Y .
Zatem (dla ustalonego zawczasu x ∈ X),
Z
Z
fA (x, y) dy =
Y
Z
Y
gAx (y) dy,
Z
Y
fA (x, y) dy =
Y
gAx (y) dy.
Załóżmy teraz, że zbiór Ax jest mierzalny (oczywiście to założenie jest interesujące dla tych
x ∈ X, dla których Ax 6= ∅; w przeciwnym razie Ax , jako zbiór pusty, jest mierzalny), zaś g jest
funkcją całkowalną na Ax (tzn., wedle definicji, całkowalna na Y jest funkcja gAx ). Wtedy
Z
Y
Z
gAx (y) dy =
Y
Z
gAx (y) dy =
Y
Z
gAx (y) dy =
g(y) dy.
Ax
99
Zatem wzór (∗) przyjmuje postać
Z Z
Z Z
Z
g(y) dy dx =
f(z) dz =
A
X
X
Ax
f(x, y) dy dx,
Ax
(∗∗)
o ile dla dowolnego x ∈ X zbiór Ax jest mierzalny, a funkcja f(x, ·) całkowalna na tym zbiorze.
Pójdźmy nieco dalej. Załóżmy ponownie, że dla dowolnego x ∈ X zbiór Ax jest mierzalny
i funkcja f(x, ·) jest całkowalna na Ax . Niech
A1 := {x ∈ Rn | Ax 6= ∅}.
Innymi słowy, A1 jest rzutem zbioru A na „oś” zmiennych x. Zdefiniujmy funkcje u : A1 → R
wzorem
Z
u(x) :=
f(x, y) dy, x ∈ A1 .
Ax
Funkcja ta jest poprawnie określona. Zdefiniujmy też funkcję uA1 : X → R zadaną – jak zwykle
– wzorem
0,
gdy x 6∈ A1 ;
uA1 (x) :=
u(x), gdy y ∈ A1 .
Zauważmy, że jeśli x 6∈ A1 , to Ax = ∅. W takim razie
Z
uA1 (x) =
f(x, y) dy, x ∈ X,
Ax
R
bo Ax f(x, y) dy = 0, gdy x 6∈ A1 (wtedy bowiem mamy całkę na zbiorze pustym, która równa
jest 0).
R
Załóżmy, że zbiór A1 jest mierzalny (jako podzbiór Rn ). Całkowalność funkcji X 3 Ax f(x, y) dy
implikuje, że całkowalna na A1 jest funkcja u i
Z Z
Z
Z Z
Z
f(x, y) dy dx =
u(x) dx =
f(x, y) dy dx =
f(z) dz.
(∗ ∗ ∗)
A1
Ax
A1
X
Ax
C
Analogiczne rozumowanie prowadzi do następującego stwierdzenia. Załóżmy, że dla dowolnego y ∈ Y , zbiór
Ay := {x ∈ Rn | (x, y) ∈ A}
jest mierzalny (jako podzbiór Rn ) i całkowalna na Ay jest funkcja f(·, y). Wtedy
Z
Z Z
f(x, y) dx dy.
f(z) dz =
C
Jeśli zbiór
Y
Ay
A2 := {y | Ay }
jest mierzalny (jako podzbiór Rm ), to
Z
Z
f(z) dz =
C
A2
Z
f(x, y) dx dy.
Ay
Jest chyba oczywiste, że powyższe wzory (∗∗), (∗ ∗ ∗) nie zależą od wybory kostek C (oraz
X i Y ).
100
Otrzymane wzory są treścią twierdzenia Fubiniego dla funkcji określonych na mierzalnych podzbiorach RN . Sformułujemy to twierdzenie w następującej (nieco uproszczonej postaci).
3.3.5 TWIERDZENIE: Załóżmy, że A ⊂ RN jest zbiorem mierzalnym w sensie Jordana, a f :
A → R jest funkcją ciągłą.
(1) Jeśli, dla dowolnego x ∈ Rn , zbiór Ax jest mierzalny, to
Z Z
Z
f(x, y) dy dx,
f(z) dz =
X
A
Ax
gdzie X jest dowolną kostką domkniętą zawierającą zbiór A1 . Jeżeli zbiór A1 jest mierzalny,
to
Z
Z Z
f(z) dz =
f(x, y) dy dx.
A
A1
Ax
y
A jest mierzalny,
(2) Jeśli, dla dowolnego y ∈ Y , zbiór
Z
Z Z
f(z) dz =
A
Y
to
f(x, y) dx dy,
Ay
gdzie Y jest dowolną kostką domkniętą zawierającą A2 . Jeśli zbiór A2 jest mierzalny, to
Z
Z Z
f(z) dz =
f(x, y) dx dy.
A
A2
Ay
Dowód jest natychmiastowy jeśli zauważymy, że ciągłość f implikuje, że dla dowolnego
x ∈ Rn ciągła, a więc całkowalna na Ax , jest funkcja f(x, ·) (odp. dla każdego y całkowalna na
Ay jest funkcja f(·, y)).
R
Zgodnie z tym twierdzeniem, poszukując całki A f(z) dz z funkcji ciągłej f określonej na
zbiorze mierzalnym A ⊂ RN = Rn ×Rm można również przejść do całek iterowanych. Jedynym
zmartwieniem jest mierzalność zbiorów Ax , x ∈ Rn (odp. zbiorów Ay , y ∈ Rm ); oczywiście, aby
uczynić całkowanie bardziej „ekonomicznym” warto także sprawdzić mierzalność zbiorów A1
(odp. A2 ).
Niestety teoria miary Jordana nie dostarcza dobrych narzędzi umożliwiających sformułowanie ogólnych stwierdzeń na ten temat. Na szczęście w wielu konkretnych sytuacjach problem
ten nie jest trudny.
ĆWICZENIE: (1) Niech f : [a, b] × [a, b] → R będzie funkcją ciągłą. Pokazać, że
Z bZ y
Z bZ b
f(x, y) dx dy =
f(x, y) dy dx.
a
a
a
x
(2) Niech f : [a, b] × [a, b] → R będzie funkcją ciągłą o ciągłej pochodnej cząstkowej f|2 ;
niech
Z x
F(x, y) :=
f(t, y) dt, (x, y) ∈ [a, b] × [a, b].
a
Obliczyć pochodne cząstkowe f|1 i f|2 (druga z pochodnych jest trudniejsza).
Nim przejdziemy do przykładów, warto jeszcze przedyskutować twierdzenie Fubiniego
w bardzo szczególnej sytuacji. Mianowicie załóżmy, że A ⊂ RN = Rn × Rm jest zbiorem
mierzalnym sensie Jordana. Pytanie brzmi: jak obliczyć jego miarę mN (A) ?
Zgodnie z definicją
Z
mN (A) =
C
χA (z) dz,
101
gdzie C jest dowolną kostką domkniętą zawierającą zbiór A. Zgodnie zatem z przyjętymi
definicjami,
Z
mN (A) =
dx,
A
tzn. mN (A) jest całką na A funkcji stale równej 1 (która oczywiście jest ciągła). Jak wyżej
napiszmy C = X × Y , gdzie X, Y są domkniętymi kostkami odpowiedni w przestrzeniach Rn i
Rm . Ze wzoru (∗), mamy
!
Z
Z Z
Z
mN (a) =
χA (x, y) dy dx =
χA (x, y) dy dx.
X
X
Y
Y
Rozumując jak poprzednio, bez trudy zobaczymy, że dla każdego x ∈ Rn ,
Z
χA (x, y) dy = m∗ (Ax )
Y
jest m-wymiarową miara wewnętrzną zbioru Ax , zaś
Z
χA (x, y) dy = m∗ (Ax )
Y
jest m-wymiarową miarą zewnętrzną tego zbioru. Wobec tego, widzimy, że funkcje
X 3 x 7Ï m∗ (Ax ), X 3 x 7Ï m∗ (Ax )
są funkcjami całkowalnymi na X i
Z
mN (A) =
Z
X
m∗ (Ax ) dx =
X
m∗ (Ax ) dx.
Rn
Jeżeli dla każdego x ∈
zbiór Ax jest mierzalny, to m∗ (Ax ) = m∗ (Ax ) = m(Ax ) jest mwymiarową miarą Ax , funkcja X 3 x 7Ï m(Ax ) jest całkowalna na X i
Z
(3.3.3)
mN (A) =
m(Ax ) dx.
X
Jest jasne, że uzyskany wzór nie zależy od wyboru kostki C (a więc, w konsekwencji, od kostek
X i Y ); poza tym – przy założeniu, że zbiór A1 jest mierzalny
Z
mN (A) =
m(Ax ) dx.
A1
Analogicznie otrzymujemy, że
Z
mN (A) =
y
Y
m∗ (A ) dy =
Z
Y
m∗ (Ay ) dy,
gdzie, w tym miejscu, m∗ (Ay ) (odp. m∗ (Ay )) oznacza n-wymiarową miarę wewnętrzną (odp.
zewnętrzną) zbioru Ay , y ∈ Rm . Tak więc, jeżeli dla dowolnego y ∈ Rm zbiór Ay jest mierzalny
(jako podzbiór Rn ) i m(Ay ) oznacza jego n-wymiarową miarę Jordana, to
Z
Z
y
(3.3.4)
mN (A) =
m(A ) dy =
m(Ay ) dy
Y
A2
(ostatnia równość zachodzi przy założeniu, że zbiór A2 jest mierzalny w sensie Jordana).
Otrzymane zależności nazywa się zasadą Cavalieriego.
ĆWICZENIE: Wykorzystując zasadę Cavalieriego wyprowadzić wzór na objętość bryły powstałej wskutek obrotu wokół osi Ox wykresu funkcji ciągłej f : [a, b] → R.
Przejdziemy teraz do zastosowań twierdzenie Fubiniego i zasady Cavalieriego.
102
3.3.C
Zastosowania twierdzenia Fubiniego i zasady Cavalieriego
ZBIORY CYLINDRYCZNE Nasze rozważania zaczniemy od tzw. zbiorów cylindrycznych. Otóż
załóżmy, że dany jest mierzalny w sensie Jordana zbiór B ⊂ RN−1 oraz funkcje całkowalne f, g :
B → R. Zbiorem cylindrycznym o podstawie B wyznaczonym przez funkcje f i g nazwiemy
zbiór postaci
A := {(x, y) ∈ B × R | min{f(x), g(x)} ≤ y ≤ max{f(x), g(x)}}.
Mówiąc prościej zbiór A składa się z punktów leżących pomiędzy wykresami funkcji f i g. W
szczególności, gdy g ≡ 0, to A jest zbiorem leżącym między wykresem funkcji f i osią Ox.
UWAGA: Zbiory zwane przez nas zbiorami cylindrycznymi nazywane są także zbiorami w
postaci normalnej.
3.3.6 TWIERDZENIE: Zbiór cylindryczny A (postaci takiej jak wyżej) jest mierzalny w sensie
Jordana (jako podzbiór przestrzeni RN ) i jego miara wynosi
Z
|f(x) − g(x)| dx.
B
DOWÓD: Wystarczy udowodnić następującą uproszczoną wersję twierdzenia: jeśli f ∈ R(B),
B ⊂ RN−1 jest mierzalny
f ≥ 0, to zbiór {(x, y) ∈ B × R | 0 ≤ y ≤ f(x)} jest mierzalny i jego
R
miara jest równa B f(x) dx.
Wówczas, jeśli g ∈ R(B) i 0R ≤ g ≤ f, to zbiór {(x, y) ∈ B × R | g(x) ≤ y ≤ f(x)} jest też
mierzalny i jego miara wynosi B (f(x) − g(x))dx.
Istotnie: widać, że
{(x, y) | g(x) ≤ y ≤ f(x)} = {(x, y) | 0 ≤ y ≤ f(x)} \ {(x, y) | 0 ≤ y ≤ g(x)}.
Mierzalność zbiorów po prawej stronie implikuje mierzalność zbioru po lewej Rstronie. Ponadto
jego miara
jest różnicą miar zbiorów po prawej stronie; jest więc równa B φ(x) dx −
R
R
B ψ(x) dx = B (φ(x) − ψ(x))dx.
Jeżeli f, g ∈ R(B)
oraz g ≤ f, to zbiór {(x, y) ∈ B × R | ψ(x) ≤ y ≤ φ(x)} jest mierzalny
R
o mierze równej B (f(x) − g(x))dx. Istotnie: funkcje f, g są ograniczone z dołu. Istnieje więc
stała m ≤ g(x) ≤ f(x) dla wszystkich x ∈ B. Wówczas funkcje
f − m, g(x) − m ≥ 0 dla x ∈ B. Wobec
tego zbiór A0 := {(x, Ry) | g(x) − m ≤ y ≤ f(x) − m}
R
jest mierzalny i jego miara wynosi B (f − m − g(x) + m)dx = B (f(x) − g(x))dx. Łatwo teraz
dostrzec, że A = A0 + (0, m). Jak już pokazaliśmy w lemacie 3.2.8, mierzalność zbiorów i ich
miara są niezmiennicze ze względu na translacje. To dowodzi, że zbiór A jest mierzalny.
Rozważymy teraz sytuację ogólną i niech φ(x) = max{f(x), g(x)} i ψ(x) = min{f(x), g(x)}
dla x ∈ B. Wówczas ψ ≤ φ. Zgodnie z powyższym nasz zbiór jest mierzalny i jego miara wynosi
Z
Z
(φ(x) − ψ(x)) dx =
|f(x) − g(x)| dx.
B
B
Tak więc zajmiemy się sytuacją, w której f : B → R jest funkcją nieujemną, B ⊂ RN−1
jest zbiorem mierzalnym i A := {(x, y) ∈ RN | x ∈ B, 0 ≤ y ≤ f(x)}. Aby udowodnić, że A
jest zbiorem mierzalnym pokażemy, że brzeg zbioru A jest zbiorem nieistotnym. W tym celu,
zauważmy, że istnieje M > 0 takie, że A ⊂ B × [0, M], bowiem funkcja f jest ograniczona i
103
nieujemna.
Niech (x0 , y0 ) ∈ ∂A. Wtedy x0 6∈ B1 := int B \ D, gdzie D ⊂ B jest zbiorem punktów
nieciągłości funkcji f, lub y0 = 0 lub y0 = f(x0 ). Jeśli bowiem x0 ∈ int B \ D oraz 0 < y0 < f(x0 ),
to – jak łatwo sprawdzić – (x0 , y0 ) ∈ int A.
Jeśli y0 = 0, to (x0 , y0 ) ∈ A0 := {(x, y) | x ∈ B, y = 0} = B × {0}; jeśli y0 = f(x0 ),
to (x0 , y0 ) należy do wykresu A1 := {(x, y) | x ∈ B, y = f(x)} funkcji f. Wreszcie jeśli
x0 6∈ B1 , to x0 ∈ ∂B lub x0 ∈ D, tzn. (x0 , y0 ) ∈ A2 := {(x, y) | x ∈ ∂B} ⊂ ∂B × [0, M] lub
(x0 , y0 ) ∈ A3 := {(x, y) | x ∈ D} ⊂ D × [0, m]. Pokazaliśmy już, że ∂A ⊂ A0 ∪ A1 ∪ A2 ∪ A3 .
Ponieważ m(A0 ) = m(A2 ) = m(A3 ) = 0, to wystarczy udowodnić, że m(A1 ) = 0.
Niech C będzie kostką w RN−1 taką, że B ⊂ C. Z definicji funkcja fB : C → R (dana
wzorem fB (x) = f(x) dla x ∈ B oraz fB (x) = 0 dla x ∈ C \ B) jest całkowalna. Dla ε > 0,
istnieje więc podział P ∈ P(C) taki,że U(fB , P) − L(fB , P) < ε. Rozważmy rodzinę {CS }S∈P
gdzie CS = S × [mS (fB ), MS (fB )]. Oczywiście, dla dowolnego x ∈ C, istnieje taka kostka S ∈ P,
że x ∈ S; zatem (x, fB (x)) ∈ CS . W takim razie wykres funkcji fB (a więc i jego podzbiór A1 )
pokryliśmy rodziną {CS }S∈P domkniętych kostek. Zauważmy, że
X
X
vol(CS ) =
[MS (fB ) − mS (fB )]vol(S) = U(fB , P) − L(fB , P) < ε.
S∈P
S∈P
Dowodzi to, że m(A1 ) = 0 i kończy dowód mierzalności zbioru A.
Zauważmy teraz, że rzut na RN−1 zbioru A jest równy B i jest to zbiór mierzalny; ponadto
dla dowolnego x ∈ B, Ax = [0, f(x)]; zatem miara (1-wymiarowa) zbioru Ax wynosi m1 (Ax ) =
f(x). Zatem, zgodnie z zasadą Cavalieriego,
Z
Z
m(A) =
m1 (Ax ) dx =
f(x) dx.
B
B
3.3.7 UWAGA: Udowodnione twierdzenie potwierdza poprawność intuicji, która towarzyszyła
nam od samego początku i nakazywała interpretować całkę funkcji f : [a, b] → R całkowalnej
w sensie Riemanna jako pole powierzchni obszaru ograniczonego wykresem f, osią odciętych
i prostymi x = a i x = b.
Twierdzenie Fubiniego pozwala również na efektywne całkowanie funkcji na zbiorach
cylindrycznych.
3.3.8 FAKT: Jeśli A = {(x, y) ∈ RN | x ∈ B, f(x) ≤ y ≤ g(x)}, gdzie B ⊂ RN−1 jest zbiorem
mierzalnym w sensie Jordana, f, g : B → R są funkcjami całkowalnymi i f ≤ g, F : A → R
jest funkcją ciągłą, to
Z
Z Z g(x)
F(z) dz =
F(x, y) dy dx.
A
B
f(x)
Dowód jest natychmiastowy: rzut A1 zbioru na przestrzeń Rn−1 jest równy podstawie B;
dla dowolnego x ∈ B, Ax = [f(x), g(x)].
3.3.D
Twierdzenie o zamianie zmiennych
Obecnie sformułujemy twierdzenie o zamianie zmiennych w całce Riemanna. Przypomnijmy
brzmienie tego twierdzenia w przypadku funkcji jednej zmiennej: Załóżmy, że funkcja f : I →
R (gdzie I jest przedziałem) jest ciągła, funkcja u : [a, b] → I różniczkowalna oraz u0 jest
104
całkowalna. Wówczas funkcja (f ◦ u)u0 jest całkowalna na [a, b] oraz
b
Z
Z
0
a
u(b)
f.
(f ◦ u)u =
u(a)
Jest jasne, że gdy dodatkowo u jest funkcją różnowartościową, to można napisać, ze
b
Z
a
(f ◦ u)u0 =
Z
f.
[u(a),u(b)]
Ma miejsce następujące uogólnienie na przypadek funkcji wielu zmiennych. Przyjmiemy
bez dowodu
3.3.9 TWIERDZENIE: Niech A ⊂ RN będzie zbiorem mierzalnym w sensie Jordana oraz niech
g : U → RN , gdzie A ⊂ U ⊂ RN jest zbiorem otwartym, będzie różnowartościowym odwzorowaniem regularnym (tzn. klasy C 1 i det g 0 (x) 6= 0 dla każdego x ∈ A), czyli g jest
dyfeomorfizmem. Wówczas g(A) jest zbiorem mierzalnym. Jeśli B ⊂ g(U) jest mierzalny, to
zbiór g −1 (B) jest tez mierzalny.
Jeśli funkcja f : g(A) → R jest całkowalna, to funkcja (f ◦g)| det g 0 | : A → R jest całkowalna
na A i zachodzi wzór
Z
Z
f = (f ◦ g)| det g 0 |.
g(A)
A
Jeśli funkcja f : B → R jest całkowalna, to
Z
Z
f=
(f ◦ g)| det g 0 |.
B
g −1 (B)
ZADANIE: Jeśli A ⊂ RN jest zbiorem nieistotnym, f : A → RN jest odwzorowaniem spełniającym warunek Lipschitza, to zbiór f(A) jest również nieistotny. Pokazać – na podstawie tego
faktu, że w twierdzeniu 3.3.9 zbiór g(A) jest mierzalny w sensie Jordana.
ZADANIE: Niech L ∈ L(RN , RN ) będzie nieosobliwym odwzorowaniem liniowym. Pokazać,
że jeśli A ⊂ RN jest zbiorem mierzalnym w sensie Jordana, to L(A) jest również zbiorem
mierzalnym i
m(L(A)) = | det L|m(A).
W twierdzeniu 3.3.9 można pozbyć się założenia, że det g 0 (x) 6= 0 dla x ∈ U. Wynika to z
następującej wersji wspomnianego już twierdzenia Sarda;
3.3.10 TWIERDZENIE: Jeśli odwzorowanie g : U → RN , gdzie U ⊂ RN jest zbiorem otwartym,
jest klasy C 1 i zbiór punktów krytycznych K := {x ∈ U | det g 0 (x) = 0}, to zbiór g(A) wartości
krytycznych odwzorowania g jest zbiorem nieistotnym.
UWAGA: Dostrzec, że zbiór nieistotny ma puste wnętrze.
Jeśli w twierdzeniu 3.3.9 odstąpić od wspomnianego założenia, to można postępować następująco: załóżmy, że A ⊂ RN jest mierzalny, zaś funkcja f : g(A) → R jest całkowalna. Wtedy,
jeśli zbiór K punktów krytycznych jest mierzalny w sensie Jordana (ten zbiór jest zawsze
domknięty), to
Z
Z
Z
Z
Z
Z
0
f=
f+
f=
f=
(f ◦ g)| det g | = (f ◦ g)| det g 0 |.
g(A)
g(A\K)
g(K)
g(A\K)
A\K
A
105
WSPÓŁRZĘDNE BIEGUNOWE Określmy odwzorowanie
g : U → R2 ,
gdzie U := (0, +∞) × (0, 2π), wzorem
g(r, α) = (r cos α, r sin α), r > 0, 0 < α < 2π.
Wtedy g jest dyfeomorfizmem zbioru U na zbiór V := R2 \ L, gdzie L := {(x, y) ∈ R2 |
x ≥ 0, y = 0}; dla (r, α) ∈ U, det g 0 (r, α) = r > 0. Wobec tego, dla dowolnego zbioru B ⊂
V mierzalnego, zbiór g −1 (B) jest mierzalny. Jeśli f : B → R jest całkowalna, to zgodnie z
twierdzeniem 3.3.9 mamy
Z
Z
(f ◦ g)| det g 0 |dr dα.
f dx dy =
g −1 (B)
B
Jeśli A ⊂ R2 jest zbiorem mierzalnym, to zbiory B := A \ L, A ∩ L sa też mierzalne, A ∩ L jest
nieistotny, czyli m(A ∩ L) = 0 i
Z
Z
Z
Z
Z
f dx dy =
f dx dy +
f dx dy =
f=
(f ◦ g)| det g 0 | dr dα.
A
B
A∩L
B
g −1 (B)
Rozważmy teraz przekształcenie P : R2 → [0, +∞) × [0, 2π] zadane wzorem: dla (x, y) ∈ R2
P(x, y) := (r(x, y), α(x, y)),
p
gdzie r(x, y) = x 2 + y 2 = k(x, y)k oraz

gdy x > 0, y > 0
arctg xy


y


arctg
+
π
gdy x < 0

x


y
2π − arctg x gdy x > 0, y < 0
α(x, y) :=
1
gdy x = 0, y > 0


2π

3


π
gdy x ≥ 0, y = 0

 2
0
gdy x = 0 = y.
Zauważmy, że P|V = g −1 . Zatem
Z
Z
f(x, y) dx dy =
Z
f(r cos α, r sin α)r dr dα =
A
Z
P(A)
P(B)
P(A)
(f ◦ g)| det g 0 | dr dα =
f(r cos α, r sin α)r dr dα,
gdyż zbiór P(A) \ P(B) jest nieistotny.
Uzyskany wzór nazywa się wzorem na całkowanie poprzez zamianę zmiennych kartezjańskich na zmienne biegunowe, zaś przekształcenie P nazywa się współrzędnymi biegunowymi:
jest to przyporządkowanie, które punktowi płaszczyzny o „starych” zmiennych kartezjańskich
(x, y) z mierzalnego zbioru A ⊂ R2 przyporządkowuje „nowe” zmienne biegunowe lub kołowe
r(x, y) i α(x, y).
Analogicznie: wprowadzając przekształcenie G : [0, +∞) × [0, 2π] → R2 dane przez
G(r, α) = (r cos α, r sin α), r ≥ 0, 0 ≤ α ≤ 2π,
dla dowolnego mierzalnego A ⊂ R2 mamy
Z
Z
f(x, y) dx dy =
A
G −1 (A)
f(r cos α, r sin α)r dr dα.
106
R3
WSPÓŁRZĘDNE SFERYCZNE Rozważmy przekształcenie G : [0, +∞)×[0, 2π]×[− 21 π, 12 π] →
zadane wzorem
1
1
g(r, α, θ) := (r cos α cos θ, r sin α cos θ, r sin θ), r > 0, 0 < α < 2π, − π < θ < π.
2
2
Wówczas g := G|U , gdzie U = (0, +∞) × (0, 2π) × (− 12 π, 12 π) jest dyfeomorfizmem, gdyż dla
dowolnego (r, α, θ) ∈ U, det g 0 (r, α, θ) = r 2 cos θ > 0. Ponadto g(U) = R3 \ {(x, y, z) ∈ R3 | x ≥
0, y = 0} i dla każdego mierzalnego A ⊂ R3 i funkcji całkowalnej f : A → R
Z
Z
f(x, y, z) dx dy dz =
f(r cos α cos θ, r sin α cos θ, r sin θ)r 2 cos θ dr dα dθ.
G −1 (A)
A
Przyporządkowanie punktowi przestrzeni R3 o współrzędnych kartezjańskich (x, y, z) punktu
o współrzędnych (r, α, θ) ∈ [0, +∞)×[0, 2π]×[− 21 π, 12 π] takiego, że (x, y, z) = G(r, α, θ) nazywa
się współrzędnymi sferycznymi.
WSPÓŁRZĘDNE WALCOWE Podobnie jak poprzednio rozważamy G : [0, +∞) × [0, 2π] × R
zadane wzorem
G(r, α, z) = (r cos α, r sin α, z), r ≥ 0, 0 ≤ α < 2π, z ∈ R.
Wówczas g := G|U , gdzie U := (0, +∞) × (0, 2π) × R, jest dyfeomorfizmem, gdyż dla (r, α, θ) ∈
U, det g 0 (r, α, θ) = r > 0. Zatem rozumując jak wyżej, dla mierzalnego A ⊂ R3 i funkcji
całkowalnej f : A → R mamy
Z
Z
f(x, y, z) dx dy dz =
f(r cos α, r sin α, z)r dr dα dz.
G −1 (A)
A
Przyporządkowanie, które punktowi przestrzeni R3 o współrzędnych kartezjańskich (x, y, z)
przyporządkowuje współrzędne (r, α, z) ∈ [0, +∞) × [0, 2π) × R nazywa się współrzędnymi
walcowymi.
PRZYKŁAD: Znajdź objętość bryły W ograniczonej walcem x 2 + y 2 = 4 oraz płaszczyznami
z = 0 i z = x + y + 10.
Bryła ta jest zbiorem cylindrycznym o podstawie A := {(x, y) ∈ R2 | x 2 + y 2 ≤ 4} i
funkcjami ψ(x, y) = 0, φ(x, y) = x + y + 10. Zbiór A jest mierzalny w sensie Jordana, bo jest
ograniczony i jego brzeg jest zbiorem nieistotnym. Podobnie całkowalna jest funkcja φ, bo
jest ciągła. Wobec tego poszukiwana objętość jest równa
Z
φ(x, y) dx dy.
A
We współrzędnych biegunowych G −1 (A) = [0, 2] × [0, 2π]. A więc, wykorzystując twierdzenie
Fubiniego,
Z
Z
φ(x, y) dx dy =
φ(r cos α, r sin α)r dr dα =
A
G −1 (A)
Z
(r 2 cos α + r 2 sin α + 10) dr dα =
[0,2]×[0,2π]
#
Z "Z
2
0
2π
0
(r 2 cos α + r 2 sin α + 10) dα dr = 40π.
107
p
R
PRZYKŁAD: Obliczyć całkę A (x 2 + y 2 ) dx dy dz, gdzie A := {(x, y, z) ∈ R3 | x 2 + y 2 ≤
z ≤ 1}.
Zbiór A jest zbiorem cylindrycznym
A = {(x, y, z) ∈ R3 | (x, y) ∈ B, φ(x, y) ≤ z ≤ 1},
p
gdzie B := {(x, y) ∈ R2 | x 2 + y 2 ≤ 1} i φ(x, y) = x 2 + y 2 . Wobec tego
#
Z
Z "Z 1
Z
p
2
2
2
2
(x + y ) dx dy dz =
(x + y ) dz dx dy = (x 2 + y 2 )(1 − x 2 + y 2 ) dx dy.
A
B
φ(x,y)
B
We współrzędnych biegunowych G −1 (B) = {(r, α) | 0 ≤ r ≤ 1, 0 ≤ α ≤ 2π}. Zatem
#
Z
Z "Z
A
1
(x 2 + y 2 ) dx dy dz =
0
Z
1
0
r 3 (1 − r) dα dr =
0
r4 r5
(r − r ) dr = 2π
−
4
5
3
2π
2π
1
4
=
0
π
.
10
ĆWICZENIE: Rozwiązać to samo zadanie stosując współrzędne walcowe.
WSPÓŁRZĘDNE ELIPTYCZNE Niekiedy wygodnie jest rozważać, w miejsce współrzędnych
biegunowych, tzw. współrzędne eliptyczne (r, α) ∈ [0, +∞)×[0, 2π]. Wówczas punktowi (x, y) ∈
R2 odpowiada punkt (r, α) taki, że x = ar cos α, y = br sin α, gdzie a, b > 0 są ustalonymi
parametrami.
x2
a2
PRZYKŁAD: Znaleźć pole powierzchni figury A ograniczonej elipsą A := {(x, y) ∈ R2 |
2
+ by 2 = 1}, a, b > 0.
Poszukiwane pole wyraża się wzorem
Z
Z
dx dy =
rab dr dα,
A
B
gdzie B = {(r, α) | 0 ≤ r ≤ 1, 0 ≤ α ≤ 2π}, G(r, α) = (ar cos α, br sin α); dla (r, α ∈
(0, +∞) × (0, 2π), det G 0 (r, α) = abr > 0. Zatem
#
Z
Z "Z
A
1
dx dy = ab
0
2π
0
r dα dr = πab.
Rozdział
4
Całkowanie form różniczkowych
4.1
Pola wektorowe
Odwzorowania postaci F : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, nazywa się czasem
N-wymiarowymi polami wektorowymi. Zwykle wyobraża się, że każdemu punktowi x ∈ U
przyporządkowany jest wektor F(x) zaczepiony w punkcie x. Oczywiście terminologia dotycząca pól wektorowych pozostaje bez zmian. Pole F jest ciągłe, różniczkowalne itp. wtedy i
tylko wtedy, gdy funkcje skalarne (rzeczywiste) Fi , i = 1, ..., N, będące funkcjami współrzędnymi F sa ciągłe, różniczkowalne itp.
Z polami wektorowymi mamy często do czynienia w zastosowaniach: pole grawitacyjne
jest funkcją, która punktowi x ∈ R3 przyporządkowuje wektor siły z jaką na masą jednostkową
umieszczoną w punkcie x oddziaływuje przyciąganie jakiegoś ustalonego obiektu (np. słońca,
ziemi itd); jeśli f : U → R jest funkcją różniczkowalną, to gradient ∇f(x) w punkcie x ∈ U
jest wektorem zaczepionym w punkcie x, który wyznacza kierunek i wielkość największego
wzrostu funkcji f w punkcie x.
4.1.1 PRZYKŁAD: Rozważmy ciało o masie m umieszczone w punkcie x0 ∈ R3 . Wówczas siła
grawitacji (przyciągania) wytworzona przez to ciało działająca na masę jednostkową w punkcie
x ∈ U := R3 \ {x0 } dana jest jako
F(x) = −
km
(x − x0 ),
kx − x0 k3
gdzie k jest pewną stałą (stałą grawitacji); jest to wektor zaczepiony w punkcie x skierowany
km
ku punktowi x0 , o długości kF(x)k = kx−x
.
0k
Często pola wektorowe interpretuje się właśnie jako pola siłowe: mając pole wektorowe
F : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, uznajemy, że w każdym punkcie x ∈ U
działa siła F(x). Tak więc: jeśli w tym punkcie x0 ∈ U znajdzie się punkt materialny o masie
m, to – zgodnie z zasadą Newtona – punkt ten zacznie się poruszać w czasie od t = t0 do t = t1
po pewnej trajektorii, tzn. krzywej [t0 , t1 ] 3 t 7Ï x(t) ∈ U oraz mẍ(t) = F(x(t)) (1 ).
Można również interpretować pola wektorowe jako pole prędkości: otóż jeżeli zadane jest
pole wektorowe F : U → RN , U jest jak wyżej, to uznajemy, że F(x) jest prędkością z jaką
będzie poruszać się punkt materialny, który znalazł się w punkcie x ∈ U (wartość prędkości
Symbol ẍ(t) oznacza drugą pochodną funkcji x w punkcie t ∈ [t0 , t1 ] – jest to notacja pochodząca od Newtona
i bardzo popularna wśród fizyków i w teorii równań różniczkowych.
1
4.1. POLA WEKTOROWE
109
jest stała i nie zależy od czasu). A zatem jeśli ten punkt materialny o czasie t0 znalazł się w
punkcie x0 ∈ U, to będzie się poruszać z prędkością x 0 (t) = F(x(t)) w czasie t ∈ [t0 , t1 ). Krzywą
[t0 , t1 ) 3 t 7Ï x(t) ∈ U i taką, że x(t0 ) = x0 , nazywa się krzywą całkową pola F przechodzącą
przez punkt x0 . Jeśli pole F spełnia (przynajmniej lokalnie) warunek Lipschitza, to taką krzywą
zawsze można jednoznacznie wyznaczyć (jest to przedmiot teorii równań różniczkowych).
ĆWICZENIE: Pokazać, że nośnik tej krzywej zależy tylko od kierunków przyjmowanych
przez pole F, nie zależy zaś od długości tego pola.
4.1.A
Zachowawcze pola wektorowe
Mówimy, że pole wektorowe F = (F1 , ..., FN ) : U → RN , gdzie U ⊂ RN jest zbiorem otwartym,
jest zachowawcze lub potencjalne lub także gradientowe, jeżeli istnieje funkcja różniczkowalna
f : U → R taka, że F(x) = ∇f(x), a więc Fi (x) = f|i (x) dla każdego x ∈ U. Funkcja skalarna f
nazywana jest potencjałem pola F.
km
3
4.1.2 PRZYKŁAD: Pole grawitacyjne F(x) = − kx−x
3 (x − x0 ) dla x ∈ R \ {x0 } jest polem
0k
zachowawczym o potencjale
f(x) =
km
, x ∈ R3 , x 6= x0 .
kx − x0 k
Poniższy fakt dostarcza natychmiastowego warunku koniecznego zachowawczości pola F.
4.1.3 TWIERDZENIE: Jeśli pole F = (F1 , ..., FN ) : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, jest różniczkowalne i zachowawcze, to dla dowolnych i, j = 1, ..., N, Fi|j (x) = Fj|i (x) dla
dowolnego x ∈ U. Innymi słowy macierz Jacobiego JF (x) jest symetryczna.
DOWÓD: Niech f : U → R będzie potencjałem pola F. Dla każdego i = 1, ..., N, pochodna
cząstkowa f|i (x) = Fi (x) jest funkcją różniczkowalną; zatem funkcja f jest dwukrotnie różniczkowalna. W takim razie dla dowolnych i, j = 1, ..., N, mieszane pochodne cząstkowe II-go
rzędu f|ij i f|ji są równe, tzn. dla x ∈ U,
Fi|j (x) = f|ij (x) = f|ji (x) = Fj|i (x).
4.1.4 PRZYKŁAD: Sprawdzimy, że pole F(x, y) = (x, −y), (x, y) ∈ U := R2 , jest zachowawcze.
Warunek konieczny jest spełniony, bo F1|2 = 0 = F2|1 . Przypuśćmy, że f : R2 → R jest
potencjałem dla F. Wówczas jest to funkcja różniczkowalna i
fx (x, y) = f|1 (x, y) = F1 (x, y) = x oraz fy (x, y) = −y.
Wobec tego, przy ustalonym y, funkcja f(·, y) (tj. funkcja zmiennej x) jest funkcją pierwotną
funkcji F1 . A zatem
Z
1
f(x, y) = x dx = x 2 + C1 (y),
2
gdzie stała całkowania C1 (y) zależy do y. W takim razie
1 2
1
−y = fy (x, y) =
x + C1 (y) = C10 (y) czyli C1 (y) = − y 2 + C2 .
2
2
y
A zatem
f(x, y) =
x2 − y2
+ C2 ,
2
110
4. CAŁKOWANIE FORM RÓŻNICZKOWYCH
gdzie C2 jest dowolną stałą.
Niestety podany warunek konieczny nie jest na ogół warunkiem dostatecznym.
4.1.5 PRZYKŁAD: Niech U = R2 \ {(0, 0)}, U1 := {(x, y) ∈ R2 | x ≤ 0} i niech
x
y
,
dla (x, y) ∈ U,
F(x, y) := − 2
x + y2 x2 + y2
y
, (x, y) ∈ U1
x
(innymi słowy g(x, y) jest kątową współrzędną biegunową z przedziału (−π, π) punktu (x, y) ∈
U1 ).
Dla dowolnego (x, y) ∈ U mamy
g(x, y) = arctg
F1|2 (x, y) =
y2 − x2
= F2|1 (x, y).
(x 2 + y 2 )2
A więc warunek konieczny zachowawczości jest spełniony. Podobnie sprawdzamy, że dla
(x, y) ∈ U1 ,
∇g(x, y) = F(x, y).
Wobec tego, w obszarze U1 pole F jest zachowawcze i jej potencjałem jest funkcja g. Niestety
pole F nie jest zachowawcze w obszarze U. Gdyby tak było, to istniałaby różniczkowalna
funkcja f : U → R taka, że ∇f(x, y) = F(x, y) dla (x, y) ∈ U. Stąd dla (x, y) ∈ U1 ⊂ U,
∇f(x, y) = ∇g(x, y). W takim razie g − f ≡ const. na zbiorze U1 , tzn. istnieje stała C ∈ R
taka, że g(x, y) = f(x, y) + C. Zauważmy teraz, że , gdy x < 0, to
lim g(x, y) = π,
y→0+
Z drugiej strony
lim g(x, y) = −π.
y→0−
lim g(x, y) = lim± f(x, y) + C = f(x, 0) + C.
y→0±
y→0
Uzyskaliśmy więc sprzeczność.
Powyższy przykład jest ważny: zbiór U ma tam bowiem „dziurę” (U = R2 \ {(0, 0)}). To
właśnie ta dziura jest przyczyną braku zachowawczości.
4.2
4.2.A
Całka krzywoliniowa
Całka krzywoliniowa I-go rodzaju
Przypuśćmy, że σ : [a, b] → RN jest krzywą ciągłą i prostowalną (2 ). Niech C := σ([a, b])
będzie nośnikiem krzywej σ i f : C → R funkcja ograniczoną. Podobnie jak w konstrukcji
zwykłej całki Riemanna, z dowolnym podziałem P = {t0 , ..., tn } odcinka [a, b] można związać
następującą górną i dolną sumę całkową:
U(f, P, σ) :=
n
X
i=1
V (σ|[ti−1 ,ti ] ) sup f(σ(t)), L(f, P, σ) :=
t∈[ti−1 ,ti ]
n
X
i=1
V (σ|[ti−1 ,ti ] )
inf
t∈[ti−1 ,ti ]
f(σ(t)).
Krzywa σ jest prostowalna, gdy np. jest gładka (tzn. C ) i wówczas jej długość wyraża się wzorem V (σ) =
0
kσ
(t)k dt. Krzywa σ jest również prostowalna, gdy jest kawałkami gładka, tzn. kawałkami klasy C 1 , a więc
a
istnieje podział P0 := {t0 , x1 , ..., tn } odcinka [a, b], przy którym, dla dowolnego i = 1, ..., n, obcięcie σ|[ti−1 ,ti ] jest
klasy C 1 na odcinku [ti−1 , ti ].
2
Rb
1
111
4.2. CAŁKA KRZYWOLINIOWA
gdzie V (σ|[ti−1 ,ti ] ) oznacza długość krzywej σ|[ti−1 ,ti ] (ta „obcięta” krzywa jest również prostowalna).
Zauważmy, że dla dowolnych podziałów P, Q ∈ P([a, b]),
inf f(x)V (σ) ≤ L(f, P, σ) ≤ U(f, Q, σ) ≤ sup f(x)V (σ),
x∈C
x∈C
a jeżeli Q jest zagęszczeniem P, to
L(f, P, σ) ≤ L(f, Q, σ) ≤ U(f, Q, σ) ≤ U(f, P, σ).
Wobec tego, postępując podobnie jak w definicji całki Riemanna, przyjmujemy, że funkcja f
jest całkowalna (w sensie Riemanna) na krzywej σ, jeżeli
inf{U(P, f, σ) | P ∈ P([a, b]), P ⊃ P0 } = sup{L(f, P, σ) | P ∈ P([a, b]), P ⊃ P0 },
gdzie P0 jest podziałem, o którym mowa w stopce redakcyjnej na poprzedniej stronie. Wspólną
wartość nazywamy całką krzywoliniową funkcji f wzdłuż krzywej σ i oznaczamy symbolem
Z
f ds.
σ
4.2.1 UWAGA: Całkę krzywoliniową I-go rodzaju można interpretować następująco. Przypuśćmy, że krzywa σ jest parametryzacji zbioru C wykonanego z pewnego niejednorodnegoRstopu.
Dla x ∈ C, wielkość f(x) ∈ R oznacza gęstość masy w punkcie x. Wówczas całka σ f ds
określa masę całkowitą zbioru C.
Analogicznie jak w przypadku zwykłej całki Riemanna mamy następującą charakteryzację,
której prosty dowód pozostawiam Czytelnikowi.
4.2.2 TWIERDZENIE: Funkcja ograniczona f : C → R, zdefiniowane na nośniku krzywej prostowalnej σ : [a, b] → RN jest całkowalna wtedy i tylko wtedy, gdy dla dowolnego ε > 0 istnieje
podział P ∈ P([a, b]) taki, że
U(f, P, σ) − L(f, P, σ) < ε.
Ponadto łatwo uzyskać następujące własności całki:
4.2.3 TWIERDZENIE: Niech σ : [a, b] → RN będzie krzywą prostowalną o nośniku C. Przypuśćmy, że funkcje f, g : C → R są całkowalne i α ∈ R. Wówczas funkcje αf, f ± g są całkowalne
i
Z
Z
Z
Z
Z
αf ds = α f ds,
(f ± g) ds = f ds ± g ds.
σ
σ
σ
σ
σ
R
R
Jeśli f ≤ g, to σ f ds ≤ σ g ds. Jeżeli zaś krzywa σ jest połączeniem dwóch krzywych
prostowalnych σ1 i σ2 , to funkcja f jest całkowalna na obu tych krzywych i ma miejsce wzór
Z
Z
Z
f ds =
f ds +
f ds.
σ
σ1
σ2
Przypomnijmy w tym miejscu, że dla krzywych σ1 : [a1 , b1 ] → RN i σ2 : [a2 , b2 ] → RN takich
że σ1 (b1 ) = σ2 (a2 ) (tzn. koniec pierwszej z nich jest początkiem drugiej) (3 ), to ich połączeniem
nazywamy krzywą σ : [a1 , b2 ] → RN daną wzorem
σ1 (t) gdy t ∈ [a1 , b1 ],
σ(t) :=
σ2 (t) gdy t ∈ [a2 , b2 ].
3
Bez zmniejszenia ogólności można założyć, że b1 = a2 .
112
4.2.4 TWIERDZENIE: Jeśli f : C → R jest funkcją ciągłą, σ jest gładka (klasy C 1 ), to f jest
całkowalna na krzywej σ i
Z b
Z
f(σ(t))kσ 0 (t)k dt.
f ds =
a
σ
DOWÓD: Zauważmy przede wszystkim, że funkcja [a, b] 3 t 7Ï F(t) := f(σ(t))kσ 0 (t)k jest całkowalna w sensie Riemanna, bo jest ciągła, zaś σ jest prostowalna. Ustalmy ε > 0; wykorzystując
jednostajną ciągłość złożenia f ◦ σ, znajdziemy δ > 0 takie, że |f(σ(t 0 )) − f(σ(t 00 ))| < ε/V (σ), o
ile t 0 , t 00 ∈ [a, b] oraz |t 0 − t 00 | < δ. Niech P0 = {t0 , ..., tn } będzie podziałem odcinka [a, b] o
średnicy < δ. Wtedy,
U(f, P0 , σ) − L(f, P0 , σ) =
n
X
V (σ|[ti−1 ,ti ] )( sup f(σ(t)) −
t∈[ti−1 ,ti ]
i=1
< ε[V (σ)]−1
n
X
inf
t∈[ti−1 ,ti ]
f(σ(t)))
V (σ|[ti−1 ,ti ] ) = ε.
i=1
Oznacza to, że funkcja f jest całkowalna wzdłuż σ i, oczywiście,
Z
L(f, P, σ) ≤ f ds ≤ U(f, P, σ) oraz U(f, P, σ) − L(f, P, σ) < ε
σ
dla dowolnego podziału zagęszczającego podział P0 .
Wybierzmy teraz podział P = {s0 , ...sm } ⊃ P0 o średnicy µ, gdzie µ > 0 jest taką liczbą, że
jeśli s, ξ ∈ [a, b] i |s − ξ| < µ, to
|f(σ(s)) − f(σ(ξ))| <
ε[V (σ)]−1
,
2Mσ
gdzie Mσ := supt∈[a,b] kσ 0 (t)k, oraz
−1
0
kσ (s)k − kσ 0 (ξ)k < ε[V (σ)] ,
2Mf
gdzie Mf := supt∈[a,b] |f(σ(t))|.
Dla dowolnego i = 1, ..., m, z twierdzenie o wartości średniej dla całki
V (σ|[si−1 ,si ] ) = (si − si−1 )kσ 0 (ξi )k,
gdzie ξi ∈ [si−1 , si ] oraz, jak łatwo sprawdzić,
!
sup
s∈[si−1 ,si ]
F(s) −
sup
s∈[si−1 ,si ]
Stąd
f(σ(s))kσ 0 (ξi )k (si − si−1 ) < ε(si − si−1 ).
|U(F, P) − U(f, P, σ)| < ε.
Analogicznie rozumując otrzymamy, że
|L(F, P) − L(f, P, σ)| < ε.
Biorąc pod uwagę, że L(F, P) ≤
Rb
a
F ≤ U(F, P) widzimy, że
Z
Z b F < 2ε.
f ds −
σ
a
113
Z dowolności ε wynika teza.
4.2.5 UWAGA: Jeśli krzywa σ jest kawałkami gładka (patrz str. 110), to wzór z powyższego
twierdzenia jest również prawdziwy. Mianowicie dla dowolnego i = 1, ..., n, obcięcie σi :=
σ|[ti−1 ,ti ] : [ti−1 , ti ] → RN jest gładka i, wówczas, mamy
Z
σ
f ds =
n Z
X
i=1
σi
f ds =
n Z
X
i=1
ti
ti−1
f(σ(t))kσ 0 (t)k dt.
R
Warto zastanowić się do jakiego stopnia całka krzywoliniowa
zacji nośnika.
σ
f ds zależy od parametry-
4.2.6 TWIERDZENIE: Przypuśćmy, że dane są dwie krzywe σ : [a, b] → RN oraz τ : [c, d] → RN
oraz ciągła i monotoniczna bijekcja u : [a, b] → [c, d] taka, że σ = τ ◦ u. Jeśli jedna z tych
krzywych jest prostowalna, to druga też jest prostowalna, krzywe τ i σ mają te same nośniki.
Jeśli funkcja f : C → R, gdzie C = σ([a, b]) = τ([c,Rd]) jest ograniczona
i całkowalna na jednej
R
z tych krzywych, to jest całkowalna na drugiej i σ f ds = τ f ds.
DOWÓD: Przede wszystkim zauważmy, że założenia odnośnie u implikują, że funkcja odwrotna
v := u−1 : [c, d] → [a, b] jest ciągłą i monotoniczną bijekcją oraz τ = σ ◦ v. Można zatem
założyć, że krzywa σ jest prostowalna i dowieść, że prostowalna jest krzywa τ, a następnie,
założywszy całkowalność f na σ, pokazać całkowalność f na τ i równość całek.
Równość nośników krzywych σ i τ jest oczywista, zaś prostowalność krzywej τ (przy
założeniu prostowalności σ) została pokazana w uwadze 11.2.6 (3) książki ?? (tam też pokazano,
że długości krzywych σ i τ są równe).
Zakładam, że f jest całkowalna na σ. Ustalmy ε > 0. Zatem istnieje podział P = {t0 , ..., tn }
odcinka [a, b] taki, że U(f, P, σ) − L(f, P, σ) < ε. Niech Q = u(P), tj. Q = {s0 , ..., sn }, gdzie
si = u(ti ), i = 0, ..., n. Jeśli u jest funkcją rosnącą, to Q jest podziałem odcinka [c, d], zaś
jeśli u jest funkcją malejącą, to podziałem jest Q = {sn , sn−1 , ..., s0 }. W obu przypadkach, dla
dowolnego i = 1, ..., n, długość V (τ|[si−1 ,si ] ) = V (σ|[ti−1 ,ti ] ) (lub V (τ|[si ,si−1 ] ) = V (σ|[ti−1 ,ti ] ), o ile u
jest malejąca). Ponadto
sup f(σ(t)) =
t∈[ti−1 ,ti ]
inf
t∈[ti−1 ,ti ]
Tak więc
f(σ(t)) =
sup
f(τ(s)) (lub
inf
f(τ(s)) (lub
s∈[si−1 ,si ]
s∈[si−1 ,si ]
sup
f(τ(s))),
inf
f(τ(s))).
s∈[si ,si−1 ]
s∈[si ,si−1 ]
L(f, P, σ) = L(f, Q, τ), U(f, P, σ) = U(f, Q, τ),
co dowodzi całkowalności f na krzywej τ i równość całek, bo
Z
Z
L(f, Q, τ) ≤ f ds ≤ U(f, Q, τ) oraz L(f, P, σ) ≤ f ds ≤ U(f, P, σ).
τ
σ
ĆWICZENIE: Pokazać na przykładzie, że można znaleźć dwie krzywe o wspólnym nośniku,
dla których całki krzywoliniowe są różne.
4.2.B
Całka krzywoliniowa II-go rodzaju
Przypuśćmy, że σ = (σ1 , ..., σN ) : [a, b] → U ⊂ RN , gdzie U jest zbiorem otwartym, jest krzywą
klasy C 1 i pole wektorowe F : U → RN jest ciągłe. Całką krzywoliniową II-rodzaju nazywamy
114
wyrażenie
Z
σ
Z
F :=
a
b
hF(σ(t)), σ 0 (t)i dt =
N Z
X
i=1
a
b
Fi (σ(t))σi0 (t) dt.
Całka po prawej stronie jest poprawnie określona, gdyż funkcja podcałkowa jest ciągła, czyli
całkowalna.
4.2.7 UWAGA: (1) Aby właściwie zinterpretować całkę krzywoliniową pola F, odwołamy się do
pojęcia pracy z fizyki. Przypomnijmy, że praca wykonana przez stałą siłę F = (F1 , F2 , F3 ) podczas przesunięcia ciała w przestrzeni R3 z punktu a do punktu b o odległość d = kb − ak
w kierunku działania siły wynosi W = kFkd. Jeśli zaś ruch odbywa się wzdłuż od punktu a
do punktu b wzdłuż odcinka [a; b] łączącego te punkty, lecz nierównoległego do kierunku
działania siły F, to w celu obliczenia pracy siły F należy rozważyć iloczyn długości składowej
siły F w kierunku wyznaczonym przez punkty a i b i odległości pomiędzy tymi punktami: a
więc W = hF, b − ai.
Na przykład praca wykonana przez siłę grawitacji podczas zsuwania się (bez tarcia) ciała
√o
masie 10 kg po równi pochyłej o nachyleniu 45◦ na odległość 5 m wynosi 5[m] ·10[kg] ·g[m/s2 ] / 2,
gdzie g = 9, 81[m/s2 ] jest wielkością przyśpieszenia ziemskiego.
R
(2) Zamiast „gotowej” formuły definiującej całkę σ można przedstawić podejście ogólniejsze, które jednak przy podanych założeniach (ciągłość pola F i gładkość krzywej) prowadzi do
wyżej przyjętej definicji. Mianowicie, dla podziału P = {t0 , t1 , ..., tn } odcinka [a, b] definiujemy
„górną sumę całkową” postaci
n X
N
X
sup Fj (σ(t))(σj (ti ) − σj (ti−1 )),
i=1 j=1 t∈[ti−1 ,ti ]
oraz „dolną sumę całkową” postaci
n X
N
X
inf
i=1 j=1
t∈[ti−1 ,ti ]
Fj (σ(t))(σj (ti ) − σj (ti−1 )),
R
po czym – w celu zdefiniowania „całkowalności” i całki σ F postępuje się analogicznie jak
powyżej lub w przypadku całki Riemanna.
(3) Często, zamiast używanego wyżej stosuje się oznaczenie
Z
Z
Z X
N
F = F1 (x) dx1 + F2 (x) dx2 + ... + FN (x) dxN =
Fi (x) dxi .
σ
σ
σ i=1
Pochodzenie tego oznaczenia wyjaśni się niebawem.
W zastosowaniach mamy najczęściej do czynienia z przypadkiem N = 2 lub N = 3;
wówczas najbardziej tradycyjne oznaczenia wyglądają następująco: F = (P, Q) (tzn. F1 = P
oraz F2 = Q) oraz
Z
Z
σ
lub F = (P, Q, R) oraz
Z
σ
F=
σ
P(x, y) dx + Q(x, y) dy,
Z
F=
σ
P(x, y, z) dx + Q(x, y, z) dy + R(x, y, z) dz.
4.2.8 TWIERDZENIE: Przypuśćmy, że dane są dwie krzywe klasy C 1 σ : [a, b] → U ⊂ RN oraz
τ : [c, d] → RN oraz rosnąca bijekcja u : [a, b] → [c, d] klasy C 1 taka, że σ =Rτ ◦ u. Jeśli
pole
R
N
wektorowe F : U → R jest ciągłe,całkowalna na jednej z tych krzywych, to σ F = τ F.
115
DOWÓD: Oczywiście u(a) = c i u(b) = d. Niech G(s) := hf(τ(s), τ 0 (s)i dla s ∈ [c, d]. Wówczas
G ◦u(t) = hF(σ(t), σ 0 (t)i. Z twierdzenia o zamianie zmiennych w całce Riemanna (funkcji jednej
zmiennej)
Z u(b)
Z
Z d
G(s) ds =
hf(τ(s)), τ 0 (s)i ds =
F=
=
a
b
G(u(t))u0 (t) dt =
u(a)
c
τ
Z
b
Z
a
hF(σ(t)), σ 0 (t)i dt =
Z
F.
σ
4.2.9 UWAGA: (1) Przypuśćmy, że σ : [a, b] → RN jest kawałkami klasy C 1 (patrz przypis na str.
110 oraz uwaga 4.2.5). Wówczas definiujemy
Z
n Z
n Z ti
X
X
F=
F=
hF(σ(t)), σ 0 (t)i dt,
σ
i=1
σi
ti−1
i=1
gdzie σi = σ|[ti−1 ,ti ] jest już krzywą gładką.
W dalszym ciągu zakładamy zazwyczaj, że rozważane krzywe są kawałkami gładkie.
(2) W samym pojęciu krzywej σ : [a, b] → RN tkwi jej „orientacja”: określony jest jej
początek σ(a) oraz koniec σ(b), a więc wraz ze wzrostem parametru t od a do b, punkt
σ(t) wędruje od początku ku końcowi. Jeśli krzywe σ i τ spełniają założenia poprzedniego
twierdzenia, krzywe te mają wspólny nośnik i mają tę samą orientację.
(3) Powiemy, że krzywe σ : [a, b] → U ⊂ RN i τ : [c, d] → RN są zorientowane przeciwnie,
tzn. dana jest malejąca bijekcja u : [a, b] → [c, d] klasy C 1 tak, że σ = τ ◦u. Czytelnik dostrzeże,
że krzywe zorientowane przeciwnie mają taki sam nośnik, lecz początek krzywej σ jest końcem
krzywej τ i na odwrót: początek τ jest końcem krzywej σ.
Najprostszym przykładem krzywej zorientowanej przeciwnie do σ jest krzywa τ : [a, b] →
RN zadana wzorem τ(t) = σ(b + a − t), t ∈ [a, b]; tutaj u : [a, b] → [a, b] i u(t) = b + a − t dla
t ∈ [a, b]. tak zdefiniowaną krzywą oznacza się symbolem −σ.
ĆWICZENIE: Pokazać, że jeśli krzywa τ jest zorientowana przeciwnie do krzywej σ, to dla
ciągłego pola wektorowego F : U → RN
Z
Z
F = − F.
σ
W szczególności
τ
Z
−σ
Z
F =−
F.
σ
W związku z tą własnością (patrz też twierdzenie 4.2.6) całkę I-go rodzaju nazywa się całką
krzywoliniową niezorientowaną, zaś całkę II-go rodzaju – całką zorientowaną.
Podstawowe własności całki zorientowanej są następujące (dowód dla Czytelnika).
4.2.10 TWIERDZENIE: Przypuśćmy, że krzywa σ : [a, b] → U ⊂ RN jest kawałkami gładka,
zbiór U jest otwarty, a pola wektorowe F, G : U → RN są ciągłe. Wówczas, dla każdych
α, β ∈ R,
Z
Z
Z
σ
(αF ± βG) = α
F ±β
σ
G.
σ
Jeśli krzywa σ jest połączeniem krzywych σ1 , σ2 , to wówczas są to krzywe kawałkami gładkie
(4 ) oraz
Z
Z
Z
σ
4
F=
σ1
F+
F.
σ2
Oczywiście połączenie krzywych kawałkami gładkich jest krzywą kawałkami gładką.
116
4.2.C
Całka krzywoliniowa i zachowawczość pól wektorowych
4.2.11 TWIERDZENIE: (1) Jeśli σ : [a, b] → U, gdzie U ⊂ RN jest zbiorem otwartym, jest krzywą
kawałkami gładką , zaś pole wektorowe ciągłe F : U → RN jest zachowawcze o potencjale f,
to
Z
F = f(σ(b)) − f(σ(a)).
σ
Jeśli więc krzywa σ jest zamknięta (tzn. σ(a) = σ(b)), to
Z
F = 0.
σ
(2) Jeśli spełniona jest porzednia teza, tzn. ciągłe pole wektorowe
F : U → RN ma tę
R
własność, że dla dowolnej zamkniętej krzywej σ : [a, b] → U całka σ F = 0, to F jest polem
zachowawczym.
4.2.12 UWAGA: Założenie przyjęte w części (2) jest równoważne następującemu założeniu: dla
dowolnych punktów x, y ∈ U jeśli krzywe kawałkami gładkie σ : [a, b] → U i τ R: [c, d] →
R U
mają początek w x, zaś koniec w y (tzn. σ(a) = τ(c) = x oraz σ(b) = τ(d) = y), to σ F = τ F:
a więc całka z pola F zależy jedynie od początku i końca krzywej.
Istotnie: przypuśćmy, że całka wzdłuż dowolnej krzywej zamkniętejRznika iRniech cR będzie
połączeniem
krzywych σ i −τ. Jest to krzywa zamknięta: zatem 0 = c F = σ F + −τ F =
R
R
F.
F
−
τ
σ
Na odwrót, przy założeniu, że całka zależy tylko od początku i końca widzimy, że całka
po krzywej zamkniętej z pola F znika. Istotnie: niech σ : [a, b] → RN będzie dowolną krzywą
zamkniętą. Wówczas jest ona połączeniem krzywych σ1 := σ|[a,c] : [a, c] → RN , σ2 := σ|[c,b] :
[c, b] → RN , gdzie a < c < b. Oczywiście
krzywe
R wówczas
R
R σ1 i −σ2 mają wspólny początek i
koniec. A więc, zgodnie z założeniem, σ1 F = −σ2 F = − σ2 F. Stąd
Z
Z
Z
F=
F+
F = 0.
σ
σ1
σ2
DOWÓD TWIERDZENIE 4.2.11: (1) Załóżmy, że f : U → R jest potencjałem dla F; wówczas f
jest funkcją klasy C 1 (bo ∇f = F jest odwzorowaniem ciągłym) i dla dowolnego t ∈ [a, b] (a
dokładniej dla tych t, dla których istnieje pochodna σ 0 (t) – patrz też przypis na str. 110),
(f ◦ σ)0 (t) = h∇f(σ(t)), σ 0 (t)i = hF(σ(t)), σ 0 (t)i.
Innymi słowy funkcja [a, b] 3 t 7Ï hF(σ(t)), σ 0 (t)i ma pierwotną g := f ◦ σ. W takim razie
Z
Z b
F=
g 0 (t) dt = g(b) − g(a) = f(σ(b)) − f(σ(a)).
σ
a
(2) Bez zmniejszenia ogólności można zakładać, że zbiór U jest obszarem (w przeciwnym
razie osobno rozważa się każdą składową (łukowej) spójności). Będziemy konstruować potencjał f dla F (konstrukcja ta jest interesująca i ma dość „ogólny” charakter).
Ustalmy dowolnie punkt x0 ∈ U. Dla x ∈ U wybierzmy krzywą σx , która łączy punkty x0
i x (x0 jest jej początkiem, zaś x – końcem); taka krzywa istnieje w świetle założonej powyżej
łukowej spójności zbioru U. Następnie zdefiniujmy
Z
f(x) :=
F.
σx
117
Ta definicja jest poprawna, tzn. nie zależy od wyboru krzywej
σRx , gdyż (patrz powyższa uwaga),
R
jeśli τx jest inną krzywą, która łączy punkty x0 i x, to σx F = τx F.
Zdefiniowaliśmy tym sposobem funkcje f : U → R. Pokażemy, że f jest funkcją klasy
C 1 i ∇f(x) = F(x) dla każdego x ∈ U. W tym celu wystarczy pokazać, że f|i (x) = Fi (x) dla
i = 1, ..., N i x ∈ U. Rzeczywiście, wtedy funkcja f będzie mieć ciągłe pochodne cząstkowe, co
implikuje, że jest ona różniczkowalna i ∇f = F na U.
Ustalmy i = 1, ..., N oraz x ∈ U; zauważmy, że Fi (y) = hF(y), ei i dla dowolnego y ∈ U. Gdy
s > 0 jest dostatecznie małe, to
Z
f(x + sei ) − f(x) =
F,
[x;x+sei ]
gdzie [x; x+sei ] jest odcinkiem łączącym x z x+sei (a więc s musi być na tyle małe, aby odcinek
[x; x + sei ] ⊂ U), a z naszego punktu widzenia krzywą o parametryzacji τ(t) = x + tei , dla
t ∈ [0, s]. Rzeczywiście: jako krzywą σx+sei (za pomocą której określona jest wartość f(x + sei ))
można wziąć połączenie krzywych σx i odcinka [x; x + sei ]. W takim razie
Z s
Z s
Z s
0
f(x + sei ) − f(x) =
hF(τ(t)), τ (t)i dt =
hF(x + tei ), ei i dt =
Fi (x + tei ) dt.
0
0
0
Stąd
Z
f(x + sei ) − f(x) − sFi (x) 1 s
f(x + sei ) − f(x)
− Fi (x) = = (Fi (x + tei ) − Fi (x)) dt → 0,
s
s
s 0
gdy s → 0, ponieważ
Z s
Z
(Fi (x + tei ) − Fi (x)) dt ≤
0
s
|Fi (x + tei ) − Fi (x)| dt ≤ s sup |Fi (x + tei ) − Fi (x)|
0
t∈[0,s]
oraz, wykorzystując ciągłości składowej Fi , supt∈[0,s] |Fi (x + tei ) − Fi (x)| → 0, gdy s → 0.
Analogiczne rozumowanie przeprowadzimy (uczyni to Czytelnik) dla małego s < 0.
Pokazaliśmy więc, że
f(x + sei ) − f(x)
= Fi (x).
s→0
s
f|i (x) = lim
W powyższym twierdzeniu uzyskaliśmy więc warunek dostateczny zachowawczości ciągłych pół wektorowych.
4.2.13 UWAGA: Analizując dowód podanego twierdzenia łatwo dostrzec, że na to by ciągłe pole
wektorowe F : U → RN było lokalnie zachowawcze (tzn. każdy punkt x0 ∈ U ma otoczenie V ,
w którym istnieje potencjał, a więc różniczkowalna funkcja f : V → R taka, że ∇f(x) = F(x) dla
x ∈ V ) potrzeba i wystarcza, aby znikała całka krzywoliniowa tego pola wzdłuż zorientowanego
brzegu dowolnego trójkąta zawartego w U, tzn. dla dowolnych punktów a, b, c ∈ U takich, że
uwypuklenie
conv{a, b, c} := {x = λ1 a + λ2 b + λ3 c | λ1 + λ2 + λ3 = 1, λ1 , λ2 , λ3 ≥ 0} ⊂ U,
R
F
=
0,
gdzie
σ jest krzywą zamkniętą będąca połączeniem krzywych parametryzujących
σ
odcinki [a; b], [b; c] oraz [c; a].
Z kolei lokalna zachowawczość implikuje, że jeśli pole F jest różniczkowalne, to Fi|j (x) =
Fj|i (x) dla dowolnego x ∈ U (ten sam dowód co wyżej, bo przecież pochodna jest ex definitione
pojęciem lokalnym).
118
Ma także miejsce piękny (i dość trudny w dowodzie) lemat Goursata:
4.2.14 LEMAT (Goursat) Przypuśćmy, że pole F : U → RN , gdzie U ⊂ RN jest zbiorem otwartym, jest różniczkowalne i macierz Jacobiego JF (x) jest symetryczna (tzn. Fi|j (x) = Fj|i (x) dla
dowolnego x ∈ U (5 )). Wówczas dla dowolnych a, b, c ∈ U takich, że trójkąt conv{a, b, c} ⊂ U
całka pola wzdłuż zorientowanego brzegu tego znika.
4.2.15 WNIOSEK: Przy założeniach lematu Goursata, jeśli zbiór U jest wypukły lub gwiaździsty,
to pole F jest zachowawcze.
DOWÓD: Ustalmy a ∈ U taki, że dla każdego x ∈ U odcinek [a; x] ⊂ U (gdy U jest zbiorem
wypukłym, to a można wziąć dowolnie, zaś gdy U jest zbiorem gwiaździstym, to a może być
jego środkiem) i dla dowolnego x ∈ U zdefiniujmy
Z
f(x) =
F.
[a,x]
Funkcja f jest poprawnie określona; twierdzę, że jest ona potencjałem dla F. Dla dowodu
ustalmy i = 1, ..., N, x ∈ U i zauważmy, że jeśli x ∈ U i jeśli tylko s ∈ R jest dostatecznie małe,
to trójkąt conv{a, x, x + sei } ⊂ U, czyli po wykorzystaniu lematu Goursata
Z
F = 0,
σ
gdzie σ jest brzegiem tego trójkąta. Stąd
Z
f(x + sei ) − f(x) =
F.
[x,x+sei ]
Dowód równości f|i (x) = Fi (x) przebiega jak w dowodzie twierdzenia 4.2.11 (2).
Widzimy więc, że jeśli tylko zbiór jest wypukły (lub gwiaździsty), to dla różniczkowalnego
pola następujące warunki są równoważne:
• znikanie całki wzdłuż dowolnej (kawałkami gładkiej) krzywej zamkniętej;
• zachowawczość pola;
• symetryczność macierzy Jacobiego JF (x) w każdym punkcie x ∈ U.
ĆWICZENIE: Podać dowód tego twierdzenia zakładając, że pole jest klasy C 1 , lecz bez wykorzystania lematu Goursata.
Okazuje się, że to twierdzenie można uogólnić zakładając mniej o zbiorze U.
Mówimy, że zbiór A ⊂ RN jest jednospójny, jeżeli jest łukowo spójny oraz dowolne dwie
ciągłe krzywe σi : [a, b] → RN , i = 0, 1, zamknięte (tzn. σ0 (a) = σ1 (a) = σ0 (b) = σ1 (b)) są
homotopijne, a więc istnieje ciągłe odwzorowanie σ : [a, b] × [0, 1] → U takie, że σ(t, i) = σi (t)
dla t ∈ [a, b], σ(a, s) = σ(b, s) dla dowolnego s ∈ [0, 1].
Jednospójność oznacza, że mając dwie krzywe o wspólnych końcach i początkach, można
jedną z nich zdeformować w sposób ciągły do drugiej.
ĆWICZENIE: Udowodnij, że dowolny zbiór gwiaździsty, a więc w szczególności również zbiór
wypukły, jest jednospójny.
4.2.16 TWIERDZENIE: Przypuśćmy, że zbiór U jest jednospójny, F : U → RN jest różniczkowalnym polem wektorowym. Wówczas pole F jest zachowawcze wtedy i tylko wtedy, gdy dla
dowolnego x ∈ U, macierz Jacobiego JF (x) jest symetryczna, czyli Fi|j (x) = Fj|i (x).
5
A więc ma miejsce warunek konieczny zachowawczości.
4.3. ALGEBRA ZEWNĘTRZNA
119
DOWÓD: Oczywiście należy pokazać, że symetria macierz Jacobiego implikuje zachowawczość.
W tym celu wystarczy pokazać, że całka pola F wzdłuż dowolnej krzywej kawałkami gładkiej
zamkniętej znika. W tym celu wystarczy udowodnić następujący lemat:
4.2.17 LEMAT: Jeśli pętle (czyli krzywe zamknięte) σ0 i σ1 są kawałkami gładkie i homotopijne,
to
Z
Z
F=
F.
σ0
σ1
Przypuśćmy, że tak jest. Weźmy dowolną pętlę γ : [a, b] → RN ; z założenia jednospójności
jest ona homotopijna z pętlą stałą τ (tzn. τ(t) = c ∈ U dla t ∈ [a, b]. Wtedy
Z
Z
F = F = 0.
γ
τ
Dowód lematu nie jest trudny; wiąże się jednak z pewnymi dodatkowymi rezultatami nie
zawartymi w tym skrypcie.
4.2.D
Całka zorientowana vs. całka podwójna - twierdzenie Greena
Sformułujemy teraz twierdzenie, które mówi o związku całki krzywoliniowej z całką podwójną. Jednak najpierw musimy się do tego twierdzenia przygotować.
Przypuśćmy, że γ : [a, b] → R2 jest krzywą kawałkami gładką, zamkniętą, bez samoprzecięć (tzn. funkcja γ|[a,b) jest różnowartościowa (6 )) o nośniku K; zatem γ(t) = (x(t), y(t)),
t ∈ [a, b], gdzie x, y : [a, b] → R są funkcjami (kawałkami) klasy C 1 . Z bardzo niebanalnego twierdzenia Jordana-Schönfliesa wynika, że zbiór R2 \ K jest sumą dwóch obszarów (tzn.
zbiorów otwartych łukowo spójnych) z których jeden, oznaczony symbolem D jest zbiorem
ograniczonym, zaś drugi nie.
Załóżmy teraz, że krzywa γ ma tę własność, że poruszając się wzdłuż nośnika wraz z
rosnącym parametrem t ∈ [a, b] zbiór D znajduje się po lewej stronie.
4.2.18 TWIERDZENIE: Zbiór D jest mierzalny w sensie Jordana. Jeśli pole wektorowe F = (P, Q)
określone na pewnym otoczeniu otwartym zbioru D jest klasy C 1 , to
Z
Z
F = (qx − Py ) dxdy.
γ
D
Dowód tego twierdzenia (w pełnej ogólności) wykracza poza ramy dotychczasowego materiału. Przeprowadzimy go w następnej części (poniżej).
4.3
Algebra zewnętrzna
Jak poprzednio Lk (RN , R), gdzie k ≥ 1, oznacza przestrzeń liniową form k-liniowych nad RN ,
N
czyli k-liniowych przekształceń T : R
... × RN} → R.
| × {z
k
FORMY ALTERNUJĄCE Mówimy, że forma k-liniowa T ∈ Lk (RN , R) jest alternująca lub
skośnie symetryczna, jeśli dla dowolnych wektorów v1 , ..., vk ∈ RN oraz permutacji σ ∈ Sk
T(vσ(1) , ..., vσ(k) ) = sgn (σ)T(v1 , ..., vk ),
6
Takie krzywe nazywa się łukami Jordana, lub krzywymi zwykłymi (i zamkniętymi).
120
gdzie, jak zwykle, Sk oznacza grupę symetryczną zbiory k-elementowego, zaś sgn (σ) oznacza
znak permutacji σ ∈ Sk .
Zbiór wszystkich form k-liniowych alternujących oznaczamy symbolem A k (RN ). Oczywiście A 1 (RN ) = L1 (RN , R) = L(RN , R) jest zbiorem wszystkich funkcjonałów (form) liniowych.
UWAGA: Dodatkowo przyjmuje się, że A 0 (RN ) = R.
ĆWICZENIE: Pokazać, że:
(1) forma k-liniowa T ∈ Lk (Rn , R) jest alternująca wtedy i tylko wtedy, gdy T(v1 , .., vk ) = 0 dla
dowolnego układu v1 , ..., vk ∈ Rk , w którym vi = vj dla pewnych 1 ≤ i, j ≤ k, i 6= j;
(2) zbiór A k (RN ) jest podprzestrzenią liniową przestrzeni Lk (RN , R).
ALTERNACJA FORM k-LINIOWYCH Definiujemy operację Alt : Lk (RN , R) → A k (RN ), która
formom k-liniowym przyporządkowuje k-liniowe formy alternujące w następujący sposób:
Alt(T)(v1 , ..., vk ) :=
1 X
sgn (σ)T(vσ(1) , ..., vσ(k) ), T ∈ Lk (RN , R), v1 , ..., vk ∈ RN .
k!
σ∈Sk
ĆWICZENIE: Sprawdzić, że jeśli T ∈ A k (RN ), to Alt(T) = T. Podobnie dla dowolnego T ∈
Alt(Alt(T)) = Alt(T).
Lk (RN , R),
MNOŻENIE ZEWNĘTRZNE Definiujemy działanie ∧ : A k (RN ) × A m (RN ) → A k+m (RN ) wzorem
X
1
sgn (σ)T(vσ(1) , ..., vσ(k) )S(vσ(k+1) , ..., vσ(k+m) ),
k!m!
(T ∧ S)(v1 , ..., vk , vk+1 , ..., vk+m ) :=
σ∈Sk+m
dla T ∈ A k , S ∈ A m (RN ) i v1 , ..., vk+m ∈ RN .
ĆWICZENIE: Pokazać, że mają miejsce następujące własności:
(1) ∧ jest działaniem dwuliniowym: dla T, T 0 ∈ A k (RN ) i S ∈ A m (RN ), (T +T 0 )∧S = T ∧S+T 0 ∧S,
dla S 0 ∈ A m (RN ), T ∧ (S + S 0 ) = T ∧ S + T ∧ S 0 i dla λ ∈ R, T ∧ (λS) = (λT) ∧ S = λ(T ∧ S);
(2) Dla T ∈ A k (RN ), S ∈ A m (RN ),
T ∧ S = (−1)km S ∧ T;
(3) Dla T ∈ A k (RN ), S ∈ A m (RN ) i U ∈ A n (RN ),
(T ∧ S) ∧ U = T ∧ (S ∧ U) ∈ A k+m+n (RN ).
(4) Jeśli pi ∈ L(RN , R) = A 1 (RN ), i = 1, ..., k, to dla dowolnych v1 , ..., vk ∈ RN ,
(p1 ∧ p2 ∧ ... ∧ pk )(v1 , ..., vk ) = det[pi (vj )]i,j=1,...,k .
(5) Dla dowolnego p ∈ L(RN , R), p ∧ p = 0; ogólniej: jeśli formy liniowe pi , i = 1, ..., k są
liniowo zależne, to p1 ∧ ... ∧ pk = 0.
BAZA PRZESTRZENI A k (RN ) Niech (e1 , ..., eN ) będzie bazą kanoniczną w RN , zaś (π1 , ..., πN )
bazą dualną w L(RN , R), tzn. πi (ej ) = δij dla dowolnych 1 ≤ i, j ≤ N.
Jeśli k > N i T ∈ A k (RN ), to T = 0. Istotnie: niech v1 , ..., vk ∈ RN . Wtedy
vj =
N
X
i=1
πi (vj )ei , i = 1, ..., k.
4.3. ALGEBRA ZEWNĘTRZNA
Zatem
N
X
T(v1 , ..., vk ) =
121
πj1 (v1 )...πjk (vk ) T(ej1 , ..., ejk ) = 0,
j1 ,...,jk =1
bowiem w układzie ej1 , ..., ejk przynajmniej dwa wektory są równe.
Jeśli k ≤ N, to


X
X

T(v1 , ..., vk ) =
sgn (σ)πjσ(1) (v1 )...πjσ(k) (vk ) T(ej1 , ..., ejk ) =
1≤j1 <j2 <...<jk ≤N
σ∈Sk
X
det[πjs (vr )]s,r=1,...,k T(ej1 , ..., ejk ) =
1≤j1 <j2 <...<jk ≤N
X
αj1 ...jk (πj1 ∧ πj2 ∧ ... ∧ πjk )(v1 , ..., vk ),
1≤j1 <j2 <...<jk ≤N
gdzie αj1 ...jk := T(ej1 , ..., ejk ). Tak więc
X
T=
αj1 ...jk (πj1 ∧ πj2 ∧ ... ∧ πjk ).
1≤j1 <j2 <...<jk ≤N
Dowodzi to, że k-formy {πj1 ∧ ... ∧ πjk }1≤j1 <...<jk ≤N rozpina przestrzeń A k (RN ).
ĆWICZENIE: Wykazać, że powyższy zbiór jest liniowo niezależny.
Stąd wynika, że układ {πj1 ∧ πj2 ∧ ...
∧ πjk }1≤j1 <j2 <...<jk ≤N tworzy bazę przestrzeni A k (RN ).
W taki razie również dim A k (RN ) = Nk .
KONKLUZJA: Dla każdego T ∈ A k (RN ) jednoznacznie istnieją liczby (aj1 ...jk )1≤j1 <...<jk ≤N takie,
że
T=
X
aj1 ...jk πj1 ∧ ... ∧ πjk
1≤j1 <...<jk ≤N
oraz, dla dowolnych wektorów v1 , ..., vk ,
X
T(v1 , ..., vk ) =
aj1 ...jk det[πjs (vr )]s,r=1,...,k .
1≤j1 <...<jk ≤N
Warto dostrzec czym jest wyznacznik det[πjs (vr )]s,r=1,...,k . Otóż jest to wyznacznik macierzy
postaci


vj1 1 vj1 2 ... vj1 k
vj 1 vj 2 ... vj k 
2
2 
 2
= [vjs r ]s,r=1,...,k ,
 ..
..
.
.
..
.. 
 .

.
vjk 1 vjk 2 ... vjk k
gdzie vr = (v1r , ..., vNr ) dla r = 1, ..., k, a więc z macierzy (prostokątnej) [v1 |v2 |...|vk ] należy stworzyć macierz kwadratową poprzez wybór wierszy o numerach j1 , ..., jk i odrzucenie
pozostałych.
ORIENTACJA PRZESTRZENI RN Dwie (uporządkowane) bazy (v1 , ..., vN ) i (w1 , ..., wN ) są
relacji, gdy dla pewnej N-formy T ∈ A N (RN ), T 6= 0, znaki wyrażeń T(v1 , ..., vN ) i T(w1 , ..., wN )
są takie same.
Wykażemy, że relacja ta nie zależy od wyboru formy T, zaś podana definicja orientacji jest
równoważna ze starą definicją orientacji.
122
Niech [akj ]k,j=1,...,N będzie macierzą przejścia od bazy (v1 , ..., vN ) do bazy (w1 , ..., wN ), tzn.
X
akj wk .
vj =
k=1
Wówczas [v1 , ..., vN ] = [w1 , ..., wN ] wtedy i tylko wtedy, gdy det[akj ] > 0.
Rzeczywiście: przypuśćmy, że det[akj ] > 0; niech (dowolna, niezerowa N-forma) T = α(π1 ∧
... ∧ πN ) ∈ A N (RN ), gdzie α 6= 0. Wtedy
N
X
T(v1 , ..., vN ) = α det[πi (vj )] = det[(
akj πi (wk )] =
k=1
α det[akj ] det[πi (wk )] = det[akj ]α(π1 ∧ ... ∧ πN )(w1 , ..., wN ) = det[akj ]T(w1 , ..., wN ).
Tak więc znaki wartości T(v1 , ..., vN ) i T(w1 , ..., wN ) są tego samego znaku.
Na odwrót: z powyższego wynika, że jeśli dla pewnej niezerowej N-formy T ∈ A N (RN )
wyrażenia T(v1 , ..., vN ) i T(w1 , ..., wN ) są tego samego znaku, to wyznacznik det[akj ] macierzy
przejścia jest dodatni.
Łatwo więc dostrzec, że podana relacja jest relacją równoważności. Tak więc rodzina
wszystkich (uporządkowanych) baz przestrzeni RN została podzielona na dwie klasy abstrakcji. Każdą z klas nazywamy orientacją przestrzeni RN i orientację zawierającą bazę (v1 , ..., vN )
oznaczamy symbolem [v1 , ..., vN ].
Orientację [e1 , ..., eN ], wyznaczoną przez uporządkowaną bazę kanoniczną (e1 , ..., eN ) nazywa się orientacją kanoniczną.
ILOCZYN WEKTOROWY Niech N ≥ 3. Definiujemy skośnie symetryczne odwzorowanie
(N − 1)-liniowe T ∈ LN−1 (RN , RN ) w następujący sposób: dla v1 , ..., vN−1 ∈ RN odwzorowanie
RN 3 w 7Ï φ(w) := det[v1 |v2 |...|vN−1 |w]
(wektory v1 ,...,wN−1 i w zapisane jako kolumny) jest funkcjonałem liniowym. Istnieje wobec
tego dokładnie jeden wektor a = T(v1 , ..., vN−1 ) ∈ RN taki, że
φ(w) = hw, ai.
Wektor a = T(v1 , ..., vN−1 ) nazywa się iloczynem wektorowym wektorów v1 , ..., vN−1 i oznacza
symbolem v1 × v2 × ... × vN−1 .
UWAGA: Bez trudu można podać jawną postać wektora w = v1 × v2 × ... × vN−1 . Mianowicie
jeśli w = (w1 , ..., wN ), to
wi = (−1)N+i Ai ,
gdzie Ai oznacza wyznacznik macierzy powstałej poprzez wykreślenie i-tego wiersza w macierzy [v1 |...|vN−1 ] ∈ MN×(N−1) . Uważny Czytelnik spostrzeże, że współrzędna wi , i = 1, ..., N, jest
dopełnieniem algebraicznym wyrazu xi w macierzy


v11 v12 ... v1(N−1) x1
 v21 v22 ... v2(N−1) x2 


[v1 |...|vN−1 |x] =  .
..
..
..  ,
..
 ..
.
.
.
. 
vN1 vN2 ... vN(N−1) xN
gdzie – oczywiście vi = (v1i , v2i , ..., vNi ) dla i = 1, ..., N − 1.
4.4. FORMY RÓŻNICZKOWE
Przykładowo dla N = 3, vi = (v1i , v2i , v3i ), i = 1, 2,

v11 v12
[v1 |v2 |x] = v21 v22
v31 v32
123
macierz ta ma postać

x1
x2  ;
x3
zatem: dopełnienie algebraiczne wyrazu x1 w tej macierzy wynosi v21 v32 − v31 v22 , dopełnienie
algebraiczne wyrazu x2 wynosi v31 v12 − v11 v32 , zaś wyrazu x3 wynosi v11 v22 − v12 v21 . Tak więc
v1 × v2 = (v21 v32 − v31 v22 , v31 v12 − v11 v32 , v11 v22 − v12 v21 ).
ĆWICZENIE: Mają miejsce własności:
(1) Iloczyn wektorowy jest, jako funkcja czynników, odwzorowaniem (N − 1)-liniowym i
alternującym;
(2) Norma kv1 ×...×vN−1 k jest objętością graniastosłupa rozpiętego przez wektory v1 , ..., vN−1 ;
(3) iloczyn wektorowy v1 × ... × vN−1 jest prostopadły do podprzestrzeni span{v1 , ..., vN−1 }
rozpiętej przez te wektory;
(4) Jeśli wektory v1 , ..., vN−1 sa liniowo niezależne, to wraz z iloczynem wektorowym
v1 × ... × vN−1 tworzą bazę w przestrzeni RN należącą do orientacji kanonicznej.
UWAGA: Czasem wygodnie jest wprowadzić „iloczyn wektorowy” w przestrzeni R2 . Powtarzając powyższą konstrukcję naturalnie jest przyjąć: dla v = (v1 , v2 ) ∈ R2 , v× := a, gdzie
ha, wi = det[v|w]. Tak więc a1 w1 + a2 w2 = v1 w2 − v2 w1 , czyli a1 = −v2 , a2 = v1 i
v× = (−v2 , v1 ).
4.4
Formy różniczkowe
4.4.A
Podstawowe definicje
Niech U ⊂ RN będzie zbiorem otwartym i niech k ≥ 0. Dowolną funkcję ω : U → A(RN )
nazywa się formą różniczkową rzędu k lub k-formą różniczkową. Zbiór k-form oznaczamy
Λk (U).
UWAGA: Dla k = 0, A 0 (RN ) = R, więc 0-formą jest funkcja ω : U → R; tak więc Λ0 (U) jest
zbiorem funkcji U → R.
Niech k ≥ 1 i ω ∈ Λk (U). Dla dowolnego x ∈ U, ω(x) ∈ A k (RN ) a więc
X
ω(x) =
aj1 ...jk (x)πj1 ∧ ... ∧ πjk .
1≤j1 <...<jk ≤N
gdzie liczby
aj1 ...jk (x) = ω(x)(ej1 , ..., ejk )
są wyznaczone jednoznacznie. Tym samym zadane są funkcje aj1 ...jk : U → R. Piszemy wówczas:
X
ω=
aj1 ...jk πj1 ∧ ... ∧ πjk .
1≤j1 <...<jk ≤N
Mówimy, ze k-forma różniczkowa ω jest ciągła (odp. różniczkowalna, klasy C r , gdzie
r ≥ 1), jeżeli dla każdego układu 1 ≤ j1 < ... < jk ≤ N, funkcja aj1 ...jk : U → R jest ciągła (odp.
różniczkowalna, klasy C r ).
124
KWESTIA NOTACJI: Przypomnijmy, że πj : RN → R, j = 1, ..., N, jest przekształceniem
rzutowania. Jest to przekształcenie liniowe, a zatem dla dowolnego x ∈ RN pochodna πj0 (x) = πj .
Ze względów tradycji odwzorowanie πj oznacza się dxj , j = 1, ..., N. Stąd ogólnie przyjęta
notacja
X
ω=
aj1 ...jk dxj1 ∧ ... ∧ dxjk .
1≤j1 <...<jk ≤N
Zauważmy, że dla dowolnego x ∈ U oraz v1 , ..., vk ∈ RN ,
X
ω(x)(v1 , ..., vk ) =
aj1 ...jk (x)(dxj1 ∧ ... ∧ dxjk )(v1 , ..., vk ) =
1≤j1 <...<jk ≤N
X
X
aj1 ...jk (x) det[πjs (vr )]s,r=1,...,k =
1≤j1 <...<jk ≤N
aj1 ...jk (x) det[vjs r ]s,r=1,...,k .
1≤j1 <...<jk ≤N
4.4.1 UWAGA: Dwa przypadki zasługują na szczególną uwagę: k = 1 i k = N − 1.
(1) Niech k = 1 i ω ∈ Λ1 (U). Wtedy
N
X
ω=
aj dxj ,
j=1
gdzie aj : U → R, j = 1, ..., N, są zadanymi funkcjami. Niech a = (a1 , ..., aN ) : U → RN będzie
odwzorowaniem, którego funkcjami współrzędnymi są funkcje aj , j = 1, ..., N. Dla dowolnego
x ∈ U oraz v = (v1 , ..., vN ) ∈ RN ,
ω(x)(v) =
X
aj (x) dxj (v) =
j=1
N
X
aj (x)vj = ha(x), vi.
j=1
(2) Niech teraz k = N − 1 i ω ∈ ΛN−1 (U). Wtedy
N
X
cj ∧ ... ∧ dxN , (7 )
(−1)N+j aj dx1 ∧ ... ∧ dx
ω=
j=1
cj oznacza, że ten czynnik został opuszczony, zaś aj : U → R, j = 1, ..., N, są
gdzie symbol dx
zadanymi funkcjami. Dla x ∈ U oraz v1 , ..., vN−1 ∈ RN mamy
ω(x)(v1 , ..., vN−1 ) = ha(x), v1 × .... × vN−1 i,
gdzie a(x) = (a1 (x), .., aN (x)).
4.4.2 PRZYKŁAD Dla przykładu: jeśli N = 3 i zmienne – jak zwykle – oznaczamy przez x, y, z,
to
ω = a1 dy ∧ dz − a2 dx ∧ dz + a3 dx ∧ dy ∈ Λ2 (U).
Dla dowolnego (x, y, z) ∈ U i v1 , v2 ∈ R3 mamy więc
ω(x, y, z)(v1 , v2 ) = ha(x, y, z), v1 × v2 i,
gdzie a(x, y, z) = (a1 (x, y, z), a2 (x, y, z), a3 (x, y, z)).
7
Powód pojawienia się tu „dziwnych” mnożników (−1)N+j wyjaśni się za chwilę.
125
MNOŻENIE ZEWNĘTRZNE FORM RÓŻNICZKOWYCH Działanie mnożenia zewnętrznego form
k-liniowych alternujących przenosi się natychmiastowo na k-formy różniczkowe: jeśli ω ∈
Λk (U), η ∈ Λm (U), to
(ω ∧ η)(x) := ω(x) ∧ η(x), x ∈ U.
PRZYKŁAD: Jeśli ω, η ∈ Λ1 (U), to dla x ∈ U, oraz v1 , v2 ∈ RN ,
(ω ∧ η)(x)(v1 , v2 ) = ω(x)(v1 )η(x)(v2 ) − ω(x)(v2 )η(x)(v1 ).
Oczywiście ω ∧ η ∈ Λk+m (U); regularność form przy mnożeniu zewnętrznym zachowuje
się: jeśli ω i η są formami ciągłymi (odp. różniczkowalnymi, klasy C r ), to ω ∧ η jest formą
ciągłą (odp. różniczkowalną, klasy C r ).
4.4.B
Pochodna zewnętrzna
Zacznijmy określenie dla różniczkowalnej 0-formy, tzn. dla różniczkowalnej funkcji f : U → R.
Z definicji pochodną zewnętrzną f jest jej pochodna, tzn. odwzorowanie, które punktowi x ∈ U
przyporządkowuje pochodną f 0 (x) ∈ L(RN , R) = L1 (RN ) = A 1 (RN ). Zauważmy, że dla v ∈ RN
df(x)(v) = f 0 (x)(v) =
N
X
f|i (x)vi ,
i=1
czyli
df =
N
X
f|i dxi .
i=1
A więc operator d przeprowadza funkcje różniczkowalne, czyli różniczkowalne 0-formy w 1formy.
Ogólnej mówiąc niech k-forma ω ∈ Λk (U) postaci
X
ω=
aj1 ...jk dxj1 ∧ ... ∧ dxjk
1≤j1 <...<jk ≤N
będzie różniczkowalna, tzn. dla dowolnego układu 1 ≤ j1 < ... < jk ≤ N funkcja aj1 ...jk : U → R
jest różniczkowalna. Pochodną zewnętrzną nazwiemy (k + 1)-formę postaci
dω =
X
X
daj1 ...jk ∧ dxj1 ∧ ... ∧ dxjk =
N
X
aj1 ...jk |i dxi ∧ dxj1 ∧ ... ∧ dxjk .
1≤j1 <...<jk ≤N i=1
1≤j1 <...<jk ≤N
PRZYKŁAD: Jeśli ω ∈ Λ1 (U) i
ω=
N
X
aj dxj ,
j=1
gdzie aj : U → R są funkcjami różniczkowalnymi, to
dω =
X
daj ∧ dxj =
j=1
X
1≤i6=j≤N
aj|i dxi ∧ dxj =
N X
N
X
aj|i dxi ∧ dxj =
j=1 i=1
X
1≤i≤j≤N
(aj|i − ai|j )dxi ∧ dxj .
126
Jeśli ω ∈ ΛN−1 (U) jest postaci
ω=
N
X
cj ∧ ... ∧ dxN ,
(−1)j−1 aj dx1 ∧ ... ∧ dx
j=1
to
dω =
N X
N
X
cj ∧ ... ∧ dxN =
(−1)j−1 aj|i dxi ∧ dx1 ∧ ... ∧ dx
j=1 i=1
N
X
cj ∧ ... ∧ dxN =
(−1)j−1 aj|j dxj ∧ dx1 ∧ ... ∧ dx
j=1
N
X
aj|j dx1 ∧ dx2 ∧ ... ∧ dxN = div a dx1 ∧ .. ∧ dxN ,
i=1
gdzie a = (a1 , ..., aN ) : U → RN , zaś
div a :=
N
X
aj|j
j=1
jest tzw. dywergencją odwzorowania a.
4.4.3 TWIERDZENIE: (1) Dla dowolnych k-form różniczkowalnych i λ ∈ R ω, η ∈ Λk (U), d(ω ±
η) = dω ± dη, d(λω) = λdω;
(2) Jeśli forma ω jest dwukrotnie różniczkowalna, to d(dω) = 0;
(3) Jeśli formy ω ∈ Λk (U) i η ∈ λ m (U) są różniczkowalne, to forma ω ∧ η ∈ Λk+m (U) jest
różniczkowalna i
d(ω ∧ η) = dω ∧ η + (−1)k ω ∧ dη.
DOWÓD: Dowód własności (1) jest natychmiastowy. W celu dowodu (3) zauważmy, że jeśli ω =
dxj1 ∧ ... ∧ dxjk i η = dxi1 ∧ ... ∧ dxim , gdzie 1 ≤ j1 < ... < jk ≤ N oraz 1 ≤ i1 < ... < im ≤ N, to
ten wzór jest oczywiście prawdziwy, bo dω = dη = d(ω ∧ η) = 0. Jeśli k = 0, tzn. ω : U → R jest
funkcją różniczkowalną, zaś
X
η=
ηi1 ...im dxi1 ∧ ... ∧ dxim ,
1≤i1 <...<im ≤N
to
ω∧η =
X
ωηi1 ...im dxi1 ∧ .. ∧ dxim
1≤i1 <...<im ≤N
oraz
d(ω ∧ η) =
X
d(ω · ηi1 ...im ) ∧ dxi1 ∧ ... ∧ dxim = dω ∧ η + ω ∧ dη,
1≤i1 <...<im ≤N
bo d(ω · ηi1 ...im ) = ω · dηi1 ...im + ηi1 ...im dω. W ogólnej sytuacji posługujemy się własnością (1) i
podanymi faktami.
Dla dowodu (2) przypuśćmy, że
X
ω=
ωj1 ...jk dxj1 ∧ ... ∧ dxjk .
1≤j1 <...<jk ≤N
127
Wówczas
N
X
X
dω =
ωj1 ...jk |i dxi ∧ dxj1 ∧ ... ∧ dxjk
1≤j1 <...<jk ≤N i=1
oraz
N
X
X
d(dω) =
d(ωj1 ....jk |i dxi ∧ dxj1 ∧ ... ∧ dxjk ) =
1≤j1 <...<jk ≤N i=1
N
X
X
aj1 ...jk |ij dxj ∧ dxi ∧ dxj1 ∧ ... ∧ dxjk .
1≤j1 <...<jk ≤N i,j=1
W tej sumie składniki postaci
aj1 ...jk |ij dxj ∧ dxi ∧ dxj1 ∧ ... ∧ dxjk , aj1 ...jk |ji dxi ∧ dxj ∧ dxj1 ∧ ... ∧ dxjk
znoszą się parami.
4.4.C
Przeciwobraz formy różniczkowej
Niech f : V → U, gdzie V ⊂ RM jest zbiorem otwartym, będzie odwzorowaniem różniczkowalnym. Definiujemy przeciwobraz formy ω ∈ Λk (U) poprzez f jako k-formę f # ω ∈ Λk (V ) w V
zadaną wzorem
f # ω(y)(w1 , ..., wk ) = ω(f(y))(f 0 (y)(w1 ), ...f 0 (y)(wk )),
dla y ∈ V oraz w1 , ..., wk ∈ RM .
Wobec tego jeżeli
X
ω=
ωj1 ....jk dxj1 ∧ ... ∧ dxjk
1≤j1 <...,jk ≤N
oraz kładąc η =
f #ω
mamy reprezentację
X
η=
ηi1 ....ik dyi1 ∧ ... ∧ dyik ,
1≤i1 <...<ik ≤M
gdzie ηi1 ...in : V → R są funkcjami zadanymi wzorami
ηi1 ....ik (y) = η(y)(eik , ..., eik ) = f # ω(y)(ei1 , ..., eik ), y ∈ V ,
gdzie – tym razem – (e1 , ..., em ) oznacza bazę kanoniczną w RM . Zatem
ηi1 ...ik (y) = ω(f(y))(f|i1 (y), ..., f|ik (y)) =
X
ωj1 ...jk (f(y)) det[fjs |ir (y)]s,r=1,...,k .
1≤j1 <...<jk ≤N
Tak więc ostatecznie

f #ω =
X

X

1≤i1 <...<ik ≤M
(ωj1 ...jk ◦ f) det[fjs |ir (y)]s,r=1,...,k  dyi1 ∧ ... ∧ dyik .
1≤j1 <...<jk ≤N
Czytelnik bez trudu udowodni następujące
4.4.4 TWIERDZENIE: Jeśli f : V → U, ω, ω1 , ωs ∈ λ k (U), η ∈ Λm (U) oraz g : U → R, to:
P
(1) f # (dxi ) = N
j=1 fi|j dxj dla dowolnego i = 1, ..., N;
128
(2)
(3)
(4)
(5)
4.5
f # (ω1 + ω2 ) = f # ω1 + f # ω2 ;
f # (gω) = (g ◦ f)f # ω;
f # (ω ∧ η) = f # ω ∧ f # η;
f # (dω) = df # ω.
Kostki singularne i łańcuchy
Niech k ≥ 0, kostką singularną k-wymiarową lub k-kostką singularną w zbiorze U ⊂ RN
nazwiemy dowolne ciągłe odwzorowanie σ : [0, 1]k → U, gdzie [0, 1]k := [0, 1] × ... × [0, 1]
jest k-kostką standardową dla k ≥ 1 (tj. produktem kartezjańskim k egzemplarzy odcinka
jednostkowego [0, 1]) oraz [0, 1]0 = {0}. Punkty z k- kostki standardowej oznaczać będziemy
t = (t1 , ..., tk ), ti ∈ [0, 1] dla i = 1, ..., k.
Oczywiście 0-kostką jest odwzorowanie σ : {0} → U, czyli po prostu punkt w U.
UWAGA: Symbolem I k : [0, 1] → Rk oznaczamy odwzorowanie identycznościowe: I k (t) = t
dla t ∈ [0, 1]k .
Mówimy, że k-kostka singularna σ : [0, 1]k → U jest klasy C r , r ≥ 1, gdy odwzorowanie
σ : K → U jest klasy C r (przypomnijmy: oznacza to, że znajdzie się zbiór otwarty G ⊃ [0, 1]k i
odwzorowanie φ : G → RN klasy C r takie, że φ|[0,1]k = σ).
Uważa się, że 0-kostki są dowolnej klasy gładkości.
Nośnikiem k-kostki singularnej σ : [0, 1]k → U, k ≥ 1, nazywamy zbiór |σ| := σ([0, 1]k )
(gdy k = 0, to |σ| = σ(0)).
Ik
Mówimy, że k-kostki singularne σ1 , σ2 są równoważne, jeżeli istnieje dyfeomorfizm φ :
→ Rk taki, że φ([0, 1]k ) = [0, 1]k , det φ0 (t) > 0 dla wszystkich t ∈ [0, 1]k oraz σ2 ◦ φ = σ1 .
FAKT: Relacja równoważności kostek jest relacją równoważności i kostki równoważne
mają ten sam nośnik.
Łańcuchem singularnym k-wymiarowym w zbiorze otwartym U ⊂ RN nazywamy skończoną formalną kombinację liniową postaci
c = a1 σ1 + ... + an σn =
n
X
as σs ,
s=1
gdzie as ∈ Z, zaś σs jest k-kostką singularną dla s = 1, ..., n.
Jest to więc pewne formalne wyrażenie. Na przykład 0 łańcuchem jest formalna kombinacja liniowa (o współczynnikach całkowitych) punktów w U.
k-łańcuchem zerowym nazywamy k-łańcuch singularny, którego wszystkie współczynniki
są równe 0.
P
S
Nośnikiem łańcucha c = ns=1 as σs jest zbiór ns=1 |σs | = |σ1 | ∪ .. ∪ |σn |.
BRZEG KOSTKI I ŁAŃCUCHA Niech σ : I k → U będzie k-kostką singularną, k ≥ 1. Dla
i = 1, ..., k zdefiniujemy (k − 1)-kostki singularne
Pi σ, Ti σ : I k−1 → U
w następujący sposób:
4.6. CAŁKA FORM RÓŻNICZKOWYCH
129
(a) gdy k = 1, to P1 σ = σ(0), T1 σ = σ(1) (P1 σ i T1 σ są 0-kostkami, czyli punktami w U);
(b) gdy k ≥ 2, to dla dowolnego t = (t1 , ..., tk−1 ) ∈ I k−1 ,
Pi σ(t) = σ(t1 , ..., ti−1 , 0, ti , ..., tk−1 ),
Ti σ(t) = σ(t1 , ..., ti−1 , 1, ti , ..., tk−1 ).
Te (k − 1)-kostki singularne Pi σ, Ti σ nazywa się odpowiednio i-tą przednią i i-tą tylną ścianą
kostki σ, i = 1, ..., k. Przyjęta terminologia jest dość jasna z intuicyjnego punktu widzenia.
4.5.1 FAKT: Niech σ będzie k-kostka singularną, k ≥ 2. Mają miejsce łatwe do sprawdzenia
własności: jeżeli 1 ≤ i < j ≤ k, to
Pi (Pj σ) = Pj−1 (Pi σ), Ti (Tj σ) = Tj−1 (Ti σ), Pi (Tj σ) = Tj−1 (Pi σ), Ti (Pj σ) = Pj−1 (Ti σ).
Brzegiem k-kostki singularnej, k ≥ 1 nazwiemy (k − 1)-łańcuch singularny
∂σ :=
k
X
(−1)i (Pi σ − Ti σ).
i=1
Oczywiście |∂σ| =
ścian kostki σ.
Sk
i=1 (|Pi σ|
∪ |Ti σ|). Jest więc suma mnogościowa nośników wszystkich
UWAGA: Nie należy mylić tego „algebraicznego” brzegu kostki sigma z brzegiem w sensie
topologicznej jej nośnika |σ|.
P
Jeśli c = ns=1 as σs jest k-łańcuchem singularnym, k ≥ 1, to brzegiem łańcucha c nazwiemy (k − 1)-łańcuch singularny postaci
∂c :=
n
X
as ∂σs .
s=1
4.5.2 FAKT: Jeśli c jest k-łańcuchem singularnym, k ≥ 2, to ∂(∂c) = 0, tzn. brzeg brzegu
k-łańcucha singularnego jest zerowym (k − 2)-łańcuchem singularnym.
4.6
4.6.A
Całka form różniczkowych
Całka na kostkach
Załóżmy, że ω ∈ Λk (U), k ≥ 1, jest ciągłą k-formą różniczkową w zbiorze otwartym U ⊂ RN i
σ : [0, 1]k → U jest k-kostką singularną klasy C 1 w U.
Definiujemy całkę z formy ω na kostce σ wzorem
Z
Z
ω :=
ω(σ(t))(σ|1 (t), ..., σ|k (t)) dt,
σ
[0,1]k
gdzie po prawej stronie znalazła się całka Riemanna funkcji ciągłej na (zwykłej, standardowej)
kostce k-wymiarowej [0, 1]k .
Istotnie: przypuśćmy, że
X
ω=
aj1 ...jk dxj1 ∧ ... ∧ dxjk ,
1≤j1 <...<jk ≤N
130
gdzie funkcje aj1 ...jk : U → R są ciągłe. Dla dowolnego t, połóżmy vi = σ|i (t), i = 1, ..., k. Zatem
X
ω(σ(t))(σ|1 (t), ..., σ|k (t)) = ω(σ(t))(v1 , ..., vk ) =
aj1 ...,jk (σ(t)) det[πjs (vr )]s,r=1,...,k =
1≤j1 <...<jk ≤N
X
X
aj1 ...,jk (σ(t)) det[πjs (σ|r (t))]s,r=1,...,k =
1≤j1 <...<jk ≤N
aj1 ...,jk (σ(t)) det[σjs |r (t)]s,r=1,...,k ,
1≤j1 <...<jk ≤N
gdzie oczywiście σ1 , ..., σN są funkcjami współrzędnymi kostki σ, tzn.σ = (σ1 , ..., σN ). W świetle
założeń o formie ω i kostce σ, funkcje [0, 1]k 3 t 7Ï aj1 ...jk (σ(t)) oraz [0, 1]k 3 t 7Ï det[σjs |r (t)] są
ciągłe, czyli ciągła (a więc całkowalna w sensie Riemanna) jest funkcja podcałkowa.
Jeśli ω ∈ Λ0 (U) i σ jest 0-kostką, to kładziemy
Z
ω := ω(σ(0))
σ
(pamiętajmy, że ω : U → R jest funkcją, zaś σ punktem w U).
P
PRZYKŁAD: Jeśli σ = i=1 ai dxi jest 1-formą, a σ : [0, 1] → U jest 1-kostką klasy C 1 w U,
to – kładąc – a = (a1 , ..., aN ), otrzymamy
Z
Z
σ
ω=
ha(σ(t)), σ 0 (t)i dt =
N
X
ai (t)σi0 (t) dt.
i=1
[0,1]
Jeśli ω ∈ ΛN−1 (U) i
ω=
X
cj ∧ ... ∧ dxN ,
(−1)N+j aj dx1 ∧ ... ∧ dx
j=1
oraz σ : [0, 1]N−1 → U jest (N − 1)-kostką singularną klasy C 1 , to
Z
Z
ω=
ha(σ(t)), σ|1 (t) × ... × σ|N−1 (t)i dt.
[0,1]N−1
σ
4.6.1 TWIERDZENIE: (1) Całka jest operacją liniową, tzn. dla danej k-kostki singularnej σ klasy
C 1 , ciągłych form ω, η ∈ Λk (U) i liczby λ ∈ R mamy
Z
Z
Z
Z
Z
(ω ± η) = ω ± η,
(λω) = λ ω.
σ
σ
σ
σ
σ
(2) Jeśli k-kostki σ i τ są równoważne, to dla dowolnej ciągłej k-formy ω ∈ λ k (U) mamy
Z
Z
ω = ω.
σ
τ
(3) Niech forma
ω ∈ ΛK (U) będzie ciągła. Jeśli dla dowolnej k-kostki singularnej σ klasy
R
C 1 w U całka σ ω = 0, to ω = 0.
DOWÓD: Pierwsza własność wynika natychmiast z definicji. Dla dowodu drugiej własności przypuśćmy, że φ : [0, 1]k → [0, 1]k jest dyfeomorfizmem takim, że σ ◦ φ = τ. Wówczas, jeżeli
131
ω=
P
1≤j1 <...<jk ≤N
aj1 ...jk dxj1 ∧ ... ∧ dxjk , gdzie aj1 ...jk : U → R są funkcjami ciągłymi, to
Z
X
aj1 ...jk (τ(t)) det[τjs |r (t)] =
ω=
τ
1≤j1 <...<jk ≤N
X
aj1 ...jk (σ ◦ φ(t)) det[(σjs ◦ φ)|r (t)] dt =
1≤j1 <...<jk ≤N
X
(aj1 ...jk ◦ σ)(φ(t)) det[σjs |r (φ(t))] det φ0 (t) dt =
1≤j1 <...<jk ≤N
Z
X
(aj1 ...jk ◦ σ)(t) det[σjs |r (t)] dt =
1≤j1 <...<jk ≤N
ω,
σ
poprzez wykorzystanie reguły łańcucha i twierdzenia o zamianie zmiennych w całce Riemanna.
Aby udowodnić (3) przypuśćmy, że ω 6= 0 (ω jest formą jak wyżej), tzn. znajdziemy taki
układ 1 ≤ i1 < ... < ik ≤ N oraz x0 ∈ U, że ai1 ...ik (x0 ) 6= 0. Ciągłość funkcji a = ai1 ...ik implikuje,
że a(x) 6= 0 dla x ∈ B(x0 , ε), gdzie ε > 0. Zdefiniujmy teraz σ0 : [0, 1]k → Rn wzorem
σ(t) := x0 + α
k
X
ti ejs , t = (t1 , ..., tk ) ∈ [0, 1]k ,
s=1
gdzie, oczywiście, ej1 , ..., ejk są wektorami z bazy kanonicznej w RN , zaś
R liczba α > 0 jest tak
dobrana, aby nośnik |σ0 | ⊂ B(x0 , ε). Wówczas łatwo sprawdzić, że σ0 ω0 6= 0, gdzie ω0 :=
ai1 ...ik dxi1 ∧ ... ∧ dxRik , lecz dla każdego układu 1 ≤ j1 < ...R < jk ≤
R N różnego od układu
i1 < ... < ik , mamy σ0 aj1 ...jk dxj1 ∧ ... ∧ dxjk = 0. W taki razie σ0 ω = σ0 ω0 6= 0: sprzeczność.
UWAGA: Założenie, że σ : [0, 1]k → U jest klasy C 1 oznacza, że σ jest odwzorowaniem
określonym na pewnym zbiorze otwartym V ⊂ RK . Niech ω ∈ Λk (U) będzie ciągłą formą.
Zauważmy, że
Z
Z
Z
σ
ω=
[0,1]k
ω(σ(t))(σ|1 (t), ..., σ|k (t)) =
σ # ω,
Ik
gdzie, przypomnijmy, I k : [0, 1]k → Rk oznacza odwzorowanie identycznościowe, a więc pewną
(bardzo specjalną) k-kostką singularną w Rk klasy C 1 . Jeżeli η ∈ Λk (V ), gdzie V ⊂ Rk , to
Z
Z
η=
η(t1 , ..., tk )(e1 , ..., ek ) dt1 ...dtk .
Ik
4.6.B
[0,1]k
Całka na k-łańcuchach i twierdzenie Stokesa
P
Niech c = ni=1 ai σi będzie k-łańcuchem singularnym klasy C 1 w zbiorze otwartym U ⊂ RN .
Dla ciągłej k-formy ω ∈ Λk (U) kładziemy
Z
n Z
X
ω=
ω.
c
σi
i=1
4.6.2 TWIERDZENIE (Stokesa): Załóżmy, że forma ω ∈ Λk−1 (U) jest klasy C 1 i k-łańcuch
P
c = ni=1 ai σi jest klasy C 1 . Wówczas
Z
Z
ω = dω.
∂c
c
132
DOWÓD: Pokażemy najpierw, że jeśli η ∈ Λk−1 (V ), gdzie V ⊂ Rk , to
Z
Z
η.
dη =
∂I k
Ik
Niech najpierw, że dla pewnego i = 1, ..., k
[i ∧ ... ∧ dxk ,
η = a dx1 ∧ ...∧dx
gdzie a : V → R jest funkcją klasy c1 . Wówczas
dη =
k
X
di ∧ ... ∧ dxk = (−1)i−1 η|i dx1 ∧ ... ∧ dxk .
a|j dxj ∧ dx1 ∧ ... ∧ dx
j=1
Zatem
Z
i−1
Ik
Z
dη = (−1)
[0,1]k
a|i (t1 , ..., tk ) dt1 ...dtk .
Można zastosować twierdzenie Fubiniego:
i−1
(−1)
Z
!
Z
[0,1]k−1
1
a|i (t1 , ..., tk ) dti
ci ...dtk =
dt1 ...dt
0
Z
[0,1]k−1
ci ...dtk .
(a(t1 , ..., ti−1 , 1, ti+1 , ..., tk ) − a(t1 , ..., ti−1 , 0, ti+1 , ..., tk )) dt1 ...dt
Czyli
Z
Z
i
dη = (−1)
Ik
Z drugiej strony
[0,1]k−1
Z
ci ...dtk −
a(t1 , ..., 0, ..., tk ) dt1 ...dt
Z
Z
[0,1]k−1
oraz
ci ...dtk =
a(t1 , ..., 0, ..., tk )dt1 ...dt
Z
η
Pi I k
Z
[0,1]k−1
Zatem
ci ...dtk =
a(t1 , ..., 1, ..., tk )dt1 ...dt
Z
i
Ik
Ponadto
[0,1]k−1
c
a(t1 , ..., 1, ..., tk ) dt1 ...dti ...dtk .
Z
∂I k
Z
dη = (−1)
k
X
η=
(−1)j
j=1
η−
η
Pi I k
Ti I k
Z
Z
!
η−
Pj I k
η .
Tj I k
Z
η=0=
Pj I k
(starannie sprawdzić). Tak więc
Z
Z
i
η = (−1)
∂I k
Z
Zauważmy, że dla j = 1, ..., k, jeśli j 6= i, to
Z
η.
Ti I k
Pi I k
Tj I k
Z
η−
η
Ti I k
Z
=
dη.
Ik
133
Jeśli teraz
η=
k
X
di ∧ ... ∧ dxk ,
ai dxi ∧ ... ∧ dx
i=1
to
Z
∂I k
η=
k Z
X
i=1
∂I k
di ∧ ... ∧ dxk =
ai dxi ∧ ... ∧ dx
k Z
X
i=1
Ik
Z
di ∧ ... ∧ dxk ) =
d(ai dxi ∧ ... ∧ dx
dη.
Ik
Obecnie niech ω ∈ Λk (U) (jak w sformułowaniu twierdzenia) i niech σ : I k → U będzie
dowolną k-kostką singularną klasy C 1 , to
Z
Z
Z
Z
Z
#
#
#
dω =
σ dω =
d(σ ω) =
σ ω=
ω
Ik
σ
Ik
∂I k
∂σ
(ostatnią równość należy sprawdzić starannie). I wreszcie
Z
Z
Z
Z
n
n
X
X
ω=
ai
ω=
ai
dω = dω.
∂c
i=1
∂σi
i=1
σi
c
4.6.C k-Bryły i twierdzenie Stokesa
Mówimy, że k-kostki singularne σ, τ : [0, 1]k → RN , gdzie k ≥ 1, są zgodnie położone jeśli:
(1) Część wspólna |σ|∩|τ| = ∅ albo |σ|∩|τ| = |σ 0 | = |τ 0 |, gdzie σ 0 jest l-wymiarową, 0 ≤ l ≤ k−1,
ścianą kostki σ, a τ 0 jest l-wymiarową ścianą kostki τ;
(2) jeśli |σ| ∩ |τ| = |σ 0 | = |τ 0 | gdzie σ 0 i τ 0 są (k − 1)-wymiarowymi ścianami kostek σ i τ,
odpowiednio, to kostki σ 0 i τ 0 sa równoważne i
(a) jeśli σ 0 = Pi σ. τ 0 = Pj τ dla pewnych 1 ≤ i, j ≤ k, to suma i + j jest nieparzysta;
(b) jeśli σ 0 = Ti σ. τ 0 = Tj τ dla pewnych 1 ≤ i, j ≤ k, to suma i + j jest nieparzysta;
(c) jeśli σ 0 = Pi σ, τ 0 = Tj τ dla pewnych 1 ≤ i, j ≤ k, to suma i + j jest parzysta;
(d) jeśli σ 0 = Ti σ, τ 0 = Pj τ dla pewnych 1 ≤ i, j ≤ k, to suma i + j jest parzysta.
Zbiór B ⊂ RN jest k-wymiarową bryłą singularną, jeśli istnieją k-kostki singularne σi :
S
[0, 1]k → RN , i = 1, ..., n, klasy C 1 takie, że B = ni=1 |σi | oraz dla dowolnych i, j = 1, ..., n, i =
6 j,
kostki σi oraz σj są zgodnie położone.
Brzegiem bryły B wyznaczonej przez kostki σi , i = 1, ..., n, nazywamy sumę ∂B mnogościową nośników tych (k − 1)-wymiarowych ścian kostek σi , których nośniki nie są nośnikami
(k − 1)-wymiarowych ścian innych kostek. Oczywiście brzeg bryły B jest nośnikiem pewnego
(k − 1)-wymiarowego łańcucha singularnego d.
PYTANIE: Czy ∂B jest bryłą?
Jeśli B jest k-bryłą singularną wyznaczonym przez k-kostki singularne σi , i = 1, ..., n, to B
jest nośnikiem łańcucha c := σ1 + ...σn .
Zatem można przyjąć, że dla ciągłej formy ω ∈ Λk (B) (8 )
Z
Z
ω := ω.
B
8
tzn.
ω=
X
c
ωj1 ...jk dxj1 ∧ ... ∧ dxjk ,
1≤j1 <...<jk ≤N
gdzie ωj1 ...jk : B → R jest funkcją ciągłą dla dowolnego układu 1 ≤ 1 < ... < jk ≤ N.
134
Kładziemy również
Z
Z
∂B
η :=
η,
d
dla dowolnej ciągłej formy η ∈ Λk−1 (∂B),
4.6.3 TWIERDZENIE (Twierdzenie Stokesa): Niech B będzie k-wymiarową bryłą singularną i
niech ω ∈ Λk−1 (B) będzie formą różniczkową klasy C 1 . Wtedy
Z
Z
ω=
dω.
∂B
B
DOWÓD: Z twierdzenie Stokesa 4.6.2 mamy
Z
B
dω =
n Z
X
r=1
σr
dω =
n Z
X
r=1
∂σr
ω=
n X
k
X
(−1)j
Z
r=1 j=1
Pj σr
ω + (−1)j+1
Z
!
ω .
Tj σr
Przypuśćmy, że dla pewnych 1 ≤ r, s ≤ n, |Pi σr | = |Pj σs |, gdzie 1 ≤ i, j ≤ k. Wtedy składnik w
powyższej sumie po prawej, w świetle założeń,
!
Z
Z
Z
Z
(−1)i
Pi σ r
ω + (−1)j
Pj σs
ω = (−1)i
ω−
Pi σ r
ω
Pj σs
= 0.
Analogicznie jeśli dla pewnych 1 ≤ r, s ≤ n, |Ti σr | = |Tj σs |, to
Z
Z
j+1
i+1
ω = 0,
ω + (−1)
(−1)
Tj σ+s
Ti σr
lub, gdy dla pewnych 1 ≤ r, s ≤ n, |Pi σr | = |Tj σs |, to
Z
Z
ω + (−1)j+1
(−1)i
Pi σr
Tj σs
ω = 0.
A więc, w tej sumie pozostaną tylko składniki odpowiadające tym spośród (k−1)-wymiarowych
ścian kostek σr , których nośniki nie są jednocześnie są nośnikami innych kostek.

Rachunek Różniczkowy i Całkowy 3

Transkrypt

Podobne dokumenty

Matematyka – studia magisterskie aktualizacja: semestr letni 2015

KOLOKWIUM nr 1, zestaw A, 6.03.2007 Zadanie 1

Page 1 Pochodna funkcji - zastosowania Izolda Gorgol wyciąg z

pożyczka zabezpieczona pojazdem

Wymagania do egzaminu dyplomowego

Zagadnienia na ćwiczenia Algebra liniowa z geometrią analityczną

Jędrzej `James` Osiński