Rozdział 0 Uwagi wstępne
Transkrypt
Rozdział 0 Uwagi wstępne
2 Rozdział 0 Uwagi wstępne Głównym celem tego skryptu jest usystematyzowanie i zebranie wiadomości przedstawianych na wykładzie z metod probabilistycznych, zaś celem wykładu jest zapoznanie słuchaczy z podstawowymi pojęciami rachunku prawdopodobieństwa oraz wskazanie pewnych zastosowań tej dziedziny matematyki w praktyce. 0.1 Kombinatoryka Na początku wykładu zostaną przypomniane podstawowe pojęcia kombinatoryczne. Zaczniemy od przypomnienia definicji silni i symbolu Newtona oraz pewnych własności. Definicja 0.1 0! = 1, n! = (n − 1)!n, n1 Definicja 0.2 n! n , dla n k, k, n ∈ N, = k k!(n − k)! −n k n+k−1 = (−1) , dla n k, k, n ∈ N. k k Podstawowe własności 1. n0 = 1, 2. n1 = n, n 3. n−1 = n, n 4. nk = n−k . 3 (1) (2) 4 ROZDZIAŁ 0. UWAGI WSTĘPNE Najczęściej wykorzystywanymi pojęciami kombinatorycznymi w probabilistyce są pojęcia permutacji, kombinacji i wariacji zdefiniowane poniżej. Definicja 0.3 Permutacją bez powtórzeń zbioru złożonego z n różnych elementów nazywamy każdy ciąg jaki można utworzyć ze wszystkich elementów tego zbioru, a więc każdą różnowartościową funkcję odwzorowującą zbiór {1, 2, . . . , n} na dany zbiór n elementowy. Można wykazać, że istnieje Pn = n! permutacji zbioru n elementowego. Definicja 0.4 Permutacją z powtórzeńiami zbioru złożonego z n elementów, wśród których pewne elementy powtarzają się odpowiednio k1 , k2 , . . . , ks razy, nazywamy każdy ciąg jaki można utworzyć ze wszystkich elementów tego zbioru. Dowodzi się, że Pn (k1 , k2 , . . . , ks ) = permutacji. n! k1 !k2 !···ks ! jest liczbą wyżej zdefiniowanych Definicja 0.5 k elementową kombinacją bez powtórzeń zbioru n elementowego nazywamy każdy podzbiór k elementowy jaki można utworzyć z różnych elementów tego zbioru. Można dowieść, że k elementowych kombinacji bez powtórzeń zbioru n elementowego istnieje dokładnie Cnk = nk . Definicja 0.6 k elementową kombinacją z powtórzeniami zbioru n elementowego nazywamy każdy podzbiór k elementowy jaki można utworzyć z niekoniecznie różnych elementów tego zbioru. k jest liczbą k elementowych kombinacji z poMożna dowieść, że C n = n+k−1 k wtórzeniami zbioru n elementowego. Definicja 0.7 k elementową wariacją bez powtórzeń zbioru n elementowego nazywamy każdy k elementowy ciąg, w którym elementy są różne, jaki można utworzyć z elementów tego zbioru, a więc każdą różnowartościową funkcję odwzorowującą zbiór {1, 2, . . . , k} w dany zbiór n elementowy. Liczbę waricji bez powtórzeń obliczamy według wzoru Vnk = n! (n−k)! . Definicja 0.8 k elementową wariacją z powtórzeniami zbioru n elementowego nazywamy każdy k elementowy ciąg, w którym elementy mogą się powtarzać, jaki można utworzyć z elementów tego zbioru, a więc każdą funkcję odwzorowującą zbiór {1, 2, . . . , k} w dany zbiór n elementowy. Liczbę waricji z powtórzeniami obliczamy według wzoru Wnk = 0.2 n! (n−k)! . Modele probabilistyczne Znajomość praw różnych dziedzin nauki nie zawsze wystarcza, aby przewidzieć wyniki obserwacji. Przyczyny wpływające na wynik obserwacji są często tak 0.3. ZDARZENIA 5 liczne i tak złożone, że jest rzeczą niemożliwą, aby za pomocą dostępnych nam urządzeń obliczyć lub przewidzieć dokładny wynik obserwacji. Mimo to jednym ze sposobów zbierania wiedzy o otaczającym nas świecie jest właśnie obserwacja różnych zjawisk. Tak zgromadzoną wiedzę można magazynować w postaci różnych zależności matematycznych. Oczywiście nie ma modeli idealnych, gdyż na postawie obserwacji przeszłości nie można określić dokładnie skutów znanych przyczyn na przyszłość. Taką niezgodność modelu z opisywaną obserwacją nazywa się niepewnością modelu. Powstaje więc potrzeba budowania modeli, które uwzględniają informację jak dokładny jest stworzony model. Istnieją dwa rodzaje modeli matematycznych: · modele deterministyczne nie uwzględniające informacji o niepewności, · modele niedeterministyczne uwzględniające informację o niepewności. Powyższe rozróżnienie stosuje się tylko do modeli, a nie do opisywanych zjawisk. To jakiego rodzaju jest modelowane zjawisko jest problemem filozoficznym. To samo zjawisko można opisywać w zależności od potrzeb albo przy użyciu modelu deterministycznego, albo niedeterministycznego. Modele niedeterministyczne obserwacjom przypisują pewną liczbę będącą miarą niepewności, zwaną prawdopodobieństwem, dlatego też czasami nazywa się je modelami probabilistycznymi. Stosuje się je najczęściej do modelowania zjawisk powtarzalnych interpretując prawdopodobieństwo jako częstość zdarzeń, zjawisk jednorazowych traktując je jako zjawiska, które można wielokrotnie realizować, zjawisk, które nie mogą zajść ponownie interpretując prawdopodobieństwo jako miarę stopnia przekonania, że dane zjawisko zajdzie ponownie. Metody probabilistyczne wykorzystuje się do opisu obserwacji, których wyniku nie da się z góry przewidzieć, a jednocześnie nie można ich powtórzyć w dokładnie takich samych warunkach. Po raz pierwszy metody probabilistyczne wykorzystano w analizie statystyk zgonów i urodzeń. A do ich rozwoju przyczyniły się między innymi gry hazardowe. Metody probabilistyczne są powszechnie stosowane w technice, biologii, socjologii, psychologii, medycynie itd. Szczególne zastosowanie mają one w telekomunikacji i automatyce. Wiele działów informatyki również korzysta z metod probabilistycznych, między innymi można tu wymienić teorię informacji oraz teorię masowej obsługi. W ostatnich latach dzięki teorii prawdopodobieństwa dynamicznie rozwijają się nowe dziedziny takie jak matematyka finansowa i teoria ubezpieczeń. 0.3 Zdarzenia Każdą dowolną sytuację można opisać w kategoriach zachodzenia, lub nie pewnego zdarzenia, dlatego też zdarzenie jest wygodnym pojęciem do opisu rzeczywistości. Jeśli zajścia zdarzenia nie można przewidzieć i jeśli stwierdzenie, 6 ROZDZIAŁ 0. UWAGI WSTĘPNE że zachodzi ono lub nie, ma zawsze sens, to takie zdarzenie nazywać będziemy zderzeniem losowym. Każdy z możliwych wyników zjawiska losowego będziemy nazywać zdarzeniem elementarnym i oznaczać przez ω. Zbiór zdarzeń elementarnych oznaczamy przez Ω. Zbiór zdarzeń elementarnych jest używany do badania określonego zjawiska i musi być tak dobrany, aby to zjawisko można było modelować. Zbiór zdarzeń elementarnych może być dobrany na różne sposoby. Nieodpowiedni wybór zbioru Ω może doprowadzić do błędnych wniosków lub może skomplikować opis rozpatrywanego zjawiska. Jeśli dobrze określimy zbiór zdarzeń elementarnych, to następnym krokiem w budowie modelu jest sformułowanie interesujących nas problemów w terminach zdarzeń elementarnych budując podzbiory zbioru Ω, które nazywamy zdarzeniami. Nie jest to jednak definicja, bo nie każdy podzbiór zbioru zdarzeń elementarnych jest zdarzeniem w sensie probabilistycznym. (W dalszej części wykładu zostanie podana poprawna definicja zdarzenia.) Ale z formalnego punktu widzenia zdarzenia są zbiorami, elementami których są zdarzenia elementarne, więc podlegają one prawom rachunku zbiorów. Jednakże stosowana jest specyficzna terminologia podana poniżej. Zbiór Ω nazywa się zdarzeniem pewnym. Zbiór pusty nazywa się zdarzeniem niemożliwym. Zdarzenie A zachodzi dla ω ∈ Ω jeśli ω ∈ A. Wówczas zdarzenie ω nazywa się zdarzeniem sprzyjającym zdarzeniu A. Jeżeli A ⊂ B , to mówimy, że zdarzenie A jest zdarzeniem sprzyjającym zajściu zdarzenia B. Jeżeli A = B, to mówimy, że zdarzenia są równe. Jeżeli A ∩ B = ∅, to zdarzenia A i B nazywa się rozłącznymi lub wykluczającymi się. Zdarzenie A = Ω \ A nazywa się przeciwnym do zdarzenia A. Działania na zdarzeniach nazywamy i definiujemy tak jak działania na zbiorach. Ponadto wszystkie znane prawa rachunku zbiorów są prawdziwe i dla zdarzeń. Będziemy stosować następującą notację ∞ [ = A1 ∪ A2 ∪ A3 ∪ . . . , i=1 ∞ \ = A1 ∩ A2 ∩ A3 ∩ . . . i=1 uogólnionej sumy i uogólnionego iloczynu zbiorów. Przykład 0.3.1 Rozważmy zagadnienie z teorii niezawodności. Mówimy, że elementy układu pracują w schemacie niezawodnościowym szeregowym, jeśli zepsucie któregokolwiek z nich powoduje zepsucie całego układu. Mówimy, że elementy układu pracują w schemacie niezawodnościowym równoległym, jeśli dopiero zepsucie wszystkich elementów powoduje zepsucie całego układu. Niech Ai oznacza zdarzenie polegające na tym, że i-ty element nie popsuł się w przedziale czasu T . Niech A oznacza zdarzenie polegające na tym, że cały układ n T pracuje poprawnie. Wtedy A = Ai jeśli elementy układu pracują w schemai=1 0.3. ZDARZENIA 7 n S cie szeregowym, natomiast A = Ai jeśli elementy układu pracują w schemacie i=1 równoległym. Ćwiczenie 0.3.2 Opisz zdarzenie polegające na tym, że układ się popsuje w obu przypadkach. Sformalizujemy teraz pojęcie zdarzenia. Definicja 0.3.3 Niepustą rodzinę G podzbiorów zbioru Ω nazywamy ciałem jeśli spełnione są następujące warunki (i) A ∈ G ⇒ A ∈ G, (ii) A, B ∈ G ⇒ (A ∪ B) ∈ G. Z powyższej definicji wynika, że • ∅ ∈ G, Ω ∈ G, • A, B ∈ G ⇒ (A ∩ B) ∈ G, • A, B ∈ G ⇒ (A \ B) ∈ G. Definicja 0.3.4 Niepustą rodzinę F podzbiorów zbioru Ω nazywamy σ-ciałem jeśli spełnione są następujące warunki (i) A ∈ F ⇒ A ∈ F, V S (ii) An ∈ F ⇒ An ∈ F. n∈N n∈N Z powyższej definicji wynika, że " ^ An ∈ F ⇒ n∈N # \ An ∈ F. n∈N Rozważmy następujący przykład Przykład 0.3.5 Załóżmy, że badamy czas pracy pewnego elementu elektronicznego do czasu jego pierwszej awarii. Przyjmijmy, że zdarzenia elementarne są określone następująco ωt =[czas pracy do pierwszej awarii był równy t], t 0. Wówczas Ω = {ωt : t 0}. Załóżmy, że zbiór St0 = {ωt ∈ Ω : t > t0 }=[czas bezawaryjnej pracy jest większy niż t0 ] jest zdarzeniem dla każdego t0 0. Z praktycznego punktu widzenia zdarzeniami powinny być też zbiory 8 ROZDZIAŁ 0. UWAGI WSTĘPNE • Ut0 = {ωt ∈ Ω : t ¬ t0 } =[czas bezawaryjnej pracy jest mniejszy lub równy t0 ], • Zt0 ,t1 = {ωt ∈ Ω : t0 < t ¬ t1 } =[czas bezawaryjnej pracy ∈ (t0 , t1 >], • Wt0 ,t1 = {ωt ∈ Ω : t ¬ t0 ∨ t > t1 } =[urządzenie popsuło się do momentu t0 lub po chwili t1 ]. dla dowolnych 0 ¬ t0 ¬ t1 . Zauważmy, że Ut0 = S t0 = Ω \ St0 , Zt0 ,t1 = St0 ∩ Ut1 , Wt0 ,t1 = Ut0 ∪ St1 . Oznacza to, że zbiory będące sumą, iloczynem, dopełnieniem zdarzeń też powinny być zdarzeniami. Powyższy przykład uzmysłowił nam, że rodzina zdarzeń powinna być σ-ciałem. Dlatego też w dalszym ciągu będziemy rozważać tylko zdarzenia, które są podzbiorami σ-ciała zdarzeń elementarnych. Uwaga. Nie należy mylić zdarzenia elementarnego ω ze zbiorem {ω}, który nawet nie musi należeć do σ-ciała zdarzeń elementarnych. 0.4 Rodzina borelowska zbiorów Wiadomości podane w tym paragrafie będziemy wykorzystywać w rozdziale dotyczącym zmiennej losowej. Rozważymy je w tym miejscu ponieważ rodziny borelowskie zbiorów są przykładami σ-ciał ważnych z teoretycznego i praktycznego punktu widzenia. Definicja 0.4.1 Rodziną borelowską B n podzbiorów zbioru Rn nazywamy σ-ciało generowane przez rodzinę wszystkich n-wymiarowych kostek postaci < a1 , b1 > × < a2 , b2 > × · · · × < an , bn >, (a1 , b1 > ×(a2 , b2 > × · · · × (an , bn >, < a1 , b1 )× < a2 , b2 ) × · · · × < an , bn ), (a1 , b1 ) × (a2 , b2 ) × · · · × (an , bn ), gdzie ai , bi ∈ R ∪ {−∞, ∞} dla i = 1, 2, . . . , n. W przypadku n = 1 elementami rodziny borelowskiej B są tylko następujące podzbiory zbioru R: a) przedziały otwarte, zamknięte, jednostronnie otwarte, skończone i nieskończone oraz ich przeliczalne sumy i iloczyny, b) wszystkie zbiory przeliczalne i ich dopełnienia, c) wszystkie zbiory otwarte i wszystkie zbiory domknięte, w tym również R i ∅. Rozdział 1 Prawdopodobieństwo W rozdziale tym omówimy podstawowe metody obliczania prawdopodobieństw zdarzeń losowych. 1.1 Miara probabilistyczna Niech Ω będzie zbiorem zdarzeń elementarnych, a F σ-ciałem podzbiorów tego zbioru. Definicja 1.1.1 Miarą probabilistyczną nazywamy funkcję P określoną na σ-ciele F o wartościach nieujemnych spełniającą warunki A1. P(Ω) = 1, (aksjomat unormowania) A2. jeśli zdarzenia ∈ F, i = 1, 2, . . . są parami rozłączne, ∞ Ai ∞ S P to P Ai = P(Ai ) (aksjomat przeliczalnej addytywności) i=1 i=1 Liczbę P(A) nazywamy prawdopodobieństwem zdarzenia A. Zauważmy, że miara probabilistyczna jest funkcją, której argumentami są zdarzenia. Ponadto aksjomat (A1) przypisuje zdarzeniu pewnemu prawdopodobieństwo równe 1. Powyższe warunki po raz pierwszy zostały sformułowane przez Kołmogorowa w 1933 roku. Załóżmy, że dana jest pewna miara probabilistyczna P określona na σ-ciele F oraz, że A, B ∈ F są dowolnymi zdarzeniami. Poniższe twierdzenia zawierają podstawowe własności miary probabilistycznej. Twierdzenie 1.1.2 Jeśli zdarzenia A1 , A2 , . . . , An ∈ F wykluczają się parami, to ! n n [ X P(Ai ). P Ai = i=1 i=1 9 10 ROZDZIAŁ 1. PRAWDOPODOBIEŃSTWO Dowód. Twierdzenie to wynika z aksjomatu przeliczalnej addytywności. WyV starczy przyjąć Ak = ∅. k>n Twierdzenie 1.1.3 Prawdopodobieństwo zdarzenia niemożliwego jest równe zero. Dowód. Zauważmy, że zdarzenia Ω i ∅ wykluczają się. Zatem na mocy twierdzenia 1.1.2 mamy P(Ω ∪ ∅) = P(Ω) + P(∅). Ale Ω ∪ ∅ = Ω oraz na mocy aksjomatu (A1) P(Ω) = 1. Wobec tego mamy P(Ω) = P(Ω) + P(∅) ⇒ 1 = 1 + P(∅) ⇒ P(∅) = 0. Uwaga. Z aksjomatu (A1) nie wynika, że zdarzenie pewne jest jedynym zdarzeniem, którego prawdopodobieństwo jest równe 1. Zdarzenie, którego prawdopodobieństwo jest równe 1 będziemy nazywać prawie pewnym. Podobnie z twierdzenia 1.1.3 nie wynika, że zdarzenie niemożliwe jest jedynym zdarzeniem o prawdopodobieństwie 0. Zdarzenie, którego prawdopodobieństwo jest równe zero będziemy nazywać zerowym. Twierdzenie 1.1.4 Prawdopodobieństwo zdarzenia przeciwnego spełnia równość P(A) = 1 − P(A). Dowód. Zauważmy, że zdarzenia A i A są rozłączne oraz A ∪ A = Ω. Wykorzystując twierdzenie 1.1.3 otrzymujemy 1 = P(Ω) = P(A) + P(A), co kończy dowód. Twierdzenie 1.1.5 Jeśli A ⊂ B, to P(A) ¬ P(B). Dowód. Jeśli A ⊂ B, to zdarzenie B można przedstwić w postaci sumy zdarzeń rozłącznych B = A ∪ (B \ A). Korzystając z twierdzenia 1.1.2 otrzymujemy P(B) = P(A) + P(B \ A). Ponieważ z definicji P(B \ A) 0, to twierdzenie zostało udowodnione. V Twierdzenie 1.1.6 0 ¬ P(A) ¬ 1. (1.1) A∈F Dowód. Fakt, że P(A) 0 wynika z samej definicji miary probabilistycznej. Fakt, że P(A) ¬ 1 wynika z twierdzenia 1.1.5, bo A ⊂ Ω i P(Ω) = 1. Twierdzenie 1.1.7 Prawdopodobieństwo różnicy dwóch dowolnych zdarzeń A i B wyraża się wzorem P(B \ A) = P(B) − P(A ∩ B). 1.2. PRZESTRZEŃ PROBABILISTYCZNA 11 Dowód. Dla dowolnych dwóch zdarzeń mamy B = (B \ A) ∪ (A ∩ B), przy czym (B \ A) ∩ (A ∩ B) = ∅. Zatem na mocy twierdzenia 1.1.2 otrzymujemy P(B) = P(B \ A) + P(A ∩ B), a to kończy dowód. Wniosek 1.1.8 Jeśli A ⊂ B, to P(B \ A) = P(B) − P(A). Dowód. Twierdzenie to wynika z równości (1.1) lub z twierdzenia 1.1.7, bo w tym przypadku jeśli A ⊂ B, to A ∩ B = A. Twierdzenie 1.1.9 Prawdopodobieństwo sumy dwóch dowolnych zdarzeń A i B wyraża się wzorem P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Dowód. Sumę zdarzeń A i B możemy zapisać jako sumę trzech zdarzeń wykluczających się A ∪ B = [A \ (A ∩ B)] ∪ (A ∩ B) ∪ [B \ (A ∩ B)]. Zatem na mocy twierdzenia 1.1.2 (z n = 2) otrzymujemy P(A ∪ B) = P(A \ (A ∩ B)) + P(A ∩ B) + P(B \ (A ∩ B)). Ponadto A ∩ B ⊂ A i A ∩ B ⊂ B, więc na mocy twierdzenia 1.1.7 mamy P(A ∪ B) = P(A) − P(A ∩ B)) + P(A ∩ B) + P(B) − P(A ∩ B)), co kończy dowód. Natępne twierdzenie, które podamy bez dowodu jest uogólnieniem twierdzenia 1.1.9. Twierdzenie 1.1.10 Niech A1 , A2 , . . . , An ∈ F będą dowolnymi zdarzeniami wtedy ! n n X X X [ P(Ai ) − P(Ai ∩ Aj ) + P(Ai ∩ Aj ∩ Ak ) P = i=1 i=1 1¬i<j¬n n+1 + · · · + (−1) 1¬i<j<k¬n P(A1 ∩ A2 ∩ · · · ∩ An ). Indukcyjny dowód tego twierdzenia znajduje się między innymi w książce A. Pacuta „Prawdopodobieństwo. Teoria. Modelowanie probabilistyczne w technice”, a dowód przeprowadzony innymi metodami można znaleźć w książce autorstwa J. Jakubowskiego i R. Sztencela „Wstęp do teorii prawdopodobieństwa”. Na tym zakończymy listę najczęściej wykorzystywanych własności miary probabilistycznej. 1.2 Przestrzeń probabilistyczna Z definicji 1.1.1 wynika, że matematyczny model doświadczenia losowego to trójka (Ω, F, P), gdzie P jest miarą probabilistyczną określoną na σ-ciele F podzbiorów zbioru Ω. Trójkę tą nazywać będziemy przestrzenią probabilistyczną. Jeśli więc chcemy zbudować model probabilistyczny pewnej obserwacji, to musimy określić: 12 ROZDZIAŁ 1. PRAWDOPODOBIEŃSTWO I jakie są możliwe wyniki obserwacji, tzn. zbiór zdarzeń elementarnych Ω; I jakie zdarzenia rozważać będziemy, tzn. σ-ciało F zdarzeń losowych; I jakie prawdopodobieństwa przypiszemy rozważanym zdarzeniom, tzn. miarę probabilistyczną P. Wobec tego w zależności od prowadzonych obserwacji możemy budować różne przestrzenie probabilistyczne. W ciągu naszego wykładu omówimy trzy typy przestrzeni probabilistycznych. 1.2.1 Prawdopodobieństwo klasyczne Niech Ω = {ω1 , ω2 , . . . , ωn }, n ∈ N będzie skończonym zbiorem zdarzeń elementarnych oraz niech F będzie zbiorem złożonym ze wszystkich podzbiorów zbioru Ω. Niech ponadto P będzie taką miarą probabilistyczną, że P({ωi }) = p > 0 dla i = 1, 2, . . . , n, tzn. że wszystkie zdarzenia elementarne są jednakowo prawdopodobne. Zauważmy, że F jako zbiór wszystkich podzbiorów zbioru skończonego Ω jest σ-ciałem oraz, że P(Ω) = P({ω1 } ∪ {ω1 } ∪ · · · ∪ {ωn }) = P({ω1 }) + P({ω1 }) + · · · + P({ωn }) = np, co oznacza, że liczba p = n1 jest wyznaczona jednoznacznie. Ponadto jeśli A jest zdarzeniem, to jako podzbiór Ω jest postaci A = {ωi1 , ωi2 . . . , ωim }, gdzie 1 ¬ m ¬ n. Zatem P(B) = P({ωi1 } ∪ {ωi2 } ∪ · · · ∪ {ωin }) = P({ωi1 }) + P({ωi2 }) + · · · + P({ωim }) = mp, co oznacza, że prawdopodobieństwo dowolnego zdarzenia A ∈ F jest określone jednoznacznie. Widzimy więc, że miara P pełnia aksjomaty (A1) i (A2). Zdefiniowaliśmy w ten sposób przestrzeń probabilistyczną, którą nazywa się modelem klasycznym przestrzeni probabilistycznej. Jest to model bardzo użyteczny w sytuacji, gdy potrafimy dobrać taki skończony zbiór Ω, aby założenie o jednakowym prawdopodobieństwie zajścia zdarzeń elementarnych nie było sprzeczne z wiedzą o modelowanym zjawisku. Z naszych rozważań wynika też, że prawdopodobieństwo zdarzenia A ∈ F wynosi m n . Wobec tego możemy napisać P(A) = kAk , kΩk (1.2) gdzie kAk oznacza ilość elementów skończonego zbioru A. Zależność (1.2) była przez wieki uważana za definicję prawdopodobieństwa. Jak łatwo widać według tej definicji prawdopodobieństwo zdarzenia nie zależy od rodzaju zdarzeń elementarnych sprzyjających zajściu danego zdarzenia, ale 1.2. PRZESTRZEŃ PROBABILISTYCZNA 13 od ich ilości. Prowadzi to do wielu paradoksów, które pojawiają się, gdy dla danej obserwacji różnie definiujemy zdarzenia elementarne. Ponadto definicja ta bazuje na tym, że zbiór Ω jest skończony, a tak nie zawsze musi być co widać w poniższych przykładach. Przykład 1.2.1 Doświadczenie polega na zliczaniu za pomocą licznika GeigeraMillera cząstek elementarnych emitowanych przez ciało radioaktywne w przedziale czasu T . Możemy przyjąć, że zdarzeniem elementarnym jest rejestracja konkretnej ilości cząstek, tj. zdarzeniem elementarnym jest ωi =[zarejestrowano i cząstek], i ∈ N ∪ {0}. Wtedy Ω = {ωi : i ∈ N ∪ {0}} jest zbiorem nieskończonym przeliczalnym. Przykład 1.2.2 Doświadczenie polega na badaniu czasu pracy pewnego elementu elektronicznego do jego pierwszej awarii (badanie niezawodnościowe). Możemy przyjąć, że zdarzeniami elementarnymi są zdarzenia postaci ωt =[czas pracy do pierwszej awarii był równy t], t 0. Wtedy Ω = {ωt : t 0} jest zbiorem nieskończonym i nieprzeliczalnym (jako podzbiór zbioru R). 1.2.2 Prawdopodobieństwo geometryczne w R Niech Ω = (a, b), gdzie a, b ∈ R i a < b, tj. zbiór zdarzeń elementarnych jest przedziałem otwartym. Niech F będzie rodziną borelowską podzbiorów przedziału (a, b). Zdefiniujmy P(A) = c(y − x), gdzie A = (x, y), x, y ∈ R oraz x < y. Oczywiście stałą c należy tak dobrać, aby funkcja P była miarą probabilistyczną. Zauważmy, że stałą c możemy wyznaczyć z aksjomatu unormowania. Istotnie h i 1 . 1 = P(Ω) = c(b − a) ⇒ c = b−a Zatem P(A) = y−x a−b jest miarą probabilistyczną spełniającą aksjomat unormowania oraz aksjomat przeliczalnej addytywności. Ostatnie stwierdzenie wynika z faktu, że długość sumy przedziałów rozłącznych jest równa sumie długości tych przedziałów. Tak zdefiniowaną przestrzeń probabilistyczną nazywamy modelem geometrycznym w R, a zdefiniowaną powyżej miarę probabilistyczną - prawdopodobieństwem geometrycznym. Przykład 1.2.3 Emisja elektronu następuje losowo w przedziale czasu (0, T ). Zatem prawdopodobieństwo tego, że emisja nastąpi do chwili T2 wynosi P(A) = T 2 T = 1 , 2 ponieważ badane zdarzenie jest przedziałem (0 T2 ). 14 1.2.3 ROZDZIAŁ 1. PRAWDOPODOBIEŃSTWO Prawdopodobieństwo geometryczne w R2 Niech Ω = (a1 , b1 ) × (a2 , b2 ) i F niech będzie rodziną borelowską podzbiorów Ω. Zbiór Ω możemy interpretować geometrycznie jako prostokąt na płaszczyźnie, natomiast elementy F jako figury geometryczne zawarte w tym prostokącie. Prawdopodobieństwo zdarzenia A zdefiniujmy jako iloraz pola zbioru A i pola zbioru Ω |A| P(A) = . |Ω| Tak zdefiniowana miara spełnia aksjomat unormowania, gdyż P(Ω) = |Ω| |Ω| = 1. Ponadto ponieważ pole sumy rozłącznych zbiorów równe jest sumie pól tych zbiorów, to spełniony jest również aksjomat przeliczalnej addytywności. Tak zdefiniowaną przestrzeń probabilistyczną nazywa się modelem geometrycznym w R2 . W podobny sposób można zdefioniować model geometryczny w R3 definiując miarę probabilistyczną jako stosunek objętości zdarzenia A do objętości zbioru zdarzeń elementarnych Ω, który w tym przypadku będzie prostopadłościanem. Możemy również rozpatrywać bardziej ogólny model geometryczny rozważając jako zbiór zdarzeń elementarnych kostkę z Rn . 1.2.4 Paradoks Bertranda Poniższy przykład jest dobrą ilustracją faktu, że rozwiązanie problemu następuje dopiero po wybraniu przestrzeni probabilistycznej. Niestety rachunek prawdopodobieństwa nie rozstrzyga, jaką przestrzeń probabilistyczną należy wybrać, aby otrzymany model dobrze opisywał rozważane zjawisko losowe. Rachunek prawdopodobieństwa pozwala obliczać jedynie prawdopodobieństwa pewnych zdarzeń, gdy znane są prawdopodobieństwa innych zdarzeń. Przykład 1.2.4 Z okręgu o promieniu 1 wybrano losowo cięciwę. Jakie jest prawdopodobieństwo, że jest ona dłuższa niż bok trójkąta równobocznego wpisanego w ten okrąg? Przez A oznaczmy rozważane zdarzenie losowe. Podamy kilka rozwiązań tego problemu. 1. Długość cięciwy jest jednoznacznie wyznaczona przez kąt wpisany na niej oparty. Przyjmując Ω = (0, 2π > zdarzenie A możemy utożsamić z przedziałem ( 23 π, 43 π). Zatem 4 π − 23 π 1 P(A) = 3 = . 2π 3 2. Długość cięciwy jest jednoznacznie wyznaczona przez jej odległość od średnicy okręgu. Przyjmując Ω =< 0, 1) zdarzenie A utożsamiamy z przedziałem < 0, R2 ). Zatem P(A) = R 2 R = 1 . 2 1.2. PRZESTRZEŃ PROBABILISTYCZNA 15 3. Długość cięciwy jest jednoznacznie wyznaczona przez jej środek. Z geometrii wiadomo, że długość cięciwy przekracza długość boku trójkąta równobocznego, jeśli jej środek leży wewnątrz okręgu wpisanego w ten trójkąt. Zatem P(A) = 1 π 1 pole kola wpisanego = 4 = . pole koła opisanego π 4 We wszystkich przypadkach otrzymaliśmy różne odpowiedzi mimo, że za każdym razem wykrzystywaliśmy prawdopodobieństwo geometryczne. Paradoks ten wynika z faktu, że za każdym razem rozważaliśmy inny zbiór zdarzeń elementarnych, a więc i inną σ-algebrę zdarzeń. 1.2.5 Prawdopodobieństwo warunkowe W modelowaniu probabilistycznym często stawia się pytanie: jakie jest prawdopodobieństwo pewnego zdarzenia losowego, jeśli wiadomo, że zaszło inne zdarzenie losowe. Na przykład: Telewizor uległ uszkodzeniu. Z jakim prawdopodobieństwem można stwierdzić, że uszkodzony element jest tranzystorem, jeśli wiadomo, że tor fonii jest sprawny? Nałożenie dodatkowego warunku powoduje, że musimy zastosować inną miarę probabilistyczną niż przyjętą w zbudowanym modelu probabilistycznym. Zachodzi następujące twierdzenie. Twierdzenie 1.2.5 Niech (Ω, F, P) będzie przestrzenią probabilistyczną, a B ∈ F zdarzeniem o dodatnim prawdopodobieństwie. Wtedy funkcja PB : F →< 0, ∞) zdefiniowana wzorem ^ PB (A) = A∈F P(A ∩ B) P(B) jest miarą probabilistyczną. Dowód. Należy udowodnić, że funkcja PB spełnia aksjomaty (A1) i (A2). Zauważmy, że P(Ω ∩ B) P(B) PB (Ω) = = = 1, P(B) P(B) Co oznacza, że spełniony jest aksjomat unormowania. Niech Ai ∈ F, i = 1, 2, . . . będą parami rozłączne. Wtedy wykorzystując fakt, że P spełnia aksjomat przeliczalnej addytywności, mamy ∞ ∞ T ! P T Ai ∩ B P (A ∩ B) ∞ i \ i=1 i=1 PB Ai = = P(B) P(B) i=1 ∞ P = P(Ai ∩ B) i=1 P(B) = ∞ X i=1 PB (Ai ), 16 ROZDZIAŁ 1. PRAWDOPODOBIEŃSTWO ponieważ Ai ∩ B dla i = 1, 2, . . . są zdarzeniami rozłącznymi jako, że z założenia zdarzenia Ai (i = 1, 2, . . . ) są parami rozłączne. Oznacza to, że miara PB spełnia aksjomat przeliczalnej addytywności. Definicja 1.2.6 Liczbę PB (A) nazywamy prawdopodobieństwem warunkowym zdarzenia A pod warunkiem zdarzenia zajścia B i oznaczamy P(A/B). Miarę probabilistyczną PB wykorzystujemy do obliczania prawdopodobieństwa zajścia zdarzenia A jeśli wiadomo, że wcześniej zaszło zdarzenie B. Należy przy tym zwrócić uwagę, że jeśli wiemy, że zaszło jakieś zdarzenie, to prawdopodobieństwo zajścia innych zdarzeń nie zmienia się. Miara PB służy jedynie do wyznaczania prawdopodobieństw zdarzeń warunkowych. Prawdopodobieństwo warunkowe ma następujące własności: 1. A ⊂ B ⇒ P(A/B) = P(A) P(B) Dowód. Jeśli A ⊂ B, to A ∩ B = A, co kończy dowód. 2. B ⊂ A ⇒ P(A/B) = 1 Dowód. Jeśli B ⊂ A, to A ∩ B = B, co kończy dowód. 3. A ∩ B = ∅ ⇒ P(A/B) = 0 Dowód. Jeśli A ∩ B = ∅, to P(A ∩ B) = 0. Przykład 1.2.7 Wybierzmy jedną rodzinę spośród rodzin z dwojgiem dzieci i obliczmy prawdopodobieństwo tego, że wybraliśmy rodzinę z dwoma chłopcami, jeśli wiadomo, że a) starsze dziecko jest chłopcem, b) w rodzinie jest co najmniej jeden chłopiec. Przyjmijmy oznaczenie c-wybrane dziecko jest chłopcem, d-dziewczynką. Zdefiniujmy zbiór zdarzeń elementarnych w następujący sposób Ω = {(c, c), (d, d), (c, d), (d, c)}, gdzie na pierwszym miejscu w parze znajduje się młodsze dziecko. Wtedy zdarzenie z punktu (a) ma następujące prawdopodobieństwo . P({(c, c)} {(c, c), (d, c)}) = 1 4 1 2 = 1 . 2 Natomiast odpowiedź do punktu (b) może być niespodzianką . P({(c, c)} {(c, c), (d, c), (c, d)}) = 1 4 3 4 = 1 . 3 Z tego przykładu widać, że prawdopodobieństwo warunkowe może mieć zaskakujące własności i trzeba zdawać sobie z tego sprawę. Między innymi zachodzi następujące twierdzenie. 1.2. PRZESTRZEŃ PROBABILISTYCZNA 17 Twierdzenie 1.2.8 P(A/B) > P(A) ⇔ P(B/A) > P(B). Dowód. Zauważmy, że z definicji prwdopodobieństwa warunkowego każda strona dowodzonej równoważności jest równoważna nierówności P(A ∩ B) > P(B)P(A). Zatem muszą one być sobie równoważne (relacja równoważności jest przechodnia). Z twierdzenia tego wynika, że jeśli nierówność P(A/B) > P(A) zinterpretujemy w ten sposób, że zajście zdarzenia B zwiększa szanse zajścia zdarzenia A, to powyższa równoważność oznacza, że zajście zdarzenia B zwiększa szanse zajścia A wtedy i tylko wtedy, gdy zajście zdarzenia A zwiększa szanse zajścia zdarzenia B. Jest to sprzeczne z intuicją wielu osób, które uważają, że jeśli zajście B zwiększa szanse zajścia A, to zajście A zmniejsza szanse zajścia B. Jako natychmniastową konsekwencjąe definicji prawdopodobieństwa warunkowego dostajemy twierdzenie, które mówi jak obliczyć prawdopodobieństwo iloczynu zdarzeń, gdy znane są prawdopodobieństwa warunkowe. Twierdzenie 1.2.9 Jeśli P(A1 ∩ A2 ∩ · · · ∩ An−1 ) > 0, to P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A1 /A2 )P(A3 /A1 ∩ A2 ) . . . P(An /A1 ∩ A2 ∩ · · · ∩ An−1 ). Dowód. Założenie zapewnia, że wszystkie występujące we wzorze prawdopodobieństwa warunkowe są dobrze określone. Wykorzystując definicję prawdopodobieństwa warunkowego otrzymujemy P(A1 )P(A1 /A2 )P(A3 /A1 ∩ A2 ) . . . P(An /A1 ∩ A2 ∩ · · · ∩ An−1 ) = P(A1 ) P(A1 ∩ A2 ∩ · · · ∩ An−1 ∩ An ) P(A1 ∩ A2 ) P(A1 ∩ A2 ∩ A3 ) ... , P(A1 ) P(A1 ∩ A2 ) P(A1 ∩ A2 ∩ · · · ∩ An−1 ) co kończy dowód. Twierdzenie to uzasadnia stosowanie metody tzw. drzewek, którą wykorzystuje się przy rozwiązywaniu wielu zadań (liczby przypisywane gałęziom to są prawdopodobieństwa warunkowe). Prawdopodobieństwo całkowite Jednym z najbardziej użytecznych wzorów związanych z prawdopodobieństwem warunkowym jest wzór na prawdopodobieństwo całkowite. Pozwala on obliczyć prawdopodobieństwo zdarzenia, które może zajść w wyniku realizacji innych zdarzeń w doświadczeniach wieloetapowych. 18 ROZDZIAŁ 1. PRAWDOPODOBIEŃSTWO Definicja 1.2.10 Rodzinę zdarzeń {Ai , i = 1, 2, . . . , n} nazywamy zupełnym układem zdarzeń jeśli V 1. Ai ∩ Aj = ∅, i6=j 2. n S Ai = Ω. i=1 Twierdzenie 1.2.11 Niech w przestrzeni probabilistycznej (Ω, F, P) dany będzie zupełny układ zdarzeń {Ai , i = 1, 2, . . . , n} oraz zdarzenie B. Wtedy P(B) = n X P(B/Ai )P(Ai ). i=1 Dowód. Zauważmy, że zdarzenia Ai ∩ B są rozłączne, bo zdarzenia Ai też są rozłączne. Ponadto ! n [ P(B) = P(B ∩ Ω) = P B ∩ Ai =P n [ i=1 ! (B ∩ Ai ) = i=1 n X P(B ∩ Ai ). i=1 Wykorzystując definicję prawdopodobieństwa warunkowego mamy P(B/Ai ) = P(Ai ∩ B) ⇒ P(Ai ∩ B) = P(B/Ai )P(Ai ), P(Ai ) co kończy dowód. Zupełny układ zdarzeń można traktować jako zbiór możliwych przyczyn zajścia zdarzenia B (skutku). Prawdopodobieństwo P(B/Ai ) jest więc prawdopodobieństwem skutku pod warunkiem przyczyny. Z powyższego twierdzenia wynika, że prawdopodobieństwo skutku jest sumą ważoną prawdopodobieństw warunkowych skutku pod warunkiem przyczyn, przy czym wagami są prawdopodobieństwa przyczyn, tzw. prawdopodobieństwa a priori. Czasami jednak potrzebne jest nam prawdopodobieństwo przyczyny pod warunkiem zajścia skutku. Poniższe twierdzenie podaje wzór na takie prawdopodobieństwo. Twierdzenie 1.2.12 Bayesa Niech w przestrzeni probabilistycznej (Ω, F, P) dany będzie zupełny układ zdarzeń niezerowych {Ai , i = 1, 2, . . . , n} oraz niezerowe zdarzenie B. Wtedy P(B/Ai )P(Ai ) P(Ai /B) = Pn . j=1 P(B/Aj )P(Aj ) i=1,2,...,n ^ 1.3. NIEZALEŻNOŚĆ ZDARZEŃ 19 Dowód. Zauważmy, że ze wzoru na prawdopodobieństwo warunkowe mamy P(Ai /B) = P(Ai ∩ B) P(B) P(B/Ai ) = P(Ai ∩ B) . P(Ai ) oraz Z drugiego wzoru wynika, że P(Ai ∩ B) = P(B/Ai )P(Ai ). Wykorzystując wzór na prawdopodobieństwo całkowite otrzymamy żadaną równość. 1.3 Niezależność zdarzeń Termin niezależność kojarzy się z identycznym słowem używanym potocznie. Zdefiniowaną w tym rozdziale niezależność nazywa się niezależnością stochastyczną. Różnicę pomiędzy tym pojęciem, a używanym potocznie omówimy krótko na końcu tego rozdziału. Definicja 1.3.1 Zdarzenie A ∈ F jest niezależne od zdarzenia B ∈ F gdy albo P(B) > 0 ∧ P(A/B) = P(A), albo P(B) = 0. Jeśli P(B) > 0 ∧ P(A/B) 6= P(A), to mówimy, że zdarzenie A jest zależne od zdarzenia B. Twierdzenie 1.3.2 Jeżeli zdarzenie A jest niezależne od zdarzenia B, to zdarzenie B jest niezależne od zdarzenia A. Dowód. Jeśli P(A) = 0, to twierdzenie wynika bezpośrednio z definicji niezależności. Niech więc P(A) > 0. Wtedy na mocy twierdzenia 1.2.9 jeśli tylko P(B) > 0, to mamy P(B ∩ A) = P(A)P(B/A). Ale z założenia (A jest niezależne od B) wynika, że P(A/B) = P(A) zatem P(B ∩ A) = P(B)P(A). Stąd otrzymujemy P(A)P(B/A) = P(A)P(B). 20 ROZDZIAŁ 1. PRAWDOPODOBIEŃSTWO Dzieląc obustronnie powyższą równość przez P(A) otrzymujemy P(B/A) = P(B), co oznacza, że B jest niezależne od A. Z powyższego twierdzenia wynika, że własność niezależności jest „wzajemna”. Zatem jeśli zdarzenie A jest niezależne od B, to będziemy mówić, że zdarzenia A i B są niezależne. W badaniu niezależności zdarzeń bardziej praktyczne jest następujące twierdzenie. Twierdzenie 1.3.3 Zdarzenia A i B są niezależne wtedy i tylko wtedy, gdy P(A ∩ B) = P(A)P(B). Jak widzimy twierdzenie to podaje warunek konieczny i dostateczny niezależności dwóch zdarzeń. Dowód. Załóżmy najpierw, że P(A) > 0 i P(B) > 0 oraz że zdarzenie A jest niezależne od B. Wówczas P(A/B) = P(A), a zatem P(A ∩ B) = P(A)P(A/B) = P(A)P(B). Wtedy na mocy twierdzenia 1.3.2 zdarzenie B jest niezależne od A, tzn. P(B/A) = P(B). Wobec tego P(A ∩ B) = P(B)P(B/A) = P(B)P(A). Zatem udowodniliśmy warunek konieczny. Załóżmy teraz, że P(A ∩ B) = P(A)P(B) i porównajmy ten wzór ze wzorem P(A ∩ B) = P(B)P(A/B). Mamy wówczas P(A/B) = P(A), co oznacza, że zdarzenie A jest niezależne od B, a na mocy twierdzenia 1.3.2 również zdarzenie B jest niezależne od A. Rozpatrzmy teraz przypadek, gdy P(A) = 0. Wtedy z uwagi na to, że A ∩ B ⊂ A mamy P(A ∩ B) ¬ P(A). Zatem P(A ∩ B) = 0, a stąd wynika, że P(A ∩ B) = P(A)P(B). Analogicznie w przypadku gdy P(B) = 0. Wobec tego zdarzenia A i B są niezależne. Niezależność można zdefiniować nie tylko między dwoma zdarzeniami, ale i między większą ich ilością, mówimy wówczas o tak zwanej niezależności zespołowej lub wzajemnej. Poniższe twierdzenie podaje warunek konieczny i dostateczny wzajemnej niezależności. Twierdzenie 1.3.4 Zdarzenia A1 , A2 , . . . , An są wzajemnie niezależne wtedy i tylko wtedy, gdy P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 ) . . . P(An ). 1.3. NIEZALEŻNOŚĆ ZDARZEŃ 21 Potocznie rozumiane pojęcie niezależności jest znacznie szersze niż pojęcie niezależności stochastycznej. Jeżeli nasze rozważnia ograniczymy tylko do sytuacji doświadczalnych opisywanych modelami probabilistycznymi, to możemy wyróżnić następujące typy zależności: 1) zależność jednokierunkowa: jedno ze zdarzeń jest przyczyną, a drugie skutkiem i zajście przyczyny wywiera określony wpływ na zajście skutku, 2) zależność dwukierunkowa: zdarzenia wzajemnie wpływają na siebie, 3) zależność pośrednia: zdarzenia nie wpływają na siebie bezpośrednio, ale istnieje zdarzenie, które ma na nie wpływ. W modelach probabilistycznych wszystkie te sytuacje doświadczalne modelujemy zakładając, że modelowane zdarzenia są zależne stochastycznie. Jeśli więc dwa zdarzenia są stochastycznie zależne, to może zachodzić każdy z powyższych typów zależności, a jeśli są stochastycznie niezależne, to nie są zależne w żaden z powyższych sposobów. Zatem jeśli chcemy założyć , że dwa modelowane zdarzenia są niezależne, to musimy sprawdzić, czy nie są one zależne w żaden z powyższych sposobów. Musimy również zdawać sobie sprawę z tego, że intuicja mówiąca czy zdarzenia są niezależne, może nas zawodzić o czym świadczy następujący przykład. Przykład 1.3.5 Załóżmy, że pewne urządzenie jest dwa razy poddawane kontroli jakości. Wynikiem kontroli może być jedno ze zdarzeń: S=[urządenie jest sprawne], N =[urządzenie jest niesprawne]. Załóżmy ponadto, że obie kontrole działają niezależnie jedna od drugiej, i że druga z nich z prawdopodobieństwem 0,5 zalicza urządzenie do niesprawnych. Rozważmy dwa zdarzenia: A=[pierwsza kontrola zaliczyła urządzenie do sprawnych], B=[obie kontrole stwierdziły to samo ]. Niech ω1 oznacza wynik pierwszej kontroli, a ω2 wynik- drugiej. Wtedy Ω = {(ω1 , ω2 ) : ω1 , ω2 ∈ {N, S}} = {(S, S), (S, N ), (N, S), (N, N )}. Przez p oznaczmy prawdopodobieństwo tego, że pierwsza kontrola zaliczyła urządzenie do sprawnych. Ponieważ założyliśmy, że kontrole są niezależne, więc P({(S, S)}) = 0, 5p, P({(S, N )}) = 0, 5p, P({(N, S)}) = 0, 5(1 − p), P({(N, N )}) = 0, 5(1 − p). Ponadto A = {(S, S), (S, N )}, B = {(S, S), (N, N )}, A ∩ B = {(S, S)}, oraz P(A) = p, P(B) = 0, 5, P(A ∩ B) = 0, 5p. Zatem P(A ∩ B) = P(A)P(B), a to jest raczej sprzeczne z intuicją. 22 ROZDZIAŁ 1. PRAWDOPODOBIEŃSTWO Własności zdarzeń niezależnych 1. Zdarzenie zerowe i dowolne zdarzenie A są niezależne. Dowód. Niech P(B) = 0. Zauważmy, że A ∩ B ⊂ B. Zatem 0 ¬ P(A ∩ B) ¬ P(B) = 0 co oznacza, że P(A ∩ B) = 0. Ponadto P(A)P(B) = 0. Wobec tego zdarzenia są niezależne. 2. Zdarzenie prawie pewne i dowolne zdarzenie A są niezależne. Dowód. Niech P(B) = 1. Zauważmy, że wtedy P(A ∩ B) = P(A). Ponadto P(A)P(B) = P(A). Zatem zdarzenia są niezależne. 3. Zdarzenia A i Ω są niezależne Dowód. Istotnie P(A ∩ Ω) = P(A) = P(A)P(Ω), bo P(Ω) = 1. 3. Zdarzenia A i ∅ są niezależne Dowód. Istotnie P(A∩∅) = P(∅) = 0. Z drugiej strony mamy P(A)P(∅) = 0. 4. Jeśli zdarzenia A i B są niezależne, to również zdarzenia A i B, A i B, A i B są niezależne Dowód. Na ćwiczeniach. Zauważmy jeszcze, że relacja niezależności nie jest przechodnia, tzn. jeśli zdarzenia A i B są niezależne i zdarzenia B i C są niezależne, to, zdarzenia A i C nie muszą być niezależne, o czym świadczy poniższy przykład. Przykład 1.3.6 Niech Ω = {ω1 , ω2 , ω3 , ω4 } i niech P({ωi }) = i = 1, 2, 3, 4. Rozważmy zdarzenia A = {ω1 , ω2 }, B = {ω2 , ω3 }, 1 4 dla każdego C = {ω3 , ω4 }. Zauważmy, że A ∩ B = {ω2 }, B ∩ C = {ω3 }, A ∩ C = ∅. Ponadto P(A) = P({ω1 }) + P({ω2 }) = 1 2 i analogicznie P(B) = 12 , P(C) = 12 . Zatem P(A ∩ B) = 1 = P(A)P(B), 4 P(B ∩ C) = 1 = P(B)P(C), 4 co oznacza, że zdarzenia A i B oraz B i C są niezależne. Ale P(A ∩ C) = 0, i P(A)P(C) = co oznacza, że zdarzenia A i C są zależne. 1 , 4 1.4. KLASYCZNE SCHEMATY RACHUNKU PRAWDOPODOBIEŃSTWA23 1.4 Klasyczne schematy rachunku prawdopodobieństwa W paragrafie tym omówione będą trzy klasyczne modele probabilistyczne mające proste interpretacje urnowe i liczne zastosowania. Schemat Bernoulliego Schematem Bernoulliego nazywamy ciąg niezależnych powtórzeń tego samego doświadczenia o dwu możliwych wynikach, które nazywamy porażką i sukcesem. Kolejne powtórzenie doświadczenia nazywamy próbą Bernoulliego. Twierdzenie 1.4.1 Prawdopodobieństwo zajścia dokładnie k sukcesów w schemacie Bernoulliego n prób z prawdopodobieństwem sukcesu w pojedynczej próbie p wynosi n k Pn (k) = p (1 − p)n−k . k Dowód. Oznaczmy zdarzenie polegające na tym, że wynikiem doświadczenia jest sukces przez S. Wtedy prawdopodobieństwo uzyskania k sukcesów w n próbach równe jest . . . P(S)P(S)P(S) . . . P(S), P(S | · S{z. . . S}) = P(S)P(S) | · S{z. . . S} · S | {z }| {z } k n−k k n−k ponieważ zdarzenia są niezależne. W związku z tym, że kolejność występowania sukcesów i porażek jest obojętna, każdy układ zawierający k sukcesów i n − k porażek sprzyja zajściu rozważanego przez nas zdarzenia. Wszystkich takich układów jest tyle ile jest k elementowych kombinacji bez powtórzeń ze zbioru n elementowego. Wobec tego ostatecznie n k Pn (k) = p (1 − p)n−k . k Schemat Poissona Rozważając schemat Bernoulliego możemy postawić sobie pytanie czy w przypadku bardzo dużej liczby doświadczeń n istnieje mniej żmudny sposób obliczania prawdopodobieństw Pn (k)? Odpowiedź podaje następujące twierdzenie Twierdzenie 1.4.2 Jeśli przeprowadzimy ciąg serii doświadczeń według schematu Bernoulliego, tak że liczba doświadczeń w poszczególnych seriach n wzrasta do nieskończoności i prawdopodobieństwo sukcesu dąży do zera w taki sposób, że iloczyn np jest wielkością stałą, skończoną i równą λ, to lim Pn (k) = n→∞ e−λ λk . k! 24 ROZDZIAŁ 1. PRAWDOPODOBIEŃSTWO Powyższy wzór nazywa się wzorem Poissona. Dowód. Ponieważ z założeń twierdzenia wynika, że p = n! Pn (k) = k!(n − k)! λ n, to k n−k λ λ 1− n n n−k λk (n − k + 1)(n − k + 2) . . . n λ 1 − k! nk n n−k k λ k−1 k−2 1 λ = 1− 1− ... 1 − 1− . k! n n n n = Z uwagi na istnienie następujących granic k−1 k−2 1 lim 1 − 1− ... 1 − = 1, n→∞ n n n lim n→∞ 1− λ n n−k = lim n→∞ 1− λ n n 1− λ n −k = e−λ , otrzymujemy tezę naszego twierdzenia. Z powyższego twierdzenia wynika, że jeśli liczba przeprowadzonych doświadczeń n jest dostatecznie duża, a prawdopodobieństwo sukcesu p tak małe, że iloczyn np jest liczbą małą, to możemy obliczyć Pn (k) jedynie z pewnym przybliżeniem. Okazuje się, że błąd jaki popełniamy w tym przypadku jest rzędu λ2 /n i jest on tym mniejszy im mniejsza jest wartość λ i większa liczba doświadczeń n. Wiekszość wartości prawdopodobieństwa Pn (k) obliczanych ze wzoru Poissona jest stablicowanych. Schemat Pascala Schemat Pascala jest zmodyfikowanym schematem Bernoulliego. W schemacie Bernoulliego wyznacza się prawdopodobieństwo otrzymania wśród ustalonej liczby doświadczeń k sukcesów w dowolnej kolejności, natomiast w schemacie Pascala oblicza się prawdopodobieństwo, że liczba doświadczeń w schemacie Bernoulliego wynosi n, przy założeniu, że próby przeprowadza się aż do uzyskania z góry ustalonej liczby sukcesów. Twierdzenie 1.4.3 Jeśli przeprowadzamy doświadczenia według schematu Bernoulliego ze stałym prawdopodobieństwem sukcesu w pojedynczej próbie p aż do uzyskania k sukcesów, to prawdopodobieństwo tego, że liczba doświadczeń wynosi n wyraża się wzorem n−1 k P(n, k) = p (1 − p)n−k , n k 1. k−1 Dowód. Przez A oznaczmy zdarzenie polegające na tym, że liczba doświadczeń do momentu uzyskania k sukcesów wyniesie n. Przez A1 oznaczmy zdarzenie polegające na tym, że w dowolnej kolejności otrzymamy k − 1 sukcesów w n − 1 1.4. KLASYCZNE SCHEMATY RACHUNKU PRAWDOPODOBIEŃSTWA25 próbach, a przez A2 oznaczmy zdarzenie polegające na otrzymaniu sukcesu w n-tym doświadczeniu. Wtedy A = A1 ∩ A2 . Ponadto zdarzenia A1 i A2 są niezależne oraz n − 1 k−1 P(A1 ) = p (1 − p)n−k , P(A2 ) = p. k−1 Z tych faktów wynika dowodzony wzór. Zauważmy na koniec, że prawdopodobieństwo uzyskania pierwszego sukcesu w n próbach wynosi P1 (n) = p(1 − p)n−1 . Wzór ten pojawi się w dalszej części wykładu. 26 ROZDZIAŁ 1. PRAWDOPODOBIEŃSTWO Rozdział 2 Zmienna losowa Wyniki każdego doświadczenia można, w zależności od potrzeb, powiązać z pewnymi wartościami liczbowymi. Na przykład liczba oczek przy rzucie kostką, czas oczekiwania na autobus, wypłata w grze losowej, itp. Istnieje zatem potrzeba rozważania funkcji określonych na przestrzeni zdarzeń elementarnych o wartościach liczbowych. Przypisywanie zdarzeniom wartości liczbowych zależy od subiektywnych ocen i potrzeb, dlatego też w jednym doświadczeniu mogą pojawić się różne odwzorowania przypisujące wynikowi doświadczenia liczbę. Na przykład: każdy z graczy na giełdzie papierów wartościowych ma inny zestaw akcji, więc i zysk każdego z nich jest inny. Ponadto, jak przekonamy się w dalszej części wykładu, pewne charakterystyki liczbowe funkcji przypisujących zdarzeniom liczby pozwalają w prosty i szybki sposób formułować wnioski dotyczące opisywanego doświadczenia. Niech więc dana będzie przestrzeń probabilistyczna (Ω, F, P). Definicja 2.0.4 Funkcję X : Ω → Rn określoną na zbiorze zdarzeń elementarnych i o warościach w Rn nazywamy zmienną losową jeśli zbiór {ω ∈ Ω : X(ω) ∈ B} jest zdarzeniem dla każdego zbioru borelowskiego B. Możemy zatem powiedzieć, że funkcja X : Ω → Rn jest zmienną losową jeśli spełniony jest warunek ^ {ω ∈ Ω : X(ω) ∈ B} ∈ F (2.1) B zwany warunkiem mierzalności. Sens tego warunku będzie bardziej jasny, gdy określimy rozkład zmiennej losowej. Niestety warunek mierzalności jest słaby z punktu widzenia zastosowań. Najczęściej zakłada się że każda funkcja określona na zbiorze zdarzeń elementarnych o wartościach liczbowych, pojawiająca się w praktyce jest zmienną losową. 27 28 ROZDZIAŁ 2. ZMIENNA LOSOWA Warunek mierzalności oznacza również, że funkcja X : Ω → Rn jest zmienną losową jeśli przeciwobraz każdego podzbioru borelowskiego zbioru Rn jest zdarzeniem losowym. Zmienną losową o wartościach w R nazywa się jednowymiarową, o wartościach w R2 nazywa się dwuwymiarową, itd. Wartość X(ω) jaką zmienna losowa przyjmuje dla danego zdarzenia ω nazywa się realizacją zmiennej losowej odpowiadającą zdarzeniu elementarnemu ω. Zatem realizacje jednowymiarowej zmiennej losowej są liczbami rzeczywistymi, realizacje dwuwymiarowej zmiennej losowej są uporządkowanymi parami liczbowymi, tj. dwuwymiarowymi wektorami. Oznaczmy przez FX rodzinę zbiorów {ω ∈ Ω : X(ω) ∈ B}, gdzie B jest zbiorem borelowskim. Rodzinę FX nazywa się indukowaną przez zmienną losową X. Zatem warunek mierzalności (2.1) można krótko zapisać w postaci FX ⊂ F. Wobec tego sens tego warunku jest następujący: badając przestrzeń probabilistyczną (Ω, F, P) tylko poprzez obserwacje zmiennej losowej X określonej w tej przestrzeni nie otrzymujemy informacji o wszystkich zdarzeniach z σ-ciała F, ale tylko o tych, które „widzi” zmienna X, tj. o elementach rodziny FX . Można wykazać, że FX jest σ-ciałem zdarzeń. Rozważając wielowymiarową zmienną losową X : Ω → Rn , n > 1, rozważamy wektor X(ω) = [X1 (ω), X2 (ω), . . . , Xn (ω)], którego współrzędne są funkcjami Xi : Ω → R, i = 1, 2, . . . , n spełniającymi warunek mierzalności (2.1), a zatem są jednowymiarowymi zmiennymi losowymi, które nazywa się składowymi zmiennej X. Często postępuje się również odwrotnie tzn. mając n jednowymiarowych zmiennych losowych X1 , X2 ,..., Xn definiujemy funkcję X : Ω → Rn zależnością ^ X(ω) = [X1 (ω, X2 (ω), . . . , Xn (ω)]. ω∈Ω Można dowieść, że tak skonstruowana funkcja jest n-wymiarową zmienną losową. 2.1 Rozkład zmiennej losowej Niech X : Ω → Rn będzie zmienną losową określoną na przestrzeni probabilistycznej (Ω, F, P). Z definicji zmiennej losowej wynika, że jeśli B jest zbiorem borelowskim, to zbiór {ω : X(ω) ∈ B} jest zdarzeniem losowym należącym do F. Możemy zatem wyznaczyć prawdopodobieństwo tego zdarzenia. Oznacza to, że określone jest prawdopodobieństwo zdarzenia, że zmienna X przyjmie wartość ze zbioru borelowskiego B. Twierdzenie 2.1.1 Funkcja PX określona wzorem PX (B) = P({ω : X(ω) ∈ B}) jest miarą probabilistyczną określoną na Rn . 2.1. ROZKŁAD ZMIENNEJ LOSOWEJ 29 Dowód. Należy sprawdzić, czy spełnione są aksjomaty (A1) i (A2). Zauważmy, że PX (Rn ) = P({ω : X(ω) ∈ Rn }) = P(Ω) = 1. Zatem spełniony jest aksjomat unormowania. Aby wykazać, że zachodzi aksjomat przeliczalnej addytywności wybierzmy rozłączne podzbiory borelowskie B1 , B2 , . . . , Bn zbioru Rn . Mamy wówczas wykorzystując własności przeciwobrazu ! ! ! n n n [ [ [ PX Bi = P {ω : X(ω) ∈ Bi } = P {ω : X(ω) ∈ Bi } i=1 i=1 = n X i=1 P({ω : X(ω) ∈ Bi }) = i=1 n X PX (Bi ). i=1 Definicja 2.1.2 Miarę probabilisyczną PX określoną wzorem PX (B) = P({ω : X(ω) ∈ B}) nazywamy rozkładem prwdopodobieństwa zmiennej losowej X. Podamy teraz następujące twierdzenie bez dowodu. Twierdzenie 2.1.3 Jeśli funkcja P jest miarą probabilistyczną, to jest rozkładem pewnej zmiennej losowej. Sens tego twierdzenia jest następujący: każda miara probabilistyczna jest rozkładem jakiejś zmiennej losowej. Nie znaczy to oczywiście, że dana miara probabilistyczna jest rozkładem dokładnie jednej zmiennej losowej. Wręcz przeciwnie łatwo jest skonstruować przykłady zmiennych losowych, których rozkłady są identyczne (przykłady na ćwiczeniach). Będziemy dalej używać terminu rozkład prawdopodobieństwa bez konkretyzowania zmiennej losowej i przestrzeni, na której jest ona zdefiniowana. Powyższe twierdzenie gwarantuje nam, że każdy rozkład prawdopodobieństwa jest rozkładem pewnej zmiennej losowej określonej na pewnej przestrzeni probabilistycznej. Będziemy wówczas mówić, że zmienna losowa X ma rozkład P i pisać X ∼ P. Definicja 2.1.4 Trójkę (Rn , B n , PX ), gdzie B n jest rodziną wszystkich podzbiorów borelowskich zbioru Rn , a PX jest rozkładem zmiennej losowej X określonej na przestrzeni (Ω, F, P), nazywa się przestrzenią realizacji zmiennej losowej X. Łatwo sprawdzić, że przestrzeń realizacji zmiennej losowej jest przestrzenią probabilistyczną. Ponadto ma ona znacznie prostszą strukturę niż przestrzeń probabilistyczna (Ω, F, P) w tym sensie, że zbiór Rn jest mniej skomplikowany niż zbiór zdarzeń elementarnych. Zwykle w wielu zastosowaniach analizuje się raczej przestrzeń realizacji zmiennej losowej, gdyż łatwiej jest opisywać obserwacje zjawisk losowych za pomocą wartości liczbowych. 30 ROZDZIAŁ 2. ZMIENNA LOSOWA Należy w tym miejscu podkreślić, że znajomość przestrzeni probabilistycznej (Ω, F, P) i przestrzeni realizacji zmiennej losowej (Rn , B n , PX ) nie jest wystarczająca do odtworzenia tej zmiennej, gdyż różne zmienne losowe mogą mieć ten sam rozkład, a tym samym tą samą przestrzeń realizacji. Znając przestrzeń realizacji zmiennej losowej nie jesteśmy w stanie badać jej własności analitycznych takich jak na przykład wykres. Jednakże zastosowania probabilistyczne koncentrują się wokół własności zmiennej losowej wyrażonych przez jej rozkład. 2.2 Rozkłady brzegowe Niech X : Ω → Rn będzie zmienną losową. Czasami nasze zainteresowania koncentrują się wokół zmiennej losowej , której składowe są tylko niektórymi składowymi zmiennej X. Definicja 2.2.1 Rozkład m-wymiarowej zmiennej losowej, gdzie m < n, której składowe są równe tylko pewnym składowym zmiennej n-wymiarowej X nazywa się rozkładem brzegowym. Wtedy rozkład zmiennej losowej X nazywa się rozkładem łącznym jej składowych. W ogólnym przypadku nie jest możliwe odtworzenie rozkładu łącznego z rozkładów brzegowych. Jednakże rozkład łączny zawsze wyznacza jednoznacznie rozkłady brzegowe. 2.3 Dystrybuanta Posługiwanie się rozkładem zmiennej losowej może być w wielu przypadkach dość kłopotliwe, gdyż jest on funkcją, której argumentami są zbiory. Okazuje się, że znajomość rozkładu dla n-wymiarowych kostek, będących iloczynem kartezjańskim przedziałów postaci (−∞, x >, x ∈ R pozwala określić rozkład dla dowolnych zbiorów borelowskich. W dalszej części zajmiemy się tym zagadnieniem. Oznaczmy przez (−∞, x >, gdzie x = (x1 , x2 , . . . , xn ), n-wymiarową kostkę będącą iloczynem kartezjańskim przedziałów (−∞, xi >, i = 1, 2, . . . , n. Niech P będzie rozkładem prawdopodobieństwa zmiennej losowej X określonej na przestrzeni probabilistycznej (Ω, F, P).. Definicja 2.3.1 Funkcję F : Rn →< 0, 1 > określoną wzorem F (x) = P({ω ∈ Ω : X(ω) ∈ (−∞, x)}) nazywamy dystrybuantą zmiennej losowej X. Czasami będziemy pisać FX dla podkreślenia, że FX jest dystrubantą zmiennej losowej X. Powyższy wzór należy rozumieć w następujący sposób FX (x) = FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = P({ω ∈ Ω : X1 (ω) ∈ (−∞, x1 ), X2 (ω) ∈ (−∞, x2 ), . . . , Xn (ω) ∈ (−∞, xn )}) = P(X1 < x1 , X2 < x2 , . . . , Xn < xn ). 2.3. DYSTRYBUANTA 31 W przypadku jednowymiarowym dystrybuanta FX : R →< 0, 1 > jest funkcją rzeczywistą jednej zmiennej określoną wzorem FX (x) = P(X < x), a w przypadku dwuwymiarowym dystrybuanta FX,Y : R2 →< 0, 1 > jest funkcją rzeczywistą dwóch zmiennych określoną wzorem FX,Y (x, y) = P(X < x, Y < y). Zauważmy, że dystrybuanta n-wymiarowej zmiennej losowej jest funkcją rzeczywistą n zmiennych rzeczywistych. Podamy teraz pewne własności dystrybuanty. Własności dystrybuanty D1. Dystrybuanta jest funkcją lewostronnie ciągłą. D2. Dystrybuanta jest niemalejąca względem każdego argumentu. D3. Jeśli przynajmniej jeden z argumentów dąży do −∞, to lim F (x) = 0, a jeśli przynajmniej jeden z argumentów dąży do +∞, to lim F (x) = 1. Własności te są nie tylko konieczne, ale są również wystarczjące na to, aby funkcja F była dystrybuantą, co podamy w następującym twierdzeniu. Twierdzenie 2.3.2 Jeżel funkcja F : Rn →< 0, 1 > spełnia warunki (D1)(D3), to jest dystrybuantą pewnego rozkładu. Definicja 2.3.3 Dystrybuanty m-wymiarowych rozkładów brzegowych nazywamy dystrybuantami brzegowymi, wówczas dystrybuantę rozkładu łącznego nazywamy dystrybuantą łączną. Tak jak w przypadku ogólnym nie można jednoznacznie wyznaczyć rozkładu łącznego na podstawie rozkładów brzegowych, tak nie można wyznaczyć łącznej dystrybuanty na podstawie dystrybuant brzegowych. Sformułujemy teraz twierdzenie mówiące, że na podstawie dystrybuanty można jednoznacznie wyznaczyć rozkład prawdopodobieństwa. Twierdzenie 2.3.4 Rozkład n-wymiarowej zmiennej losowej X jest jednoznacznie określony przez dystrybuantę tej zmiennej, tzn. jeśli znana jest dystrybuanta FX , to dla każdego zbioru borelowskiego B można obliczyć prawdopodobieństwo PX (B) = P(X ∈ B). Twierdzenie to mówi, że dystrybuanta niesie całą informację o rozkładzie prawdopodobieństwa zmiennej losowej. Niestety nie wynika z niego jak taki rozkład wyznaczyć. Zauważmy, że w przypadku jednowymiarowej zmiennej losowej z własności dystrybuanty i miary probabilistycznej wynika, że dla dowolnych stałych a i b mamy 32 ROZDZIAŁ 2. ZMIENNA LOSOWA 1. P(X < a) = FX (a), 2. P(X ¬ a) = lim FX (x), x→a+ 3. P(X a) = 1 − FX (a), 4. P(X > a) = 1 − lim FX (x), x→a+ 5. P(a ¬ X < b) = FX (b) − FX (a), 6. P(a ¬ X ¬ b) = lim FX (x) − FX (a), x→b+ 7. P(a < X < b) = FX (b) − lim FX (x), x→a+ 8. P(a < X ¬ b) = lim FX (x) − lim FX (x), x→b+ x→a+ 9. P(X = a) = lim FX (x) − FX (a). x→a+ Na podstawie powyższych własności można wyznaczyć rozkład jednowymiarowej zmiennej losowej o dystrybuancie FX . Wyprowadzając analogiczne własności dla wielowymiarowej zmiennej losowej możemy wyznaczyć jej rozkład na podstawie znanej dystrybuanty. Dowód własności 5. Zauważmy, że dla a < b zdarzenie {ω : X(ω) < a} sprzyja zajściu zdarzenia {ω : X(ω) < b}. Zatem P(a ¬ X < b) = P((X < b) \ (X < a)) = P(X < b) − P(X < a) = FX (b) − FX (a). Dowód własności 9. Niech (xn ) będzie malejącym do zera ciągiem liczb rzeczywistych. Wtedy P(X = a) = lim P(a ¬ X < a + xn ) n→∞ = lim (FX (a + xn ) − FX (a)) = lim FX (x) − FX (a). n→∞ x→a+ Dowód własności 2. Zauważmy, że P(X a) = 1 − P(X < a) = 1 − FX (a). Dowód własności 4. Z powyższego wynika, że P(X > a) = P(X a) − P(X = a) = 1 − FX (a) − ( lim FX (x) − FX (a)) = 1 − lim FX (x). x→a+ Pozostałe własności dowodzi się w analogiczny sposób. x→a+ 2.4. NIEZALEŻNOŚĆ ZMIENNYCH LOSOWYCH 2.4 33 Niezależność zmiennych losowych Pojęcie niezależności zmiennych losowych związane jest z niezależnością zdarzeń. Zdefiniujemy je najpierw dla jednowymiarowych zmiennych losowych. Niech Xi : Ω → R, i = 1, 2, . . . , n będą zmiennymi losowymi określonymi na tej samej przestrzeni probabilistycznej (Ω, F, P). Niech FX = FX1 ,X2 ,...,Xn oznacza łączną dystrybuantę tych zmiennych, a FXi dystrybuanty jednowymiarowych rozkładów brzegowych. Definicja 2.4.1 Powiemy, że zmienne losowe X1 , X2 , . . . , Xn są niezależne, jeśli dla dowolnych x1 , x2 , . . . , xn ∈ R zdarzenia {X1 < x1 }, {X2 < x2 }, ... {Xn < xn } są niezależne. W przeciwnym przypadku zmienne X1 , X2 , . . . , Xn nazywamy zależnymi. Poniższe twierdzenie podaje warunki konieczne i dostateczne niezależności zmiennych losowych. Twierdzenie 2.4.2 Zmienne losowe X1 , X2 , . . . , Xn są niezależne wtedy i tylko wtedy, gdy (i) dla dowolnych x1 , x2 , . . . , xn ∈ R mamy FX (x1 , x2 , . . . , xn ) = FX1 (x1 )FX2 (x2 ) . . . FXn (xn ), (ii) dla dowolnych zbiorów borelowskich B1 , B2 , . . . , Bn zdarzenia {X1 ∈ B1 }, {X1 ∈ B1 }, ... {Xn ∈ Bn } są niezależne, Dowód. Jeśli zmienne losowe są niezależne, to FX (x1 , x2 , . . . , xn ) = P(X1 < x1 , X2 < x2 , . . . , Xn < xn ) = P({X1 < x1 } ∩ {X2 < x2 } ∩ · · · ∩ {Xn < xn }) = P(X1 < x1 )P(X2 < x2 ) . . . P(Xn < xn ) = FX1 (x1 )FX2 (x2 ) . . . FXn (xn ). Zatem warunek (i) zachodzi. Jeśli warunek (i) zachodzi to na mocy definicji dystrybuanty otrzymamy poprzez analogiczne przekształcenia niezależność zmiennych losowych. Równoważność warunków (i) i (ii) wynika z faktu, że każdy zbiór borelowski można zapisać jako iloczyn przedziałow postaci (−∞, x > i ich dopełnień. Z warunku (ii) wynika, że jeśli zmienne losowe X1 , X2 , . . . , XN są niezależne, to dla dowolnych x1 , x2 , . . . , xn ∈ R P(X1 = x1 , X2 = x2 , . . . , Xn = xn ) = P(X1 = x1 )P(X2 = x2 ) . . . P(Xn = xn ) 34 ROZDZIAŁ 2. ZMIENNA LOSOWA i na odwrót. Pojęce niezależności uogólnia się na wielowymiarowe zmienne losowe w następujący sposób. Definicja 2.4.3 Niech Xi : Ω → Rni , i = 1, 2, . . . , m będą zmiennymi losowymi określonymi na przestrzeni probabilistycznej (Ω, F, P). Mówimy, ze zmienne losowe X1 , X2 , . . . , Xm są niezależne, jeśli dla dowolnych x1 ∈ Rn1 , x2 ∈ Rn2 ,..., xm ∈ Rnm niezleżne są zdarzenia {X1 < x1 }, 2.5 {X2 < x2 }, ... {Xm < xm }. Jednowymiarowe zmienne losowe Niech X będzie jednowymiarową zmienną losową określoną na przestrzeni probabilistycznej (Ω, F, P) o rozkładzie prawdopodobieństwa PX . 2.5.1 Zmienne skokowe W paragrafie tym podamy pewne własności zmiennych losowych, która mogą przyjmować przeliczalną lub skończoną ilość wartości z dodatnimi prawdopodobieństwami. W tym celu zdefiniujemy następujące pojęcia Definicja 2.5.1 Punkt x ∈ R nazywamy punktem skokowym zmiennej losowej X, jeśli PX ({x}) = P({ω : X(ω) = x}) = p > 0. Liczbę p nazywamy wówczas skokiem w punkcie x. Zbiór wszystkich punktów skokowych zmiennej losowej X oznaczać będziemy przez SX . Twierdzenie 2.5.2 Punkt x0 ∈ R jest punktem skokowym zmiennej losowej X wtedy i tylko wtedy, gdy dystrybuanta F tej zmiennej jest nieciągła w punkcie x0 . Dowód. Twierdzenie to wynika z następującego faktu P(X = x0 ) = F (x0 ) − lim− F (x). x→x0 Definicja 2.5.3 Zmienną losową X nazywamy zmienną losową skokową lub dyskretną, jeśli PX (SX ) = P(X ∈ SX ) = 1. Z definicji tej wynika, że zmienna losowa dyskretna przyjmuje tylko wartości równe swoim punktom skokowym. 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 35 Twierdzenie 2.5.4 Zmienna X jest zmienną losową skokową wtedy i tylko wtedy, gdy suma skoków w jej punktach skokowych jest równa 1. Dowód. Z definicji zmiennej losowej wynika, ze przeciwobrazem zbioru SX jest cały zbiór zdarzeń elementarnych Ω. Zatem SX jest zbiorem co najwyżej przeliczalnym, więc można go zapisać w postaci SX = {x1 } ∪ {x2 } ∪ {x3 } ∪ . . . . Wobec tego PX (SX ) = PX ({x1 }) + PX ({x2 }) + PX ({x3 }) + · · · = 1. Definicja 2.5.5 Funkcją prawdopodobieństwa zmiennej losowej skokowej X nazywamy przyporządkowanie każdemu punktowi skokowemu xi ∈ SX skoku pi w tym punkcie. Będziemy wówczas pisać P(X = xi ) = pi , xi ∈ SX ; i = 1, 2, . . . Funkcję prawdopodobieństwa podaje się w postaci wzoru lub tabelki postaci X P(X = xi ) x1 p1 x2 p2 ... ... xn pn Ten ostatni sposób jest wygodny w przypadku, gdy zmienna losowa przyjmuje skończoną liczbę wartości. Twierdzenie 2.5.6 Funkcja prawdopodobieństwa zmiennej losowej X wyznacza rozkład tej zmiennej w tym sensie, że dla dowolnego borelowskiego zbioru B X pi , (2.2) PX (B) = i gdzie sumowanie przebiega tylko po tych wskaźnikach i, dla których xi ∈ B. Dowód. Niech B będzie zbiorem borelowskim, a SX zbiorem punktów skokowych zmiennej X. Wtedy zbiór B można zapisać jako sumę dwóch rozłącznych zbiorów B = (B ∩ SX ) ∪ (B \ SX ). Zatem PX (B) = PX (B ∩ SX ) + PX (B \ SX ). Ponieważ (B ∩ SX ) ⊂ SX , to B ∩ SX = {xj1 } ∪ {xj2 } ∪ {xj3 } ∪ . . . , gdzie xji ∈ SX dla i = 1, 2, . . . . Wobec tego PX (B ∩ SX ) = P(X = xj1 ) + P(X = xj2 ) + P(X = xj3 ) + · · · = X i pi . 36 ROZDZIAŁ 2. ZMIENNA LOSOWA Zauważmy dalej, że PX (R \ SX ) = 0. Gdyby tak nie było, to PX (R \ SX ) > 0 i wtedy z twierdzenia 2.2.4 wynikałoby, że PX (R) = PX (SX ) + PX (R \ SX ) = 1 + PX (R \ SX ) > 1. Jest oczywiście niemożliwe. Z powyższego wynika, że 0 ¬ PX (B \ SX ) ¬ PX (R \ SX ) = 0, gdyż (B \ SX ) ⊂ (R \ SX ). Zatem PX (B \ SX ) = 0. Twierdzenie 2.5.7 Jeśli X jest zmienną losową skokową o funkcji prawdopodobieństwa P(X = xi ) = pi , x∈ SX , i = 1, 2, . . . , to dystrybuanta tej zmiennej określona jest wzorem X F (x) = pi , i gdzie sumowanie przebiega po wszystkich wskaźnikach i, dla których xi < x. Dowód. Kładąc we wzorze (2.2) B = (−∞, x > i korzystając z definicji dystrybuanty otrzymujemy tezę twierdzenia. 2.5.2 Funkcje zmiennej skokowej W pewnych modelach probabilistycznych pojawiają się w sposób naturalny funkcje zmiennych losowych. Powstaje pytanie czy takie funkcje są zmiennymi losowymi. Odpowiedź na to pytanie podaje poniższe twierdzenie. Niech B oznacza rodzinę wszystkich podzbiorów borelowskich zbioru R. Definicja 2.5.8 Funkcję rzeczywistą g określoną na zbiorze liczb rzeczywistych R spełniającą warunek ^ {x ∈ R : g(x) ∈ B} ∈ B B∈B nazywamy funkcją borelowską. Twierdzenie 2.5.9 Jeśli X jest zmienną losową, a g jest funkcją borelowską, to Y = g(X) jest zmienną losową. Dowód. Niech A = {x ∈ R : g(x) ∈ B}. Z założenia wynika, że jest to zbiór borelowski dla dowolnego borelowskiego zbioru B. Wobec tego zbiór {ω ∈ Ω : X(ω) ∈ A} jest zdarzeniem. Zatem {ω ∈ Ω : Y (ω) ∈ B} = {ω ∈ Ω : g(X(ω)) ∈ B} = {ω ∈ Ω : X(ω) ∈ A} ∈ F. A to oznacza, że Y jest zmienną losową. Kolejne twierdzenie podaje metodę wyznaczania rozkładu zmiennej losowej Y będącej funkcją zmiennej losowej X. 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 37 Twierdzenie 2.5.10 Jeżeli SX jest zbiorem punktów skokowych zmiennej losowej X o funkcji prawdopoddobieństwa P(X = xi ) = pi , xi ∈ SX oraz funkcja borelowska g odwzorowuje zbiór SX na zbiór SY , to Y = g(X) jest zmienną losową o funkcji prawdopodobieństwa X pk , yi ∈ SY , P(Y = yi ) = k gdzie sumowanie przebiega po wszystkich wskaźnikach k, dla których g(xk ) = yi . Dowód. Niech yi ∈ SY oraz niech xk1 , xk2 , . . . będą pierwiastkami równania g(xk ) = yi należącymi do zbioru SX . Wtedy zdarzenie Y = yi jest sumą wykluczających się zdarzeń {Y = yi } = {X = xk1 } ∪ {X = xk2 } ∪ . . . . Wobec tego P(Y = yi ) = P(X = xk1 ) + P(X = xk2 ) + · · · = X pk . k 2.5.3 Charakterystyki liczbowe zmiennych skokowych Zmienna losowa jest zasadniczo dokładnie opisana przez jej rozkład prawdopodobieństwa. Jednakże w pewnych zastosowaniach wygodniej jest opisać rozkład zmiennej losowej za pomocą charakterystyk liczbowych, zwanych również parametrami rozkładu. Charakterystyki z reguły są krótkimi opisami zmiennej losowej umożliwiającymi szybkie porównywanie rozkładów ze sobą. Ponadto niektóre z nich mają użyteczne interpretacje. Definicja 2.5.11 Momentem rzędu r (r = 1, 2, . . . ) względem liczby c zmiennej losowej skokowej X o rozkładzie P(X = xi ) = pi , i = 1, 2, . . . nazywamy liczbę daną wzorem ∞ X µr (c) = E(X − c)r := (xi − c)r pi , i=1 jeśli powyższy szereg jest bezwzględnie zbieżny. W przypadku, gdy zmienna losowa X przyjmuje skończoną liczbę wartości powyższa suma jest skończona i warunek bezwzględnej zbieżności nie ma wtedy sensu. Z powyższej definicji wynika, że zmienna losowa może nie posiadać pewnych momentów oraz, że momenty zależą tylko od rozkładu. Z tego powodu bardzo często mówi się o momentach rozkładu zamiast o momentach zmiennej losowej. 38 ROZDZIAŁ 2. ZMIENNA LOSOWA Jeśli w definicji 2.4.11 c = 0, to moment nazywamy zwykłym i oznaczamy ∞ X mr = EX r := xri pi , i=1 a jeśli c = m1 (c = EX), to moment nazywamy centralnym i oznaczamy µr = E(X − EX)r := ∞ X (xi − EX)r pi . i=1 Definicja 2.5.12 Moment zwykły rzędu pierwszego nazywamy wartością oczekiwaną zmiennej losowej X i oznaczamy symbolem E(X) lub EX. Wartość oczekiwana jest najbardziej prawdopodobną wartością zmiennej losowej. Wskazuje ona punkt „środkowy” rozkładu, punkt wokół, którego grupują się wartości zmiennej losowej. Definicja 2.5.13 Wartością oczekiwaną zmiennej losowej g(X), gdzie g jest funkcją borelowską, a X zmienną losową o funkcji prawdopodobieństwa P(X = xi ) = pi , i = 1, 2, . . . , nazywamy wyrażenie Eg(X) = ∞ X g(xi )pi , i=1 jeśli powyższy szereg jest bezwzględnie zbieżny. WŁASNOŚCI WAROŚCI OCZEKIWANEJ Niech X będzie zmienną losową skokową o funkcji prawdopodobieństwa P(X = xi ) = pi , i = 1, 2, . . . , niech f i g będą funkcjami borelowskimi i niech a ∈ R będzie stałą rzeczywistą, a k ∈ N dowolną liczbą naturalną. Twierdzenie 2.5.14 Jeżeli istnieją wartości oczekiwane Ef (X) i Eg(X), to E(f (X) + g(X)) = Ef (X) + Eg(X). Dowód. Na początku wykażemy, że wartość oczekiwana sumy zmiennych f (X) i g(X) istnieje. Z nierówności trójkąta dla wartości bezwzględnej otrzymujemy ∞ X i=1 | f (xi ) + g(xi ) | pi ¬ ∞ X | f (xi ) | pi + i=1 ∞ X | g(xi ) | pi . i=1 A ponieważ szeregi po prawej stronie nierówności są z założenia zbieżne, to i szereg po lewej stronie też jest zbieżny. Zbieżność bezwzględna szeregu gwarantuje jego zbieżność, zatem otrzymujemy tezę twierdzenia. Twierdzenie 2.5.15 Wartość oczekiwana stałej równa jest tej stałej, tj. E(a) = a. 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 39 Dowód. Zauważmy, że E(a) = ∞ X a · pi = a i=1 ponieważ ∞ P ∞ X pi = a, i=1 pi = 1. i=1 Twierdzenie 2.5.16 Jeżeli istnieje wartość oczekiwana zmiennej losowej X, to dla dowolnych stałych a ∈ R i k ∈ N E(aX)k = ak EX k . Dowód. Mamy dla dowolnego k ∈ N E(aX)k = ∞ X i=1 (axi )k pi = ak ∞ X xki pi = ak EX k . i=1 A ponieważ wartość oczekiwana EX istnieje, to szereg ∞ P (axi )k pi = ak i=1 ∞ P i=1 jest zbieżny bezwzględnie. Z powyższych twierdzeń natychmiast wynika następujący wniosek xki pi Wniosek 2.5.17 Jeżeli istnieje E(X), to dla dowolnych stałych a, b ∈ R E(aX + b) = aEX + b. Twierdzenie 2.5.18 Jeżeli istnieje E(X), to E(X − EX) = 0. Dowód. Ponieważ wartość oczekiwana zmiennej losowej jest stałą to z wcześniej udowodnionych twierdzeń wynika, że E(X − EX) = E(X) − E(EX) = 0. Zmienną losową Y = X − EX nazywa się zmienną losową scentowaną. Powyższe twierdzenie mówi, że wartości zmiennej losowej scentrowanej skupiają się wokół zera. Twierdzenie 2.5.19 Nierówność Schwarza Jeżeli zmienne losowe X i Y mają momenty zwykłe do drugiego rzędu włącznie, to √ kE(XY )k ¬ EX 2 EY 2 . Dowód. Niech Z = (X − aY )2 dla dowolnej stałej a ∈ R. Ponieważ zmienne losowe X i Y mają momenty zwykłe do drugiego rzędu włącznie, to istnieje watrość oczekiwana zmiennej Z oraz EZ = EX 2 − 2aE(XY ) + a2 EY 2 . 40 ROZDZIAŁ 2. ZMIENNA LOSOWA Zauważmy, że zmienna losowa Z przyjmuje tylko wartości nieujemne, zatem EZ 0. Wobec tego nierówność kwadratowa a2 EY 2 − 2aE(XY ) + EX 2 0 musi być spełniona dla każdego a. Ma to miejsce tylko wtedy, gdy wyróżnik rozpatrywanego trójmianu jest niedodatni zatem 2 4 (E(XY )) − 4EX 2 EY 2 ¬ 0. Stąd łatwo wynika teza twierdzenia. Następujące twierdzenia zostaną dowiedzione w paragrafach poświęconych dwuwymiarowym zmiennym losowym. Twierdzenie 2.5.20 Jeżeli istnieją EX i EY , to dla dowolnych stałych a, b ∈ R istnieje E(aX + bY ) oraz E(aX + bY ) = aEX + bEY. Twierdzenie 2.5.21 Jeżeli X i Y są niezależnymi zmiennymi losowymi i istnieją ich wartości oczekiwane, to istnieje E(XY ) oraz E(XY ) = EX · EY. Jak wcześniej wspomniano wartość oczekiwana jest wartością wokół której koncentrują się wartości zmiennej losowej. Oczywiście znajomość wartości oczekiwanej nie wyznacza rozkładu zmiennej losowej. Potrzebny jest więc parametr, za pomocą którego można było by powiedzieć coś więcej o wartościach zmiennej losowej, jak choćby jak bardzo różnią się one od wartości oczekiwanej, jakie jest ich rozproszenie względem niej. Takim parametrem jest odchylenie standardowe, zwane też miarą rozrzutu, będące pierwiastkiem z wariancji. Znajomość tego parametru konieczna jest zwłaszcza wtedy, gdy przy rozpatrywaniu kilku rozkładów stwierdza się, że ich wartości oczekiwane są jednakowe i trzeba rozstrzygnąć, który rozkład jest lepszy w danych warunkach. Definicja 2.5.22 Moment centralny rzędu drugiego nazywamy wariancją zmiennej losowej X i oznaczamy symbolem D2 (X) lub D2 X. Zauważmy, że z definicji wariancja dowolnej zmiennej losowej jest liczbą nieujemną. Definicja 2.5.23 Pierwiastek kwadratowy z wariancji nazywamy odchyleniem standardowym i oznaczmy D(X) lub DX. WŁASNOŚCI WARIANCJI Twierdzenie 2.5.24 Dla dowolnej liczby rzeczywistej c 6= EX prawdziwa jest nierówność D2 X < E(X − c)2 . 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 41 Dowód. Na podstawie własności wartości oczekiwanej mamy E(X − c)2 = E(X − EX + EX − c)2 = E(X − EX)2 + 2E(X − EX)(EX − c) + (EX − c)2 = D2 X + (EX − c)2 > D2 X. Wyrażenie E(X − c)2 nazywa się średnim kwadratowym odchyleniem zmiennej X od stałej c. Twierdzenie 2.5.25 Dla dowolnej jednowymiarowej zmiennej losowej mamy D2 X = EX 2 − (EX)2 . (2.3) Dowód. Z własności wartości oczekiwanej wynika, że D2 X = E(X − EX)2 = E(X 2 − 2XEX + (EX)2 ) = EX 2 − 2EXEX + (EX)2 = EX 2 − (EX)2 . Twierdzenie 2.5.26 Jeśli b jest dowolną stałą rzeczywistą, to D2 (X + b) = D2 X. Dowód. Zauważmy, że D2 (X + b) = E(X + b)2 − (E(X + b))2 = E(X 2 + 2bX + b2 ) − (EX + b)2 = EX 2 + 2bEX + b2 − (EX)2 − 2bEX − b2 = EX 2 − (EX)2 = D2 X. Twierdzenie 2.5.27 Dla dowolnej stałej b różnej od zera i jednowymiarowej zmiennej losowej mamy D2 (bX) = b2 D2 X. Dowód. Wykorzystując własności wartości oczekiwanej mamy D2 (bX) = E(bX)2 − (E(bX))2 = b2 EX 2 − b2 (EX)2 = b2 D2 X. Twierdzenie 2.5.28 Wariancja ze stałej równa jest zero. Dowód. Niech b ∈ R. Wtedy D2 (b) = Eb2 − (Eb)2 = b2 − b2 = 0, na mocy własności wartości oczekiwanej. 42 ROZDZIAŁ 2. ZMIENNA LOSOWA Definicja 2.5.29 Jeżeli zmienna losowa X ma odchylenie standardowe równe σ, to zmienną losową Y = σ1 X nazywa się unormowaną Twierdzenie 2.5.30 Wariancja zmiennej unormowanej równa jest jeden. Dowód. Niech X ma odchylenie standardowe równe σ. Wtedy wykorzystując własności wariancji otrzymamy 1 1 1 D2 X = 2 D2 X = 2 σ 2 = 1. σ σ σ Definicja 2.5.31 Jeżeli X jest zmienną losową o wartości oczekiwanej µ i odchyleniu standardowym σ, to zmienną losową Y = X−µ nazywamy zmienną σ losową standaryzowaną. Twierdzenie 2.5.32 Wartość oczekiwana zmiennej losowej standaryzowanej równa jest zero, a odchylenia standardowe jeden. Dowód. Wykorzystując własności wartości oczekiwanej dostajemy 1 X −µ = (EX − µ) = 0. E σ σ Wykorzystując własności wariancji dostajemy X −µ 1 D2 = 2 D2 X = 1. σ σ W celu zbadania własności rozkładu jednowymiarowej zmiennej losowej lub porównania różnych rozkładów ze sobą, oblicza się czasami tzw. charakterystyki pozycyjne, tj. wartości charakteryzujące położenie zbioru wartości zmiennej losowej. Jedną z charakterystyk pozycyjnych jest wartość oczekiwana, która mówi z grubsza o tym, gdzie są skupione wartości przyjmowane przez zmienną losową. Do charakterystyk pozycyjnych należą również kwantyle. Definicja 2.5.33 Wartość xp spełniającą nierówności P(X ¬ xp ) p, P(X xp ) 1 − p; 0<p<1 nazywamy kwantylem rzędu p zmiennej losowej X. W szczególności kwantyl rzędu 1 2 nazywa się medianą. Definicja 2.5.34 Medianą zmiennej losowej X nazywamy liczbę M e X spełniającą warunki 1 1 P(X ¬ M e X) P(X M e X) . 2 2 Z definicji kwantyli wynika, że są one określone dla każdej zmiennej losowej. Innym parametrem pozycyjnym jest moda. Definicja 2.5.35 Modą zmiennej losowej X nazywamy tą wartość zmiennej losowej, której odpowiada największe prawdopodobieństwo. Modę będziemy oznaczać przez M o X. Z powyższej definicji wynika, że moda może nie istnieć w przypadku, gdy pewne wartości zmienna losowa przyjmuje z takim samym prawdopodobieństwem. 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 2.5.4 43 Przykłady rozkładów skokowych W paragrafie tym omówimy podstawowe własności rozkładów zmiennych losowych skokowych najczęściej pojawiających się w zastosowaniach. Rozkład dwupunktowy Powiemy, że zmienna losowa ma rozkład dwupunktowy jeśli jej funkcja prawdopodobieństwa dana jest wzorem P(X = x1 ) = p P(X = x2 ) = q; 0 < p < 1, p + q = 1. Jeżeli x1 = 0 i x2 = 1, to taki rozkład nazywamy zero-jedynkowym z parametrem p. • Przykład modelu Rzut symetryczną monetą. Wówczas jeśli zdarzeniu polegającemu na wyrzuceniu reszki przypiszemy 0, a zdarzeniu polegającemu na wyrzuceniu orła - 1, to funkcja prawdopodobieństwa będzie postaci P(X = 0) = 1 2 P(X = 1) = 1 . 2 • Wartość oczekiwana i wariancja E(X) = x1 p + x2 q. Dla rozkładu zero-jedynkowego EX = 12 . D2 X = x21 p + x22 q − (x1 p + x2 q)2 = x21 p + x22 q − x21 p2 − 2x1 x2 pq − x22 q 2 = x21 (p − p2 ) − 2x1 x2 pq + x22 (q − q 2 ) = x21 pq − 2x1 x2 pq + x22 q = (x1 − x2 )2 pq. Dla rozkładu zero-jedynkowego D2 X = 14 , zatem DX = 12 . Rozkład równomierny Zmienna losowa X ma rozkład równomierny jeśli jej funkcja prawdopodobieństwa ma postać P(X = xi ) = 1 n i = 1, 2, . . . , n; 0 < p < 1, p + q = 1. 44 ROZDZIAŁ 2. ZMIENNA LOSOWA • Przykład modelu Rzut jednorodną kostką. Wówczas jeśli przyjmiemy, że zmienna losowa przyjmuje wartości równe liczbie wyrzuconych oczek na kostce, to funkcja prawdopodobieństwa będzie postaci P(X = i) = 1 n i = 1, 2, 3, 4, 5, 6. • Wartość oczekiwana i wariancja x1 + x2 + · · · + xn n 2 x2 + x22 + · · · + x2n x1 + x2 + · · · + xn D2 X = 1 − n n EX = Rozkład dwumianowy z parametrami (n, p) Powiemy, że zmienna losowa ma rozkład dwumianowy z parametrami (n, p) jeśli jej funkcja prawdopodobieństwa określona jest wzorem n k n−k P(X = k) = p q k = 0, 1, 2, . . . , n; 0 < p < 1, p + q = 1. k • Przykład modelu I Zmienna losowa przyjmująca wartości równe liczbie sukcesów otrzymanych w dowolnej kolejności w n niezależnych doświadczeniach z których każde zachodzi z prawdopodobieństwem p. I Zmienna losowa równa sumie n niezależnych zmiennych losowych Xi o tym samym rozkładzie zero-jedynkowym z parametrem p. • Wartość oczekiwana i wariancja n n X X n k n−k (n − 1)! EX = k p q = np pk−1 q n−k k (k − 1)!(n − k)! k=0 k=1 (zmieniamy kolejność sumowania podstawiając i = k − 1) n−1 n−1 X (n − 1)! X n − 1 = np pi q n−i−1 = np pi q n−i−1 i!(n − i − 1)! i i=0 i=0 = np(p + q)n−1 = np. Wykorzystaliśmy znany wzór na dwumian Newtona m X m i=0 i pi q m−i = (p + q)m . 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 45 Aby wyznaczyć wariancję wykorzystamy wzór (2.3). W tym celu musimy wyznaczyć drugi moment zwykły wykonując analogiczne przekształcenia jak powyżej EX 2 = n X k=0 = np k2 n X n k n−k (n − 1)! p q = np k pk−1 q n−k k (k − 1)!(n − k)! n−1 X k=1 (i + 1) i=0 = np n−1 X i=1 (n − 1)! pi q n−i−1 i!(n − i − 1)! n−1 X (n − 1)! (n − 1)! pi q n−i−1 + np pi q n−i−1 (i − 1)!(n − i − 1)! i!(n − i − 1)! i=0 n−1 X (n − 1)! (n − 2)! pl q n−l−2 + np pi q n−i−1 l!(n − l − 2)! i!(n − i − 1)! i=0 l=0 n−2 n−1 X n − 2 X n − 1 = np2 (n − 1) pl q n−l−2 + np pi q n−i−1 l i i=0 = np2 (n − 1) n−2 X l=0 = np2 (n − 1)(p + q)n−2 + np(p + q)n−1 = np(np + q). Zatem D2 X = np(np + q) − (np)2 = npq. Rozkład Poissona z parametrem λ Mówimy, że zmienna losowa ma rozkład Poissona z parametrem λ jeśli jej funkcja prawdopodobieństwa dana jest wzorem P(X = k) = e−λ λk k! k = 0, 1, 2, . . . . • Przykład modelu Zmienna losowa przyjmująca wartości równe liczbie sukcesów jakie otrzymamy wykonując n niezależnych doświadczeń według schematu Poissona. • Wartość oczekiwana i wariancja EX = ∞ X ∞ ke−λ k=0 = λe−λ X λk−1 λk = λe−λ k! (k − 1)! k=1 ∞ X λl l=0 l! = λe−λ eλ = λ. 46 ROZDZIAŁ 2. ZMIENNA LOSOWA Wykorzystaliśmy rozwinięcie funkcji wykładniczej o podstawie e w szereg ∞ P xn ex = n! . W analogiczny sposób obliczamy drugi moment zwykły n=0 EX 2 = ∞ X k 2 e−λ k=0 ∞ ∞ k=1 l=0 X λk−1 X λk λl = λe−λ k = λe−λ (l + 1) k! (k − 1)! l! ∞ ∞ X X λl−1 λl = λ2 e−λ + λe−λ (l − 1)! l! l=1 = λ2 e−λ i=0 2 −λ λ =λ e l=0 ∞ X λi i! + λe−λ ∞ X λl l=0 2 l! e + λe−λ eλ = λ + λ. Wobec tego wykorzystując wzór (2.3) otrzymujemy D2 X = λ2 + λ − λ2 = λ. Rozkład Pascala z parametrami (m, p) Zmienna losowa ma rozkład Pascala z parametrami (m, p) jeśli jej funkcja prawdopodobieństwa ma postać P(X = k) = k−1 m p (1−p)k−m , m−1 k = m, m+1, m+2, . . . ; 0 < p < 1, p+q = 1. • Przykład modelu I Zmienna losowa o wartościach równych liczbie doświadczeń wykonanych do uzyskania m sukcesów według schematu Pascala. I Jeśli założymy, że wykonujemy dokładnie jedną próbę Bernoulli’ego w jednostce czasu, to zmienna losową o rozkładzie Pascala możemy zinterpretować jako czas oczekiwania na m-ty sukces. n Korzystając z własności symbolu Newtona nk = n−k i stoując podstawienie i = k − m funkcję prawdopodobieństwa zmiennej losowej o rozkładzie Pascala możemy zapisać w następującej postaci P(X = i) = m+i−1 m i p q i i = 0, 1, 2, . . . ; 0 < p < 1, p + q = 1. 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 47 • Wartość oczekiwana i wariancja ∞ ∞ X m + i − 1 m i X (m + i − 1)! m i p q EX = i p q = (i − 1)!(m − 1)! i i=0 i=1 ∞ ∞ X X (m + i − 1)! m i m+i−1 m i =m p q =m p q (i − 1)!m! i−1 i=1 i=1 ∞ ∞ X m + l m l+1 mq X (m + 1) + l − 1 m+1 l p q = p q =m l p l l=0 l=0 mq = . p Ostatnia suma równa się 1 ponieważ jest sumą prawdopodobieństw rozkładu Pascala z parametrami (m + 1, p). ∞ X m+i−1 m i p q EX 2 = i2 i i=0 = ∞ X (i − 1)i i=1 = ∞ X i=2 ∞ (m + i − 1)! m i X (m + i − 1)! m i p q + i p q i!(m − 1)! i!(m − 1)! i=1 ∞ (m + i − 1)! m i X (m + i − 1)! m i p q + p q. (i − 2)!(m − 1)! (i − 1)!(m − 1)! i=1 Z przekształceń dotyczących obliczenia wartości oczekiwanej rozkładu Pascala wynika, że ostatnia suma równa jest mq p . Zatem EX 2 = ∞ X i=2 (m + i − 1)! m i mq p q + (i − 2)!(m − 1)! p = m(m + 1) ∞ X i=2 (m + i − 1)! m i mq p q + (i − 2)!(m + 1)! p ∞ X (m + k + 1)! mq pm q k+2 + k!(m + 1)! p k=0 ∞ X m+k+1 mq = m(m + 1) pm q k+2 + k p k=0 ∞ q 2 X (m + 2) + k − 1 m+2 k mq = m(m + 1) 2 p q + p k p = m(m + 1) k=0 q2 mq = m(m + 1) 2 + , p p Ostatnia suma jest sumą prawdopodobieństwa rozkładu Pascala z parametrami (m + 2, p), a więc równa jest 1. Wobec tego D2 X = m(m + 1) q2 mq m2 q 2 mq + − 2 = 2. 2 p p p p 48 ROZDZIAŁ 2. ZMIENNA LOSOWA Rozkład geometryczny z parametrem p Jest to szczególny przypadek rozkładu Pascala z m = 1. • Funkcja prawdopodobieństwa P(X = k) = p(1 − p)k k = 1, 2, . . . ; 0 < p < 1. • Wartość oczekiwana i wariancja D2 X = EX = p, 1−p . p2 Wartość oczekiwaną i wariancję rozkładu geometrycznego można obliczyć wykorzystując twierdzenie o różniczkowaniu szeregu potęgowego wyraz po wyrazie. ∞ P Wiemy, że szereg potęgowy xn jest jednostajnie zbieżny dla | x |< 1 oraz ∞ P n=1 n x = n=1 x 1−x . Wobec tego ∞ X !0 n x = n=1 x 1−x 0 . Stąd ∞ X nxn−1 = n=1 1 . (1 − x)2 (2.4) Różniczkując raz jeszcze otrzymamy ∞ X !0 n−1 nx = n=1 1 (1 − x)2 0 , czyli ∞ X n(n − 1)xn−1 = n=1 2 . (1 − x)3 (2.5) Powyższe fakty wykorzystamy najpierw do obliczenia wartości oczekiwanej zmiennej losowej o rozkładzie geometrycznym. Oznaczmy 1 − p = q. Wtedy EX = ∞ X ipq i = pq i=0 ∞ X iq i−1 . i=0 Korzystając (2.4) dla x = q otrzymamy EX = pq 1 q = . (1 − q)2 p (2.6) 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 49 Teraz wyznaczymy drugi moment zwykły EX 2 = ∞ X i2 pq i = p i=0 = pq 2 ∞ X [i(i − 1) + i]q i i=0 ∞ X i(i − 1)q i−2 + pq i=0 ∞ X iq i−1 . i=0 Pierwszą sumę obliczymy korzystając z (2.5) dla x = q, a drugą z (2.6) EX 2 = pq 2 2 q 2q 2 q + = + . 3 2 (1 − q) p p p Stąd 2q 2 q D X= 2 + − p p 2 2.5.5 2 q q q = 2 (q + p) = 2 . p p p Zmienne ciągłe Paragraf ten będzie poświęcony zmiennym losowym jednowymiarowym, które przyjmują wszystkie wartości z pewnego przedziału lub sumy przedziałów. Definicja 2.5.36 Zmienną losową X dla której istnieje nieujemna funkcja f taka, że dystrybuantę F zmiennej X można przedstawić w postaci Zx F (x) = f (t)dt dla każdego x ∈ R (2.7) −∞ nazywamy zmienną losową ciągłą. Funkcję f spełniającą warunek (2.7) nazywamy gęstością prawdopodobieństwa zmiennej losowej X. Czasami będziemy pisać fX zamiast f aby podkreślić, że mówimy o gęstości zmiennej X. Zauważmy, że w punktach ciągłości gęstości prawdopodobieństwa f mamy F 0 (x) = f (x). Ponadto jeśli f jest gęstością, to z własności dystrybuanty wynika, że Z∞ f (x)dx = lim F (x) = 1. x→∞ −∞ I na odwrót każda funkcja spełniająca powyższe zależności jest gęstością prawdopodobieństwa. Modelem dla zmiennej losowej ciągłej może być tzw. „koło fortuny”. Strzałka może wskazać dowolny punkt leżący na okręgu, jednak prawdopodobieństwo, 50 ROZDZIAŁ 2. ZMIENNA LOSOWA że zatrzyma się ona na wybranym punkcie jest równe zero, bo punktów na okręgu jest nieskończenie wiele. Zatem nie ma sensu pytać o prawdopodobieństwo przyjęcia przez zmienną ciągłą określonej wartości. Interesuje nas natomiast prawdopodobieństwo, że zmienna ciągła przyjmuje wartości w określonym przedziale. Z własności dystrybuanty i definicji gęstości wynika, że Zb P(a ¬ X < b) = F (b) − F (a) = Za f (t)dt − −∞ Zb f (t)dt = −∞ f (t)dt. a Ponieważ prawdopodobieństwo przyjęcia przez zmienną losową ciągłą określonej wartości równe jest zero, to P(a ¬ X < b) = P(a < X ¬ b) = P(a < X < b) = P(a ¬ X ¬ b). Z powyższych spostrzeżeń wynika, że pole figury ograniczonej wykresem gęstości w przedziale < a, b > oraz prostymi x = a i x = b równe jest P(a ¬ X < b). 2.5.6 Funkcje zmiennej ciągłej Niech X będzie zmienną losową ciągłą o gęstości fX i niech g będzie funkcją borelowską. Twierdzenie 2.5.37 Jeżeli borelowska funkcja g jest ciągła wraz ze swoją pochodną i ściśle monotoniczna w zbiorze możliwych wartości ciągłej zmiennej losowej X, to Y = g(X) jest zmienną losową ciągłą o gęstości fY (y) = fX (h(x)) | h0 (y) |, gdzie h jest funkcją odwrotną do funkcji g. Dowód. Załóżmy na początku, że g jest funkcją ściśle rosnącą. Wtedy oczywiście jest ona różnowartościowa i ma funkcję odwrotną g −1 = h oraz każdemu przedziałowi < x, x + ∆x) odpowiada dokładnie jeden przedział < y, y + ∆y) taki, że P(x ¬ X < x + ∆x) = P(y ¬ Y < y + ∆y), (2.8) gdzie y = g(x). Wobec tego FX (x + ∆x) − FX (x) = FY (y + ∆y) − FY (y). Równość powyższą można przekształcić do postaci FX (x + ∆x) − FX (x) FY (y + ∆y) − FY (y) ∆y = . ∆x ∆y ∆x Z założenia, że g jest ciągła wynika że jeśli ∆x → 0, to ∆y → 0. Zatem lim ∆x→0 FX (x + ∆x) − FX (x) FY (y + ∆y) − FY (y) ∆y = lim . ∆x→0 ∆x ∆y ∆x 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 51 Wobec tego 0 FX (x) = FY0 (y) lub równoważnie ∆y ∆x fX (x) = fY (y) ∆y . ∆x fY (y) = fX (x) ∆x . ∆y Stąd Ale x = h(y), a zatem fY (y) = fX (x)h0 (y). W przypadku gdy g jest ściśle malejąca równość (2.8) przyjmie postać P(x ¬ X < x + ∆x) = P(y + ∆y < Y ¬ y). Rozważania analogiczne do wyżej przeprowadzonych doprowadzą nas do wniosku, ze fY (y) = fX (x)(−h0 (y)). A to kończy dowód. 2.5.7 Charakterystyki liczbowe zmiennych ciągłych W przypadku zmiennej losowej ciągłej definiuje się takie same charakterystyki jak dla zmiennej skokowej. Definicja 2.5.38 Momentem rzędu r (r = 1, 2, . . . ) względem liczby c zmiennej losowej skokowej X o gęstości prawdopodobieństwa f , i = 1, 2, . . . nazywamy liczbę daną wzorem r Z∞ µr (c) = E(X − c) := (x − c)r f (x)dx, −∞ jeśli powyższa całka jest bezwzględnie zbieżna. Z powyższej definicji wynika, że zmienna losowa może nie posiadać pewnych momentów oraz, że momenty zależą tylko od gęstości. Jeśli oczywiście w definicji 2.5.38 c = 0, to moment nazywamy zwykłym i oznaczamy Z∞ r mr = EX := xr f (x)dx −∞ a jeśli c = m1 (c = EX), to moment nazywamy centralnym i oznaczamy r Z∞ µr = E(X − EX) := −∞ (x − EX)r f (x)dx 52 ROZDZIAŁ 2. ZMIENNA LOSOWA Definicja 2.5.39 Moment zwykły rzędu pierwszego nazywamy wartością oczekiwaną zmiennej losowej X. Wartością oczekiwaną zmiennej losowej g(X), gdzie g jest funkcją borelowską, a X zmienną losową o gęstości prawdopodobieństwa f nazywamy wyrażenie Z∞ Eg(X) = g(x)f (x)dx, −∞ jeśli powyższy szereg jest bezwzględnie zbieżny. WŁASNOŚCI WAROŚCI OCZEKIWANEJ I WARIANCJI Wartość oczekiwana zmiennej losowej ciągłej ma takie same własności jak wartość oczekiwana zmiennej losowej skokowej. Twierdzenie 2.5.40 Jeżeli istnieją wartości oczekiwane Eh(X) i Eg(X), to E(h(X) + g(X)) = Eh(X) + Eg(X). Dowód. Na początku wykażemy, że wartość oczekiwana sumy zmiennych h(X) i g(X) istnieje. Z nierówności trójkąta dla całki niewłaściwej otrzymujemy Z∞ Z∞ | h(x) + g(x) | f (x)dx ¬ −∞ Z∞ | h(x) | f (x)dx + −∞ | g(x) | f (x)dx. −∞ Obie całki występujące prawej stronie nierówności są z założenia zbieżne. Zatem całka po lewej stronie też jest zbieżna. Zbieżność bezwzględna całki gwarantuje jej zbieżność, zatem otrzymujemy tezę twierdzenia. Twierdzenie 2.5.41 Wartość oczekiwana stałej równa jest tej stałej, tj. E(a) = a. Dowód. Zauważmy, że Z∞ E(a) = af (x)dx = a −∞ ponieważ R∞ Z∞ f (x)dx = a, −∞ f (x)dx = 1. −∞ Twierdzenie 2.5.42 Jeżeli istnieje wartość oczekiwana zmiennej losowej X, to dla dowolnych stałych a ∈ R i k ∈ N E(aX)k = ak EX k . 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 53 Dowód. Mamy dla dowolnego k ∈ N k Z∞ E(aX) = k k Z∞ (ax) f (x)dx = a −∞ xk f (x)dx = ak EX k . −∞ A ponieważ wartość oczekiwana EX istnieje, to całka R∞ (ax)k f (x)dx −∞ k =a R∞ k x f (x)dx jest zbieżna bezwzględnie. −∞ Z powyższych twierdzeń natychmiast wynika następujący wniosek Wniosek 2.5.43 Jeżeli istnieje E(X), to dla dowolnych stałych a, b ∈ R E(aX + b) = aEX + b. Ponieważ w dowodach twierdzeń 2.5.18 i 2.5.19 nie korzystano w sposób jawny z definicji wartości oczekiwanej, a jedynie z własności wcześniej udowodnionych, to zachodzą one również dla zmiennej losowej ciągłej. Twierdzenia 2.5.20 i 2.5.21 też są prawdziwe dla zmiennej ciągłej i zostaną one udowodnione w dalszej części wykładu. Dowodząc własności wariancji opieraliśmy się głównie na własnościach wartości oczekiwanej. Wobec tego wszystkie własności wariancji zmiennej skokowej przenoszą się na przypadek zmiennej ciągłej. Medianę i modę zmiennej losowej ciągłej definiujemy w taki sam sposób jak medianę i modę zmiennej losowej skokowej. Zauważmy, że jeśli F jest dystrybuantą zmiennej ciągłej, to P(X x) = 1 − P(X < x) = 1 − F (x) oraz P(X ¬ x) = P(X < x) = F (x). Zatem z definicji mediany wynika, że jeśli x0 jest medianą zmiennej X, to F (x) ¬ 1 2 i F (x) 1 . 2 Wobec tego w przypadku zmiennej ciągłej medianą jest taka liczba rzeczywista x0 , która spełnia równanie 1 F (x0 ) = . 2 Modą natomiast jest liczba rzeczywista, dla której gęstość osiąga swoje maksimum. 2.5.8 Przykłady rozkładów ciągłych W rozdziale tym wyznaczymy najważniejsze parametry zmiennych losowych najczęściej wykorzystywanych w zastosowaniach. 54 ROZDZIAŁ 2. ZMIENNA LOSOWA Rozkład jednostajny na przedziale (a, b) Powiemy, że zmienna losowa X ma rozkład jednostajny na przedziale (a, b) jeśli jej funkcja gestości określona jest wzorem ( 1 , x ∈< a, b >, f (x) = b−a 0, x ∈ R\ < a, b > . • Dystrybuanta W tym przypadku mamy dla x ∈ (−∞, a) x Z F (x) = 0dt = 0, −∞ dla x ∈< a, b > Z a F (x) = x Z 0dt + −∞ a 1 x−a dt = , b−a b−a dla x ∈ (b, ∞) Z a F (x) = Z 0dt + −∞ Ostatecznie F (x) = a 0, b 1 dt + b−a x−a , b−a 1, Z x 0dt = 1. b x < a, a ¬ x ¬ b, x > b. • Wartość oczekiwana i wariancja Z b x b2 − a2 a+b EX = dx = = , 2(b − a) 2 a b−a Z b 2 x b3 − a3 a2 + ab + b2 EX 2 = = = , 3(b − a) 3 a b−a 2 a2 + ab + b2 a+b (b − a)2 D2 X = − = . 3 2 12 Rozkład wykładniczy z parametrem λ Mówimy, że zmienna losowa ma rozkład wykładniczy z parametrem λ jeśli jej funkcja gęstości jest postaci ( 0, x ¬ 0, f (x) = λe−λx , x > 0. 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 55 • Dystrybuanta Dla x ¬ 0 mamy F (x) = 0, a dla x > 0 mamy Z x F (x) = λe−λt dt = 1 − e−λx . 0 • Wartość oczekiwana i wariancja Wartość oczekiwaną i wariancję obliczymy wykorzystując wzór na całkowanie przez części Z ∞ h i∞ Z ∞ 1 EX = xλe−λx dx = − xe−λx + e−λx dx = , λ 0 0 0 Z 2 ∞ −λx 2 EX = x λe h 2 −λx dx = − x e 2 λ Z +2 0 0 = i∞ Z ∞ xλe−λx dx = 0 D2 X = ∞ xe−λx dx 0 2 2 EX = 2 , λ λ 2 − λ2 2 1 1 = 2. λ λ ROZKŁADY CIĄGŁE ZWIĄZANE Z ROZKŁADEM NORMALNYM Poniżej zaprezentujemy rozkłady ciągłe, które wykorzystywane są w statystyce. Rozkład chi-kwadrat z n stopniami swobody Niech X będzie zmienną losową o standaryzowanym rozkładzie normalnym z funkcją gęstości ϕ(x). Niech Y = X 2 . Wtedy Y jest funkcją zmiennej X, gdzie g(x) = x2 . Oznaczając h ≡ g −1 mamy √ 1 y i h0 (y) = 2√ y dla y 0 oraz √ 1 0 gdy x < 0, to h(y) = − y i h (y) = − 2√ y dla y 0. gdy x 0, to h(y) = Wobec tego gęstość zmiennej X dana jest wzorem ( ( 1 √ y √ 1 √ ϕ( y), y > 0, − √ √ 1 e− 2 , y > 0, ϕ(− y) + 2 y 2 y 2πy = fY (y) = 0, y ¬ 0. 0, y¬0 Otrzymaliśmy tak zwany rozkład chi-kwadrat z jednym stopniem swobody. Rozkład chi-kwadrat z n stopniami swobody otrzymamy przyjmując Y = X12 + X22 + · · · + Xn2 , gdzie X1 , X2 , . . . , Xn są niezależnymi zmiennymi losowymi o 56 ROZDZIAŁ 2. ZMIENNA LOSOWA standaryzowanym rokładzie normalnym. Gęstość rozkładu chi-kwadrat z n stopniami swobody wyraża się wzorem ( 1 y n y 2 −1 e− 2 , y > 0, n 2 Γ( n ) 2 2 fY (y) = 0, y ¬ 0, gdzie Γ(x) = R∞ tx−1 e−t dt, x > 0. 0 Można pokazać, że EY = n i D2 Y = 2n. Rozkład t-Studenta z n stopniami swobody √ Niech Tn = X√0Y n , gdzie Yn = X12 + X22 + · · · + Xn2 , a X0 , X1 , . . . , Xn są n niezależnymi zmiennymi losowymi o standaryzowanym rozkładzie normalnym. Rozkład zmiennej losowej Tn nazywamy rozkładem t-Studenta z n stopniami swobody, a określa go gęstość postaci n+1 Γ( n+1 ) t2 − 2 , fTn (t) = √ 2 n 1 + n nπΓ( 2 ) t ∈ R. n dla n = 3, 4, . . . . Można pokazać, że ETn = 0 dla n = 2, 3, . . . i D2 Tn = n−2 W szczególości dla n = 1 otrzymujemy rozkład Cauchy’ego, a gdy n → ∞, to fTn → ϕ, gdzie ϕ jest gęstością standaryzowanego rozkładu normalnego. Rozkład F -Snedecora z (m, n) stopniami swobody Niech X ma rozkład chi-kwadrat z m stopniami swobody, a Y niech ma rozkład nX chi-kwadrat z n stopniami swobody. Rozkład zmiennej losowej F = mY nazywa się rozkładem F -Snedecora z (m, n) stopniami swobody. Gęstość zmiennej F wyraża się wzorem n m+n Γ 2 n 2 x m2 −1 , x > 0, m+n n fF (x) = Γ m2 Γ n2 m (x+ m ) 2 0, x ¬ 0. 2.5.9 Ważniejsze nierówności rachunku prawdopodobieństwa Niech (Ω, F, P) będzie przestrzenią probabilistyczną i niech X : Ω → R będzie zmienną losową. Twierdzenie 2.5.44 Niech g będzie funkcją parzystą, nieujemną i niemalejącą określoną na R. Wtedy ^ ε>0 P(| X | ε) ¬ Eg(X) . g(ε) 2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE 57 Dowód. Ponieważ funkcja g z założenia jest nieujemna, to g(X) jest też nieujemna i istnieje wartość oczekiwana tej zmiennej. Ponieważ funkcja g jest nieparzysta z założenia, to oczywiście g(X) = g(−X) = g(| X |). Natomiast z założenia o monotoniczności funkcji g wynika, że X ε ⇒ g(X) g(ε); −X ε ⇒ g(−X) g(ε). Ponieważ g jest parzysta, to drugą implikację możemy zapisać równoważnie w postaci −X ε ⇒ g(X) g(ε). Wobec powyższego mamy Z ∞ Z Eg(X) = g(x)f (x)dx −∞ Z −ε −ε Z −∞ Z ∞ g(ε)f (x)dx + −∞ ∞ g(x)f (x)dx + g(x)f (x)dx ε Z −ε g(ε)f (x)dx = g(ε) Z f (x)dx + −∞ ε ∞ f (x)dx ε = g(ε) (P(X ¬ −ε) + P(X ε)) = g(ε)P(| X | ε). Co kończy dowód. Z powyższego twierdzenia możemy otrzymać następujące szczególne przypadki • kładąc g(x) =| x |p , gdzie p > 0, otrzymujemy nierówność Markowa postaci ^ E | X |p P(| X | ε) ¬ ; εp ε>0 • kładąc g(x) = x2 otrzymujemy nierówność Czebyszewa postaci ^ P(| X | ε) ¬ ε>0 EX 2 . ε2 Jeśli w nierówności Czebyszewa położymy zmienną losową scentrowaną to otrzymamy bardziej popularną jej postać ^ P(| X − EX | ε) ¬ ε>0 D2 X . ε2 Nierówność Czebyszewa pozwala nam oszacować prawdopodobieństwo zbioru wartości zmiennej losowej „leżących daleko” od jej wartości oczekiwanej. Następne twierdzenie podaje nam nierówność Jensena. Twierdzenie 2.5.45 Niech g będzie wypukłą funkcją borelowską i niech istnieje wartość oczekiwana zmiennej losowej X. Wtedy g(EX) ¬ Eg(X). 58 ROZDZIAŁ 2. ZMIENNA LOSOWA Dowód. Jeśli funkcja g jest wypukła, to ^ _^ g(x) g(x0 ) + λ(x − x0 ). x0 ∈R λ x∈R W powyższej nierówności położmy x = X i x0 = EX, wtedy g(X) g(EX) + λ(X − EX). Stąd biorąc wartość oczekiwaną obu stron nierówności otrzymamy Eg(X) Eg(EX) + λE(X − EX). Wykorzystując odpowiednie własności wartości oczekiwanej otrzymamy żądaną nierówność. Na zakończenie tego paragrafu udowodnimy nierówność Lapunowa. Twierdzenie 2.5.46 Dla zmiennej losowej Y mającej momenty do rzędu t włącznie i dla 0 < s < t zachodzi 1 (E | Y |s ) s ¬ E | Y |t 1t Dowód. Niech X =| Y |s . Z nierówności Jensena wynika, że g(E | Y |s ) ¬ Eg(| Y |s ). Kładąc g(x) =| x |r mamy | E | Y |s |r ¬ E | Y |sr . Stąd przyjmując r = t s dostaniemy t | E | Y |s | s ¬ E | Y |t . A stąd otrzymujemy żądaną nierówność. 2.6 Dwuwymiarowe zmienne losowe Niech dwuwymiarowa zmienna losowa o składowych X i Y będzie określona na przestrzeni probabilistycznej (Ω, F, P). 2.6.1 Zmienne skokowe Definicja 2.6.1 Punkt (x, y) ∈ R2 nazywamy punktem skokowym dwuwymiarowej zmiennej losowej (X, Y ), jeśli P(X = x, Y = y) = P({ω : X(ω) = x} ∩ {ω : Y (ω) = y}) = p > 0. Liczbę p nazywamy wówczas skokiem w punkcie (x, y). 2.6. DWUWYMIAROWE ZMIENNE LOSOWE 59 Zbiór wszystkich punktów skokowych dwuwymiarowej zmiennej losowej (X, Y ) oznaczać będziemy przez S(X,Y ) . Twierdzenie 2.6.2 Punkt (x0 , y0 ) ∈ R2 jest punktem skokowym dwuwymiarowej zmiennej losowej (X, Y ) wtedy i tylko wtedy, gdy dystrybuanta F tej zmiennej jest nieciągła w punkcie (x0 , y0 ). Definicja 2.6.3 Zmienną losową (X, Y ) nazywamy dwuwymiarową zmienną losową skokową lub dyskretną, jeśli P((X, Y ) ∈ S(X,Y ) ) = 1. Z definicji tej wynika, że zmienna losowa dyskretna przyjmuje tylko wartości równe swoim punktom skokowym. Twierdzenie 2.6.4 Zmienna (X, Y ) jest dwuwymiarową zmienną losową skokową wtedy i tylko wtedy, gdy suma skoków w jej punktach skokowych jest równa 1. Dowód. Z definicji zmiennej losowej wynika, że przeciwobrazem zbioru S(X,Y ) jest cały zbiór zdarzeń elementarnych Ω. Zatem S(X,Y ) jest zbiorem co najwyżej przeliczalnym, więc można go zapisać w postaci S(X,Y ) = {(x1 , y1 )} ∪ {(x2 , y2 )} ∪ {(x3 , y3 )} ∪ . . . . Wobec tego P((X, Y ) ∈ S(X,Y ) ) = P(X = x1 , Y = y1 ) + P(X = x2 , Y = y2 ) +P(X = x3 , Y = y3 ) + · · · = 1. Definicja 2.6.5 Funkcją prawdopodobieństwa dwuwymiarowej zmiennej losowej skokowej (X, Y ) nazywamy przyporządkowanie każdemu punktowi skokowemu (xi , yj ) ∈ S(X,Y ) skoku pij w tym punkcie. Będziemy wówczas pisać P(X = xi , Y = yj ) = pij , (xi , yj ) ∈ S(X,Y ) ; i = 1, 2, . . . , n, j = 1, 2, . . . , m. Funkcję prawdopodobieństwa podaje się w postaci wzoru lub tabelki postaci y1 y2 .. . yn x1 p11 p21 .. . pn1 x2 p12 p22 .. . pn2 ··· ··· ··· .. . ··· xm p1m p2m .. . pnm Ten ostatni sposób jest wygodny w przypadku, gdy zmienna losowa przyjmuje skończoną liczbę wartości. 60 ROZDZIAŁ 2. ZMIENNA LOSOWA Twierdzenie 2.6.6 Funkcja prawdopodobieństwa dwuwymiarowej zmiennej losowej (X, Y ) wyznacza rozkład tej zmiennej w tym sensie, że dla dowolnego borelowskiego zbioru B ∈ R2 X pij , (2.9) P((X, Y ) ∈ B) = i,j gdzie sumowanie przebiega tylko po tych wskaźnikach i, j, dla których (xi , yj ) ∈ B. Twierdzenie 2.6.7 Jeśli (X, Y ) jest dwuwymiarową zmienną losową skokową o funkcji prawdopodobieństwa P(X = xi , Y = yj ) = pij , (xi , yj ) ∈ S(X,Y ) , i = 1, 2, . . . , n, j = 1, 2, . . . , m, to dystrybuanta tej zmiennej określona jest wzorem X F (x, y) = pij , i,j gdzie sumowanie przebiega po wszystkich wskaźnikach i, j, dla których xi < x i yj < y. Wprowadźmy następujące oznaczenia X pi· = P (X = xi , Y = y1 ) ∨ (X = xi , Y = y2 ) ∨ . . . = P(X = xi , Y = yj ) j = X pij , j X p·j = P (X = x1 , Y = yj ) ∨ (X = x2 , Y = yj ) ∨ . . . = P(X = xi , Y = yj ) i = X pij . i P P P V Oczywiście i pi· = i j pij = 1 i pi· > 0. P P P Vi Ponadto j p·j = j i pij = 1 i p·j > 0. j Zatem pi· i p·j są funkcjami prawdopodobieństwa. Funkcje te nazywamy odpowiednio funkcją prawdopodobieństwa rozkładu brzegowego składowej X i funkcją prawdopodobieństwa rozkładu brzegowego składowej Y . Rozkład łączny dwuwymiarowej zmiennej losowej (X, Y ) oraz rozkłady brzegowe jej składowych zapisujemy w następującej tabelce y1 y2 .. . yn pi· x1 p11 p21 .. . pn1 p1· x2 p12 p22 .. . pn2 p2· ··· ··· ··· .. . ··· ··· xm p1m p2m .. . pnm pm· p·j p·1 p·2 .. . p·n 1 2.6. DWUWYMIAROWE ZMIENNE LOSOWE 61 Zauważmy, że dystrybuanty brzegowe wyrażają się w następujący sposób FX (x) = lim F (x, y) = y→∞ FY (y) = lim F (x, y) = x→∞ X pi· = xi <x X m XX pij , xi <x j=1 p·j = yj <y n XX pij . yj <y i=1 Rozważmy teraz następujący przykład. Przykład 2.6.8 Niech dane będą dwie dwuwymiarowe zmienne losowe, których funkcje prawdopodobieństwa zadane są następującymi tabelkami 1 2 −1 0, 3 0, 1 0 0, 2 0, 1 1 0, 1 0, 2 1 2 −1 0, 3 0, 1 0 0, 1 0, 2 1 0, 2 0, 1 Wyznaczmy rozkłady brzegowe składowych powyższych zmiennych 1 2 pi· −1 0, 3 0, 1 0, 4 0 0, 2 0, 1 0, 3 1 0, 1 0, 2 0, 3 p·j 0, 6 0, 4 1 1 2 pi· −1 0, 3 0, 1 0, 4 0 0, 1 0, 2 0, 3 1 0, 2 0, 1 0, 3 p·j 0, 6 0, 4 1 Jak widzimy rozkłady brzegowe w obu przypadkach są takie same. Oznacza to, że znajomość rozkładów brzegowych nie wystarcza do odtworzenia rozkładu łącznego. Podamy teraz warunki konieczne i dostateczne na to, by składowe dwuwymiarowej zmiennej losowej o funkcji prawdopodobieństwa pij ; i = 1, 2, . . . , n, j = 1, 2, . . . , m były niezależne. Twierdzenie 2.6.9 Skokowe zmienne losowe X i Y są niezależne wtedy i tylko wtedy, gdy pij = pi· p·j . Dowód. Załóżmy najpierw, że zmienne X i Y są niezależne. Wiemy, że wówczas dystrybuanta łączna jest iloczynem dystrybuant brzegowych, tj. F (x, y) = FX (x)FY (y). Zauważmy, że {xi ¬ X < xk , yj ¬ Y < yl } = {xi ¬ X < xk , Y < yl } \ {xi ¬ X < xk , Y < yj } = ({X < xk , Y < yl } \ {X < xi , Y < yl }) \ ({X < xk , Y < yj } \ {X < xi , Y < yj }) = {X < xk , Y < yl } \ {X < xi , Y < yl } \ {X < xk , Y < yj } ∪ {X < xi , Y < yj }. Wykorzystując własności miary probabilistycznej otrzymujemy P(xi ¬ X < xk , yj ¬ Y < yl ) = P(X < xk , Y < yl ) − P(X < xi , Y < yl ) − P(X < xk , Y < yj ) + P(X < xi , Y < yj ) = F (xk , yl ) − F (xi , yl ) − F (xk , yj ) + F (xi , yj ). 62 ROZDZIAŁ 2. ZMIENNA LOSOWA Z drugiej strony mamy P(xi ¬ X < xk )P(yj ¬ Y < yl ) = F (xk ) − F (xi ) F (yl ) − F (yj ) = F (xk )F (yl ) − F (xi )F (yl ) − F (xk )F (yj ) + F (xi )F (yj ). A ponieważ założyliśmy, że zmienne X i Y są niezależne, to P(xi ¬ X < xk , yj ¬ Y < yl ) = F (xk , yl ) − F (xi , yl ) − F (xk , yj ) + F (xi , yj ) = F (xk )F (yl ) − F (xi )F (yl ) − F (xk )F (yj ) + F (xi )F (yj ). Wobec tego mamy P(xi ¬ X < xk , yj ¬ Y < yl ) = P(xi ¬ X < xk )P(yj ¬ Y < yl ). Jeśli teraz xk → xi i yl → yj , to z powyższej równości wynika, że P(X = xi , Y = yj ) = P(X = xi )P(Y = yj ). W drugą stronę załóżmy teraz, że pij = pi· p·j . Wtedy X X X X F (x, y) = pij = pi· p·j xi <x yj <y = X pi· xi <x X xi <x yj <y p·j = FX (x)FY (y). yj <y a to oznacza, że zmienne losowe X i Y są niezależne. 2.6.2 Charakterystyki liczbowe dwuwymiarowej zmiennej skokowej Definicja 2.6.10 Momentem rzędu r + s względm stałych c i d dwuwymiarowej zmiennej losowej skokowej (X, Y ) o funkcji prawdopodobieństwa pij ; i = 1, 2, . . . , n, j = 1, 2, . . . , m nazywamy liczbę daną wzorem E(X − c)r (Y − d)s = n X m X (xi − c)r (yj − d)s pij . i=1 j=1 Oczywiście dla c = 0 i d = 0 otrzymujemy moment zwykły rzędu r + s postaci EX r Y s = n X m X xri yjs pij , i=1 j=1 a dla c = EX i d = EY otrzymujemy moment centralny rzędu r + s postaci E(X − EX)r (Y − EY )s = n X m X i=1 j=1 (xi − EX)r (yj − EY )s pij . 2.6. DWUWYMIAROWE ZMIENNE LOSOWE Moment zwykły rzędu 1+1 postaci E(XY ) = 63 n P m P xi yj pij nazywamy wartością i=1 j=1 oczekiwaną, a moment centralny rzędu 1 + 1 postaci E(X − EX)(Y − EY ) nazywamy kowaiancją zmiennych X i Y i oznaczamy cov(X, Y ). Następujące twierdzenia podają kilka ważnych własności wartości oczekiwanej i kowariancji. Twierdzenie 2.6.11 Jeżeli istnieją momenty zwykłe do rzędu r zmiennej skokowej X i momenty zwykłe do rzędu s zmiennej skokowej Y , to dla dowolnych stałych a i b E(aX r + bY s ) = aEX r + bEY s . Dowód. Zauważmy, że E(aX r + bY s ) = = n X m X (axri + byjs )pij = a i=1 j=1 n X a xri pi· i=1 n X xri i=1 +b m X m X pij + b j=1 m X yjs n X j=1 pij i=1 yjs p·j = aEX r + bEY s . j=1 W szczególności dla a = b = 1 i r = s = 1 mamy Wniosek 2.6.12 E(aX + bY ) = aEX + bEY. Twierdzenie 2.6.13 Jeśli istnieją momenty zwykłe do rzędu r zmiennej skokowej X i momenty zwykłe do rzędu s zmiennej skokowej Y oraz zmienne X i Y są niezależne, to E(X s Y r ) = EX s EY r . Dowód. Ponieważ X i Y są niezależne, to na mocy twierdzenia 2.6.9 mamy pij = pi· p·j . Wobec tego E(X r Y s ) = n X m X i=1 j=1 xri yjs pij = n X i=1 xri pi· m X yjs p·j = EX r EY s . j=1 W szczególności dla r = s = 1 mamy Wniosek 2.6.14 Jeśli zmienne losowe X i Y są niezależne i istnieją ich wartości oczekiwane, to E(XY ) = EXEY. Twierdzenie 2.6.15 cov(X, Y ) = E(XY ) − EXEY. 64 ROZDZIAŁ 2. ZMIENNA LOSOWA Dowód. Mamy cov(X, Y ) = E(X − EX)(Y − EY ) = E(XY − Y EX − XEY + EXEY ) = E(XY ) − EY EX − EXEY + EXEY = E(XY ) − EXEY. Definicja 2.6.16 Współczynnikiem korelacji zmiennych losowych X i Y nazywamy wartość oczekiwaną dwuwymiarowej zmiennej losowej o składowych standaryzowanych tj. X − EX Y − EY %=E . DX DY Jeśli % = 0, to mówimy, że zmienne losowe X i Y są nieskorelowane. W przeciwnym razie zmienne losowe X i Y nazywamy skorelowanymi. Zauważmy, że z powyższej definicji wynikają następujące stwierdzenia Twierdzenie 2.6.17 %= cov(X, Y ) . DXDY Dowód. Zauważmy, że %= 1 1 E(X − EX)(Y − EY ) = cov(X, Y ). DXDY DXDY Wniosek 2.6.18 Jeśli zmienne są nieskorelowane, to cov(X, Y ) = 0. Z twierdzeń 2.6.12 i 2.6.13 wynika następujący wniosek Wniosek 2.6.19 Jeżeli zmienne losowe X i Y są niezależne, to są nieskorelowane. Implikacja w drugą stronę nie zachodzi o czym świadczy następujący przykład. Przykład 2.6.20 Rozważmy zmienną losową X o funkcji prawdopodobieństwa danej tabelką xi pi −1 0 1 1 3 1 3 1 3 oraz zmienną losową Y = X 2 . Oczywiście mamy yi pi 0 1 1 3 2 3 Ponadto EX = 0, EY = 32 , a stąd EXEY = 0. Następnie rozważmy zmienną losową Z = XY . Mamy 2.6. DWUWYMIAROWE ZMIENNE LOSOWE zi pi −1 0 1 2 9 5 9 2 9 65 oraz EZ = 0. Wobec tego cov(X, Y ) = E(XY ) − EXEY = 0. Niestety zmienne X i Y nie są niezależne, gdyż związane są zależnością Y = X 2 . Następne twierdzenia podają pewne ważne własności wariancji. Twierdzenie 2.6.21 Dla dowolnych stałych a i b D2 (aX + bY ) = a2 D2 X + b2 D2 Y + 2abcov(X, Y ). Dowód. Z własności wariancji i wartości oczekiwanej udowodnionych w bieżącym rozdziale i rozdziale 2.5.3 otrzymujemy 2 D2 (aX + bY ) = E(aX + bY )2 − [E(aX + bY )] = E(a2 X 2 + 2abXY + b2 Y 2 ) − (aEX + bEY )2 = = a2 EX 2 + 2abE(XY ) + b2 EY 2 − a2 (EX)2 − 2abEXEY − b2 (EY )2 = a2 E2 X + b2 D2 Y + 2abcov(X, Y ). Dla a = 1 i b = 1 otrzymujemy Wniosek 2.6.22 D2 (X + Y ) = D2 X + D2 Y + 2cov(X, Y ). Wniosek 2.6.23 Jeśli zmienne losowe X i Y są niezależne, to dla dowolnych stałych a i b D2 (aX + bY ) = a2 D2 X + b2 D2 Y. W szczególności jeśli zmienne losowe X i Y są niezależne, to D2 (X + Y ) = D2 X + D2 Y. Wniosek 2.6.24 Jeśli zmienne losowe X i Y są nieskorelowane, to dla dowolnych stałych a i b D2 (aX + bY ) = a2 D2 X + b2 D2 Y. Zauważmy dalej, że ^ E(t(X − EX) + (Y − EY ))2 0. t∈R Z drugiej strony mamy E(t(X − EX) + (Y − EY ))2 = t2 E(X − EX)2 + 2tE(X − EX)(Y − EY ) + E(Y − EY )2 = t2 D2 X + 2tcov(X, Y ) + D2 Y. 66 ROZDZIAŁ 2. ZMIENNA LOSOWA Wobec tego mamy ^ D2 Xt2 + 2cov(X, Y )t + D2 Y 0. t∈R Powyższe zdanie jest prawdziwe tylko wtedy, gdy wyróżnik trójmianu kwadratowego zmiennej t jest nieujemny, to jest gdy 4cov2 (X, Y ) − 4D2 XD2 Y ¬ 0, co można zapisać równoważnie w postaci cov2 (X, Y ) ¬ 1. D2 XD2 Y Wynika stąd, że cov(X, Y ) DXDY ¬ 1. Otrzymaliśmy więc ważne twierdzenie Twierdzenie 2.6.25 Współczynnik korelacji dowolnych zmiennych losowych X i Y spełnia zależność | % |¬ 1. Postawmy pytanie: Dla jakich zmiennych losowych X i Y ich współczynnik korelacji jest równy 1 lub −1? Jeśli | % |= 1, to cov2 (X, Y ) − D2 XD2 Y = 0, czyli wyróżnik wyżej rozważanego trójmianu jest równy zero. Zatem rozważany trójmian przyjmie wartość ) zero dla t0 = − cov(X,Y D2 X , co równoważnie oznacza, że E(t0 (X − EX) + (Y − EY ))2 = 0. Zatem P(t0 (X − EX) + (Y − EY ) = 0) = 1. Ale P(t0 (X − EX) + (Y − EY ) = 0) = P(Y = −t0 X + EY + t0 EX). Wobec tego P(Y = aX + b) = 1, gdzie a = −t0 i b = EY + t0 EX. Oznacza, to, że jeśli | % |= 1, to prawie pewnie zmienne losowe są liniowo zależne. Zauważmy, że odwrotne stwierdzenie też jest prawdziwe. Mamy bowiem cov(X, aX + b) = E(X(aX + b)) − EXE(aX + b) = aEX 2 + bEX − a(EX)2 − bEX = aD2 X. 2.6. DWUWYMIAROWE ZMIENNE LOSOWE 67 Ponadto wiemy, że D2 (aX + b) = a2 D2 X, zatem D(aX + b) =| a | DX. Wobec tego mamy aD2 X | a | D2 X = | % |= = 1. | a | DXDX | a | D2 X Powyższe rozważania prowadzą do wniosku, że współczynnik korelacji może służyć do określenia rodzaju zależności między zmiennymi losowymi X i Y . Mianowicie I jeśli % = 0, to zmienne losowe są nieskorelowane (nie muszą one być oczywiście niezależne), I jeśli | % |= 1, to zmienne losowe są zależne liniowo, I jeśli % 6= 0 i | % |6= 1, to zmienne losowe są zależne i nie jest to zależność liniowa. 2.6.3 Rozkłady warunkowe zmiennych skokowych W przypadku dwuwymiarowej zmiennej losowej skokowej (X, Y ) poprzez analogię do prawdopodobieństwa warunkowego zdarzenia losowego definiuje się rozkłady warunkowe. Załóżmy, że P(Y = yj ) > 0 i P(X = xi ) > 0 i przyjmijmy umownie P(X = xi , Y = yj ) P(X = xi /Y = yj ) = P(Y = yj ) oraz P(Y = yj /X = xi ) = P(X = xi , Y = yj ) , P(X = xi ) co będziemy również zapisywać krótko pi/j = pij p·j pj/i = pij . pi· Zauważmy, że n X pi/j = i=1 oraz m X j=1 n X pij i=1 pj/i = p·j m X pij j=1 pi· = n 1 X pij = 1, p·j i=1 = m 1 X pij = 1. pi· j=1 Oznacza to, że pi/j i pj/i są funkcjami prawdopodobieństwa. Definicja 2.6.26 Rozkład prawdopodobieństwa wyznaczony przez funkcję pi/j , i = 1, 2, . . . , n nazywamy rozkładem warunkowym zmiennej losowej X przy warunku, że zmienna losowa Y przyjmuje wartość yj , w dwuwymiarowym rozkładzie zmiennej losowej (X, Y ) lub krótko rozkładem warunkowym zmiennej X przy warunku Y = yj . 68 ROZDZIAŁ 2. ZMIENNA LOSOWA Rozkład prawdopodobieństwa wyznaczony przez funkcję pj/i , j = 1, 2, . . . , m nazywamy rozkładem warunkowym zmiennej losowej Y przy warunku, że zmienna losowa X przyjmuje wartość xi , w dwuwymiarowym rozkładzie zmiennej losowej (X, Y ) lub krótko rozkładem warunkowym zmiennej Y przy warunku X = xi . Definicja 2.6.27 Funkcję określoną wzorem X F (x/yj ) = P(X < x/Y = yj ) = P(X = xi /Y = yj ) xi <x nazywamy dystrybuantą warunkowego rozkładu zmiennej losowej X pod warunkiem Y = yj . Funkcję określoną wzorem X F (y/xi ) = P(Y < y/X = xi ) = P(Y = yj /X = xi ) yj <y nazywamy dystrybuantą warunkowego rozkładu zmiennej losowej Y pod warunkiem X = xi . Zdefiniowane powyżej rozkłady warunkowe podlegają tym samym regułom co rozkłady jednowymiarowej zmiennej losowej. 2.6.4 Zmienne ciągłe Niech F (x, y) będzie dystrybuantą dwuwymiarowej zmiennej losowej. Definicja 2.6.28 Powiemy, że dwuwymiarowa zmienna losowa jest ciągła jeśli istnieje nieujemna i całkowalna w całej płaszczyźnie OXY funkcja f (x, y) taka, że dla dowolnych (x, y) ∈ R2 spełniona jest relacja Zx Zy F (x, y) = f (s, t)dt ds. −∞ −∞ Wyżej wymienioną funkcję f (x, y) nazywamy gęstością prawdopodobieństwa dwuwymiarowej zmiennej losowej ciągłej (X, Y ). Zauważmy, że z własności dystrybuanty mamy Z∞ Z∞ Zx Zy f (s, t)dt ds = lim lim f (s, t)dt ds −∞ −∞ x→∞ y→∞ −∞ −∞ = lim lim F (x, y) = 1. x→∞ y→∞ Ponadto ∂ 2 F (x, y) = f (x, y). ∂x∂y 2.6. DWUWYMIAROWE ZMIENNE LOSOWE 69 Mamy również ZZ P((X, Y ) ∈ D) = f (x, y)dxdy. D Wprowadzimy teraz następujące oznaczenia Z∞ fX (x) = Z∞ f (x, y)dy, fY (y) = −∞ f (x, y)dx. −∞ Zauważmy, że funkcje fX (x) i fY (y) są nieujemne i całkowalne w całym zbiorze R oraz Z∞ Z∞ Z∞ fX (x)dx = f (x, y)dy dx = 1, −∞ −∞ Z∞ Z∞ fY (y)dy = −∞ −∞ Z∞ f (x, y)dx dy = 1. −∞ −∞ Wobec tego fX (x) i fY (y) są gęstościami prawdopodobieństwa jednowymiarowych zmiennych ciągłych. Gęstości te nazywamy odpowiednio gęstością brzegową zmiennej losowej X i Y .W tym przypadku dystrybuanty brzegowe wyrażają się wzorami Zx Zx Z∞ FX (x) = fX (s)ds = f (s, t)dt ds −∞ Zy FY (y) = −∞ −∞ Zy Z∞ fY (t)dt = −∞ −∞ f (s, t)ds dt. −∞ Twierdzenie 2.6.29 Ciągłe zmienne losowe X i Y są niezależne wtedy i tylko wtedy, gdy f (x, y) = fX (x)fY (y). Dowód. Załóżmy na początku, że ciągłe zmienne losowe X i Y są niezależne. Wtedy oczywiście F (x, y) = FX (x)FY (y), gdzie FX (x) jest dystrbuantą brzegową składowej X, a FY (y) jest dystrybuantą brzegową składowej Y . Zauważmy, że ∂ 2 F (x, y) ∂ ∂ f (x, y) = = FX (x)FY (y) ∂x∂y ∂x ∂y ∂ d ∂ FX (x) FY (y) = FX (x)fY (y) = ∂x dy ∂x = fX (x)fY (y). Wobec tego jeśli X i Y są niezależne, to f (x, y) = fX (x)fY (y). 70 ROZDZIAŁ 2. ZMIENNA LOSOWA Teraz przeprowadzimy dowód w drugą stronę. Załóżmy więc, że f (x, y) = fX (x)fY (y). Mamy wówczas Zx Zy Zx Zy F (x, y) = f (s, t)dt ds = fX (s)fY (t)dt ds −∞ Zx −∞ −∞ fX (s)ds = −∞ −∞ Zy fY (t)dt = FX (x)FY (y). −∞ Oznacza to, że zmienne losowe X i Y są niezależne. 2.6.5 Charakterystyki liczbowe dwuwymiarowej zmiennej ciągłej Definicja 2.6.30 Momentem rzędu r + s względm stałych c i d dwuwymiarowej zmiennej losowej ciągłej (X, Y ) o gęstości prawdopodobieństwa f (x, y) nazywamy liczbę daną wzorem Z∞ Z∞ (x − c)r (y − d)s f (x, y)dy dx, E(X − c)r (Y − d)s = −∞ o ile całka R∞ −∞ " −∞ # R∞ r s (x − c) (y − d) f (x, y)dy dx jest zbieżna. −∞ Oczywiście dla c = 0 i d = 0 otrzymujemy moment zwykły rzędu r + s postaci Z∞ Z∞ EX r Y s = xr y s f (x, y)dy dx, −∞ −∞ a dla c = EX i d = EY otrzymujemy moment centralny rzędu r + s postaci Z∞ Z∞ r s E(X − EX)r (Y − EY )s = (x − EX) (y − EY ) f (x, y)dy dx. −∞ −∞ Powyższe wzory zachodzą tylko wtedy, gdy odpowiednie całki " są zbieżne. # R∞ R∞ Moment zwykły rzędu 1 + 1 postaci E(XY ) = xyf (x, y)dy dx −∞ −∞ nazywamy wartością oczekiwaną, a moment centralny rzędu 1 + 1 nazywamy kowaiancją zmiennych X i Y i oznaczamy cov(X, Y ). Następujące twierdzenia podają kilka ważnych własności wartości oczekiwanej zmiennej losowej ciągłej. 2.6. DWUWYMIAROWE ZMIENNE LOSOWE 71 Twierdzenie 2.6.31 Jeżeli istnieją momenty zwykłe do rzędu r zmiennej ciągłej X i momenty zwykłe do rzędu s zmiennej ciągłej Y , to dla dowolnych stałych a ib E(aX r + bY s ) = aEX r + bEY s . Dowód. Zauważmy, że E(aX r + bY s ) = Z∞ Z∞ −∞ =a Z∞ −∞ =a (axr + by s )f (x, y)dy dx −∞ Z∞ Z∞ xr f (x, y)dy dx + b −∞ xr −∞ =a Z∞ f (x, y)dy dx + b xr fX (x)dx + b −∞ y s f (x, y)dy dx −∞ y s −∞ Z∞ Z∞ −∞ Z∞ −∞ Z∞ Z∞ Z∞ f (x, y)dx dy −∞ y s fY (y)dy = aEX r + bEY s . −∞ W szczególności dla a = b = 1 i r = s = 1 mamy Wniosek 2.6.32 E(aX + bY ) = aEX + bEY. Twierdzenie 2.6.33 Jeśli istnieją momenty zwykłe do rzędu r zmiennej ciągłej X i momenty zwykłe do rzędu s zmiennej ciągłej Y oraz zmienne X i Y są niezależne, to E(X r Y s ) = EX r EY s . Dowód. Ponieważ X i Y są niezależne, to na mocy twierdzenia 2.6.29 mamy f (x, y) = fX (x)fY (y). Wobec tego mamy Z∞ Z∞ Z∞ Z∞ E(X r Y s ) = xr y s f (x, y)dy dx = xr y s fX (x)fY (y)dy dx −∞ Z∞ = −∞ −∞ −∞ xr fX (x)dx Z∞ −∞ y s fY (y)dy = EX s EY s . −∞ W szczególności dla r = s = 1 mamy Wniosek 2.6.34 Jeśli zmienne losowe X i Y są niezależne i istnieją ich wartości oczekiwane, to E(XY ) = EXEY. 72 ROZDZIAŁ 2. ZMIENNA LOSOWA Własności współczynnika korelacji, wariancji i kowariancji udowodnione dla zmiennych skokowych przenoszą się w naturalny sposób na zmienne ciągłe, ponieważ dowodząc tych własności korzystaliśmy tylko z własności wartości oczekiwanej. 2.6.6 Rozkłady warunkowe zmiennych ciągłych Tak jak dla dwuwymiarowej zmiennej losowej skokowej, tak i dla dwuwymiarowej zmiennej losowej ciągłej definiuje się rozkłady warunkowe. Załóżmy, że ^ ^ fX (x) > 0 ∧ fY (y) > 0. x∈R y∈R Przyjmijmy umownie, że f (x/y) = f (x, y) , fY (y) f (y/x) = f (x, y) . fX (x) Zauważmy, że Z∞ Z∞ f (x/y)dx = −∞ −∞ f (x, y) 1 dx = fY (y) fY (y) Z∞ f (x, y)dx = fY (y) =1 fY (y) f (x, y)dy = fX (x) = 1. fX (x) −∞ oraz Z∞ Z∞ f (y/x)dy = −∞ −∞ f (x, y) 1 dy = fX (x) fX (x) Z∞ −∞ Wobec tego funkcje f (x/y) i f (y/x) są gęstościami prawdopodobieństwa. Definicja 2.6.35 Rozkład wyznaczony przez gęstość prawdopodobieństwa f (x/y) nazywamy rozkładem warunkowym zmiennej losowej ciągłej X ze względu na zmienną losową ciągłą Y w dwuwymiarowym rozkładzie zmiennej losowej (X, Y ), a funkcję f (x/y) nazywamy gęstością rozkładu warunkowego zmiennej X ze względu na Y w dwuwymiarowym rozkładzie zmiennej losowej (X, Y ). Analogicznie definiujemy rozkład wyznaczony przez funkcję f (y/x). Definicja 2.6.36 Funkcję daną wzorem Zx F (x/y) = −∞ 1 f (t/y)dt = fY (y) Zx f (t, y)dt −∞ nazywamy dystrybuantą warunkowego rozkładu zmiennej losowej ciągłej X ze względu na zmienną losową ciągłą Y w dwuwymiarowym rozkładzie zmiennej losowej (X, Y ). 2.6. DWUWYMIAROWE ZMIENNE LOSOWE 73 Funkcję daną wzorem Zy F (y/x) = −∞ 1 f (s/x)ds = fX (x) Zy f (x, s)ds −∞ nazywamy dystrybuantą warunkowego rozkładu zmiennej losowej ciągłej Y ze względu na zmienną losową ciągłą X w dwuwymiarowym rozkładzie zmiennej losowej (X, Y ). 2.6.7 Rozkłady funkcji dwuwymiarowych zmiennych losowych Niech u = u(x, y), Φ: v = v(x, y) będzie przekształceniem ciągłym i wzajemnie jednoznacznym. Jeżeli (U, V ) jest dwuwymiarową zmienną losową otrzymaną poprzez przekształcenie Φ ze zmiennej losowej (X, Y ) o gęstości f(X,Y ) (x, y), to gęstość prawdopodobieństwa zmiennej losowej (U, V ) otrzymujemy ze wzoru f(U,V ) (u, v) = f(X,Y ) (x(u, v), y(u, v)) | J |, gdzie J oznacza jakobian przekształcenia odwrotnego do przekształcenia Φ, tj. ∂x , ∂x ∂v . J = ∂u ∂y ∂y ∂u , ∂v Pokażemy jak wykorzystać powyższy fakt do znalezienia rozkładu zmiennych losowych będących podstawowymi funkcjami zmiennych losowych ciągłych X i Y. Suma zmiennych losowych Niech V = X + Y . Aby wyznaczyć gęstość zmiennej V przyjmijmy u = x, Φ: v = x + y. Mamy wówczas Φ−1 : x = u, y =v−u oraz 1, 0 = 1. J = −1, 1 Zatem f(U,V ) (u, v) = f(X,Y ) (u, v − u). Gęstość zmiennej losowej V = X + Y otrzymamy jako gęstość brzegową Z∞ f(X,Y ) (u, v − u)du. fV (v) = −∞ 74 ROZDZIAŁ 2. ZMIENNA LOSOWA Różnica zmiennych losowych Niech V = Y − X. Przyjmijmy u = x, v = y − x. Φ: Wtedy Φ −1 1, 0 = 1. J = 1, 1 : x = u, y =u+v oraz Zatem f(U,V ) (u, v) = f(X,Y ) (u, u + v). Gęstość zmiennej losowej V = Y − X otrzymamy jako gęstość brzegową Z∞ fV (v) = f(X,Y ) (u, u + v)du. −∞ Iloczyn zmiennych losowych Niech teraz V = X · Y . Przyjmując Φ: u = x, v = xy otrzymujemy Φ −1 x = u, : y = uv Zatem oraz 1, J = v − 2, u 0 1 . 1 = u u v 1 f(U,V ) (u, v) = f(X,Y ) (u, ) . u |u| Gęstość zmiennej losowej V = X · Y otrzymamy jako gęstość brzegową Z∞ fV (v) = v 1 f(X,Y ) (u, ) du. u |u| −∞ Iloraz zmiennych losowych Niech teraz V = Y X, gdzie X 6= 0. W tym przypadku przyjmujemy u = x, Φ: v = xy . Mamy wówczas Φ−1 : x = u, y = vu oraz 1, 0 = u. J = v, u 2.6. DWUWYMIAROWE ZMIENNE LOSOWE 75 Wobec tego f(U,V ) (u, v) = f(X,Y ) (u, vu) | u | . Y X Gęstość zmiennej losowej V = otrzymamy jako gęstość brzegową Z∞ f(X,Y ) (u, vu) | u | du. fV (v) = −∞ Przykład 2.6.37 Niech X i Y będą niezależnymi zmiennymi losowymi o gęstościach fX (x) i fY (y), odpowiednio i niech V = aX +bY , gdzie a i b są pewnymi stałymi rzeczywistymi. Wyznaczmy gęstość zmiennej Z. W tym celu zdefiniujmy u = x, Φ: v = ax + by. Mamy wówczas Φ Zatem −1 1, J = a − , : x = u, y = 1b (v − au) oraz b 0 1 1 = . b b 1 1 f(U,V ) (u, v) = f(X,Y ) u, (v − au) . b |b| Wobec tego gęstość zmiennej losowej aX + bY dana jest wzorem fV (v) = 1 |b| Z∞ fX (u)fY 1 (v − au) du. b −∞ 2.6.8 Regresja Oznaczmy przez E(X/Y = y) wartość oczekiwaną zmiennej losowej X pod warunkiem, że zmienna losowa Y przyjmuje wartość y, tzn. w przypadku skokowym: E(X/Y = yj ) = n P xi pi/j = i=1 w przypadku ciągłym: E(X/Y = y) = R∞ 1 p·j xf (x/y)dx = −∞ n P xi pij , i=1 1 fY (y) R∞ xf (x, y)dx. −∞ Podobnie definiujemy wartość oczekiwaną zmiennej losowej Y pod warunkiem, że zmienna losowa X przyjmuje wartość x w przypadku skokowym: E(Y /X = xi ) = n P yj pj/i = j=1 w przypadku ciągłym: E(Y /X = x) = R∞ −∞ yf (y/x)dy = 1 pi· n P yj pij , j=1 1 fX (x) R∞ −∞ yf (x, y)dy. 76 ROZDZIAŁ 2. ZMIENNA LOSOWA Wyżej zdefiniowane wartości oczekiwane rozkładów warunkowych nazywamy regresją pierwszego rodzaju. Postępując w analogiczny sposób można zdefiniować dla rozkładu warunkowego momenty dowolnego rzędu. Zauważmy, że wartość oczekiwana zmiennej losowej X pod warunkiem, że zmienna losowa Y przyjmuje wartość y jest funkcją zmiennej y, a wartość oczekiwana zmiennej losowej Y pod warunkiem, że zmienna losowa X przyjmuje wartość x jest funkcją zmiennej x. W prowadźmy oznaczenia E(X/Y = y) = m(y), E(Y /X = x) = m(x). Definicja 2.6.38 Zbiór punktów (x, y) ∈ R2 spełniających równanie x = m(y) nazywamy linią regresji I-go rodzaju zmiennej losowej X względem Y . Zbiór punktów (x, y) ∈ R2 spełniających równanie y = m(x) nazywamy linią regresji I-go rodzaju zmiennej losowej Y względem X. W przypadku skokowej zmiennej losowej linia regresji I-go rodzaju zmiennej losowej X względem Y jest łamaną łączącą punkty (xi , m(xi )), natomiast linia regresji I-go rodzaju zmiennej losowej Y względem X jest łamaną łączącą punkty (yj , m(yj )). W przypadku ciągłej zmiennej losowej linie regresji I-go rodzaju są krzywymi mającymi co najwyżej przeliczalną liczbę punktów nieciągłości. Jeśli linia regresji I-go rodzaju jest linią prostą, to mówimy, że regresja między zmiennymi X i Y jest liniowa. Układ prostych regresji tworzy tak zwane nożyce korelacyjne. Zwykle linie regresji I-go rodzaju nie pokrywają się. Jeśli jednak z prawdopodobieństwem 1, zmienna losowa Y jest funkcją liniową Y = aX + b, zmiennej losowej X, to obie linie regresji I-go rodzaju stanowi prosta będąca wykresem funkcji liniowej f (x) = ax + b, gdyż zmienna losowa (X, Y ) z prawdopodobieństwem 1, przyjmuje tylko wartości leżące na tej prostej. Mówimy wtedy, że nożyce korelacyjne zamykają się. Jeśli natomiast zmienne losowe X i Y są niezależne, to E(Y /X) = EY ∧ E(X/Y ) = EX, to znaczy, że liniami regresji I-go rodzaju są proste m(x) = EY , m(y) = EX, które są równoległe do osi układu, a więc przecinające się pod kątem prostym. Mówimy wówczas, że nożyce korelacyjne są maksymalnie rozwarte. W przypadku, gdy linie regresji I-go rodzaju nie są liniami prostymi, można wyznaczyć takie linie proste, dla których wartości oczekiwane E(Y − (a1 X + b1 ))2 E(X − (a2 Y + b2 ))2 osiągają minimum. Proste te nazywamy liniami regresji II-go rodzaju. Twierdzenie 2.6.39 Linia regresji II-go rodzaju zmiennej losowej Y względem zmiennej losowej X ma postać y − EY = % DY (x − EX). DX 2.6. DWUWYMIAROWE ZMIENNE LOSOWE 77 Linia regresji II-go rodzaju zmiennej losowej X względem zmiennej losowej Y ma postać 1 DY y − EY = (x − EX). % DX Dowód. Aby wyznaczyć linię regresji II-go rodzaju zmiennej losowej Y względem zmiennej losowej X potraktujemy wyrażenie E(Y −(a1 X +b1 )2 jako funkcję zmiennych a1 i b1 , a następnie wyznaczymy punkt, w którym ta funkcja osiąga swoje minimum lokalne. W tym celu dokonajmy następujących przekształceń E(Y − (a1 X + b1 ))2 = E(Y − EY − a1 (X − EX) + EY − a1 EX − b1 )2 = E(Y − EY )2 + a21 E(X − EX)2 + (EY − a1 EX − b1 )2 − 2a1 E(X − EX)(Y − EY ) − 2(EY − a1 EX − b1 )E(Y − EY ) − 2(EY − a1 EX − b1 )E(X − EX) = D2 Y + a21 D2 X − 2a1 cov(X, Y ) + (EY − a1 EX − b1 )2 . Zatem rozważamy funkcję f (a1 , b1 ) = D2 Y + a21 D2 X − 2a1 cov(X, Y ) + (EY − a1 EX − b1 )2 . Aby wyznaczyć punkt, w którym funkcja f osiąga minimum lokalne obliczymy jej pochodne cząstkowe, a następnie przyrównamy je do zera. Mamy ∂f = 2a1 D2 X − 2cov(X, Y ) − 2EX(EY − a1 EX − b1 ) ∂a1 = 2a1 EX 2 − 2a1 (EX)2 − 2E(XY ) + 2EXEY − 2EXEY + 2a1 (EX)2 + 2b1 EX = 2 EX 2 a1 + EXb1 − E(XY ) , ∂f = −2(EY − a1 EX − b1 ). ∂b1 Wobec tego szukane a1 i b1 wyznaczymy z układu równań ( EX 2 a1 + EXb1 = E(XY ) EXa1 + b1 = EY. Układ ten możemy rozwiązać metodą wyznacznikową EX 2 , EX = EX 2 − (EX)2 = D2 X W = EX, 1 E(XY ), EX = E(XY ) − EXEY = cov(X, Y ) Wa1 = EY, 1 EX 2 , E(XY ) = EX 2 EY − EXE(XY ) Wb1 = EX, EY = EX 2 EY − (EX)2 EY + (EX)2 EY − EXE(XY ) = EY [EX 2 − (EX)2 ] − EX[E(XY ) − EXEY ] = EY D2 X − EXcov(X, Y ). 78 ROZDZIAŁ 2. ZMIENNA LOSOWA Stąd cov(X, Y ) DY =% D2 X DX cov(X, Y ) DY b1 = EY − EX = EY − % EX. D2 X DX Wstawiając otrzymane wartości do równania prostej otrzymamy żądaną postać linii regresji II-go rodzaju. Analogicznie można dowieść drugi wzór. a1 = Współczynniki a1 i a2 nazywamy współczynnikami regresji. Mając współczynniki regresji możemy wyznaczyć tangens kąta między liniami regresji II-go rodzaju tzw. tangens kąta rozwarcia nożyc korelacyjnych 1 − a2 a1 1 − %2 DXDY = tg ϕ = . a1 + a2 | % | D2 X + D2 Y Zauważmy, że jeśli | % |= 1 (zmienne X i Y są zależne liniowo), to tg ϕ = 0, a więc ϕ = 0 i nożyce korelacyjne zamykają się. Natomiast jeśli % = 0 (zmienne są nieskorelowane), to ϕ = π2 i nożyce korelacyjne tworzą kąt prosty. 2.7 Ciągi zmiennych losowych Wiele modeli probabilistycznych stosowanych w naukach technicznych bazuje na zagadnieniu zbieżności ciągów zmiennych losowych. Jak wiadomo o modelu badanego zjawiska można wnioskować na podstawie jego obserwacji, tj. obserwacji dostatecznie wielu realizacji ciągu zmiennych losowych. W paragrafie tym omówimy podstawowe typy zbieżności ciągów zmiennych losowych. Definicja 2.7.1 Nieskończony ciąg, którego elementami są zmienne losowe Xn określone na tej samej przestrzeni probabilistycznej (Ω, F, P) nazywamy ciągiem zmiennych losowych i oznaczamy (Xn ). Ustalając ω otrzymujemy ciąg liczbowy (Xn (ω)), który nazywamy realizacją (trajektorią) ciągu zmiennych losowych (Xn ) dla zdarzenia elementarnego ω. Najbardziej znanymi rodzajami zbieżności powszechnie stosowanymi w analizie matematycznej są zbieżność punktowa i zbieżność jednostajna. Definicja 2.7.2 Ciąg (Xn ) nazywamy zbieżnym punktowo do zmiennej losowej X jeśli lim Xn (ω) = X(ω) dla każdego ω ∈ Ω, tj. n→∞ ^ ^ _ ^ | Xn (ω) − X(ω) |< ε. ε>0 ω∈Ω N (ε,ω) n>N (ε,ω) Definicja 2.7.3 Ciąg (Xn ) nazywamy jednostajnie zbieżnym na Ω do zmiennej losowej X jeśli ^ _ ^ ^ | Xn (ω) − X(ω) |< ε. ε>0 N (ε) ω∈Ω n>N (ε) 2.7. CIĄGI ZMIENNYCH LOSOWYCH 79 Jeżeli ciąg (Xn ) jest zbieżny jednostajnie, to jest również zbieżny punktowo, ale nie na odwrót. Zbieżność punktowa ciągu zmiennych losowych jest pojęciem bardzo silnym i niewiele ciągów może sprostać wymaganiom definicji. Istnieje jednak praktyczna potrzeba wprowadzenia definicji zbieżności innych niż zbieżność punktowa, kilka takich sytuacji zaprezentujemy poniżej. Przykład 2.7.4 Regulacja układu dynamicznego polega na doprowadzeniu tzw. uchybu regulacji ε(t) do zera. Jeśli układ podlega losowym zakłóceniom, to w danej chwili uchyb jest zmienną losową. Za cel regulacji można przyjąć doprowadzenie tzw. średniokwadratowego uchybu regulacji Eε2 (t) do zera. Załózmy, że zadanie to wykonywane jest przez cyfrową maszynę sterującą, która zmienia swój stan w chwilach t1 , t2 , . . . . Cel regulacji będzie zrealizowany, gdy lim Eε2 (tn ) = 0. Żądanie, aby lim ε(tn ) = 0, tj. ciąg zmiennych losowych n→∞ n→∞ ε(tn ) był punktowo zbieżny do zera jest zazwyczaj niemożliwe do zrealizowania. Przykład 2.7.5 Niech zmienna losowa ξn oznacza procent chorych w populacji Ω w czasie epidemii w n-tym dniu jej trwania. Możemy przyjąć, że epidemia wygasła w m-tym dniu, jeśli po tym dniu dla dowolnie wybranych liczb c ∈ (0, 1) i ε > 0 zachodzi P(ξn > ε) < c. Zauważmy, że przy takim podejściu nie żądamy aby ciąg (ξn ) był zbieżny punktowo, tj. by dowolnie wybrana osoba nie chorowała po dniu m, ale by po dniu m nie chorowało równocześnie wiele osób. Przykład 2.7.6 Niech εn (ω) oznacza energię kinetyczną cząstki ω w chwili t. Zazwyczaj nie interesuje nas energia pojedynczej cząstki, ale rozkład energii cząstek w pewnym zbiorze Ω. Na przykład mówi się, że gaz jest w stanie ustalonym, jeśli rozkład energii kinetycznej cząstek nie zmienia się w czasie. Zatem gaz jest w stanie ustalonym, gdy dla każdego x ∈ R granica ciągu Fεn (x) dystrybuant rozkładu energii kinetycznej cząstek w chwili t istnieje. Z powyższych przykładów wynika również, że zagadnienie zbieżności ciągu zmiennych losowych można sprowadzić do zagadnienia zbieżności odpowiednio skonstruowanych ciągów liczbowych. Metody konstruowania takich ciągów omówimy poniżej. Niech (Xn ) będzie ciągiem zmiennych losowych określonych na przestrzeni probabilistycznej (Ω, F, P) i niech w tej przestrzeni określona będzie zmienna losowa X. Zbieżność z prawdopodobieństwem jeden Definicja 2.7.7 Mówimy, że ciąg zmiennych losowych (Xn ) jest zbieżny z prawdopodobieństwem jeden (prawie na pewno lub prawie wszędzie) do zmiennej lop.n. sowej X i piszemy Xn → X, jeśli P({ω : lim Xn (ω) = X(ω)}) = 1 n→∞ lub równoważnie P({ω : lim Xn (ω) 6= X(ω)}) = 0. n→∞ 80 ROZDZIAŁ 2. ZMIENNA LOSOWA Jeśli ciąg (Xn ) jest zbieżny z prawdopodobieństwem jeden do zmiennej losowej X o rozkładzie jednopunktowym P(X = c) = 1, to mówimy, że jest on zbieżny z prawdopodobieństwem jeden do liczby c i warunek z definicji zapisujemy w postaci P({ω : lim Xn (ω) = c}) = 1 n→∞ lub równoważnie P({ω : lim Xn (ω) 6= c}) = 0. n→∞ Zbieżność z prawdopodobieństwem jeden oznacza, że zbiór zdarzeń elementarnych, dla których realizacje ciągu (Xn ) są zbieżne jest zdarzeniem prawie pewnym. Żądając aby ciąg był zbieżny z prawdopodobieństwem jeden, żądamy aby prawdopodobieństwo tego, że trafimy na realizację, która nie jest zbieżna było równe zero. Jeśli dla każdego ω ∈ Ω realizacje ciągu zmiennych losowych są zbieżne, to zbieżność prawie pewna pokrywa się ze zbieżnością punktową. Zatem każdy ciąg zmiennych losowych zbieżny punktowo jest zbieżny z prawdopodobieństwem jeden. Granica ciągu zbieżnego z prawdopodobieństwem jeden nie jest określona jednoznacznie, ale wszystkie granice ciągu zbieżnego prawie pewnie są sobie równe z prawdopodobieństwem jeden. Przykład 2.7.8 Niech Xn dla n ∈ N będzie zmienną losową przyjmującą wartości n1 i − n1 każdą z prawdopodobieństwem 21 . Wówczas dla dowolnego ω mamy lim Xn (ω) = 0. Zatem P( lim Xn (ω) = 0) = 1. Oznacza to, że ciąg (Xn ) jest n→∞ n→∞ zbieżny prawie na pewno do zmiennej losowej o rozkładzie jednopunktowym skupionym w zerze. Zbieżność według prawdopodobieństwa Definicja 2.7.9 Mówimy, że ciąg zmiennych losowych (Xn ) jest zbieżny według P prawdopodobieństwa (stochastycznie) do zmiennej losowej X i piszemy Xn → X, jeśli ^ lim P({ω :| Xn (ω) − X(ω) | ε}) = 0 ε>0 n→∞ lub równoważnie ^ ε>0 lim P({ω :| Xn (ω) − X(ω) |< ε}) = 1. n→∞ Jeśli ciąg (Xn ) jest zbieżny według prawdopodobieństwa do zmiennej losowej X o rozkładzie jednopunktowym, to mówimy, że jest on zbieżny według prawdopodobieństwa do liczby c, a warunek z definicji przyjmuje postać ^ lim P({ω :| Xn (ω) − c | ε}) = 0 ε>0 n→∞ 2.7. CIĄGI ZMIENNYCH LOSOWYCH 81 lub równoważnie ^ ε>0 lim P({ω :| Xn (ω) − c |< ε}) = 1. n→∞ Z definicji wynika, że ciąg zmiennych losowych jest bieżny według prawdopodobieństwa jeśli dla dużych n zbiór zdarzeń elementarnych, dla których różnica między realizacjami zmiennych Xn , a realizacją zmiennej X jest dowolnie mała, jest zdarzeniem prawie pewnym. Nie oznacza to na ogół, że realizacje ciągu zbieżnego stochastycznie są zbieżne. Podobnie jak w przypadku zbieżności z prawdopodobiestwem jeden granica ciągu zbieżnego według prawdopodobieństwa jest określona jednoznacznie z dokładnością do równości prawie na pewno. Przykład 2.7.10 Rozważmy ciąg zmiennych losowych z poprzedniego przykładu. Obierzmy dowolne ε > 0. Jeśli n > 1ε , to n1 < ε oraz P(| Xn | ε) = 0. Stąd wynika, że lim P(| Xn | ε) = 0. Oznacza to, że ciąg (Xn ) jest zbieżny n→∞ według prawdopodobieństwa. Zbieżność według średniej rzędu p Założmy, że zmienne losowe Xn oraz zmienna X mają momenty zwykłe do rzędu p włącznie. Definicja 2.7.11 Mówimy, że ciąg zmiennych losowych (Xn ) jest zbieżny weLp dług p-tej średniej do zmiennej losowej X i piszemy Xn → X, jeśli lim E(| Xn − X |p ) = 0. n→∞ Jeśli ciąg (Xn ) jest zbieżny według p-tej średniej do zmiennej losowej X o rozkładzie jednopunktowym, to mówimy, że jest on zbieżny według p-tej średniej do liczby c, a warunek z definicji ma postać lim E(| Xn − c |p ) = 0. n→∞ Jeśli p = 2, to mówimy, że ciąg (Xn ) jest zbieżny średnikwardatowo. Podobnie jak w poprzednich przypadkach granica ciągu zbieżnego według p-tej średniej jest określona jednoznacznie z dokładnością do równości prawie na pewno. Przykład 2.7.12 Zauważmy, że w przypadku ciągu zmiennych losowych rozważanego w poprzednich przykładach mamy E(Xn2 ) = n12 . Zatem lim E(Xn2 ) = n→∞ 0. Oznacza to, że ciąg (Xn ) jest zbieżny średniokwadratowo. Zbieżność według rozkładu Niech Fn będzie dystrybuantą zmiennej losowej Xn , n ∈ N i niech F będzie dystrybuantą zmiennej losowej X. 82 ROZDZIAŁ 2. ZMIENNA LOSOWA Definicja 2.7.13 Mówimy, że ciąg zmiennych losowych (Xn ) jest zbieżny weF dług rozkładu (dystrybuant) do zmiennej losowej X i piszemy Xn → X, jeśli dla każdego punktu x ciągłości dystrybuanty F zmiennej losowej X lim Fn (x) = F (x). n→∞ Zauważmy, że z tej definicji wynika następujący fakt. Jeśli n jest dużą liczbą naturalną, to dystrybuanta Fn zmiennej losowej Xn niewiele różni się od dystrybuanty F zmiennej X. Zatem prawdopodobieństwa P(Xn < a), P(Xn a), P(a ¬ Xn < b) mogą być w przybliżeniu obliczone za pomocą dystrybuanty F . Jeśli ciąg Xn jest zbieżny według rozkładu, to tak naprawdę nie znana nam jest zmienna losowa będąca granicą tego ciągu. Znana jest nam tylko dystrybuanta tej zmiennej, a jak wiemy z dystrybuanty nie można jednoznacznie odtworzyć zmiennej losowej. Przykład 2.7.14 Wyznaczmy dystrybuantę zmiennych losowych Xn rozważanych we wcześniejszych przykładach. Mamy 1 0, x ¬ − n , Fn (x) = 12 , − n1 < x‘ n1 , 1, x > n1 . Zatem 0, x ¬ 0, lim Fn (x) = 12 , x = 0, n→∞ 1, x > 1. Punkt x = 0 jest punktem nieciągłości dystrybuanty F . Wobec tego ciąg Xn jest zbieżny według rozkładu do zmiennej losowej X o dystrybuancie ( 0, x ¬ 0, lim Fn (x) = n→∞ 1, x > 1. Omówiliśmy sześć różnych typów zbieżności zmiennych losowych. Powstaje pytanie jakie są między nimi zależności. Odpowiedź na to pytanie ilustruje poniższy schemat. zbieżność punktowa zbieżność jednostajna ? ? zbieżność prawie na pewno zbieżność wedłu p-tej średniej @ R @ zbieżność wedłu prawdopodbieństwa ? zbieżność według rozkładu