Rozdział 0 Uwagi wstępne

Transkrypt

2
Rozdział 0
Uwagi wstępne
Głównym celem tego skryptu jest usystematyzowanie i zebranie wiadomości
przedstawianych na wykładzie z metod probabilistycznych, zaś celem wykładu
jest zapoznanie słuchaczy z podstawowymi pojęciami rachunku prawdopodobieństwa oraz wskazanie pewnych zastosowań tej dziedziny matematyki w praktyce.
0.1
Kombinatoryka
Na początku wykładu zostaną przypomniane podstawowe pojęcia kombinatoryczne. Zaczniemy od przypomnienia definicji silni i symbolu Newtona oraz
pewnych własności.
Definicja 0.1
0! = 1,
n! = (n − 1)!n,
n1
Definicja 0.2
n!
n
, dla n k, k, n ∈ N,
=
k
k!(n − k)!
−n
k n+k−1
= (−1)
, dla n k, k, n ∈ N.
k
k
Podstawowe własności
1. n0 = 1,
2. n1 = n,
n
3. n−1
= n,
n
4. nk = n−k
.
3
(1)
(2)
4
ROZDZIAŁ 0. UWAGI WSTĘPNE
Najczęściej wykorzystywanymi pojęciami kombinatorycznymi w probabilistyce
są pojęcia permutacji, kombinacji i wariacji zdefiniowane poniżej.
Definicja 0.3 Permutacją bez powtórzeń zbioru złożonego z n różnych elementów nazywamy każdy ciąg jaki można utworzyć ze wszystkich elementów tego
zbioru, a więc każdą różnowartościową funkcję odwzorowującą zbiór {1, 2, . . . , n}
na dany zbiór n elementowy.
Można wykazać, że istnieje Pn = n! permutacji zbioru n elementowego.
Definicja 0.4 Permutacją z powtórzeńiami zbioru złożonego z n elementów,
wśród których pewne elementy powtarzają się odpowiednio k1 , k2 , . . . , ks razy,
nazywamy każdy ciąg jaki można utworzyć ze wszystkich elementów tego zbioru.
Dowodzi się, że Pn (k1 , k2 , . . . , ks ) =
permutacji.
n!
k1 !k2 !···ks !
jest liczbą wyżej zdefiniowanych
Definicja 0.5 k elementową kombinacją bez powtórzeń zbioru n elementowego
nazywamy każdy podzbiór k elementowy jaki można utworzyć z różnych elementów tego zbioru.
Można dowieść, że k elementowych kombinacji bez powtórzeń zbioru n elementowego istnieje dokładnie Cnk = nk .
Definicja 0.6 k elementową kombinacją z powtórzeniami zbioru n elementowego nazywamy każdy podzbiór k elementowy jaki można utworzyć z niekoniecznie
różnych elementów tego zbioru.
k
jest liczbą k elementowych kombinacji z poMożna dowieść, że C n = n+k−1
k
wtórzeniami zbioru n elementowego.
Definicja 0.7 k elementową wariacją bez powtórzeń zbioru n elementowego nazywamy każdy k elementowy ciąg, w którym elementy są różne, jaki można
utworzyć z elementów tego zbioru, a więc każdą różnowartościową funkcję odwzorowującą zbiór {1, 2, . . . , k} w dany zbiór n elementowy.
Liczbę waricji bez powtórzeń obliczamy według wzoru Vnk =
n!
(n−k)! .
Definicja 0.8 k elementową wariacją z powtórzeniami zbioru n elementowego
nazywamy każdy k elementowy ciąg, w którym elementy mogą się powtarzać, jaki
można utworzyć z elementów tego zbioru, a więc każdą funkcję odwzorowującą
zbiór {1, 2, . . . , k} w dany zbiór n elementowy.
Liczbę waricji z powtórzeniami obliczamy według wzoru Wnk =
0.2
n!
(n−k)! .
Modele probabilistyczne
Znajomość praw różnych dziedzin nauki nie zawsze wystarcza, aby przewidzieć
wyniki obserwacji. Przyczyny wpływające na wynik obserwacji są często tak
0.3. ZDARZENIA
5
liczne i tak złożone, że jest rzeczą niemożliwą, aby za pomocą dostępnych
nam urządzeń obliczyć lub przewidzieć dokładny wynik obserwacji. Mimo to
jednym ze sposobów zbierania wiedzy o otaczającym nas świecie jest właśnie
obserwacja różnych zjawisk. Tak zgromadzoną wiedzę można magazynować w
postaci różnych zależności matematycznych. Oczywiście nie ma modeli idealnych, gdyż na postawie obserwacji przeszłości nie można określić dokładnie
skutów znanych przyczyn na przyszłość. Taką niezgodność modelu z opisywaną
obserwacją nazywa się niepewnością modelu. Powstaje więc potrzeba budowania
modeli, które uwzględniają informację jak dokładny jest stworzony model. Istnieją dwa rodzaje modeli matematycznych:
· modele deterministyczne nie uwzględniające informacji o niepewności,
· modele niedeterministyczne uwzględniające informację o niepewności.
Powyższe rozróżnienie stosuje się tylko do modeli, a nie do opisywanych zjawisk.
To jakiego rodzaju jest modelowane zjawisko jest problemem filozoficznym. To
samo zjawisko można opisywać w zależności od potrzeb albo przy użyciu modelu
deterministycznego, albo niedeterministycznego.
Modele niedeterministyczne obserwacjom przypisują pewną liczbę będącą
miarą niepewności, zwaną prawdopodobieństwem, dlatego też czasami nazywa
się je modelami probabilistycznymi. Stosuje się je najczęściej do modelowania
zjawisk powtarzalnych interpretując prawdopodobieństwo jako częstość
zdarzeń,
zjawisk jednorazowych traktując je jako zjawiska, które można wielokrotnie realizować,
zjawisk, które nie mogą zajść ponownie interpretując prawdopodobieństwo
jako miarę stopnia przekonania, że dane zjawisko zajdzie ponownie.
Metody probabilistyczne wykorzystuje się do opisu obserwacji, których wyniku
nie da się z góry przewidzieć, a jednocześnie nie można ich powtórzyć w dokładnie takich samych warunkach. Po raz pierwszy metody probabilistyczne wykorzystano w analizie statystyk zgonów i urodzeń. A do ich rozwoju przyczyniły
się między innymi gry hazardowe. Metody probabilistyczne są powszechnie stosowane w technice, biologii, socjologii, psychologii, medycynie itd. Szczególne
zastosowanie mają one w telekomunikacji i automatyce. Wiele działów informatyki również korzysta z metod probabilistycznych, między innymi można tu
wymienić teorię informacji oraz teorię masowej obsługi. W ostatnich latach
dzięki teorii prawdopodobieństwa dynamicznie rozwijają się nowe dziedziny
takie jak matematyka finansowa i teoria ubezpieczeń.
0.3
Zdarzenia
Każdą dowolną sytuację można opisać w kategoriach zachodzenia, lub nie pewnego zdarzenia, dlatego też zdarzenie jest wygodnym pojęciem do opisu rzeczywistości. Jeśli zajścia zdarzenia nie można przewidzieć i jeśli stwierdzenie,
6
że zachodzi ono lub nie, ma zawsze sens, to takie zdarzenie nazywać będziemy
zderzeniem losowym. Każdy z możliwych wyników zjawiska losowego będziemy
nazywać zdarzeniem elementarnym i oznaczać przez ω. Zbiór zdarzeń elementarnych oznaczamy przez Ω. Zbiór zdarzeń elementarnych jest używany do
badania określonego zjawiska i musi być tak dobrany, aby to zjawisko można
było modelować. Zbiór zdarzeń elementarnych może być dobrany na różne sposoby. Nieodpowiedni wybór zbioru Ω może doprowadzić do błędnych wniosków
lub może skomplikować opis rozpatrywanego zjawiska. Jeśli dobrze określimy
zbiór zdarzeń elementarnych, to następnym krokiem w budowie modelu jest
sformułowanie interesujących nas problemów w terminach zdarzeń elementarnych budując podzbiory zbioru Ω, które nazywamy zdarzeniami. Nie jest to
jednak definicja, bo nie każdy podzbiór zbioru zdarzeń elementarnych jest zdarzeniem w sensie probabilistycznym. (W dalszej części wykładu zostanie podana
poprawna definicja zdarzenia.) Ale z formalnego punktu widzenia zdarzenia są
zbiorami, elementami których są zdarzenia elementarne, więc podlegają one
prawom rachunku zbiorów. Jednakże stosowana jest specyficzna terminologia
podana poniżej.
Zbiór Ω nazywa się zdarzeniem pewnym.
Zbiór pusty nazywa się zdarzeniem niemożliwym.
Zdarzenie A zachodzi dla ω ∈ Ω jeśli ω ∈ A. Wówczas zdarzenie ω nazywa
się zdarzeniem sprzyjającym zdarzeniu A.
Jeżeli A ⊂ B , to mówimy, że zdarzenie A jest zdarzeniem sprzyjającym
zajściu zdarzenia B.
Jeżeli A = B, to mówimy, że zdarzenia są równe.
Jeżeli A ∩ B = ∅, to zdarzenia A i B nazywa się rozłącznymi lub wykluczającymi się.
Zdarzenie A = Ω \ A nazywa się przeciwnym do zdarzenia A.
Działania na zdarzeniach nazywamy i definiujemy tak jak działania na zbiorach. Ponadto wszystkie znane prawa rachunku zbiorów są prawdziwe i dla zdarzeń.
Będziemy stosować następującą notację
∞
[
= A1 ∪ A2 ∪ A3 ∪ . . . ,
i=1
∞
\
= A1 ∩ A2 ∩ A3 ∩ . . .
i=1
uogólnionej sumy i uogólnionego iloczynu zbiorów.
Przykład 0.3.1 Rozważmy zagadnienie z teorii niezawodności. Mówimy, że
elementy układu pracują w schemacie niezawodnościowym szeregowym, jeśli
zepsucie któregokolwiek z nich powoduje zepsucie całego układu. Mówimy, że
elementy układu pracują w schemacie niezawodnościowym równoległym, jeśli
dopiero zepsucie wszystkich elementów powoduje zepsucie całego układu. Niech
Ai oznacza zdarzenie polegające na tym, że i-ty element nie popsuł się w przedziale czasu T . Niech A oznacza zdarzenie polegające na tym, że cały układ
n
T
pracuje poprawnie. Wtedy A =
Ai jeśli elementy układu pracują w schemai=1
0.3. ZDARZENIA
7
n
S
cie szeregowym, natomiast A =
Ai jeśli elementy układu pracują w schemacie
i=1
równoległym.
Ćwiczenie 0.3.2 Opisz zdarzenie polegające na tym, że układ się popsuje w obu
przypadkach.
Sformalizujemy teraz pojęcie zdarzenia.
Definicja 0.3.3 Niepustą rodzinę G podzbiorów zbioru Ω nazywamy ciałem jeśli
spełnione są następujące warunki
(i) A ∈ G ⇒ A ∈ G,
(ii) A, B ∈ G ⇒ (A ∪ B) ∈ G.
Z powyższej definicji wynika, że
• ∅ ∈ G, Ω ∈ G,
• A, B ∈ G ⇒ (A ∩ B) ∈ G,
• A, B ∈ G ⇒ (A \ B) ∈ G.
Definicja 0.3.4 Niepustą rodzinę F podzbiorów zbioru Ω nazywamy σ-ciałem
jeśli spełnione są następujące warunki
(i) A ∈ F ⇒ A ∈ F,
V
S
(ii)
An ∈ F ⇒
An ∈ F.
n∈N
n∈N
Z powyższej definicji wynika, że
"
^
An ∈ F ⇒
n∈N
#
\
An ∈ F.
n∈N
Rozważmy następujący przykład
Przykład 0.3.5 Załóżmy, że badamy czas pracy pewnego elementu elektronicznego do czasu jego pierwszej awarii. Przyjmijmy, że zdarzenia elementarne są
określone następująco
ωt =[czas pracy do pierwszej awarii był równy t], t 0.
Wówczas Ω = {ωt : t 0}. Załóżmy, że zbiór
St0 = {ωt ∈ Ω : t > t0 }=[czas bezawaryjnej pracy jest większy niż t0 ]
jest zdarzeniem dla każdego t0 0. Z praktycznego punktu widzenia zdarzeniami powinny być też zbiory
8
• Ut0 = {ωt ∈ Ω : t ¬ t0 } =[czas bezawaryjnej pracy jest mniejszy lub równy
t0 ],
• Zt0 ,t1 = {ωt ∈ Ω : t0 < t ¬ t1 } =[czas bezawaryjnej pracy ∈ (t0 , t1 >],
• Wt0 ,t1 = {ωt ∈ Ω : t ¬ t0 ∨ t > t1 } =[urządzenie popsuło się do momentu
t0 lub po chwili t1 ].
dla dowolnych 0 ¬ t0 ¬ t1 . Zauważmy, że
Ut0 = S t0 = Ω \ St0 ,
Zt0 ,t1 = St0 ∩ Ut1 ,
Wt0 ,t1 = Ut0 ∪ St1 .
Oznacza to, że zbiory będące sumą, iloczynem, dopełnieniem zdarzeń też powinny być zdarzeniami.
Powyższy przykład uzmysłowił nam, że rodzina zdarzeń powinna być σ-ciałem.
Dlatego też w dalszym ciągu będziemy rozważać tylko zdarzenia, które są podzbiorami σ-ciała zdarzeń elementarnych.
Uwaga. Nie należy mylić zdarzenia elementarnego ω ze zbiorem {ω}, który
nawet nie musi należeć do σ-ciała zdarzeń elementarnych.
0.4
Rodzina borelowska zbiorów
Wiadomości podane w tym paragrafie będziemy wykorzystywać w rozdziale
dotyczącym zmiennej losowej. Rozważymy je w tym miejscu ponieważ rodziny
borelowskie zbiorów są przykładami σ-ciał ważnych z teoretycznego i praktycznego punktu widzenia.
Definicja 0.4.1 Rodziną borelowską B n podzbiorów zbioru Rn nazywamy
σ-ciało generowane przez rodzinę wszystkich n-wymiarowych kostek postaci
< a1 , b1 > × < a2 , b2 > × · · · × < an , bn >,
(a1 , b1 > ×(a2 , b2 > × · · · × (an , bn >,
< a1 , b1 )× < a2 , b2 ) × · · · × < an , bn ),
(a1 , b1 ) × (a2 , b2 ) × · · · × (an , bn ),
gdzie ai , bi ∈ R ∪ {−∞, ∞} dla i = 1, 2, . . . , n.
W przypadku n = 1 elementami rodziny borelowskiej B są tylko następujące
podzbiory zbioru R:
a) przedziały otwarte, zamknięte, jednostronnie otwarte, skończone i nieskończone oraz ich przeliczalne sumy i iloczyny,
b) wszystkie zbiory przeliczalne i ich dopełnienia,
c) wszystkie zbiory otwarte i wszystkie zbiory domknięte, w tym również R
i ∅.
Rozdział 1
Prawdopodobieństwo
W rozdziale tym omówimy podstawowe metody obliczania prawdopodobieństw
zdarzeń losowych.
1.1
Miara probabilistyczna
Niech Ω będzie zbiorem zdarzeń elementarnych, a F σ-ciałem podzbiorów tego
zbioru.
Definicja 1.1.1 Miarą probabilistyczną nazywamy funkcję P określoną na
σ-ciele F o wartościach nieujemnych spełniającą warunki
A1. P(Ω) = 1, (aksjomat unormowania)
A2. jeśli zdarzenia
∈ F, i = 1, 2, . . . są parami rozłączne,
∞ Ai ∞
S
P
to P
Ai =
P(Ai ) (aksjomat przeliczalnej addytywności)
i=1
i=1
Liczbę P(A) nazywamy prawdopodobieństwem zdarzenia A.
Zauważmy, że miara probabilistyczna jest funkcją, której argumentami są zdarzenia. Ponadto aksjomat (A1) przypisuje zdarzeniu pewnemu prawdopodobieństwo równe 1.
Powyższe warunki po raz pierwszy zostały sformułowane przez Kołmogorowa
w 1933 roku.
Załóżmy, że dana jest pewna miara probabilistyczna P określona na σ-ciele
F oraz, że A, B ∈ F są dowolnymi zdarzeniami. Poniższe twierdzenia zawierają
podstawowe własności miary probabilistycznej.
Twierdzenie 1.1.2 Jeśli zdarzenia A1 , A2 , . . . , An ∈ F wykluczają się parami,
to
!
n
n
[
X
P(Ai ).
P
Ai =
i=1
i=1
9
10
ROZDZIAŁ 1. PRAWDOPODOBIEŃSTWO
Dowód. Twierdzenie
to wynika z aksjomatu przeliczalnej addytywności. WyV
starczy przyjąć
Ak = ∅.
k>n
Twierdzenie 1.1.3 Prawdopodobieństwo zdarzenia niemożliwego jest równe zero.
Dowód. Zauważmy, że zdarzenia Ω i ∅ wykluczają się. Zatem na mocy twierdzenia 1.1.2 mamy
P(Ω ∪ ∅) = P(Ω) + P(∅).
Ale Ω ∪ ∅ = Ω oraz na mocy aksjomatu (A1) P(Ω) = 1. Wobec tego mamy
P(Ω) = P(Ω) + P(∅)
⇒
1 = 1 + P(∅)
⇒
P(∅) = 0.
Uwaga. Z aksjomatu (A1) nie wynika, że zdarzenie pewne jest jedynym zdarzeniem, którego prawdopodobieństwo jest równe 1. Zdarzenie, którego prawdopodobieństwo jest równe 1 będziemy nazywać prawie pewnym.
Podobnie z twierdzenia 1.1.3 nie wynika, że zdarzenie niemożliwe jest jedynym zdarzeniem o prawdopodobieństwie 0. Zdarzenie, którego prawdopodobieństwo jest równe zero będziemy nazywać zerowym.
Twierdzenie 1.1.4 Prawdopodobieństwo zdarzenia przeciwnego spełnia równość P(A) = 1 − P(A).
Dowód. Zauważmy, że zdarzenia A i A są rozłączne oraz A ∪ A = Ω. Wykorzystując twierdzenie 1.1.3 otrzymujemy
1 = P(Ω) = P(A) + P(A),
co kończy dowód.
Twierdzenie 1.1.5 Jeśli A ⊂ B, to P(A) ¬ P(B).
Dowód. Jeśli A ⊂ B, to zdarzenie B można przedstwić w postaci sumy zdarzeń
rozłącznych B = A ∪ (B \ A). Korzystając z twierdzenia 1.1.2 otrzymujemy
P(B) = P(A) + P(B \ A).
Ponieważ z definicji P(B \ A) 0, to twierdzenie zostało udowodnione.
V
Twierdzenie 1.1.6
0 ¬ P(A) ¬ 1.
(1.1)
A∈F
Dowód. Fakt, że P(A) 0 wynika z samej definicji miary probabilistycznej.
Fakt, że P(A) ¬ 1 wynika z twierdzenia 1.1.5, bo A ⊂ Ω i P(Ω) = 1.
Twierdzenie 1.1.7 Prawdopodobieństwo różnicy dwóch dowolnych zdarzeń A
i B wyraża się wzorem P(B \ A) = P(B) − P(A ∩ B).
1.2. PRZESTRZEŃ PROBABILISTYCZNA
11
Dowód. Dla dowolnych dwóch zdarzeń mamy B = (B \ A) ∪ (A ∩ B), przy
czym (B \ A) ∩ (A ∩ B) = ∅. Zatem na mocy twierdzenia 1.1.2 otrzymujemy
P(B) = P(B \ A) + P(A ∩ B), a to kończy dowód.
Wniosek 1.1.8 Jeśli A ⊂ B, to P(B \ A) = P(B) − P(A).
Dowód. Twierdzenie to wynika z równości (1.1) lub z twierdzenia 1.1.7, bo w
tym przypadku jeśli A ⊂ B, to A ∩ B = A.
Twierdzenie 1.1.9 Prawdopodobieństwo sumy dwóch dowolnych zdarzeń A i
B wyraża się wzorem P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Dowód. Sumę zdarzeń A i B możemy zapisać jako sumę trzech zdarzeń wykluczających się
A ∪ B = [A \ (A ∩ B)] ∪ (A ∩ B) ∪ [B \ (A ∩ B)].
Zatem na mocy twierdzenia 1.1.2 (z n = 2) otrzymujemy
P(A ∪ B) = P(A \ (A ∩ B)) + P(A ∩ B) + P(B \ (A ∩ B)).
Ponadto A ∩ B ⊂ A i A ∩ B ⊂ B, więc na mocy twierdzenia 1.1.7 mamy
P(A ∪ B) = P(A) − P(A ∩ B)) + P(A ∩ B) + P(B) − P(A ∩ B)),
co kończy dowód.
Natępne twierdzenie, które podamy bez dowodu jest uogólnieniem twierdzenia 1.1.9.
Twierdzenie 1.1.10 Niech A1 , A2 , . . . , An ∈ F będą dowolnymi zdarzeniami
wtedy
!
n
n
X
X
X
[
P(Ai ) −
P(Ai ∩ Aj ) +
P(Ai ∩ Aj ∩ Ak )
P
=
i=1
i=1
1¬i<j¬n
n+1
+ · · · + (−1)
1¬i<j<k¬n
P(A1 ∩ A2 ∩ · · · ∩ An ).
Indukcyjny dowód tego twierdzenia znajduje się między innymi w książce
A. Pacuta „Prawdopodobieństwo. Teoria. Modelowanie probabilistyczne w technice”, a dowód przeprowadzony innymi metodami można znaleźć w książce
autorstwa J. Jakubowskiego i R. Sztencela „Wstęp do teorii prawdopodobieństwa”.
Na tym zakończymy listę najczęściej wykorzystywanych własności miary probabilistycznej.
1.2
Przestrzeń probabilistyczna
Z definicji 1.1.1 wynika, że matematyczny model doświadczenia losowego to
trójka (Ω, F, P), gdzie P jest miarą probabilistyczną określoną na σ-ciele F
podzbiorów zbioru Ω. Trójkę tą nazywać będziemy przestrzenią probabilistyczną.
Jeśli więc chcemy zbudować model probabilistyczny pewnej obserwacji, to
musimy określić:
12
I jakie są możliwe wyniki obserwacji, tzn. zbiór zdarzeń elementarnych Ω;
I jakie zdarzenia rozważać będziemy, tzn. σ-ciało F zdarzeń losowych;
I jakie prawdopodobieństwa przypiszemy rozważanym zdarzeniom, tzn. miarę probabilistyczną P.
Wobec tego w zależności od prowadzonych obserwacji możemy budować różne
przestrzenie probabilistyczne. W ciągu naszego wykładu omówimy trzy typy
przestrzeni probabilistycznych.
1.2.1
Prawdopodobieństwo klasyczne
Niech Ω = {ω1 , ω2 , . . . , ωn }, n ∈ N będzie skończonym zbiorem zdarzeń elementarnych oraz niech F będzie zbiorem złożonym ze wszystkich podzbiorów
zbioru Ω. Niech ponadto P będzie taką miarą probabilistyczną, że P({ωi }) =
p > 0 dla i = 1, 2, . . . , n, tzn. że wszystkie zdarzenia elementarne są jednakowo
prawdopodobne.
Zauważmy, że F jako zbiór wszystkich podzbiorów zbioru skończonego Ω
jest σ-ciałem oraz, że
P(Ω) = P({ω1 } ∪ {ω1 } ∪ · · · ∪ {ωn })
= P({ω1 }) + P({ω1 }) + · · · + P({ωn }) = np,
co oznacza, że liczba p = n1 jest wyznaczona jednoznacznie. Ponadto jeśli A
jest zdarzeniem, to jako podzbiór Ω jest postaci A = {ωi1 , ωi2 . . . , ωim }, gdzie
1 ¬ m ¬ n. Zatem
P(B) = P({ωi1 } ∪ {ωi2 } ∪ · · · ∪ {ωin })
= P({ωi1 }) + P({ωi2 }) + · · · + P({ωim }) = mp,
co oznacza, że prawdopodobieństwo dowolnego zdarzenia A ∈ F jest określone
jednoznacznie. Widzimy więc, że miara P pełnia aksjomaty (A1) i (A2).
Zdefiniowaliśmy w ten sposób przestrzeń probabilistyczną, którą nazywa
się modelem klasycznym przestrzeni probabilistycznej. Jest to model bardzo
użyteczny w sytuacji, gdy potrafimy dobrać taki skończony zbiór Ω, aby założenie o jednakowym prawdopodobieństwie zajścia zdarzeń elementarnych nie
było sprzeczne z wiedzą o modelowanym zjawisku.
Z naszych rozważań wynika też, że prawdopodobieństwo zdarzenia A ∈ F
wynosi m
n . Wobec tego możemy napisać
P(A) =
kAk
,
kΩk
(1.2)
gdzie kAk oznacza ilość elementów skończonego zbioru A.
Zależność (1.2) była przez wieki uważana za definicję prawdopodobieństwa.
Jak łatwo widać według tej definicji prawdopodobieństwo zdarzenia nie zależy
od rodzaju zdarzeń elementarnych sprzyjających zajściu danego zdarzenia, ale
13
od ich ilości. Prowadzi to do wielu paradoksów, które pojawiają się, gdy dla
danej obserwacji różnie definiujemy zdarzenia elementarne. Ponadto definicja
ta bazuje na tym, że zbiór Ω jest skończony, a tak nie zawsze musi być co widać
w poniższych przykładach.
Przykład 1.2.1 Doświadczenie polega na zliczaniu za pomocą licznika GeigeraMillera cząstek elementarnych emitowanych przez ciało radioaktywne w przedziale czasu T . Możemy przyjąć, że zdarzeniem elementarnym jest rejestracja
konkretnej ilości cząstek, tj. zdarzeniem elementarnym jest
ωi =[zarejestrowano i cząstek], i ∈ N ∪ {0}.
Wtedy Ω = {ωi : i ∈ N ∪ {0}} jest zbiorem nieskończonym przeliczalnym.
Przykład 1.2.2 Doświadczenie polega na badaniu czasu pracy pewnego elementu elektronicznego do jego pierwszej awarii (badanie niezawodnościowe).
Możemy przyjąć, że zdarzeniami elementarnymi są zdarzenia postaci
ωt =[czas pracy do pierwszej awarii był równy t], t 0.
Wtedy Ω = {ωt : t 0} jest zbiorem nieskończonym i nieprzeliczalnym (jako
podzbiór zbioru R).
1.2.2
Prawdopodobieństwo geometryczne w R
Niech Ω = (a, b), gdzie a, b ∈ R i a < b, tj. zbiór zdarzeń elementarnych
jest przedziałem otwartym. Niech F będzie rodziną borelowską podzbiorów
przedziału (a, b). Zdefiniujmy P(A) = c(y − x), gdzie A = (x, y), x, y ∈ R oraz
x < y. Oczywiście stałą c należy tak dobrać, aby funkcja P była miarą probabilistyczną. Zauważmy, że stałą c możemy wyznaczyć z aksjomatu unormowania.
Istotnie
h
i
1
.
1 = P(Ω) = c(b − a) ⇒ c =
b−a
Zatem
P(A) =
y−x
a−b
jest miarą probabilistyczną spełniającą aksjomat unormowania oraz aksjomat
przeliczalnej addytywności. Ostatnie stwierdzenie wynika z faktu, że długość
sumy przedziałów rozłącznych jest równa sumie długości tych przedziałów.
Tak zdefiniowaną przestrzeń probabilistyczną nazywamy modelem geometrycznym w R, a zdefiniowaną powyżej miarę probabilistyczną - prawdopodobieństwem geometrycznym.
Przykład 1.2.3 Emisja elektronu następuje losowo w przedziale czasu (0, T ).
Zatem prawdopodobieństwo tego, że emisja nastąpi do chwili T2 wynosi
P(A) =
T
2
T
=
1
,
2
ponieważ badane zdarzenie jest przedziałem (0 T2 ).
14
1.2.3
Prawdopodobieństwo geometryczne w R2
Niech Ω = (a1 , b1 ) × (a2 , b2 ) i F niech będzie rodziną borelowską podzbiorów Ω.
Zbiór Ω możemy interpretować geometrycznie jako prostokąt na płaszczyźnie,
natomiast elementy F jako figury geometryczne zawarte w tym prostokącie.
Prawdopodobieństwo zdarzenia A zdefiniujmy jako iloraz pola zbioru A i pola
zbioru Ω
|A|
P(A) =
.
|Ω|
Tak zdefiniowana miara spełnia aksjomat unormowania, gdyż P(Ω) = |Ω|
|Ω| = 1.
Ponadto ponieważ pole sumy rozłącznych zbiorów równe jest sumie pól tych
zbiorów, to spełniony jest również aksjomat przeliczalnej addytywności. Tak
zdefiniowaną przestrzeń probabilistyczną nazywa się modelem geometrycznym
w R2 .
W podobny sposób można zdefioniować model geometryczny w R3 definiując
miarę probabilistyczną jako stosunek objętości zdarzenia A do objętości zbioru
zdarzeń elementarnych Ω, który w tym przypadku będzie prostopadłościanem.
Możemy również rozpatrywać bardziej ogólny model geometryczny rozważając jako zbiór zdarzeń elementarnych kostkę z Rn .
1.2.4
Paradoks Bertranda
Poniższy przykład jest dobrą ilustracją faktu, że rozwiązanie problemu następuje
dopiero po wybraniu przestrzeni probabilistycznej. Niestety rachunek prawdopodobieństwa nie rozstrzyga, jaką przestrzeń probabilistyczną należy wybrać,
aby otrzymany model dobrze opisywał rozważane zjawisko losowe. Rachunek
prawdopodobieństwa pozwala obliczać jedynie prawdopodobieństwa pewnych
zdarzeń, gdy znane są prawdopodobieństwa innych zdarzeń.
Przykład 1.2.4 Z okręgu o promieniu 1 wybrano losowo cięciwę. Jakie jest
prawdopodobieństwo, że jest ona dłuższa niż bok trójkąta równobocznego wpisanego w ten okrąg?
Przez A oznaczmy rozważane zdarzenie losowe. Podamy kilka rozwiązań tego
problemu.
1. Długość cięciwy jest jednoznacznie wyznaczona przez kąt wpisany na niej
oparty. Przyjmując Ω = (0, 2π > zdarzenie A możemy utożsamić z przedziałem
( 23 π, 43 π). Zatem
4
π − 23 π
1
P(A) = 3
= .
2π
3
2. Długość cięciwy jest jednoznacznie wyznaczona przez jej odległość od średnicy okręgu. Przyjmując Ω =< 0, 1) zdarzenie A utożsamiamy z przedziałem
< 0, R2 ). Zatem
P(A) =
R
2
R
=
1
.
2
15
3. Długość cięciwy jest jednoznacznie wyznaczona przez jej środek. Z geometrii
wiadomo, że długość cięciwy przekracza długość boku trójkąta równobocznego,
jeśli jej środek leży wewnątrz okręgu wpisanego w ten trójkąt. Zatem
P(A) =
1
π
1
pole kola wpisanego
= 4 = .
pole koła opisanego
π
4
We wszystkich przypadkach otrzymaliśmy różne odpowiedzi mimo, że za każdym
razem wykrzystywaliśmy prawdopodobieństwo geometryczne. Paradoks ten wynika z faktu, że za każdym razem rozważaliśmy inny zbiór zdarzeń elementarnych, a więc i inną σ-algebrę zdarzeń.
1.2.5
Prawdopodobieństwo warunkowe
W modelowaniu probabilistycznym często stawia się pytanie: jakie jest prawdopodobieństwo pewnego zdarzenia losowego, jeśli wiadomo, że zaszło inne zdarzenie losowe. Na przykład:
Telewizor uległ uszkodzeniu. Z jakim prawdopodobieństwem można stwierdzić, że uszkodzony element jest tranzystorem, jeśli wiadomo, że tor fonii jest
sprawny?
Nałożenie dodatkowego warunku powoduje, że musimy zastosować inną miarę probabilistyczną niż przyjętą w zbudowanym modelu probabilistycznym.
Zachodzi następujące twierdzenie.
Twierdzenie 1.2.5 Niech (Ω, F, P) będzie przestrzenią probabilistyczną, a
B ∈ F zdarzeniem o dodatnim prawdopodobieństwie. Wtedy funkcja
PB : F →< 0, ∞) zdefiniowana wzorem
^
PB (A) =
A∈F
P(A ∩ B)
P(B)
jest miarą probabilistyczną.
Dowód. Należy udowodnić, że funkcja PB spełnia aksjomaty (A1) i (A2).
Zauważmy, że
P(Ω ∩ B)
P(B)
PB (Ω) =
=
= 1,
P(B)
P(B)
Co oznacza, że spełniony jest aksjomat unormowania.
Niech Ai ∈ F, i = 1, 2, . . . będą parami rozłączne. Wtedy wykorzystując
fakt, że P spełnia aksjomat przeliczalnej addytywności, mamy
∞
∞
T
! P T Ai ∩ B
P
(A
∩
B)
∞
i
\
i=1
i=1
PB
Ai =
=
P(B)
P(B)
i=1
∞
P
=
P(Ai ∩ B)
i=1
P(B)
=
∞
X
i=1
PB (Ai ),
16
ponieważ Ai ∩ B dla i = 1, 2, . . . są zdarzeniami rozłącznymi jako, że z założenia
zdarzenia Ai (i = 1, 2, . . . ) są parami rozłączne. Oznacza to, że miara PB spełnia
aksjomat przeliczalnej addytywności.
Definicja 1.2.6 Liczbę PB (A) nazywamy prawdopodobieństwem warunkowym
zdarzenia A pod warunkiem zdarzenia zajścia B i oznaczamy P(A/B).
Miarę probabilistyczną PB wykorzystujemy do obliczania prawdopodobieństwa
zajścia zdarzenia A jeśli wiadomo, że wcześniej zaszło zdarzenie B. Należy przy
tym zwrócić uwagę, że jeśli wiemy, że zaszło jakieś zdarzenie, to prawdopodobieństwo zajścia innych zdarzeń nie zmienia się. Miara PB służy jedynie do
wyznaczania prawdopodobieństw zdarzeń warunkowych.
Prawdopodobieństwo warunkowe ma następujące własności:
1. A ⊂ B ⇒ P(A/B) =
P(A)
P(B)
Dowód. Jeśli A ⊂ B, to A ∩ B = A, co kończy dowód.
2. B ⊂ A ⇒ P(A/B) = 1
Dowód. Jeśli B ⊂ A, to A ∩ B = B, co kończy dowód.
3. A ∩ B = ∅ ⇒ P(A/B) = 0
Dowód. Jeśli A ∩ B = ∅, to P(A ∩ B) = 0.
Przykład 1.2.7 Wybierzmy jedną rodzinę spośród rodzin z dwojgiem dzieci i
obliczmy prawdopodobieństwo tego, że wybraliśmy rodzinę z dwoma chłopcami,
jeśli wiadomo, że
a) starsze dziecko jest chłopcem,
b) w rodzinie jest co najmniej jeden chłopiec.
Przyjmijmy oznaczenie c-wybrane dziecko jest chłopcem, d-dziewczynką. Zdefiniujmy zbiór zdarzeń elementarnych w następujący sposób
Ω = {(c, c), (d, d), (c, d), (d, c)},
gdzie na pierwszym miejscu w parze znajduje się młodsze dziecko. Wtedy zdarzenie z punktu (a) ma następujące prawdopodobieństwo
.
P({(c, c)} {(c, c), (d, c)}) =
1
4
1
2
=
1
.
2
Natomiast odpowiedź do punktu (b) może być niespodzianką
.
P({(c, c)} {(c, c), (d, c), (c, d)}) =
1
4
3
4
=
1
.
3
Z tego przykładu widać, że prawdopodobieństwo warunkowe może mieć zaskakujące własności i trzeba zdawać sobie z tego sprawę. Między innymi zachodzi
następujące twierdzenie.
17
Twierdzenie 1.2.8
P(A/B) > P(A) ⇔ P(B/A) > P(B).
Dowód. Zauważmy, że z definicji prwdopodobieństwa warunkowego każda strona dowodzonej równoważności jest równoważna nierówności
P(A ∩ B) > P(B)P(A).
Zatem muszą one być sobie równoważne (relacja równoważności jest przechodnia).
Z twierdzenia tego wynika, że jeśli nierówność P(A/B) > P(A) zinterpretujemy w ten sposób, że zajście zdarzenia B zwiększa szanse zajścia zdarzenia
A, to powyższa równoważność oznacza, że zajście zdarzenia B zwiększa szanse
zajścia A wtedy i tylko wtedy, gdy zajście zdarzenia A zwiększa szanse zajścia
zdarzenia B. Jest to sprzeczne z intuicją wielu osób, które uważają, że jeśli
zajście B zwiększa szanse zajścia A, to zajście A zmniejsza szanse zajścia B.
Jako natychmniastową konsekwencjąe definicji prawdopodobieństwa warunkowego dostajemy twierdzenie, które mówi jak obliczyć prawdopodobieństwo
iloczynu zdarzeń, gdy znane są prawdopodobieństwa warunkowe.
Twierdzenie 1.2.9 Jeśli
P(A1 ∩ A2 ∩ · · · ∩ An−1 ) > 0,
to
P(A1 ∩ A2 ∩ · · · ∩ An )
= P(A1 )P(A1 /A2 )P(A3 /A1 ∩ A2 ) . . . P(An /A1 ∩ A2 ∩ · · · ∩ An−1 ).
Dowód. Założenie zapewnia, że wszystkie występujące we wzorze prawdopodobieństwa warunkowe są dobrze określone. Wykorzystując definicję prawdopodobieństwa warunkowego otrzymujemy
P(A1 )P(A1 /A2 )P(A3 /A1 ∩ A2 ) . . . P(An /A1 ∩ A2 ∩ · · · ∩ An−1 )
= P(A1 )
P(A1 ∩ A2 ∩ · · · ∩ An−1 ∩ An )
P(A1 ∩ A2 ) P(A1 ∩ A2 ∩ A3 )
...
,
P(A1 )
P(A1 ∩ A2 )
P(A1 ∩ A2 ∩ · · · ∩ An−1 )
co kończy dowód.
Twierdzenie to uzasadnia stosowanie metody tzw. drzewek, którą wykorzystuje się przy rozwiązywaniu wielu zadań (liczby przypisywane gałęziom to są
prawdopodobieństwa warunkowe).
Prawdopodobieństwo całkowite
Jednym z najbardziej użytecznych wzorów związanych z prawdopodobieństwem
warunkowym jest wzór na prawdopodobieństwo całkowite. Pozwala on obliczyć
prawdopodobieństwo zdarzenia, które może zajść w wyniku realizacji innych
zdarzeń w doświadczeniach wieloetapowych.
18
Definicja 1.2.10 Rodzinę zdarzeń {Ai , i = 1, 2, . . . , n} nazywamy zupełnym
układem zdarzeń jeśli
V
1.
Ai ∩ Aj = ∅,
i6=j
2.
n
S
Ai = Ω.
i=1
Twierdzenie 1.2.11 Niech w przestrzeni probabilistycznej (Ω, F, P) dany będzie zupełny układ zdarzeń {Ai , i = 1, 2, . . . , n} oraz zdarzenie B. Wtedy
P(B) =
n
X
P(B/Ai )P(Ai ).
i=1
Dowód. Zauważmy, że zdarzenia Ai ∩ B są rozłączne, bo zdarzenia Ai też są
rozłączne. Ponadto
!
n
[
P(B) = P(B ∩ Ω) = P B ∩
Ai
=P
n
[
i=1
!
(B ∩ Ai )
=
i=1
n
X
P(B ∩ Ai ).
i=1
Wykorzystując definicję prawdopodobieństwa warunkowego mamy
P(B/Ai ) =
P(Ai ∩ B)
⇒ P(Ai ∩ B) = P(B/Ai )P(Ai ),
P(Ai )
co kończy dowód.
Zupełny układ zdarzeń można traktować jako zbiór możliwych przyczyn
zajścia zdarzenia B (skutku). Prawdopodobieństwo P(B/Ai ) jest więc prawdopodobieństwem skutku pod warunkiem przyczyny. Z powyższego twierdzenia
wynika, że prawdopodobieństwo skutku jest sumą ważoną prawdopodobieństw
warunkowych skutku pod warunkiem przyczyn, przy czym wagami są prawdopodobieństwa przyczyn, tzw. prawdopodobieństwa a priori.
Czasami jednak potrzebne jest nam prawdopodobieństwo przyczyny pod warunkiem zajścia skutku. Poniższe twierdzenie podaje wzór na takie prawdopodobieństwo.
Twierdzenie 1.2.12 Bayesa
Niech w przestrzeni probabilistycznej (Ω, F, P) dany będzie zupełny układ zdarzeń niezerowych {Ai , i = 1, 2, . . . , n} oraz niezerowe zdarzenie B. Wtedy
P(B/Ai )P(Ai )
P(Ai /B) = Pn
.
j=1 P(B/Aj )P(Aj )
i=1,2,...,n
^
1.3. NIEZALEŻNOŚĆ ZDARZEŃ
19
Dowód. Zauważmy, że ze wzoru na prawdopodobieństwo warunkowe mamy
P(Ai /B) =
P(Ai ∩ B)
P(B)
P(B/Ai ) =
P(Ai ∩ B)
.
P(Ai )
oraz
Z drugiego wzoru wynika, że
P(Ai ∩ B) = P(B/Ai )P(Ai ).
Wykorzystując wzór na prawdopodobieństwo całkowite otrzymamy żadaną równość.
1.3
Niezależność zdarzeń
Termin niezależność kojarzy się z identycznym słowem używanym potocznie.
Zdefiniowaną w tym rozdziale niezależność nazywa się niezależnością stochastyczną. Różnicę pomiędzy tym pojęciem, a używanym potocznie omówimy krótko
na końcu tego rozdziału.
Definicja 1.3.1 Zdarzenie A ∈ F jest niezależne od zdarzenia B ∈ F gdy albo
P(B) > 0
∧
P(A/B) = P(A),
albo
P(B) = 0.
Jeśli
P(B) > 0
∧
P(A/B) 6= P(A),
to mówimy, że zdarzenie A jest zależne od zdarzenia B.
Twierdzenie 1.3.2 Jeżeli zdarzenie A jest niezależne od zdarzenia B, to zdarzenie B jest niezależne od zdarzenia A.
Dowód. Jeśli P(A) = 0, to twierdzenie wynika bezpośrednio z definicji niezależności. Niech więc P(A) > 0. Wtedy na mocy twierdzenia 1.2.9 jeśli tylko
P(B) > 0, to mamy
P(B ∩ A) = P(A)P(B/A).
Ale z założenia (A jest niezależne od B) wynika, że P(A/B) = P(A) zatem
P(B ∩ A) = P(B)P(A).
Stąd otrzymujemy
P(A)P(B/A) = P(A)P(B).
20
Dzieląc obustronnie powyższą równość przez P(A) otrzymujemy
P(B/A) = P(B),
co oznacza, że B jest niezależne od A.
Z powyższego twierdzenia wynika, że własność niezależności jest „wzajemna”. Zatem jeśli zdarzenie A jest niezależne od B, to będziemy mówić, że
zdarzenia A i B są niezależne.
W badaniu niezależności zdarzeń bardziej praktyczne jest następujące twierdzenie.
Twierdzenie 1.3.3 Zdarzenia A i B są niezależne wtedy i tylko wtedy, gdy
P(A ∩ B) = P(A)P(B).
Jak widzimy twierdzenie to podaje warunek konieczny i dostateczny niezależności dwóch zdarzeń.
Dowód. Załóżmy najpierw, że P(A) > 0 i P(B) > 0 oraz że zdarzenie A jest
niezależne od B. Wówczas P(A/B) = P(A), a zatem
P(A ∩ B) = P(A)P(A/B) = P(A)P(B).
Wtedy na mocy twierdzenia 1.3.2 zdarzenie B jest niezależne od A,
tzn. P(B/A) = P(B). Wobec tego
P(A ∩ B) = P(B)P(B/A) = P(B)P(A).
Zatem udowodniliśmy warunek konieczny.
Załóżmy teraz, że P(A ∩ B) = P(A)P(B) i porównajmy ten wzór ze wzorem
P(A ∩ B) = P(B)P(A/B). Mamy wówczas P(A/B) = P(A), co oznacza, że
zdarzenie A jest niezależne od B, a na mocy twierdzenia 1.3.2 również zdarzenie
B jest niezależne od A.
Rozpatrzmy teraz przypadek, gdy P(A) = 0. Wtedy z uwagi na to,
że A ∩ B ⊂ A mamy
P(A ∩ B) ¬ P(A).
Zatem P(A ∩ B) = 0, a stąd wynika, że P(A ∩ B) = P(A)P(B). Analogicznie
w przypadku gdy P(B) = 0. Wobec tego zdarzenia A i B są niezależne.
Niezależność można zdefiniować nie tylko między dwoma zdarzeniami, ale i
między większą ich ilością, mówimy wówczas o tak zwanej niezależności zespołowej lub wzajemnej. Poniższe twierdzenie podaje warunek konieczny i dostateczny wzajemnej niezależności.
Twierdzenie 1.3.4 Zdarzenia A1 , A2 , . . . , An są wzajemnie niezależne wtedy i
tylko wtedy, gdy
P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 ) . . . P(An ).
1.3. NIEZALEŻNOŚĆ ZDARZEŃ
21
Potocznie rozumiane pojęcie niezależności jest znacznie szersze niż pojęcie niezależności stochastycznej. Jeżeli nasze rozważnia ograniczymy tylko do sytuacji
doświadczalnych opisywanych modelami probabilistycznymi, to możemy wyróżnić następujące typy zależności:
1) zależność jednokierunkowa: jedno ze zdarzeń jest przyczyną, a drugie skutkiem i zajście przyczyny wywiera określony wpływ na zajście skutku,
2) zależność dwukierunkowa: zdarzenia wzajemnie wpływają na siebie,
3) zależność pośrednia: zdarzenia nie wpływają na siebie bezpośrednio, ale
istnieje zdarzenie, które ma na nie wpływ.
W modelach probabilistycznych wszystkie te sytuacje doświadczalne modelujemy zakładając, że modelowane zdarzenia są zależne stochastycznie. Jeśli więc
dwa zdarzenia są stochastycznie zależne, to może zachodzić każdy z powyższych
typów zależności, a jeśli są stochastycznie niezależne, to nie są zależne w żaden
z powyższych sposobów. Zatem jeśli chcemy założyć , że dwa modelowane zdarzenia są niezależne, to musimy sprawdzić, czy nie są one zależne w żaden z
powyższych sposobów. Musimy również zdawać sobie sprawę z tego, że intuicja
mówiąca czy zdarzenia są niezależne, może nas zawodzić o czym świadczy następujący przykład.
Przykład 1.3.5 Załóżmy, że pewne urządzenie jest dwa razy poddawane kontroli jakości. Wynikiem kontroli może być jedno ze zdarzeń:
S=[urządenie jest sprawne],
N =[urządzenie jest niesprawne].
Załóżmy ponadto, że obie kontrole działają niezależnie jedna od drugiej, i że
druga z nich z prawdopodobieństwem 0,5 zalicza urządzenie do niesprawnych.
Rozważmy dwa zdarzenia:
A=[pierwsza kontrola zaliczyła urządzenie do sprawnych],
B=[obie kontrole stwierdziły to samo ].
Niech ω1 oznacza wynik pierwszej kontroli, a ω2 wynik- drugiej. Wtedy
Ω = {(ω1 , ω2 ) : ω1 , ω2 ∈ {N, S}} = {(S, S), (S, N ), (N, S), (N, N )}.
Przez p oznaczmy prawdopodobieństwo tego, że pierwsza kontrola zaliczyła
urządzenie do sprawnych. Ponieważ założyliśmy, że kontrole są niezależne, więc
P({(S, S)}) = 0, 5p, P({(S, N )}) = 0, 5p,
P({(N, S)}) = 0, 5(1 − p), P({(N, N )}) = 0, 5(1 − p).
Ponadto
A = {(S, S), (S, N )},
B = {(S, S), (N, N )},
A ∩ B = {(S, S)},
oraz
P(A) = p,
P(B) = 0, 5,
P(A ∩ B) = 0, 5p.
Zatem P(A ∩ B) = P(A)P(B), a to jest raczej sprzeczne z intuicją.
22
Własności zdarzeń niezależnych
1. Zdarzenie zerowe i dowolne zdarzenie A są niezależne.
Dowód. Niech P(B) = 0. Zauważmy, że A ∩ B ⊂ B. Zatem
0 ¬ P(A ∩ B) ¬ P(B) = 0 co oznacza, że P(A ∩ B) = 0. Ponadto
P(A)P(B) = 0. Wobec tego zdarzenia są niezależne.
2. Zdarzenie prawie pewne i dowolne zdarzenie A są niezależne.
Dowód. Niech P(B) = 1. Zauważmy, że wtedy P(A ∩ B) = P(A).
Ponadto P(A)P(B) = P(A). Zatem zdarzenia są niezależne.
3. Zdarzenia A i Ω są niezależne
Dowód. Istotnie P(A ∩ Ω) = P(A) = P(A)P(Ω), bo P(Ω) = 1.
3. Zdarzenia A i ∅ są niezależne
Dowód. Istotnie P(A∩∅) = P(∅) = 0. Z drugiej strony mamy P(A)P(∅) =
0.
4. Jeśli zdarzenia A i B są niezależne, to również zdarzenia A i B, A i B, A
i B są niezależne
Dowód. Na ćwiczeniach.
Zauważmy jeszcze, że relacja niezależności nie jest przechodnia, tzn. jeśli zdarzenia A i B są niezależne i zdarzenia B i C są niezależne, to, zdarzenia A i C
nie muszą być niezależne, o czym świadczy poniższy przykład.
Przykład 1.3.6 Niech Ω = {ω1 , ω2 , ω3 , ω4 } i niech P({ωi }) =
i = 1, 2, 3, 4. Rozważmy zdarzenia
A = {ω1 , ω2 },
B = {ω2 , ω3 },
1
4
dla każdego
C = {ω3 , ω4 }.
Zauważmy, że
A ∩ B = {ω2 },
B ∩ C = {ω3 },
A ∩ C = ∅.
Ponadto
P(A) = P({ω1 }) + P({ω2 }) =
1
2
i analogicznie P(B) = 12 , P(C) = 12 . Zatem
P(A ∩ B) =
1
= P(A)P(B),
4
P(B ∩ C) =
1
= P(B)P(C),
4
co oznacza, że zdarzenia A i B oraz B i C są niezależne. Ale
P(A ∩ C) = 0,
i P(A)P(C) =
co oznacza, że zdarzenia A i C są zależne.
1
,
4
1.4. KLASYCZNE SCHEMATY RACHUNKU PRAWDOPODOBIEŃSTWA23
1.4
Klasyczne schematy rachunku prawdopodobieństwa
W paragrafie tym omówione będą trzy klasyczne modele probabilistyczne mające proste interpretacje urnowe i liczne zastosowania.
Schemat Bernoulliego
Schematem Bernoulliego nazywamy ciąg niezależnych powtórzeń tego samego
doświadczenia o dwu możliwych wynikach, które nazywamy porażką i sukcesem.
Kolejne powtórzenie doświadczenia nazywamy próbą Bernoulliego.
Twierdzenie 1.4.1 Prawdopodobieństwo zajścia dokładnie k sukcesów w schemacie Bernoulliego n prób z prawdopodobieństwem sukcesu w pojedynczej próbie
p wynosi
n k
Pn (k) =
p (1 − p)n−k .
k
Dowód. Oznaczmy zdarzenie polegające na tym, że wynikiem doświadczenia
jest sukces przez S. Wtedy prawdopodobieństwo uzyskania k sukcesów w n
próbach równe jest
. . . P(S)P(S)P(S) . . . P(S),
P(S
| · S{z. . . S}) = P(S)P(S)
| · S{z. . . S} · S
|
{z
}|
{z
}
k
n−k
k
n−k
ponieważ zdarzenia są niezależne. W związku z tym, że kolejność występowania
sukcesów i porażek jest obojętna, każdy układ zawierający k sukcesów i n − k
porażek sprzyja zajściu rozważanego przez nas zdarzenia. Wszystkich takich
układów jest tyle ile jest k elementowych kombinacji bez powtórzeń ze zbioru n
elementowego. Wobec tego ostatecznie
n k
Pn (k) =
p (1 − p)n−k .
k
Schemat Poissona
Rozważając schemat Bernoulliego możemy postawić sobie pytanie czy w przypadku bardzo dużej liczby doświadczeń n istnieje mniej żmudny sposób obliczania prawdopodobieństw Pn (k)? Odpowiedź podaje następujące twierdzenie
Twierdzenie 1.4.2 Jeśli przeprowadzimy ciąg serii doświadczeń według schematu Bernoulliego, tak że liczba doświadczeń w poszczególnych seriach n wzrasta
do nieskończoności i prawdopodobieństwo sukcesu dąży do zera w taki sposób, że
iloczyn np jest wielkością stałą, skończoną i równą λ, to
lim Pn (k) =
n→∞
e−λ λk
.
k!
24
Powyższy wzór nazywa się wzorem Poissona.
Dowód. Ponieważ z założeń twierdzenia wynika, że p =
n!
Pn (k) =
k!(n − k)!
λ
n,
to
k n−k
λ
λ
1−
n
n
n−k
λk (n − k + 1)(n − k + 2) . . . n
λ
1
−
k!
nk
n
n−k
k
λ
k−1
k−2
1
λ
=
1−
1−
... 1 −
1−
.
k!
n
n
n
n
=
Z uwagi na istnienie następujących granic
k−1
k−2
1
lim 1 −
1−
... 1 −
= 1,
n→∞
n
n
n
lim
n→∞
1−
λ
n
n−k
= lim
n→∞
1−
λ
n
n 1−
λ
n
−k
= e−λ ,
otrzymujemy tezę naszego twierdzenia.
Z powyższego twierdzenia wynika, że jeśli liczba przeprowadzonych doświadczeń n jest dostatecznie duża, a prawdopodobieństwo sukcesu p tak małe, że
iloczyn np jest liczbą małą, to możemy obliczyć Pn (k) jedynie z pewnym przybliżeniem. Okazuje się, że błąd jaki popełniamy w tym przypadku jest rzędu
λ2 /n i jest on tym mniejszy im mniejsza jest wartość λ i większa liczba doświadczeń n. Wiekszość wartości prawdopodobieństwa Pn (k) obliczanych ze wzoru
Poissona jest stablicowanych.
Schemat Pascala
Schemat Pascala jest zmodyfikowanym schematem Bernoulliego. W schemacie Bernoulliego wyznacza się prawdopodobieństwo otrzymania wśród ustalonej
liczby doświadczeń k sukcesów w dowolnej kolejności, natomiast w schemacie Pascala oblicza się prawdopodobieństwo, że liczba doświadczeń w schemacie Bernoulliego wynosi n, przy założeniu, że próby przeprowadza się aż do
uzyskania z góry ustalonej liczby sukcesów.
Twierdzenie 1.4.3 Jeśli przeprowadzamy doświadczenia według schematu
Bernoulliego ze stałym prawdopodobieństwem sukcesu w pojedynczej próbie p
aż do uzyskania k sukcesów, to prawdopodobieństwo tego, że liczba doświadczeń
wynosi n wyraża się wzorem
n−1 k
P(n, k) =
p (1 − p)n−k , n k 1.
k−1
Dowód. Przez A oznaczmy zdarzenie polegające na tym, że liczba doświadczeń
do momentu uzyskania k sukcesów wyniesie n. Przez A1 oznaczmy zdarzenie
polegające na tym, że w dowolnej kolejności otrzymamy k − 1 sukcesów w n − 1
1.4. KLASYCZNE SCHEMATY RACHUNKU PRAWDOPODOBIEŃSTWA25
próbach, a przez A2 oznaczmy zdarzenie polegające na otrzymaniu sukcesu w
n-tym doświadczeniu. Wtedy A = A1 ∩ A2 . Ponadto zdarzenia A1 i A2 są
niezależne oraz
n − 1 k−1
P(A1 ) =
p
(1 − p)n−k , P(A2 ) = p.
k−1
Z tych faktów wynika dowodzony wzór.
Zauważmy na koniec, że prawdopodobieństwo uzyskania pierwszego sukcesu
w n próbach wynosi
P1 (n) = p(1 − p)n−1 .
Wzór ten pojawi się w dalszej części wykładu.
26
Rozdział 2
Zmienna losowa
Wyniki każdego doświadczenia można, w zależności od potrzeb, powiązać z
pewnymi wartościami liczbowymi. Na przykład liczba oczek przy rzucie kostką,
czas oczekiwania na autobus, wypłata w grze losowej, itp. Istnieje zatem potrzeba rozważania funkcji określonych na przestrzeni zdarzeń elementarnych o
wartościach liczbowych. Przypisywanie zdarzeniom wartości liczbowych zależy
od subiektywnych ocen i potrzeb, dlatego też w jednym doświadczeniu mogą pojawić się różne odwzorowania przypisujące wynikowi doświadczenia liczbę. Na
przykład: każdy z graczy na giełdzie papierów wartościowych ma inny zestaw
akcji, więc i zysk każdego z nich jest inny.
Ponadto, jak przekonamy się w dalszej części wykładu, pewne charakterystyki liczbowe funkcji przypisujących zdarzeniom liczby pozwalają w prosty i
szybki sposób formułować wnioski dotyczące opisywanego doświadczenia.
Niech więc dana będzie przestrzeń probabilistyczna (Ω, F, P).
Definicja 2.0.4 Funkcję X : Ω → Rn określoną na zbiorze zdarzeń elementarnych i o warościach w Rn nazywamy zmienną losową jeśli zbiór
{ω ∈ Ω : X(ω) ∈ B}
jest zdarzeniem dla każdego zbioru borelowskiego B.
Możemy zatem powiedzieć, że funkcja X : Ω → Rn jest zmienną losową jeśli
spełniony jest warunek
^
{ω ∈ Ω : X(ω) ∈ B} ∈ F
(2.1)
B
zwany warunkiem mierzalności. Sens tego warunku będzie bardziej jasny, gdy
określimy rozkład zmiennej losowej. Niestety warunek mierzalności jest słaby z
punktu widzenia zastosowań. Najczęściej zakłada się że każda funkcja określona
na zbiorze zdarzeń elementarnych o wartościach liczbowych, pojawiająca się w
praktyce jest zmienną losową.
27
28
ROZDZIAŁ 2. ZMIENNA LOSOWA
Warunek mierzalności oznacza również, że funkcja X : Ω → Rn jest zmienną
losową jeśli przeciwobraz każdego podzbioru borelowskiego zbioru Rn jest zdarzeniem losowym.
Zmienną losową o wartościach w R nazywa się jednowymiarową, o wartościach w R2 nazywa się dwuwymiarową, itd.
Wartość X(ω) jaką zmienna losowa przyjmuje dla danego zdarzenia ω nazywa się realizacją zmiennej losowej odpowiadającą zdarzeniu elementarnemu ω.
Zatem realizacje jednowymiarowej zmiennej losowej są liczbami rzeczywistymi,
realizacje dwuwymiarowej zmiennej losowej są uporządkowanymi parami liczbowymi, tj. dwuwymiarowymi wektorami.
Oznaczmy przez FX rodzinę zbiorów {ω ∈ Ω : X(ω) ∈ B}, gdzie B jest
zbiorem borelowskim. Rodzinę FX nazywa się indukowaną przez zmienną losową
X. Zatem warunek mierzalności (2.1) można krótko zapisać w postaci FX ⊂ F.
Wobec tego sens tego warunku jest następujący: badając przestrzeń probabilistyczną (Ω, F, P) tylko poprzez obserwacje zmiennej losowej X określonej w tej
przestrzeni nie otrzymujemy informacji o wszystkich zdarzeniach z σ-ciała F,
ale tylko o tych, które „widzi” zmienna X, tj. o elementach rodziny FX . Można
wykazać, że FX jest σ-ciałem zdarzeń.
Rozważając wielowymiarową zmienną losową X : Ω → Rn , n > 1, rozważamy wektor X(ω) = [X1 (ω), X2 (ω), . . . , Xn (ω)], którego współrzędne są
funkcjami Xi : Ω → R, i = 1, 2, . . . , n spełniającymi warunek mierzalności
(2.1), a zatem są jednowymiarowymi zmiennymi losowymi, które nazywa się
składowymi zmiennej X. Często postępuje się również odwrotnie tzn. mając
n jednowymiarowych zmiennych losowych X1 , X2 ,..., Xn definiujemy funkcję
X : Ω → Rn zależnością
^
X(ω) = [X1 (ω, X2 (ω), . . . , Xn (ω)].
ω∈Ω
Można dowieść, że tak skonstruowana funkcja jest n-wymiarową zmienną losową.
2.1
Rozkład zmiennej losowej
Niech X : Ω → Rn będzie zmienną losową określoną na przestrzeni probabilistycznej (Ω, F, P). Z definicji zmiennej losowej wynika, że jeśli B jest zbiorem
borelowskim, to zbiór {ω : X(ω) ∈ B} jest zdarzeniem losowym należącym do F.
Możemy zatem wyznaczyć prawdopodobieństwo tego zdarzenia. Oznacza to, że
określone jest prawdopodobieństwo zdarzenia, że zmienna X przyjmie wartość
ze zbioru borelowskiego B.
Twierdzenie 2.1.1 Funkcja PX określona wzorem
PX (B) = P({ω : X(ω) ∈ B})
jest miarą probabilistyczną określoną na Rn .
2.1. ROZKŁAD ZMIENNEJ LOSOWEJ
29
Dowód. Należy sprawdzić, czy spełnione są aksjomaty (A1) i (A2).
Zauważmy, że
PX (Rn ) = P({ω : X(ω) ∈ Rn }) = P(Ω) = 1.
Zatem spełniony jest aksjomat unormowania. Aby wykazać, że zachodzi aksjomat przeliczalnej addytywności wybierzmy rozłączne podzbiory borelowskie B1 ,
B2 , . . . , Bn zbioru Rn . Mamy wówczas wykorzystując własności przeciwobrazu
!
!
!
n
n
n
[
[
[
PX
Bi = P {ω : X(ω) ∈
Bi } = P
{ω : X(ω) ∈ Bi }
i=1
i=1
=
n
X
i=1
P({ω : X(ω) ∈ Bi }) =
i=1
n
X
PX (Bi ).
i=1
Definicja 2.1.2 Miarę probabilisyczną PX określoną wzorem
PX (B) = P({ω : X(ω) ∈ B})
nazywamy rozkładem prwdopodobieństwa zmiennej losowej X.
Podamy teraz następujące twierdzenie bez dowodu.
Twierdzenie 2.1.3 Jeśli funkcja P jest miarą probabilistyczną, to jest rozkładem pewnej zmiennej losowej.
Sens tego twierdzenia jest następujący: każda miara probabilistyczna jest rozkładem jakiejś zmiennej losowej. Nie znaczy to oczywiście, że dana miara probabilistyczna jest rozkładem dokładnie jednej zmiennej losowej. Wręcz przeciwnie
łatwo jest skonstruować przykłady zmiennych losowych, których rozkłady są
identyczne (przykłady na ćwiczeniach). Będziemy dalej używać terminu rozkład
prawdopodobieństwa bez konkretyzowania zmiennej losowej i przestrzeni, na
której jest ona zdefiniowana. Powyższe twierdzenie gwarantuje nam, że każdy
rozkład prawdopodobieństwa jest rozkładem pewnej zmiennej losowej określonej
na pewnej przestrzeni probabilistycznej. Będziemy wówczas mówić, że zmienna
losowa X ma rozkład P i pisać X ∼ P.
Definicja 2.1.4 Trójkę (Rn , B n , PX ), gdzie B n jest rodziną wszystkich podzbiorów borelowskich zbioru Rn , a PX jest rozkładem zmiennej losowej X określonej na przestrzeni (Ω, F, P), nazywa się przestrzenią realizacji zmiennej losowej X.
Łatwo sprawdzić, że przestrzeń realizacji zmiennej losowej jest przestrzenią probabilistyczną. Ponadto ma ona znacznie prostszą strukturę niż przestrzeń probabilistyczna (Ω, F, P) w tym sensie, że zbiór Rn jest mniej skomplikowany niż
zbiór zdarzeń elementarnych. Zwykle w wielu zastosowaniach analizuje się raczej
przestrzeń realizacji zmiennej losowej, gdyż łatwiej jest opisywać obserwacje
zjawisk losowych za pomocą wartości liczbowych.
30
Należy w tym miejscu podkreślić, że znajomość przestrzeni probabilistycznej (Ω, F, P) i przestrzeni realizacji zmiennej losowej (Rn , B n , PX ) nie jest
wystarczająca do odtworzenia tej zmiennej, gdyż różne zmienne losowe mogą
mieć ten sam rozkład, a tym samym tą samą przestrzeń realizacji. Znając
przestrzeń realizacji zmiennej losowej nie jesteśmy w stanie badać jej własności
analitycznych takich jak na przykład wykres. Jednakże zastosowania probabilistyczne koncentrują się wokół własności zmiennej losowej wyrażonych przez jej
rozkład.
2.2
Rozkłady brzegowe
Niech X : Ω → Rn będzie zmienną losową. Czasami nasze zainteresowania
koncentrują się wokół zmiennej losowej , której składowe są tylko niektórymi
składowymi zmiennej X.
Definicja 2.2.1 Rozkład m-wymiarowej zmiennej losowej, gdzie m < n, której
składowe są równe tylko pewnym składowym zmiennej n-wymiarowej X nazywa się rozkładem brzegowym. Wtedy rozkład zmiennej losowej X nazywa się
rozkładem łącznym jej składowych.
W ogólnym przypadku nie jest możliwe odtworzenie rozkładu łącznego z rozkładów brzegowych. Jednakże rozkład łączny zawsze wyznacza jednoznacznie
rozkłady brzegowe.
2.3
Dystrybuanta
Posługiwanie się rozkładem zmiennej losowej może być w wielu przypadkach
dość kłopotliwe, gdyż jest on funkcją, której argumentami są zbiory. Okazuje
się, że znajomość rozkładu dla n-wymiarowych kostek, będących iloczynem
kartezjańskim przedziałów postaci (−∞, x >, x ∈ R pozwala określić rozkład
dla dowolnych zbiorów borelowskich. W dalszej części zajmiemy się tym zagadnieniem.
Oznaczmy przez (−∞, x >, gdzie x = (x1 , x2 , . . . , xn ), n-wymiarową kostkę
będącą iloczynem kartezjańskim przedziałów (−∞, xi >, i = 1, 2, . . . , n.
Niech P będzie rozkładem prawdopodobieństwa zmiennej losowej X określonej na przestrzeni probabilistycznej (Ω, F, P)..
Definicja 2.3.1 Funkcję F : Rn →< 0, 1 > określoną wzorem
F (x) = P({ω ∈ Ω : X(ω) ∈ (−∞, x)})
nazywamy dystrybuantą zmiennej losowej X.
Czasami będziemy pisać FX dla podkreślenia, że FX jest dystrubantą zmiennej
losowej X. Powyższy wzór należy rozumieć w następujący sposób
FX (x) = FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn )
= P({ω ∈ Ω : X1 (ω) ∈ (−∞, x1 ), X2 (ω) ∈ (−∞, x2 ), . . . , Xn (ω) ∈ (−∞, xn )})
= P(X1 < x1 , X2 < x2 , . . . , Xn < xn ).
2.3. DYSTRYBUANTA
31
W przypadku jednowymiarowym dystrybuanta FX : R →< 0, 1 > jest funkcją
rzeczywistą jednej zmiennej określoną wzorem
FX (x) = P(X < x),
a w przypadku dwuwymiarowym dystrybuanta FX,Y : R2 →< 0, 1 > jest
funkcją rzeczywistą dwóch zmiennych określoną wzorem
FX,Y (x, y) = P(X < x, Y < y).
Zauważmy, że dystrybuanta n-wymiarowej zmiennej losowej jest funkcją rzeczywistą n zmiennych rzeczywistych.
Podamy teraz pewne własności dystrybuanty.
Własności dystrybuanty
D1. Dystrybuanta jest funkcją lewostronnie ciągłą.
D2. Dystrybuanta jest niemalejąca względem każdego argumentu.
D3. Jeśli przynajmniej jeden z argumentów dąży do −∞, to lim F (x) = 0, a
jeśli przynajmniej jeden z argumentów dąży do +∞, to lim F (x) = 1.
Własności te są nie tylko konieczne, ale są również wystarczjące na to, aby
funkcja F była dystrybuantą, co podamy w następującym twierdzeniu.
Twierdzenie 2.3.2 Jeżel funkcja F : Rn →< 0, 1 > spełnia warunki (D1)(D3), to jest dystrybuantą pewnego rozkładu.
Definicja 2.3.3 Dystrybuanty m-wymiarowych rozkładów brzegowych nazywamy dystrybuantami brzegowymi, wówczas dystrybuantę rozkładu łącznego nazywamy dystrybuantą łączną.
Tak jak w przypadku ogólnym nie można jednoznacznie wyznaczyć rozkładu
łącznego na podstawie rozkładów brzegowych, tak nie można wyznaczyć łącznej
dystrybuanty na podstawie dystrybuant brzegowych.
Sformułujemy teraz twierdzenie mówiące, że na podstawie dystrybuanty można jednoznacznie wyznaczyć rozkład prawdopodobieństwa.
Twierdzenie 2.3.4 Rozkład n-wymiarowej zmiennej losowej X jest jednoznacznie określony przez dystrybuantę tej zmiennej, tzn. jeśli znana jest dystrybuanta FX , to dla każdego zbioru borelowskiego B można obliczyć prawdopodobieństwo PX (B) = P(X ∈ B).
Twierdzenie to mówi, że dystrybuanta niesie całą informację o rozkładzie prawdopodobieństwa zmiennej losowej. Niestety nie wynika z niego jak taki rozkład
wyznaczyć.
Zauważmy, że w przypadku jednowymiarowej zmiennej losowej z własności
dystrybuanty i miary probabilistycznej wynika, że dla dowolnych stałych a i b
mamy
32
1. P(X < a) = FX (a),
2. P(X ¬ a) = lim FX (x),
x→a+
3. P(X a) = 1 − FX (a),
4. P(X > a) = 1 − lim FX (x),
x→a+
5. P(a ¬ X < b) = FX (b) − FX (a),
6. P(a ¬ X ¬ b) = lim FX (x) − FX (a),
x→b+
7. P(a < X < b) = FX (b) − lim FX (x),
x→a+
8. P(a < X ¬ b) = lim FX (x) − lim FX (x),
x→b+
x→a+
9. P(X = a) = lim FX (x) − FX (a).
x→a+
Na podstawie powyższych własności można wyznaczyć rozkład jednowymiarowej zmiennej losowej o dystrybuancie FX . Wyprowadzając analogiczne własności dla wielowymiarowej zmiennej losowej możemy wyznaczyć jej rozkład na
podstawie znanej dystrybuanty.
Dowód własności 5. Zauważmy, że dla a < b zdarzenie {ω : X(ω) < a}
sprzyja zajściu zdarzenia {ω : X(ω) < b}. Zatem
P(a ¬ X < b) = P((X < b) \ (X < a))
= P(X < b) − P(X < a) = FX (b) − FX (a).
Dowód własności 9. Niech (xn ) będzie malejącym do zera ciągiem liczb
rzeczywistych. Wtedy
P(X = a) = lim P(a ¬ X < a + xn )
n→∞
= lim (FX (a + xn ) − FX (a)) = lim FX (x) − FX (a).
n→∞
x→a+
Dowód własności 2. Zauważmy, że
P(X a) = 1 − P(X < a) = 1 − FX (a).
Dowód własności 4. Z powyższego wynika, że
P(X > a) = P(X a) − P(X = a)
= 1 − FX (a) − ( lim FX (x) − FX (a)) = 1 − lim FX (x).
x→a+
Pozostałe własności dowodzi się w analogiczny sposób.
x→a+
2.4. NIEZALEŻNOŚĆ ZMIENNYCH LOSOWYCH
2.4
33
Niezależność zmiennych losowych
Pojęcie niezależności zmiennych losowych związane jest z niezależnością zdarzeń.
Zdefiniujemy je najpierw dla jednowymiarowych zmiennych losowych. Niech
Xi : Ω → R, i = 1, 2, . . . , n będą zmiennymi losowymi określonymi na tej
samej przestrzeni probabilistycznej (Ω, F, P). Niech FX = FX1 ,X2 ,...,Xn oznacza
łączną dystrybuantę tych zmiennych, a FXi dystrybuanty jednowymiarowych
rozkładów brzegowych.
Definicja 2.4.1 Powiemy, że zmienne losowe X1 , X2 , . . . , Xn są niezależne, jeśli
dla dowolnych x1 , x2 , . . . , xn ∈ R zdarzenia
{X1 < x1 },
{X2 < x2 },
...
{Xn < xn }
są niezależne. W przeciwnym przypadku zmienne X1 , X2 , . . . , Xn nazywamy
zależnymi.
Poniższe twierdzenie podaje warunki konieczne i dostateczne niezależności zmiennych losowych.
Twierdzenie 2.4.2 Zmienne losowe X1 , X2 , . . . , Xn są niezależne wtedy i tylko
wtedy, gdy
(i) dla dowolnych x1 , x2 , . . . , xn ∈ R mamy
FX (x1 , x2 , . . . , xn ) = FX1 (x1 )FX2 (x2 ) . . . FXn (xn ),
(ii) dla dowolnych zbiorów borelowskich B1 , B2 , . . . , Bn zdarzenia
{X1 ∈ B1 },
{X1 ∈ B1 },
...
{Xn ∈ Bn }
są niezależne,
Dowód. Jeśli zmienne losowe są niezależne, to
FX (x1 , x2 , . . . , xn ) = P(X1 < x1 , X2 < x2 , . . . , Xn < xn )
= P({X1 < x1 } ∩ {X2 < x2 } ∩ · · · ∩ {Xn < xn })
= P(X1 < x1 )P(X2 < x2 ) . . . P(Xn < xn )
= FX1 (x1 )FX2 (x2 ) . . . FXn (xn ).
Zatem warunek (i) zachodzi. Jeśli warunek (i) zachodzi to na mocy definicji dystrybuanty otrzymamy poprzez analogiczne przekształcenia niezależność zmiennych losowych.
Równoważność warunków (i) i (ii) wynika z faktu, że każdy zbiór borelowski
można zapisać jako iloczyn przedziałow postaci (−∞, x > i ich dopełnień. Z warunku (ii) wynika, że jeśli zmienne losowe X1 , X2 , . . . , XN są niezależne,
to dla dowolnych x1 , x2 , . . . , xn ∈ R
P(X1 = x1 , X2 = x2 , . . . , Xn = xn ) = P(X1 = x1 )P(X2 = x2 ) . . . P(Xn = xn )
34
i na odwrót.
Pojęce niezależności uogólnia się na wielowymiarowe zmienne losowe w następujący sposób.
Definicja 2.4.3 Niech Xi : Ω → Rni , i = 1, 2, . . . , m będą zmiennymi losowymi
określonymi na przestrzeni probabilistycznej (Ω, F, P). Mówimy, ze zmienne
losowe X1 , X2 , . . . , Xm są niezależne, jeśli dla dowolnych x1 ∈ Rn1 , x2 ∈ Rn2 ,...,
xm ∈ Rnm niezleżne są zdarzenia
{X1 < x1 },
2.5
{X2 < x2 },
...
{Xm < xm }.
Jednowymiarowe zmienne losowe
Niech X będzie jednowymiarową zmienną losową określoną na przestrzeni probabilistycznej (Ω, F, P) o rozkładzie prawdopodobieństwa PX .
2.5.1
Zmienne skokowe
W paragrafie tym podamy pewne własności zmiennych losowych, która mogą
przyjmować przeliczalną lub skończoną ilość wartości z dodatnimi prawdopodobieństwami. W tym celu zdefiniujemy następujące pojęcia
Definicja 2.5.1 Punkt x ∈ R nazywamy punktem skokowym zmiennej losowej
X, jeśli
PX ({x}) = P({ω : X(ω) = x}) = p > 0.
Liczbę p nazywamy wówczas skokiem w punkcie x.
Zbiór wszystkich punktów skokowych zmiennej losowej X oznaczać będziemy
przez SX .
Twierdzenie 2.5.2 Punkt x0 ∈ R jest punktem skokowym zmiennej losowej X
wtedy i tylko wtedy, gdy dystrybuanta F tej zmiennej jest nieciągła w punkcie
x0 .
Dowód. Twierdzenie to wynika z następującego faktu
P(X = x0 ) = F (x0 ) − lim− F (x).
x→x0
Definicja 2.5.3 Zmienną losową X nazywamy zmienną losową skokową lub
dyskretną, jeśli
PX (SX ) = P(X ∈ SX ) = 1.
Z definicji tej wynika, że zmienna losowa dyskretna przyjmuje tylko wartości
równe swoim punktom skokowym.
2.5. JEDNOWYMIAROWE ZMIENNE LOSOWE
35
Twierdzenie 2.5.4 Zmienna X jest zmienną losową skokową wtedy i tylko
wtedy, gdy suma skoków w jej punktach skokowych jest równa 1.
Dowód. Z definicji zmiennej losowej wynika, ze przeciwobrazem zbioru SX
jest cały zbiór zdarzeń elementarnych Ω. Zatem SX jest zbiorem co najwyżej
przeliczalnym, więc można go zapisać w postaci
SX = {x1 } ∪ {x2 } ∪ {x3 } ∪ . . . .
Wobec tego
PX (SX ) = PX ({x1 }) + PX ({x2 }) + PX ({x3 }) + · · · = 1.
Definicja 2.5.5 Funkcją prawdopodobieństwa zmiennej losowej skokowej X nazywamy przyporządkowanie każdemu punktowi skokowemu xi ∈ SX skoku pi w
tym punkcie. Będziemy wówczas pisać
P(X = xi ) = pi ,
xi ∈ SX ; i = 1, 2, . . .
Funkcję prawdopodobieństwa podaje się w postaci wzoru lub tabelki postaci
X
P(X = xi )
x1
p1
x2
p2
...
...
xn
pn
Ten ostatni sposób jest wygodny w przypadku, gdy zmienna losowa przyjmuje
skończoną liczbę wartości.
Twierdzenie 2.5.6 Funkcja prawdopodobieństwa zmiennej losowej X wyznacza rozkład tej zmiennej w tym sensie, że dla dowolnego borelowskiego zbioru
B
X
pi ,
(2.2)
PX (B) =
i
gdzie sumowanie przebiega tylko po tych wskaźnikach i, dla których xi ∈ B.
Dowód. Niech B będzie zbiorem borelowskim, a SX zbiorem punktów skokowych zmiennej X. Wtedy zbiór B można zapisać jako sumę dwóch rozłącznych
zbiorów
B = (B ∩ SX ) ∪ (B \ SX ).
Zatem
PX (B) = PX (B ∩ SX ) + PX (B \ SX ).
Ponieważ (B ∩ SX ) ⊂ SX , to
B ∩ SX = {xj1 } ∪ {xj2 } ∪ {xj3 } ∪ . . . ,
gdzie xji ∈ SX dla i = 1, 2, . . . . Wobec tego
PX (B ∩ SX ) = P(X = xj1 ) + P(X = xj2 ) + P(X = xj3 ) + · · · =
X
i
pi .
36
Zauważmy dalej, że
PX (R \ SX ) = 0.
Gdyby tak nie było, to PX (R \ SX ) > 0 i wtedy z twierdzenia 2.2.4 wynikałoby,
że
PX (R) = PX (SX ) + PX (R \ SX ) = 1 + PX (R \ SX ) > 1.
Jest oczywiście niemożliwe.
Z powyższego wynika, że
0 ¬ PX (B \ SX ) ¬ PX (R \ SX ) = 0,
gdyż (B \ SX ) ⊂ (R \ SX ). Zatem PX (B \ SX ) = 0.
Twierdzenie 2.5.7 Jeśli X jest zmienną losową skokową o funkcji prawdopodobieństwa
P(X = xi ) = pi , x∈ SX , i = 1, 2, . . . ,
to dystrybuanta tej zmiennej określona jest wzorem
X
F (x) =
pi ,
i
gdzie sumowanie przebiega po wszystkich wskaźnikach i, dla których xi < x.
Dowód. Kładąc we wzorze (2.2) B = (−∞, x > i korzystając z definicji dystrybuanty otrzymujemy tezę twierdzenia.
2.5.2
Funkcje zmiennej skokowej
W pewnych modelach probabilistycznych pojawiają się w sposób naturalny
funkcje zmiennych losowych. Powstaje pytanie czy takie funkcje są zmiennymi
losowymi. Odpowiedź na to pytanie podaje poniższe twierdzenie.
Niech B oznacza rodzinę wszystkich podzbiorów borelowskich zbioru R.
Definicja 2.5.8 Funkcję rzeczywistą g określoną na zbiorze liczb rzeczywistych
R spełniającą warunek
^
{x ∈ R : g(x) ∈ B} ∈ B
B∈B
nazywamy funkcją borelowską.
Twierdzenie 2.5.9 Jeśli X jest zmienną losową, a g jest funkcją borelowską,
to Y = g(X) jest zmienną losową.
Dowód. Niech A = {x ∈ R : g(x) ∈ B}. Z założenia wynika, że jest to zbiór
borelowski dla dowolnego borelowskiego zbioru B. Wobec tego zbiór {ω ∈ Ω :
X(ω) ∈ A} jest zdarzeniem. Zatem
{ω ∈ Ω : Y (ω) ∈ B} = {ω ∈ Ω : g(X(ω)) ∈ B} = {ω ∈ Ω : X(ω) ∈ A} ∈ F.
A to oznacza, że Y jest zmienną losową.
Kolejne twierdzenie podaje metodę wyznaczania rozkładu zmiennej losowej
Y będącej funkcją zmiennej losowej X.
37
Twierdzenie 2.5.10 Jeżeli SX jest zbiorem punktów skokowych zmiennej losowej X o funkcji prawdopoddobieństwa
P(X = xi ) = pi ,
xi ∈ SX
oraz funkcja borelowska g odwzorowuje zbiór SX na zbiór SY , to Y = g(X) jest
zmienną losową o funkcji prawdopodobieństwa
X
pk , yi ∈ SY ,
P(Y = yi ) =
k
gdzie sumowanie przebiega po wszystkich wskaźnikach k, dla których g(xk ) = yi .
Dowód. Niech yi ∈ SY oraz niech xk1 , xk2 , . . . będą pierwiastkami równania
g(xk ) = yi należącymi do zbioru SX . Wtedy zdarzenie Y = yi jest sumą wykluczających się zdarzeń
{Y = yi } = {X = xk1 } ∪ {X = xk2 } ∪ . . . .
Wobec tego
P(Y = yi ) = P(X = xk1 ) + P(X = xk2 ) + · · · =
X
pk .
k
2.5.3
Charakterystyki liczbowe zmiennych skokowych
Zmienna losowa jest zasadniczo dokładnie opisana przez jej rozkład prawdopodobieństwa. Jednakże w pewnych zastosowaniach wygodniej jest opisać rozkład
zmiennej losowej za pomocą charakterystyk liczbowych, zwanych również parametrami rozkładu. Charakterystyki z reguły są krótkimi opisami zmiennej
losowej umożliwiającymi szybkie porównywanie rozkładów ze sobą. Ponadto
niektóre z nich mają użyteczne interpretacje.
Definicja 2.5.11 Momentem rzędu r (r = 1, 2, . . . ) względem liczby c zmiennej
losowej skokowej X o rozkładzie P(X = xi ) = pi , i = 1, 2, . . . nazywamy liczbę
daną wzorem
∞
X
µr (c) = E(X − c)r :=
(xi − c)r pi ,
i=1
jeśli powyższy szereg jest bezwzględnie zbieżny.
W przypadku, gdy zmienna losowa X przyjmuje skończoną liczbę wartości
powyższa suma jest skończona i warunek bezwzględnej zbieżności nie ma wtedy
sensu.
Z powyższej definicji wynika, że zmienna losowa może nie posiadać pewnych
momentów oraz, że momenty zależą tylko od rozkładu. Z tego powodu bardzo
często mówi się o momentach rozkładu zamiast o momentach zmiennej losowej.
38
Jeśli w definicji 2.4.11 c = 0, to moment nazywamy zwykłym i oznaczamy
∞
X
mr = EX r :=
xri pi ,
i=1
a jeśli c = m1 (c = EX), to moment nazywamy centralnym i oznaczamy
µr = E(X − EX)r :=
∞
X
(xi − EX)r pi .
i=1
Definicja 2.5.12 Moment zwykły rzędu pierwszego nazywamy wartością oczekiwaną zmiennej losowej X i oznaczamy symbolem E(X) lub EX.
Wartość oczekiwana jest najbardziej prawdopodobną wartością zmiennej losowej. Wskazuje ona punkt „środkowy” rozkładu, punkt wokół, którego grupują
się wartości zmiennej losowej.
Definicja 2.5.13 Wartością oczekiwaną zmiennej losowej g(X), gdzie g jest
funkcją borelowską, a X zmienną losową o funkcji prawdopodobieństwa
P(X = xi ) = pi , i = 1, 2, . . . , nazywamy wyrażenie
Eg(X) =
∞
X
g(xi )pi ,
i=1
WŁASNOŚCI WAROŚCI OCZEKIWANEJ
Niech X będzie zmienną losową skokową o funkcji prawdopodobieństwa
P(X = xi ) = pi , i = 1, 2, . . . , niech f i g będą funkcjami borelowskimi i niech
a ∈ R będzie stałą rzeczywistą, a k ∈ N dowolną liczbą naturalną.
Twierdzenie 2.5.14 Jeżeli istnieją wartości oczekiwane Ef (X) i Eg(X), to
E(f (X) + g(X)) = Ef (X) + Eg(X).
Dowód. Na początku wykażemy, że wartość oczekiwana sumy zmiennych f (X)
i g(X) istnieje. Z nierówności trójkąta dla wartości bezwzględnej otrzymujemy
∞
X
i=1
| f (xi ) + g(xi ) | pi ¬
∞
X
| f (xi ) | pi +
i=1
∞
X
| g(xi ) | pi .
i=1
A ponieważ szeregi po prawej stronie nierówności są z założenia zbieżne, to i
szereg po lewej stronie też jest zbieżny. Zbieżność bezwzględna szeregu gwarantuje jego zbieżność, zatem otrzymujemy tezę twierdzenia.
Twierdzenie 2.5.15 Wartość oczekiwana stałej równa jest tej stałej, tj.
E(a) = a.
39
Dowód. Zauważmy, że
E(a) =
∞
X
a · pi = a
i=1
ponieważ
∞
P
∞
X
pi = a,
i=1
pi = 1.
i=1
Twierdzenie 2.5.16 Jeżeli istnieje wartość oczekiwana zmiennej losowej X,
to dla dowolnych stałych a ∈ R i k ∈ N
E(aX)k = ak EX k .
Dowód. Mamy dla dowolnego k ∈ N
E(aX)k =
∞
X
i=1
(axi )k pi = ak
∞
X
xki pi = ak EX k .
i=1
A ponieważ wartość oczekiwana EX istnieje, to szereg
∞
P
(axi )k pi = ak
i=1
∞
P
i=1
jest zbieżny bezwzględnie.
Z powyższych twierdzeń natychmiast wynika następujący wniosek
xki pi
Wniosek 2.5.17 Jeżeli istnieje E(X), to dla dowolnych stałych a, b ∈ R
E(aX + b) = aEX + b.
Twierdzenie 2.5.18 Jeżeli istnieje E(X), to E(X − EX) = 0.
Dowód. Ponieważ wartość oczekiwana zmiennej losowej jest stałą to z wcześniej
udowodnionych twierdzeń wynika, że
E(X − EX) = E(X) − E(EX) = 0.
Zmienną losową Y = X − EX nazywa się zmienną losową scentowaną.
Powyższe twierdzenie mówi, że wartości zmiennej losowej scentrowanej skupiają
się wokół zera.
Twierdzenie 2.5.19 Nierówność Schwarza
Jeżeli zmienne losowe X i Y mają momenty zwykłe do drugiego rzędu włącznie,
to
√
kE(XY )k ¬ EX 2 EY 2 .
Dowód. Niech Z = (X − aY )2 dla dowolnej stałej a ∈ R. Ponieważ zmienne
losowe X i Y mają momenty zwykłe do drugiego rzędu włącznie, to istnieje
watrość oczekiwana zmiennej Z oraz
EZ = EX 2 − 2aE(XY ) + a2 EY 2 .
40
Zauważmy, że zmienna losowa Z przyjmuje tylko wartości nieujemne, zatem
EZ 0. Wobec tego nierówność kwadratowa
a2 EY 2 − 2aE(XY ) + EX 2 0
musi być spełniona dla każdego a. Ma to miejsce tylko wtedy, gdy wyróżnik
rozpatrywanego trójmianu jest niedodatni zatem
2
4 (E(XY )) − 4EX 2 EY 2 ¬ 0.
Stąd łatwo wynika teza twierdzenia.
Następujące twierdzenia zostaną dowiedzione w paragrafach poświęconych
dwuwymiarowym zmiennym losowym.
Twierdzenie 2.5.20 Jeżeli istnieją EX i EY , to dla dowolnych stałych
a, b ∈ R istnieje E(aX + bY ) oraz
E(aX + bY ) = aEX + bEY.
Twierdzenie 2.5.21 Jeżeli X i Y są niezależnymi zmiennymi losowymi i istnieją ich wartości oczekiwane, to istnieje E(XY ) oraz
E(XY ) = EX · EY.
Jak wcześniej wspomniano wartość oczekiwana jest wartością wokół której koncentrują się wartości zmiennej losowej. Oczywiście znajomość wartości oczekiwanej nie wyznacza rozkładu zmiennej losowej. Potrzebny jest więc parametr,
za pomocą którego można było by powiedzieć coś więcej o wartościach zmiennej
losowej, jak choćby jak bardzo różnią się one od wartości oczekiwanej, jakie jest
ich rozproszenie względem niej. Takim parametrem jest odchylenie standardowe,
zwane też miarą rozrzutu, będące pierwiastkiem z wariancji. Znajomość tego
parametru konieczna jest zwłaszcza wtedy, gdy przy rozpatrywaniu kilku rozkładów stwierdza się, że ich wartości oczekiwane są jednakowe i trzeba rozstrzygnąć,
który rozkład jest lepszy w danych warunkach.
Definicja 2.5.22 Moment centralny rzędu drugiego nazywamy wariancją zmiennej losowej X i oznaczamy symbolem D2 (X) lub D2 X.
Zauważmy, że z definicji wariancja dowolnej zmiennej losowej jest liczbą nieujemną.
Definicja 2.5.23 Pierwiastek kwadratowy z wariancji nazywamy odchyleniem
standardowym i oznaczmy D(X) lub DX.
WŁASNOŚCI WARIANCJI
Twierdzenie 2.5.24 Dla dowolnej liczby rzeczywistej c 6= EX prawdziwa jest
nierówność
D2 X < E(X − c)2 .
41
Dowód. Na podstawie własności wartości oczekiwanej mamy
E(X − c)2 = E(X − EX + EX − c)2
= E(X − EX)2 + 2E(X − EX)(EX − c) + (EX − c)2
= D2 X + (EX − c)2 > D2 X.
Wyrażenie E(X − c)2 nazywa się średnim kwadratowym odchyleniem zmiennej
X od stałej c.
Twierdzenie 2.5.25 Dla dowolnej jednowymiarowej zmiennej losowej mamy
D2 X = EX 2 − (EX)2 .
(2.3)
Dowód. Z własności wartości oczekiwanej wynika, że
D2 X = E(X − EX)2
= E(X 2 − 2XEX + (EX)2 )
= EX 2 − 2EXEX + (EX)2
= EX 2 − (EX)2 .
Twierdzenie 2.5.26 Jeśli b jest dowolną stałą rzeczywistą, to
D2 (X + b) = D2 X.
D2 (X + b) = E(X + b)2 − (E(X + b))2
= E(X 2 + 2bX + b2 ) − (EX + b)2
= EX 2 + 2bEX + b2 − (EX)2 − 2bEX − b2
= EX 2 − (EX)2 = D2 X.
Twierdzenie 2.5.27 Dla dowolnej stałej b różnej od zera i jednowymiarowej
zmiennej losowej mamy
D2 (bX) = b2 D2 X.
Dowód. Wykorzystując własności wartości oczekiwanej mamy
D2 (bX) = E(bX)2 − (E(bX))2
= b2 EX 2 − b2 (EX)2 = b2 D2 X.
Twierdzenie 2.5.28 Wariancja ze stałej równa jest zero.
Dowód. Niech b ∈ R. Wtedy
D2 (b) = Eb2 − (Eb)2 = b2 − b2 = 0,
na mocy własności wartości oczekiwanej.
42
Definicja 2.5.29 Jeżeli zmienna losowa X ma odchylenie standardowe równe
σ, to zmienną losową Y = σ1 X nazywa się unormowaną
Twierdzenie 2.5.30 Wariancja zmiennej unormowanej równa jest jeden.
Dowód. Niech X ma odchylenie standardowe równe σ. Wtedy wykorzystując
własności wariancji otrzymamy
1
1
1
D2
X = 2 D2 X = 2 σ 2 = 1.
σ
σ
σ
Definicja 2.5.31 Jeżeli X jest zmienną losową o wartości oczekiwanej µ i
odchyleniu standardowym σ, to zmienną losową Y = X−µ
nazywamy zmienną
σ
losową standaryzowaną.
Twierdzenie 2.5.32 Wartość oczekiwana zmiennej losowej standaryzowanej
równa jest zero, a odchylenia standardowe jeden.
Dowód. Wykorzystując własności wartości oczekiwanej dostajemy
1
X −µ
= (EX − µ) = 0.
E
σ
σ
Wykorzystując własności wariancji dostajemy
X −µ
1
D2
= 2 D2 X = 1.
σ
σ
W celu zbadania własności rozkładu jednowymiarowej zmiennej losowej lub
porównania różnych rozkładów ze sobą, oblicza się czasami tzw. charakterystyki
pozycyjne, tj. wartości charakteryzujące położenie zbioru wartości zmiennej losowej. Jedną z charakterystyk pozycyjnych jest wartość oczekiwana, która mówi
z grubsza o tym, gdzie są skupione wartości przyjmowane przez zmienną losową.
Do charakterystyk pozycyjnych należą również kwantyle.
Definicja 2.5.33 Wartość xp spełniającą nierówności
P(X ¬ xp ) p,
P(X xp ) 1 − p;
0<p<1
nazywamy kwantylem rzędu p zmiennej losowej X.
W szczególności kwantyl rzędu
1
2
nazywa się medianą.
Definicja 2.5.34 Medianą zmiennej losowej X nazywamy liczbę M e X spełniającą warunki
1
1
P(X ¬ M e X)
P(X M e X) .
2
2
Z definicji kwantyli wynika, że są one określone dla każdej zmiennej losowej.
Innym parametrem pozycyjnym jest moda.
Definicja 2.5.35 Modą zmiennej losowej X nazywamy tą wartość zmiennej
losowej, której odpowiada największe prawdopodobieństwo. Modę będziemy
oznaczać przez M o X.
Z powyższej definicji wynika, że moda może nie istnieć w przypadku, gdy pewne
wartości zmienna losowa przyjmuje z takim samym prawdopodobieństwem.
2.5.4
43
Przykłady rozkładów skokowych
W paragrafie tym omówimy podstawowe własności rozkładów zmiennych losowych skokowych najczęściej pojawiających się w zastosowaniach.
Rozkład dwupunktowy
Powiemy, że zmienna losowa ma rozkład dwupunktowy jeśli jej funkcja prawdopodobieństwa dana jest wzorem
P(X = x1 ) = p
P(X = x2 ) = q;
0 < p < 1, p + q = 1.
Jeżeli x1 = 0 i x2 = 1, to taki rozkład nazywamy zero-jedynkowym z parametrem
p.
• Przykład modelu
Rzut symetryczną monetą. Wówczas jeśli zdarzeniu polegającemu na wyrzuceniu
reszki przypiszemy 0, a zdarzeniu polegającemu na wyrzuceniu orła - 1, to
funkcja prawdopodobieństwa będzie postaci
P(X = 0) =
1
2
P(X = 1) =
1
.
2
• Wartość oczekiwana i wariancja
E(X) = x1 p + x2 q.
Dla rozkładu zero-jedynkowego EX = 12 .
D2 X = x21 p + x22 q − (x1 p + x2 q)2
= x21 p + x22 q − x21 p2 − 2x1 x2 pq − x22 q 2
= x21 (p − p2 ) − 2x1 x2 pq + x22 (q − q 2 )
= x21 pq − 2x1 x2 pq + x22 q = (x1 − x2 )2 pq.
Dla rozkładu zero-jedynkowego D2 X = 14 , zatem DX = 12 .
Rozkład równomierny
Zmienna losowa X ma rozkład równomierny jeśli jej funkcja prawdopodobieństwa ma postać
P(X = xi ) =
1
n
i = 1, 2, . . . , n;
0 < p < 1, p + q = 1.
44
Rzut jednorodną kostką. Wówczas jeśli przyjmiemy, że zmienna losowa przyjmuje wartości równe liczbie wyrzuconych oczek na kostce, to funkcja prawdopodobieństwa będzie postaci
P(X = i) =
1
n
i = 1, 2, 3, 4, 5, 6.
x1 + x2 + · · · + xn
n
2
x2 + x22 + · · · + x2n
x1 + x2 + · · · + xn
D2 X = 1
−
n
n
EX =
Rozkład dwumianowy z parametrami (n, p)
Powiemy, że zmienna losowa ma rozkład dwumianowy z parametrami (n, p) jeśli
jej funkcja prawdopodobieństwa określona jest wzorem
n k n−k
P(X = k) =
p q
k = 0, 1, 2, . . . , n; 0 < p < 1, p + q = 1.
k
I Zmienna losowa przyjmująca wartości równe liczbie sukcesów otrzymanych
w dowolnej kolejności w n niezależnych doświadczeniach z których każde
zachodzi z prawdopodobieństwem p.
I Zmienna losowa równa sumie n niezależnych zmiennych losowych Xi o
tym samym rozkładzie zero-jedynkowym z parametrem p.
n
n
X
X
n k n−k
(n − 1)!
EX =
k
p q
= np
pk−1 q n−k
k
(k − 1)!(n − k)!
k=0
k=1
(zmieniamy kolejność sumowania podstawiając i = k − 1)
n−1
n−1
X (n − 1)!
X n − 1
= np
pi q n−i−1 = np
pi q n−i−1
i!(n
−
i
−
1)!
i
i=0
i=0
= np(p + q)n−1 = np.
Wykorzystaliśmy znany wzór na dwumian Newtona
m X
m
i=0
i
pi q m−i = (p + q)m .
45
Aby wyznaczyć wariancję wykorzystamy wzór (2.3). W tym celu musimy
wyznaczyć drugi moment zwykły wykonując analogiczne przekształcenia jak
powyżej
EX 2 =
n
X
k=0
= np
k2
n
X
n k n−k
(n − 1)!
p q
= np
k
pk−1 q n−k
k
(k − 1)!(n − k)!
n−1
X
k=1
(i + 1)
i=0
= np
n−1
X
i=1
(n − 1)!
pi q n−i−1
i!(n − i − 1)!
n−1
X (n − 1)!
(n − 1)!
pi q n−i−1 + np
pi q n−i−1
(i − 1)!(n − i − 1)!
i!(n
−
i
−
1)!
i=0
n−1
X (n − 1)!
(n − 2)!
pl q n−l−2 + np
pi q n−i−1
l!(n − l − 2)!
i!(n
−
i
−
1)!
i=0
l=0
n−2
n−1
X n − 2
X n − 1
= np2 (n − 1)
pl q n−l−2 + np
pi q n−i−1
l
i
i=0
= np2 (n − 1)
n−2
X
l=0
= np2 (n − 1)(p + q)n−2 + np(p + q)n−1 = np(np + q).
Zatem
D2 X = np(np + q) − (np)2 = npq.
Rozkład Poissona z parametrem λ
Mówimy, że zmienna losowa ma rozkład Poissona z parametrem λ jeśli jej
funkcja prawdopodobieństwa dana jest wzorem
P(X = k) = e−λ
λk
k!
k = 0, 1, 2, . . . .
Zmienna losowa przyjmująca wartości równe liczbie sukcesów jakie otrzymamy
wykonując n niezależnych doświadczeń według schematu Poissona.
EX =
∞
X
∞
ke−λ
k=0
= λe−λ
X λk−1
λk
= λe−λ
k!
(k − 1)!
k=1
∞
X
λl
l=0
l!
= λe−λ eλ = λ.
46
Wykorzystaliśmy rozwinięcie funkcji wykładniczej o podstawie e w szereg
∞
P
xn
ex =
n! . W analogiczny sposób obliczamy drugi moment zwykły
n=0
EX 2 =
∞
X
k 2 e−λ
k=0
∞
∞
k=1
l=0
X λk−1
X
λk
λl
= λe−λ
k
= λe−λ
(l + 1)
k!
(k − 1)!
l!
∞
∞
X
X
λl−1
λl
= λ2 e−λ
+ λe−λ
(l − 1)!
l!
l=1
= λ2 e−λ
i=0
2 −λ λ
=λ e
l=0
∞
X
λi
i!
+ λe−λ
∞
X
λl
l=0
2
l!
e + λe−λ eλ = λ + λ.
Wobec tego wykorzystując wzór (2.3) otrzymujemy
D2 X = λ2 + λ − λ2 = λ.
Rozkład Pascala z parametrami (m, p)
Zmienna losowa ma rozkład Pascala z parametrami (m, p) jeśli jej funkcja prawdopodobieństwa ma postać
P(X = k) =
k−1 m
p (1−p)k−m ,
m−1
k = m, m+1, m+2, . . . ; 0 < p < 1, p+q = 1.
I Zmienna losowa o wartościach równych liczbie doświadczeń wykonanych
do uzyskania m sukcesów według schematu Pascala.
I Jeśli założymy, że wykonujemy dokładnie jedną próbę Bernoulli’ego w
jednostce czasu, to zmienna losową o rozkładzie Pascala możemy zinterpretować jako czas oczekiwania na m-ty sukces.
n
Korzystając z własności symbolu Newtona nk = n−k
i stoując podstawienie
i = k − m funkcję prawdopodobieństwa zmiennej losowej o rozkładzie Pascala
możemy zapisać w następującej postaci
P(X = i) =
m+i−1 m i
p q
i
i = 0, 1, 2, . . . ;
0 < p < 1, p + q = 1.
47
∞ ∞
X
m + i − 1 m i X (m + i − 1)! m i
p q
EX =
i
p q =
(i − 1)!(m − 1)!
i
i=0
i=1
∞ ∞
X
X
(m + i − 1)! m i
m+i−1 m i
=m
p q =m
p q
(i − 1)!m!
i−1
i=1
i=1
∞ ∞ X
m + l m l+1
mq X (m + 1) + l − 1 m+1 l
p q
=
p
q
=m
l
p
l
l=0
l=0
mq
=
.
p
Ostatnia suma równa się 1 ponieważ jest sumą prawdopodobieństw rozkładu
Pascala z parametrami (m + 1, p).
∞
X
m+i−1 m i
p q
EX 2 =
i2
i
i=0
=
∞
X
(i − 1)i
i=1
=
∞
X
i=2
∞
(m + i − 1)! m i X (m + i − 1)! m i
p q +
i
p q
i!(m − 1)!
i!(m − 1)!
i=1
∞
(m + i − 1)! m i X (m + i − 1)! m i
p q +
p q.
(i − 2)!(m − 1)!
(i − 1)!(m − 1)!
i=1
Z przekształceń dotyczących obliczenia wartości oczekiwanej rozkładu Pascala
wynika, że ostatnia suma równa jest mq
p . Zatem
EX 2 =
∞
X
i=2
(m + i − 1)! m i mq
p q +
(i − 2)!(m − 1)!
p
= m(m + 1)
∞
X
i=2
(m + i − 1)! m i mq
p q +
(i − 2)!(m + 1)!
p
∞
X
(m + k + 1)!
mq
pm q k+2 +
k!(m + 1)!
p
k=0
∞
X m+k+1
mq
= m(m + 1)
pm q k+2 +
k
p
k=0
∞
q 2 X (m + 2) + k − 1 m+2 k mq
= m(m + 1) 2
p
q +
p
k
p
= m(m + 1)
k=0
q2
mq
= m(m + 1) 2 +
,
p
p
Ostatnia suma jest sumą prawdopodobieństwa rozkładu Pascala z parametrami
(m + 2, p), a więc równa jest 1. Wobec tego
D2 X = m(m + 1)
q2
mq m2 q 2
mq
+
− 2 = 2.
2
p
p
p
p
48
Rozkład geometryczny z parametrem p
Jest to szczególny przypadek rozkładu Pascala z m = 1.
• Funkcja prawdopodobieństwa
P(X = k) = p(1 − p)k
k = 1, 2, . . . ;
0 < p < 1.
D2 X =
EX = p,
1−p
.
p2
Wartość oczekiwaną i wariancję rozkładu geometrycznego można obliczyć wykorzystując twierdzenie o różniczkowaniu szeregu potęgowego wyraz po wyrazie.
∞
P
Wiemy, że szereg potęgowy
xn jest jednostajnie zbieżny dla | x |< 1 oraz
∞
P
n=1
n
x =
n=1
x
1−x .
Wobec tego
∞
X
!0
n
x
=
n=1
x
1−x
0
.
Stąd
∞
X
nxn−1 =
n=1
1
.
(1 − x)2
(2.4)
Różniczkując raz jeszcze otrzymamy
∞
X
!0
n−1
nx
=
n=1
1
(1 − x)2
0
,
czyli
∞
X
n(n − 1)xn−1 =
n=1
2
.
(1 − x)3
(2.5)
Powyższe fakty wykorzystamy najpierw do obliczenia wartości oczekiwanej zmiennej losowej o rozkładzie geometrycznym. Oznaczmy 1 − p = q. Wtedy
EX =
∞
X
ipq i = pq
i=0
∞
X
iq i−1 .
i=0
Korzystając (2.4) dla x = q otrzymamy
EX = pq
1
q
= .
(1 − q)2
p
(2.6)
49
Teraz wyznaczymy drugi moment zwykły
EX 2 =
∞
X
i2 pq i = p
i=0
= pq 2
∞
X
[i(i − 1) + i]q i
i=0
∞
X
i(i − 1)q i−2 + pq
i=0
∞
X
iq i−1 .
i=0
Pierwszą sumę obliczymy korzystając z (2.5) dla x = q, a drugą z (2.6)
EX 2 = pq 2
2
q
2q 2
q
+
=
+ .
3
2
(1 − q)
p
p
p
Stąd
2q 2
q
D X= 2 + −
p
p
2
2.5.5
2
q
q
q
= 2 (q + p) = 2 .
p
p
p
Zmienne ciągłe
Paragraf ten będzie poświęcony zmiennym losowym jednowymiarowym, które
przyjmują wszystkie wartości z pewnego przedziału lub sumy przedziałów.
Definicja 2.5.36 Zmienną losową X dla której istnieje nieujemna funkcja f
taka, że dystrybuantę F zmiennej X można przedstawić w postaci
Zx
F (x) =
f (t)dt
dla każdego x ∈ R
(2.7)
−∞
nazywamy zmienną losową ciągłą.
Funkcję f spełniającą warunek (2.7) nazywamy gęstością prawdopodobieństwa zmiennej losowej X.
Czasami będziemy pisać fX zamiast f aby podkreślić, że mówimy o gęstości
zmiennej X.
Zauważmy, że w punktach ciągłości gęstości prawdopodobieństwa f mamy
F 0 (x) = f (x).
Ponadto jeśli f jest gęstością, to z własności dystrybuanty wynika, że
Z∞
f (x)dx = lim F (x) = 1.
x→∞
−∞
I na odwrót każda funkcja spełniająca powyższe zależności jest gęstością prawdopodobieństwa.
Modelem dla zmiennej losowej ciągłej może być tzw. „koło fortuny”. Strzałka
może wskazać dowolny punkt leżący na okręgu, jednak prawdopodobieństwo,
50
że zatrzyma się ona na wybranym punkcie jest równe zero, bo punktów na
okręgu jest nieskończenie wiele. Zatem nie ma sensu pytać o prawdopodobieństwo przyjęcia przez zmienną ciągłą określonej wartości. Interesuje nas natomiast
prawdopodobieństwo, że zmienna ciągła przyjmuje wartości w określonym przedziale. Z własności dystrybuanty i definicji gęstości wynika, że
Zb
P(a ¬ X < b) = F (b) − F (a) =
Za
f (t)dt −
−∞
Zb
f (t)dt =
−∞
f (t)dt.
a
Ponieważ prawdopodobieństwo przyjęcia przez zmienną losową ciągłą określonej
wartości równe jest zero, to
P(a ¬ X < b) = P(a < X ¬ b) = P(a < X < b) = P(a ¬ X ¬ b).
Z powyższych spostrzeżeń wynika, że pole figury ograniczonej wykresem gęstości
w przedziale < a, b > oraz prostymi x = a i x = b równe jest P(a ¬ X < b).
2.5.6
Funkcje zmiennej ciągłej
Niech X będzie zmienną losową ciągłą o gęstości fX i niech g będzie funkcją
borelowską.
Twierdzenie 2.5.37 Jeżeli borelowska funkcja g jest ciągła wraz ze swoją pochodną i ściśle monotoniczna w zbiorze możliwych wartości ciągłej zmiennej
losowej X, to Y = g(X) jest zmienną losową ciągłą o gęstości
fY (y) = fX (h(x)) | h0 (y) |,
gdzie h jest funkcją odwrotną do funkcji g.
Dowód. Załóżmy na początku, że g jest funkcją ściśle rosnącą. Wtedy oczywiście
jest ona różnowartościowa i ma funkcję odwrotną g −1 = h oraz każdemu przedziałowi < x, x + ∆x) odpowiada dokładnie jeden przedział < y, y + ∆y) taki,
że
P(x ¬ X < x + ∆x) = P(y ¬ Y < y + ∆y),
(2.8)
gdzie y = g(x). Wobec tego
FX (x + ∆x) − FX (x) = FY (y + ∆y) − FY (y).
Równość powyższą można przekształcić do postaci
FX (x + ∆x) − FX (x)
FY (y + ∆y) − FY (y) ∆y
=
.
∆x
∆y
∆x
Z założenia, że g jest ciągła wynika że jeśli ∆x → 0, to ∆y → 0. Zatem
lim
∆x→0
FX (x + ∆x) − FX (x)
FY (y + ∆y) − FY (y) ∆y
= lim
.
∆x→0
∆x
∆y
∆x
51
Wobec tego
0
FX
(x) = FY0 (y)
lub równoważnie
∆y
∆x
fX (x) = fY (y)
∆y
.
∆x
fY (y) = fX (x)
∆x
.
∆y
Stąd
Ale x = h(y), a zatem
fY (y) = fX (x)h0 (y).
W przypadku gdy g jest ściśle malejąca równość (2.8) przyjmie postać
P(x ¬ X < x + ∆x) = P(y + ∆y < Y ¬ y).
Rozważania analogiczne do wyżej przeprowadzonych doprowadzą nas do wniosku,
ze
fY (y) = fX (x)(−h0 (y)).
A to kończy dowód.
2.5.7
Charakterystyki liczbowe zmiennych ciągłych
W przypadku zmiennej losowej ciągłej definiuje się takie same charakterystyki
jak dla zmiennej skokowej.
Definicja 2.5.38 Momentem rzędu r (r = 1, 2, . . . ) względem liczby c zmiennej
losowej skokowej X o gęstości prawdopodobieństwa f , i = 1, 2, . . . nazywamy
liczbę daną wzorem
r
Z∞
µr (c) = E(X − c) :=
(x − c)r f (x)dx,
−∞
jeśli powyższa całka jest bezwzględnie zbieżna.
Z powyższej definicji wynika, że zmienna losowa może nie posiadać pewnych
momentów oraz, że momenty zależą tylko od gęstości.
Jeśli oczywiście w definicji 2.5.38 c = 0, to moment nazywamy zwykłym i
oznaczamy
Z∞
r
mr = EX :=
xr f (x)dx
−∞
a jeśli c = m1 (c = EX), to moment nazywamy centralnym i oznaczamy
r
Z∞
µr = E(X − EX) :=
−∞
(x − EX)r f (x)dx
52
Definicja 2.5.39 Moment zwykły rzędu pierwszego nazywamy wartością oczekiwaną zmiennej losowej X.
Wartością oczekiwaną zmiennej losowej g(X), gdzie g jest funkcją borelowską,
a X zmienną losową o gęstości prawdopodobieństwa f nazywamy wyrażenie
Z∞
Eg(X) =
g(x)f (x)dx,
−∞
WŁASNOŚCI WAROŚCI OCZEKIWANEJ I WARIANCJI
Wartość oczekiwana zmiennej losowej ciągłej ma takie same własności jak wartość
oczekiwana zmiennej losowej skokowej.
Twierdzenie 2.5.40 Jeżeli istnieją wartości oczekiwane Eh(X) i Eg(X), to
E(h(X) + g(X)) = Eh(X) + Eg(X).
Dowód. Na początku wykażemy, że wartość oczekiwana sumy zmiennych h(X)
i g(X) istnieje. Z nierówności trójkąta dla całki niewłaściwej otrzymujemy
Z∞
Z∞
| h(x) + g(x) | f (x)dx ¬
−∞
Z∞
| h(x) | f (x)dx +
−∞
| g(x) | f (x)dx.
−∞
Obie całki występujące prawej stronie nierówności są z założenia zbieżne. Zatem
całka po lewej stronie też jest zbieżna. Zbieżność bezwzględna całki gwarantuje
jej zbieżność, zatem otrzymujemy tezę twierdzenia.
Twierdzenie 2.5.41 Wartość oczekiwana stałej równa jest tej stałej, tj.
E(a) = a.
Z∞
E(a) =
af (x)dx = a
−∞
ponieważ
R∞
Z∞
f (x)dx = a,
−∞
f (x)dx = 1.
−∞
Twierdzenie 2.5.42 Jeżeli istnieje wartość oczekiwana zmiennej losowej X,
to dla dowolnych stałych a ∈ R i k ∈ N
E(aX)k = ak EX k .
53
Dowód. Mamy dla dowolnego k ∈ N
k
Z∞
E(aX) =
k
k
Z∞
(ax) f (x)dx = a
−∞
xk f (x)dx = ak EX k .
−∞
A ponieważ wartość oczekiwana EX istnieje, to całka
R∞
(ax)k f (x)dx
−∞
k
=a
R∞
k
x f (x)dx jest zbieżna bezwzględnie.
−∞
Z powyższych twierdzeń natychmiast wynika następujący wniosek
Wniosek 2.5.43 Jeżeli istnieje E(X), to dla dowolnych stałych a, b ∈ R
E(aX + b) = aEX + b.
Ponieważ w dowodach twierdzeń 2.5.18 i 2.5.19 nie korzystano w sposób
jawny z definicji wartości oczekiwanej, a jedynie z własności wcześniej udowodnionych, to zachodzą one również dla zmiennej losowej ciągłej. Twierdzenia
2.5.20 i 2.5.21 też są prawdziwe dla zmiennej ciągłej i zostaną one udowodnione
w dalszej części wykładu.
Dowodząc własności wariancji opieraliśmy się głównie na własnościach wartości oczekiwanej. Wobec tego wszystkie własności wariancji zmiennej skokowej
przenoszą się na przypadek zmiennej ciągłej.
Medianę i modę zmiennej losowej ciągłej definiujemy w taki sam sposób jak
medianę i modę zmiennej losowej skokowej. Zauważmy, że jeśli F jest dystrybuantą zmiennej ciągłej, to
P(X x) = 1 − P(X < x) = 1 − F (x)
oraz
P(X ¬ x) = P(X < x) = F (x).
Zatem z definicji mediany wynika, że jeśli x0 jest medianą zmiennej X, to
F (x) ¬
1
2
i F (x)
1
.
2
Wobec tego w przypadku zmiennej ciągłej medianą jest taka liczba rzeczywista
x0 , która spełnia równanie
1
F (x0 ) = .
2
Modą natomiast jest liczba rzeczywista, dla której gęstość osiąga swoje maksimum.
2.5.8
Przykłady rozkładów ciągłych
W rozdziale tym wyznaczymy najważniejsze parametry zmiennych losowych
najczęściej wykorzystywanych w zastosowaniach.
54
Rozkład jednostajny na przedziale (a, b)
Powiemy, że zmienna losowa X ma rozkład jednostajny na przedziale (a, b) jeśli
jej funkcja gestości określona jest wzorem
(
1
, x ∈< a, b >,
f (x) = b−a
0,
x ∈ R\ < a, b > .
• Dystrybuanta
W tym przypadku mamy
dla x ∈ (−∞, a)
x
Z
F (x) =
0dt = 0,
−∞
dla x ∈< a, b >
Z
a
F (x) =
x
Z
0dt +
−∞
a
1
x−a
dt =
,
b−a
b−a
dla x ∈ (b, ∞)
Z
a
F (x) =
Z
0dt +
−∞
Ostatecznie
F (x) =
a


0,
b
1
dt +
b−a
x−a
,
 b−a

1,
Z
x
0dt = 1.
b
x < a,
a ¬ x ¬ b,
x > b.
Z b
x
b2 − a2
a+b
EX =
dx =
=
,
2(b − a)
2
a b−a
Z b 2
x
b3 − a3
a2 + ab + b2
EX 2 =
=
=
,
3(b − a)
3
a b−a
2
a2 + ab + b2
a+b
(b − a)2
D2 X =
−
=
.
3
2
12
Rozkład wykładniczy z parametrem λ
Mówimy, że zmienna losowa ma rozkład wykładniczy z parametrem λ jeśli jej
funkcja gęstości jest postaci
(
0,
x ¬ 0,
f (x) =
λe−λx , x > 0.
55
• Dystrybuanta
Dla x ¬ 0 mamy F (x) = 0, a dla x > 0 mamy
Z
x
F (x) =
λe−λt dt = 1 − e−λx .
0
Wartość oczekiwaną i wariancję obliczymy wykorzystując wzór na całkowanie
przez części
Z ∞
h
i∞ Z ∞
1
EX =
xλe−λx dx = − xe−λx
+
e−λx dx = ,
λ
0
0
0
Z
2
∞
−λx
2
EX =
x λe
h
2 −λx
dx = − x e
2
λ
Z
+2
0
0
=
i∞
Z
∞
xλe−λx dx =
0
D2 X =
∞
xe−λx dx
0
2
2
EX = 2 ,
λ
λ
2
−
λ2
2
1
1
= 2.
λ
λ
ROZKŁADY CIĄGŁE ZWIĄZANE Z ROZKŁADEM NORMALNYM
Poniżej zaprezentujemy rozkłady ciągłe, które wykorzystywane są w statystyce.
Rozkład chi-kwadrat z n stopniami swobody
Niech X będzie zmienną losową o standaryzowanym rozkładzie normalnym z
funkcją gęstości ϕ(x). Niech Y = X 2 . Wtedy Y jest funkcją zmiennej X, gdzie
g(x) = x2 . Oznaczając h ≡ g −1 mamy
√
1
y i h0 (y) = 2√
y dla y 0 oraz
√
1
0
gdy x < 0, to h(y) = − y i h (y) = − 2√
y dla y 0.
gdy x 0, to h(y) =
Wobec tego gęstość zmiennej X dana jest wzorem
(
(
1 √
y
√
1 √ ϕ( y), y > 0,
− √
√ 1 e− 2 , y > 0,
ϕ(−
y)
+
2 y
2 y
2πy
=
fY (y) =
0,
y ¬ 0.
0,
y¬0
Otrzymaliśmy tak zwany rozkład chi-kwadrat z jednym stopniem swobody.
Rozkład chi-kwadrat z n stopniami swobody otrzymamy przyjmując Y = X12 +
X22 + · · · + Xn2 , gdzie X1 , X2 , . . . , Xn są niezależnymi zmiennymi losowymi o
56
standaryzowanym rokładzie normalnym. Gęstość rozkładu chi-kwadrat z n stopniami swobody wyraża się wzorem
( 1
y
n
y 2 −1 e− 2 , y > 0,
n
2 Γ( n )
2
2
fY (y) =
0,
y ¬ 0,
gdzie Γ(x) =
R∞
tx−1 e−t dt, x > 0.
0
Można pokazać, że EY = n i D2 Y = 2n.
Rozkład t-Studenta z n stopniami swobody
√
Niech Tn = X√0Y n , gdzie Yn = X12 + X22 + · · · + Xn2 , a X0 , X1 , . . . , Xn są
n
niezależnymi zmiennymi losowymi o standaryzowanym rozkładzie normalnym.
Rozkład zmiennej losowej Tn nazywamy rozkładem t-Studenta z n stopniami
swobody, a określa go gęstość postaci
n+1
Γ( n+1 ) t2 − 2
,
fTn (t) = √ 2 n 1 +
n
nπΓ( 2 )
t ∈ R.
n
dla n = 3, 4, . . . .
Można pokazać, że ETn = 0 dla n = 2, 3, . . . i D2 Tn = n−2
W szczególości dla n = 1 otrzymujemy rozkład Cauchy’ego, a gdy n → ∞, to
fTn → ϕ, gdzie ϕ jest gęstością standaryzowanego rozkładu normalnego.
Rozkład F -Snedecora z (m, n) stopniami swobody
Niech X ma rozkład chi-kwadrat z m stopniami swobody, a Y niech ma rozkład
nX
chi-kwadrat z n stopniami swobody. Rozkład zmiennej losowej F = mY
nazywa
się rozkładem F -Snedecora z (m, n) stopniami swobody. Gęstość zmiennej F
wyraża się wzorem
n

m+n
 Γ 2 n 2 x m2 −1 , x > 0,
m+n
n
fF (x) = Γ m2 Γ n2 m
(x+ m
) 2

0,
x ¬ 0.
2.5.9
Ważniejsze nierówności rachunku prawdopodobieństwa
Niech (Ω, F, P) będzie przestrzenią probabilistyczną i niech X : Ω → R będzie
zmienną losową.
Twierdzenie 2.5.44 Niech g będzie funkcją parzystą, nieujemną i niemalejącą
określoną na R. Wtedy
^
ε>0
P(| X | ε) ¬
Eg(X)
.
g(ε)
57
Dowód. Ponieważ funkcja g z założenia jest nieujemna, to g(X) jest też nieujemna i istnieje wartość oczekiwana tej zmiennej. Ponieważ funkcja g jest
nieparzysta z założenia, to oczywiście g(X) = g(−X) = g(| X |). Natomiast
z założenia o monotoniczności funkcji g wynika, że
X ε ⇒ g(X) g(ε);
−X ε ⇒ g(−X) g(ε).
Ponieważ g jest parzysta, to drugą implikację możemy zapisać równoważnie w
postaci
−X ε ⇒ g(X) g(ε).
Wobec powyższego mamy
Z ∞
Z
Eg(X) =
g(x)f (x)dx
−∞
Z −ε

−ε
Z
−∞
Z ∞
g(ε)f (x)dx +
−∞
∞
g(x)f (x)dx +
g(x)f (x)dx
ε
Z
−ε
g(ε)f (x)dx = g(ε)
Z
f (x)dx +
−∞
ε
∞
f (x)dx
ε
= g(ε) (P(X ¬ −ε) + P(X ε)) = g(ε)P(| X | ε).
Co kończy dowód.
Z powyższego twierdzenia możemy otrzymać następujące szczególne przypadki
• kładąc g(x) =| x |p , gdzie p > 0, otrzymujemy nierówność Markowa
postaci
^
E | X |p
P(| X | ε) ¬
;
εp
ε>0
• kładąc g(x) = x2 otrzymujemy nierówność Czebyszewa postaci
^
P(| X | ε) ¬
ε>0
EX 2
.
ε2
Jeśli w nierówności Czebyszewa położymy zmienną losową scentrowaną to otrzymamy bardziej popularną jej postać
^
P(| X − EX | ε) ¬
ε>0
D2 X
.
ε2
Nierówność Czebyszewa pozwala nam oszacować prawdopodobieństwo zbioru
wartości zmiennej losowej „leżących daleko” od jej wartości oczekiwanej.
Następne twierdzenie podaje nam nierówność Jensena.
Twierdzenie 2.5.45 Niech g będzie wypukłą funkcją borelowską i niech istnieje
wartość oczekiwana zmiennej losowej X. Wtedy
g(EX) ¬ Eg(X).
58
Dowód. Jeśli funkcja g jest wypukła, to
^ _^
g(x) g(x0 ) + λ(x − x0 ).
x0 ∈R λ x∈R
W powyższej nierówności położmy x = X i x0 = EX, wtedy
g(X) g(EX) + λ(X − EX).
Stąd biorąc wartość oczekiwaną obu stron nierówności otrzymamy
Eg(X) Eg(EX) + λE(X − EX).
Wykorzystując odpowiednie własności wartości oczekiwanej otrzymamy żądaną
nierówność.
Na zakończenie tego paragrafu udowodnimy nierówność Lapunowa.
Twierdzenie 2.5.46 Dla zmiennej losowej Y mającej momenty do rzędu t
włącznie i dla 0 < s < t zachodzi
1
(E | Y |s ) s ¬ E | Y |t
1t
Dowód. Niech X =| Y |s . Z nierówności Jensena wynika, że
g(E | Y |s ) ¬ Eg(| Y |s ).
Kładąc g(x) =| x |r mamy
| E | Y |s |r ¬ E | Y |sr .
Stąd przyjmując r =
t
s
dostaniemy
t
| E | Y |s | s ¬ E | Y |t .
A stąd otrzymujemy żądaną nierówność.
2.6
Dwuwymiarowe zmienne losowe
Niech dwuwymiarowa zmienna losowa o składowych X i Y będzie określona na
przestrzeni probabilistycznej (Ω, F, P).
2.6.1
Zmienne skokowe
Definicja 2.6.1 Punkt (x, y) ∈ R2 nazywamy punktem skokowym dwuwymiarowej zmiennej losowej (X, Y ), jeśli
P(X = x, Y = y) = P({ω : X(ω) = x} ∩ {ω : Y (ω) = y}) = p > 0.
Liczbę p nazywamy wówczas skokiem w punkcie (x, y).
2.6. DWUWYMIAROWE ZMIENNE LOSOWE
59
Zbiór wszystkich punktów skokowych dwuwymiarowej zmiennej losowej (X, Y )
oznaczać będziemy przez S(X,Y ) .
Twierdzenie 2.6.2 Punkt (x0 , y0 ) ∈ R2 jest punktem skokowym dwuwymiarowej zmiennej losowej (X, Y ) wtedy i tylko wtedy, gdy dystrybuanta F tej zmiennej jest nieciągła w punkcie (x0 , y0 ).
Definicja 2.6.3 Zmienną losową (X, Y ) nazywamy dwuwymiarową zmienną
losową skokową lub dyskretną, jeśli
P((X, Y ) ∈ S(X,Y ) ) = 1.
Z definicji tej wynika, że zmienna losowa dyskretna przyjmuje tylko wartości
równe swoim punktom skokowym.
Twierdzenie 2.6.4 Zmienna (X, Y ) jest dwuwymiarową zmienną losową skokową wtedy i tylko wtedy, gdy suma skoków w jej punktach skokowych jest równa
1.
Dowód. Z definicji zmiennej losowej wynika, że przeciwobrazem zbioru S(X,Y )
jest cały zbiór zdarzeń elementarnych Ω. Zatem S(X,Y ) jest zbiorem co najwyżej
przeliczalnym, więc można go zapisać w postaci
S(X,Y ) = {(x1 , y1 )} ∪ {(x2 , y2 )} ∪ {(x3 , y3 )} ∪ . . . .
Wobec tego
P((X, Y ) ∈ S(X,Y ) ) = P(X = x1 , Y = y1 ) + P(X = x2 , Y = y2 )
+P(X = x3 , Y = y3 ) + · · · = 1.
Definicja 2.6.5 Funkcją prawdopodobieństwa dwuwymiarowej zmiennej losowej skokowej (X, Y ) nazywamy przyporządkowanie każdemu punktowi skokowemu (xi , yj ) ∈ S(X,Y ) skoku pij w tym punkcie. Będziemy wówczas pisać
P(X = xi , Y = yj ) = pij ,
(xi , yj ) ∈ S(X,Y ) ; i = 1, 2, . . . , n, j = 1, 2, . . . , m.
Funkcję prawdopodobieństwa podaje się w postaci wzoru lub tabelki postaci
y1
y2
..
.
yn
x1
p11
p21
..
.
pn1
x2
p12
p22
..
.
pn2
···
···
···
..
.
···
xm
p1m
p2m
..
.
pnm
Ten ostatni sposób jest wygodny w przypadku, gdy zmienna losowa przyjmuje
skończoną liczbę wartości.
60
Twierdzenie 2.6.6 Funkcja prawdopodobieństwa dwuwymiarowej zmiennej losowej (X, Y ) wyznacza rozkład tej zmiennej w tym sensie, że dla dowolnego
borelowskiego zbioru B ∈ R2
X
pij ,
(2.9)
P((X, Y ) ∈ B) =
i,j
gdzie sumowanie przebiega tylko po tych wskaźnikach i, j, dla których
(xi , yj ) ∈ B.
Twierdzenie 2.6.7 Jeśli (X, Y ) jest dwuwymiarową zmienną losową skokową
o funkcji prawdopodobieństwa
P(X = xi , Y = yj ) = pij ,
(xi , yj ) ∈ S(X,Y ) , i = 1, 2, . . . , n, j = 1, 2, . . . , m,
to dystrybuanta tej zmiennej określona jest wzorem
X
F (x, y) =
pij ,
i,j
gdzie sumowanie przebiega po wszystkich wskaźnikach i, j, dla których xi < x i
yj < y.
Wprowadźmy następujące oznaczenia
X
pi· = P (X = xi , Y = y1 ) ∨ (X = xi , Y = y2 ) ∨ . . . =
P(X = xi , Y = yj )
j
=
X
pij ,
j
X
p·j = P (X = x1 , Y = yj ) ∨ (X = x2 , Y = yj ) ∨ . . . =
P(X = xi , Y = yj )
i
=
X
pij .
i
P
P P
V
Oczywiście i pi· = i j pij = 1 i pi· > 0.
P
P P
Vi
Ponadto j p·j = j i pij = 1 i p·j > 0.
j
Zatem pi· i p·j są funkcjami prawdopodobieństwa. Funkcje te nazywamy odpowiednio funkcją prawdopodobieństwa rozkładu brzegowego składowej X i
funkcją prawdopodobieństwa rozkładu brzegowego składowej Y . Rozkład łączny
dwuwymiarowej zmiennej losowej (X, Y ) oraz rozkłady brzegowe jej składowych
zapisujemy w następującej tabelce
y1
y2
..
.
yn
pi·
x1
p11
p21
..
.
pn1
p1·
x2
p12
p22
..
.
pn2
p2·
···
···
···
..
.
···
···
xm
p1m
p2m
..
.
pnm
pm·
p·j
p·1
p·2
..
.
p·n
1
61
Zauważmy, że dystrybuanty brzegowe wyrażają się w następujący sposób
FX (x) = lim F (x, y) =
y→∞
FY (y) = lim F (x, y) =
x→∞
X
pi· =
xi <x
X
m
XX
pij ,
xi <x j=1
p·j =
yj <y
n
XX
pij .
yj <y i=1
Rozważmy teraz następujący przykład.
Przykład 2.6.8 Niech dane będą dwie dwuwymiarowe zmienne losowe, których
funkcje prawdopodobieństwa zadane są następującymi tabelkami
1
2
−1
0, 3
0, 1
0
0, 2
0, 1
1
0, 1
0, 2
1
2
−1
0, 3
0, 1
0
0, 1
0, 2
1
0, 2
0, 1
Wyznaczmy rozkłady brzegowe składowych powyższych zmiennych
1
2
pi·
−1
0, 3
0, 1
0, 4
0
0, 2
0, 1
0, 3
1
0, 1
0, 2
0, 3
p·j
0, 6
0, 4
1
1
2
pi·
−1
0, 3
0, 1
0, 4
0
0, 1
0, 2
0, 3
1
0, 2
0, 1
0, 3
p·j
0, 6
0, 4
1
Jak widzimy rozkłady brzegowe w obu przypadkach są takie same. Oznacza
to, że znajomość rozkładów brzegowych nie wystarcza do odtworzenia rozkładu
łącznego.
Podamy teraz warunki konieczne i dostateczne na to, by składowe dwuwymiarowej zmiennej losowej o funkcji prawdopodobieństwa pij ; i = 1, 2, . . . , n,
j = 1, 2, . . . , m były niezależne.
Twierdzenie 2.6.9 Skokowe zmienne losowe X i Y są niezależne wtedy i tylko
wtedy, gdy pij = pi· p·j .
Dowód. Załóżmy najpierw, że zmienne X i Y są niezależne. Wiemy, że wówczas
dystrybuanta
łączna
jest
iloczynem
dystrybuant
brzegowych,
tj. F (x, y) = FX (x)FY (y). Zauważmy, że
{xi ¬ X < xk , yj ¬ Y < yl }
= {xi ¬ X < xk , Y < yl } \ {xi ¬ X < xk , Y < yj }
= ({X < xk , Y < yl } \ {X < xi , Y < yl }) \ ({X < xk , Y < yj } \ {X < xi , Y < yj })
= {X < xk , Y < yl } \ {X < xi , Y < yl } \ {X < xk , Y < yj } ∪ {X < xi , Y < yj }.
Wykorzystując własności miary probabilistycznej otrzymujemy
P(xi ¬ X < xk , yj ¬ Y < yl )
= P(X < xk , Y < yl ) − P(X < xi , Y < yl ) − P(X < xk , Y < yj )
+ P(X < xi , Y < yj )
= F (xk , yl ) − F (xi , yl ) − F (xk , yj ) + F (xi , yj ).
62
Z drugiej strony mamy
P(xi ¬ X < xk )P(yj ¬ Y < yl )
= F (xk ) − F (xi ) F (yl ) − F (yj )
= F (xk )F (yl ) − F (xi )F (yl ) − F (xk )F (yj ) + F (xi )F (yj ).
A ponieważ założyliśmy, że zmienne X i Y są niezależne, to
P(xi ¬ X < xk , yj ¬ Y < yl )
= F (xk , yl ) − F (xi , yl ) − F (xk , yj ) + F (xi , yj )
= F (xk )F (yl ) − F (xi )F (yl ) − F (xk )F (yj ) + F (xi )F (yj ).
Wobec tego mamy
P(xi ¬ X < xk , yj ¬ Y < yl ) = P(xi ¬ X < xk )P(yj ¬ Y < yl ).
Jeśli teraz xk → xi i yl → yj , to z powyższej równości wynika, że
P(X = xi , Y = yj ) = P(X = xi )P(Y = yj ).
W drugą stronę załóżmy teraz, że pij = pi· p·j . Wtedy
X X
X X
F (x, y) =
pij =
pi· p·j
xi <x yj <y
=
X
pi·
xi <x
X
xi <x yj <y
p·j = FX (x)FY (y).
yj <y
a to oznacza, że zmienne losowe X i Y są niezależne.
2.6.2
Charakterystyki liczbowe dwuwymiarowej zmiennej
skokowej
Definicja 2.6.10 Momentem rzędu r + s względm stałych c i d dwuwymiarowej
zmiennej losowej skokowej (X, Y ) o funkcji prawdopodobieństwa pij ;
i = 1, 2, . . . , n, j = 1, 2, . . . , m nazywamy liczbę daną wzorem
E(X − c)r (Y − d)s =
n X
m
X
(xi − c)r (yj − d)s pij .
i=1 j=1
Oczywiście dla c = 0 i d = 0 otrzymujemy moment zwykły rzędu r + s postaci
EX r Y s =
n X
m
X
xri yjs pij ,
i=1 j=1
a dla c = EX i d = EY otrzymujemy moment centralny rzędu r + s postaci
E(X − EX)r (Y − EY )s =
n X
m
X
i=1 j=1
(xi − EX)r (yj − EY )s pij .
Moment zwykły rzędu 1+1 postaci E(XY ) =
63
n P
m
P
xi yj pij nazywamy wartością
i=1 j=1
oczekiwaną, a moment centralny rzędu 1 + 1 postaci E(X − EX)(Y − EY ) nazywamy kowaiancją zmiennych X i Y i oznaczamy cov(X, Y ).
Następujące twierdzenia podają kilka ważnych własności wartości oczekiwanej i kowariancji.
Twierdzenie 2.6.11 Jeżeli istnieją momenty zwykłe do rzędu r zmiennej skokowej X i momenty zwykłe do rzędu s zmiennej skokowej Y , to dla dowolnych
stałych a i b
E(aX r + bY s ) = aEX r + bEY s .
E(aX r + bY s ) =
=
n X
m
X
(axri + byjs )pij = a
i=1 j=1
n
X
a
xri pi·
i=1
n
X
xri
i=1
+b
m
X
m
X
pij + b
j=1
m
X
yjs
n
X
j=1
pij
i=1
yjs p·j = aEX r + bEY s .
j=1
W szczególności dla a = b = 1 i r = s = 1 mamy
Wniosek 2.6.12
Twierdzenie 2.6.13 Jeśli istnieją momenty zwykłe do rzędu r zmiennej skokowej X i momenty zwykłe do rzędu s zmiennej skokowej Y oraz zmienne X i
Y są niezależne, to E(X s Y r ) = EX s EY r .
Dowód. Ponieważ X i Y są niezależne, to na mocy twierdzenia 2.6.9 mamy
pij = pi· p·j . Wobec tego
E(X r Y s ) =
n X
m
X
i=1 j=1
xri yjs pij =
n
X
i=1
xri pi·
m
X
yjs p·j = EX r EY s .
j=1
W szczególności dla r = s = 1 mamy
Wniosek 2.6.14 Jeśli zmienne losowe X i Y są niezależne i istnieją ich wartości oczekiwane, to
E(XY ) = EXEY.
Twierdzenie 2.6.15
cov(X, Y ) = E(XY ) − EXEY.
64
Dowód. Mamy
cov(X, Y ) = E(X − EX)(Y − EY )
= E(XY − Y EX − XEY + EXEY )
= E(XY ) − EY EX − EXEY + EXEY
= E(XY ) − EXEY.
Definicja 2.6.16 Współczynnikiem korelacji zmiennych losowych X i Y nazywamy wartość oczekiwaną dwuwymiarowej zmiennej losowej o składowych
standaryzowanych tj.
X − EX Y − EY
%=E
.
DX
DY
Jeśli % = 0, to mówimy, że zmienne losowe X i Y są nieskorelowane. W przeciwnym razie zmienne losowe X i Y nazywamy skorelowanymi.
Zauważmy, że z powyższej definicji wynikają następujące stwierdzenia
Twierdzenie 2.6.17
%=
cov(X, Y )
.
DXDY
%=
1
1
E(X − EX)(Y − EY ) =
cov(X, Y ).
DXDY
DXDY
Wniosek 2.6.18 Jeśli zmienne są nieskorelowane, to cov(X, Y ) = 0.
Z twierdzeń 2.6.12 i 2.6.13 wynika następujący wniosek
Wniosek 2.6.19 Jeżeli zmienne losowe X i Y są niezależne, to są nieskorelowane.
Implikacja w drugą stronę nie zachodzi o czym świadczy następujący przykład.
Przykład 2.6.20 Rozważmy zmienną losową X o funkcji prawdopodobieństwa
danej tabelką
xi
pi
−1
0
1
1
3
1
3
1
3
oraz zmienną losową Y = X 2 . Oczywiście mamy
yi
pi
0
1
1
3
2
3
Ponadto EX = 0, EY = 32 , a stąd EXEY = 0. Następnie rozważmy zmienną
losową Z = XY . Mamy
zi
pi
−1
0
1
2
9
5
9
2
9
65
oraz EZ = 0. Wobec tego cov(X, Y ) = E(XY ) − EXEY = 0. Niestety zmienne
X i Y nie są niezależne, gdyż związane są zależnością Y = X 2 .
Następne twierdzenia podają pewne ważne własności wariancji.
Twierdzenie 2.6.21 Dla dowolnych stałych a i b
D2 (aX + bY ) = a2 D2 X + b2 D2 Y + 2abcov(X, Y ).
Dowód. Z własności wariancji i wartości oczekiwanej udowodnionych w bieżącym
rozdziale i rozdziale 2.5.3 otrzymujemy
2
D2 (aX + bY ) = E(aX + bY )2 − [E(aX + bY )]
= E(a2 X 2 + 2abXY + b2 Y 2 ) − (aEX + bEY )2 =
= a2 EX 2 + 2abE(XY ) + b2 EY 2 − a2 (EX)2 − 2abEXEY − b2 (EY )2
= a2 E2 X + b2 D2 Y + 2abcov(X, Y ).
Dla a = 1 i b = 1 otrzymujemy
Wniosek 2.6.22
D2 (X + Y ) = D2 X + D2 Y + 2cov(X, Y ).
Wniosek 2.6.23 Jeśli zmienne losowe X i Y są niezależne, to dla dowolnych
stałych a i b
D2 (aX + bY ) = a2 D2 X + b2 D2 Y.
W szczególności jeśli zmienne losowe X i Y są niezależne, to
D2 (X + Y ) = D2 X + D2 Y.
Wniosek 2.6.24 Jeśli zmienne losowe X i Y są nieskorelowane, to dla dowolnych stałych a i b
D2 (aX + bY ) = a2 D2 X + b2 D2 Y.
Zauważmy dalej, że
^
E(t(X − EX) + (Y − EY ))2 0.
t∈R
Z drugiej strony mamy
E(t(X − EX) + (Y − EY ))2
= t2 E(X − EX)2 + 2tE(X − EX)(Y − EY ) + E(Y − EY )2
= t2 D2 X + 2tcov(X, Y ) + D2 Y.
66
Wobec tego mamy
^
D2 Xt2 + 2cov(X, Y )t + D2 Y 0.
t∈R
Powyższe zdanie jest prawdziwe tylko wtedy, gdy wyróżnik trójmianu kwadratowego
zmiennej t jest nieujemny, to jest gdy
4cov2 (X, Y ) − 4D2 XD2 Y ¬ 0,
co można zapisać równoważnie w postaci
cov2 (X, Y )
¬ 1.
D2 XD2 Y
Wynika stąd, że
cov(X, Y ) DXDY ¬ 1.
Otrzymaliśmy więc ważne twierdzenie
Twierdzenie 2.6.25 Współczynnik korelacji dowolnych zmiennych losowych
X i Y spełnia zależność | % |¬ 1.
Postawmy pytanie: Dla jakich zmiennych losowych X i Y ich współczynnik
korelacji jest równy 1 lub −1?
Jeśli | % |= 1, to cov2 (X, Y ) − D2 XD2 Y = 0, czyli wyróżnik wyżej rozważanego trójmianu jest równy zero. Zatem rozważany trójmian przyjmie wartość
)
zero dla t0 = − cov(X,Y
D2 X , co równoważnie oznacza, że
E(t0 (X − EX) + (Y − EY ))2 = 0.
Zatem
P(t0 (X − EX) + (Y − EY ) = 0) = 1.
Ale
P(t0 (X − EX) + (Y − EY ) = 0) = P(Y = −t0 X + EY + t0 EX).
Wobec tego
P(Y = aX + b) = 1,
gdzie a = −t0 i b = EY + t0 EX. Oznacza, to, że jeśli | % |= 1, to prawie pewnie
zmienne losowe są liniowo zależne. Zauważmy, że odwrotne stwierdzenie też jest
prawdziwe. Mamy bowiem
cov(X, aX + b) = E(X(aX + b)) − EXE(aX + b)
= aEX 2 + bEX − a(EX)2 − bEX
= aD2 X.
67
Ponadto wiemy, że D2 (aX + b) = a2 D2 X, zatem D(aX + b) =| a | DX. Wobec
tego mamy
aD2 X
| a | D2 X
=
| % |= = 1.
| a | DXDX | a | D2 X
Powyższe rozważania prowadzą do wniosku, że współczynnik korelacji może
służyć do określenia rodzaju zależności między zmiennymi losowymi X i Y .
Mianowicie
I jeśli % = 0, to zmienne losowe są nieskorelowane (nie muszą one być
oczywiście niezależne),
I jeśli | % |= 1, to zmienne losowe są zależne liniowo,
I jeśli % 6= 0 i | % |6= 1, to zmienne losowe są zależne i nie jest to zależność
liniowa.
2.6.3
Rozkłady warunkowe zmiennych skokowych
W przypadku dwuwymiarowej zmiennej losowej skokowej (X, Y ) poprzez analogię do prawdopodobieństwa warunkowego zdarzenia losowego definiuje się
rozkłady warunkowe. Załóżmy, że P(Y = yj ) > 0 i P(X = xi ) > 0 i przyjmijmy
umownie
P(X = xi , Y = yj )
P(X = xi /Y = yj ) =
P(Y = yj )
oraz
P(Y = yj /X = xi ) =
P(X = xi , Y = yj )
,
P(X = xi )
co będziemy również zapisywać krótko
pi/j =
pij
p·j
pj/i =
pij
.
pi·
Zauważmy, że
n
X
pi/j =
i=1
oraz
m
X
j=1
n
X
pij
i=1
pj/i =
p·j
m
X
pij
j=1
pi·
=
n
1 X
pij = 1,
p·j i=1
=
m
1 X
pij = 1.
pi· j=1
Oznacza to, że pi/j i pj/i są funkcjami prawdopodobieństwa.
Definicja 2.6.26 Rozkład prawdopodobieństwa wyznaczony przez funkcję pi/j ,
i = 1, 2, . . . , n nazywamy rozkładem warunkowym zmiennej losowej X przy warunku, że zmienna losowa Y przyjmuje wartość yj , w dwuwymiarowym rozkładzie zmiennej losowej (X, Y ) lub krótko rozkładem warunkowym zmiennej X
przy warunku Y = yj .
68
Rozkład prawdopodobieństwa wyznaczony przez funkcję pj/i , j = 1, 2, . . . , m
nazywamy rozkładem warunkowym zmiennej losowej Y przy warunku, że zmienna losowa X przyjmuje wartość xi , w dwuwymiarowym rozkładzie zmiennej losowej (X, Y ) lub krótko rozkładem warunkowym zmiennej Y przy warunku
X = xi .
Definicja 2.6.27 Funkcję określoną wzorem
X
F (x/yj ) = P(X < x/Y = yj ) =
P(X = xi /Y = yj )
xi <x
nazywamy dystrybuantą warunkowego rozkładu zmiennej losowej X pod warunkiem Y = yj .
Funkcję określoną wzorem
X
F (y/xi ) = P(Y < y/X = xi ) =
P(Y = yj /X = xi )
yj <y
nazywamy dystrybuantą warunkowego rozkładu zmiennej losowej Y pod warunkiem X = xi .
Zdefiniowane powyżej rozkłady warunkowe podlegają tym samym regułom co
rozkłady jednowymiarowej zmiennej losowej.
2.6.4
Zmienne ciągłe
Niech F (x, y) będzie dystrybuantą dwuwymiarowej zmiennej losowej.
Definicja 2.6.28 Powiemy, że dwuwymiarowa zmienna losowa jest ciągła jeśli
istnieje nieujemna i całkowalna w całej płaszczyźnie OXY funkcja f (x, y) taka,
że dla dowolnych (x, y) ∈ R2 spełniona jest relacja


Zx Zy

F (x, y) =
f (s, t)dt ds.
−∞
−∞
Wyżej wymienioną funkcję f (x, y) nazywamy gęstością prawdopodobieństwa dwuwymiarowej zmiennej losowej ciągłej (X, Y ).
Zauważmy, że z własności dystrybuanty mamy




Z∞ Z∞
Zx Zy


f (s, t)dt ds = lim lim
f (s, t)dt ds
−∞
−∞
x→∞ y→∞
−∞
−∞
= lim lim F (x, y) = 1.
x→∞ y→∞
Ponadto
∂ 2 F (x, y)
= f (x, y).
∂x∂y
69
Mamy również
ZZ
P((X, Y ) ∈ D) =
f (x, y)dxdy.
D
Wprowadzimy teraz następujące oznaczenia
Z∞
fX (x) =
Z∞
f (x, y)dy,
fY (y) =
−∞
f (x, y)dx.
−∞
Zauważmy, że funkcje fX (x) i fY (y) są nieujemne i całkowalne w całym zbiorze
R oraz


Z∞
Z∞ Z∞

fX (x)dx =
f (x, y)dy  dx = 1,
−∞
−∞
Z∞
Z∞
fY (y)dy =
−∞
−∞

Z∞
f (x, y)dx dy = 1.

−∞

−∞
Wobec tego fX (x) i fY (y) są gęstościami prawdopodobieństwa jednowymiarowych
zmiennych ciągłych. Gęstości te nazywamy odpowiednio gęstością brzegową zmiennej losowej X i Y .W tym przypadku dystrybuanty brzegowe wyrażają się wzorami


Zx
Zx Z∞

FX (x) =
fX (s)ds =
f (s, t)dt ds
−∞
Zy
FY (y) =
−∞ −∞

Zy Z∞
fY (t)dt =
−∞

−∞

f (s, t)ds dt.
−∞
Twierdzenie 2.6.29 Ciągłe zmienne losowe X i Y są niezależne wtedy i tylko
wtedy, gdy f (x, y) = fX (x)fY (y).
Dowód. Załóżmy na początku, że ciągłe zmienne losowe X i Y są niezależne.
Wtedy oczywiście
F (x, y) = FX (x)FY (y),
gdzie FX (x) jest dystrbuantą brzegową składowej X, a FY (y) jest dystrybuantą
brzegową składowej Y . Zauważmy, że
∂ 2 F (x, y)
∂
∂
f (x, y) =
=
FX (x)FY (y)
∂x∂y
∂x ∂y
∂
d
∂
FX (x) FY (y) =
FX (x)fY (y)
=
∂x
dy
∂x
= fX (x)fY (y).
Wobec tego jeśli X i Y są niezależne, to f (x, y) = fX (x)fY (y).
70
Teraz przeprowadzimy dowód w drugą stronę. Załóżmy więc, że f (x, y) =
fX (x)fY (y). Mamy wówczas




Zx Zy
Zx Zy


F (x, y) =
f (s, t)dt ds =
fX (s)fY (t)dt ds
−∞
Zx
−∞
−∞
fX (s)ds
=
−∞
−∞
Zy
fY (t)dt = FX (x)FY (y).
−∞
Oznacza to, że zmienne losowe X i Y są niezależne.
2.6.5
Charakterystyki liczbowe dwuwymiarowej zmiennej
ciągłej
Definicja 2.6.30 Momentem rzędu r + s względm stałych c i d dwuwymiarowej
zmiennej losowej ciągłej (X, Y ) o gęstości prawdopodobieństwa f (x, y) nazywamy liczbę daną wzorem


Z∞ Z∞
 (x − c)r (y − d)s f (x, y)dy  dx,
E(X − c)r (Y − d)s =
−∞
o ile całka
R∞
−∞
"
−∞
#
R∞ r
s
(x − c) (y − d) f (x, y)dy dx jest zbieżna.
−∞
Oczywiście dla c = 0 i d = 0 otrzymujemy moment zwykły rzędu r + s postaci


Z∞ Z∞

EX r Y s =
xr y s f (x, y)dy  dx,
−∞
−∞
a dla c = EX i d = EY otrzymujemy moment centralny rzędu r + s postaci


Z∞ Z∞
r
s

E(X − EX)r (Y − EY )s =
(x − EX) (y − EY ) f (x, y)dy  dx.
−∞
−∞
Powyższe wzory zachodzą tylko wtedy, gdy odpowiednie całki
" są zbieżne. #
R∞ R∞
Moment zwykły rzędu 1 + 1 postaci E(XY ) =
xyf (x, y)dy dx
−∞
−∞
nazywamy wartością oczekiwaną, a moment centralny rzędu 1 + 1 nazywamy
kowaiancją zmiennych X i Y i oznaczamy cov(X, Y ).
Następujące twierdzenia podają kilka ważnych własności wartości oczekiwanej zmiennej losowej ciągłej.
71
Twierdzenie 2.6.31 Jeżeli istnieją momenty zwykłe do rzędu r zmiennej ciągłej
X i momenty zwykłe do rzędu s zmiennej ciągłej Y , to dla dowolnych stałych a
ib
E(aX r + bY s ) = aEX r + bEY s .
E(aX r + bY s ) =
Z∞

Z∞

−∞
=a

Z∞

−∞
=a
(axr + by s )f (x, y)dy  dx
−∞
Z∞
Z∞


xr f (x, y)dy  dx + b
−∞

xr
−∞
=a

Z∞

f (x, y)dy  dx + b
xr fX (x)dx + b
−∞

y s f (x, y)dy  dx
−∞

y s
−∞
Z∞
Z∞

−∞
Z∞
−∞
Z∞
Z∞
Z∞

f (x, y)dx dy
−∞
y s fY (y)dy = aEX r + bEY s .
−∞
W szczególności dla a = b = 1 i r = s = 1 mamy
Wniosek 2.6.32
Twierdzenie 2.6.33 Jeśli istnieją momenty zwykłe do rzędu r zmiennej ciągłej
X i momenty zwykłe do rzędu s zmiennej ciągłej Y oraz zmienne X i Y są
niezależne, to E(X r Y s ) = EX r EY s .
Dowód. Ponieważ X i Y są niezależne, to na mocy twierdzenia 2.6.29 mamy
f (x, y) = fX (x)fY (y). Wobec tego mamy




Z∞ Z∞
Z∞ Z∞


E(X r Y s ) =
xr y s f (x, y)dy  dx =
xr y s fX (x)fY (y)dy  dx
−∞
Z∞
=
−∞
−∞
−∞
xr fX (x)dx
Z∞
−∞
y s fY (y)dy = EX s EY s .
−∞
W szczególności dla r = s = 1 mamy
Wniosek 2.6.34 Jeśli zmienne losowe X i Y są niezależne i istnieją ich wartości oczekiwane, to
E(XY ) = EXEY.
72
Własności współczynnika korelacji, wariancji i kowariancji udowodnione dla
zmiennych skokowych przenoszą się w naturalny sposób na zmienne ciągłe, ponieważ dowodząc tych własności korzystaliśmy tylko z własności wartości oczekiwanej.
2.6.6
Rozkłady warunkowe zmiennych ciągłych
Tak jak dla dwuwymiarowej zmiennej losowej skokowej, tak i dla dwuwymiarowej zmiennej losowej ciągłej definiuje się rozkłady warunkowe. Załóżmy, że
^
^
fX (x) > 0 ∧
fY (y) > 0.
x∈R
y∈R
Przyjmijmy umownie, że
f (x/y) =
f (x, y)
,
fY (y)
f (y/x) =
f (x, y)
.
fX (x)
Zauważmy, że
Z∞
Z∞
f (x/y)dx =
−∞
−∞
f (x, y)
1
dx =
fY (y)
fY (y)
Z∞
f (x, y)dx =
fY (y)
=1
fY (y)
f (x, y)dy =
fX (x)
= 1.
fX (x)
−∞
oraz
Z∞
Z∞
f (y/x)dy =
−∞
−∞
f (x, y)
1
dy =
fX (x)
fX (x)
Z∞
−∞
Wobec tego funkcje f (x/y) i f (y/x) są gęstościami prawdopodobieństwa.
Definicja 2.6.35 Rozkład wyznaczony przez gęstość prawdopodobieństwa
f (x/y) nazywamy rozkładem warunkowym zmiennej losowej ciągłej X ze względu na zmienną losową ciągłą Y w dwuwymiarowym rozkładzie zmiennej losowej
(X, Y ), a funkcję f (x/y) nazywamy gęstością rozkładu warunkowego zmiennej
X ze względu na Y w dwuwymiarowym rozkładzie zmiennej losowej (X, Y ).
Analogicznie definiujemy rozkład wyznaczony przez funkcję f (y/x).
Definicja 2.6.36 Funkcję daną wzorem
Zx
F (x/y) =
−∞
1
f (t/y)dt =
fY (y)
Zx
f (t, y)dt
−∞
nazywamy dystrybuantą warunkowego rozkładu zmiennej losowej ciągłej X ze
względu na zmienną losową ciągłą Y w dwuwymiarowym rozkładzie zmiennej
losowej (X, Y ).
73
Funkcję daną wzorem
Zy
F (y/x) =
−∞
1
f (s/x)ds =
fX (x)
Zy
f (x, s)ds
−∞
nazywamy dystrybuantą warunkowego rozkładu zmiennej losowej ciągłej Y ze
względu na zmienną losową ciągłą X w dwuwymiarowym rozkładzie zmiennej
losowej (X, Y ).
2.6.7
Rozkłady funkcji dwuwymiarowych zmiennych losowych
Niech
u = u(x, y),
Φ:
v = v(x, y)
będzie przekształceniem ciągłym i wzajemnie jednoznacznym. Jeżeli (U, V ) jest
dwuwymiarową zmienną losową otrzymaną poprzez przekształcenie Φ ze zmiennej losowej (X, Y ) o gęstości f(X,Y ) (x, y), to gęstość prawdopodobieństwa zmiennej losowej (U, V ) otrzymujemy ze wzoru
f(U,V ) (u, v) = f(X,Y ) (x(u, v), y(u, v)) | J |,
gdzie J oznacza jakobian przekształcenia odwrotnego do przekształcenia Φ, tj.
∂x
, ∂x ∂v .
J = ∂u
∂y
∂y ∂u ,
∂v
Pokażemy jak wykorzystać powyższy fakt do znalezienia rozkładu zmiennych
losowych będących podstawowymi funkcjami zmiennych losowych ciągłych X i
Y.
Suma zmiennych losowych
Niech V = X + Y . Aby wyznaczyć gęstość zmiennej V przyjmijmy
u = x,
Φ:
v = x + y.
Mamy wówczas
Φ−1 :
x = u,
y =v−u
oraz
1, 0
= 1.
J = −1, 1
Zatem
f(U,V ) (u, v) = f(X,Y ) (u, v − u).
Gęstość zmiennej losowej V = X + Y otrzymamy jako gęstość brzegową
Z∞
f(X,Y ) (u, v − u)du.
fV (v) =
−∞
74
Różnica zmiennych losowych
Niech V = Y − X. Przyjmijmy
u = x,
v = y − x.
Φ:
Wtedy
Φ
−1
1, 0
= 1.
J =
1, 1
:
x = u,
y =u+v
oraz
Zatem
f(U,V ) (u, v) = f(X,Y ) (u, u + v).
Gęstość zmiennej losowej V = Y − X otrzymamy jako gęstość brzegową
Z∞
fV (v) =
f(X,Y ) (u, u + v)du.
−∞
Iloczyn zmiennych losowych
Niech teraz V = X · Y . Przyjmując
Φ:
u = x,
v = xy
otrzymujemy
Φ
−1
x = u,
:
y = uv
Zatem
oraz
1,
J = v
− 2,
u
0 1
.
1 =
u
u
v 1
f(U,V ) (u, v) = f(X,Y ) (u, )
.
u |u|
Gęstość zmiennej losowej V = X · Y otrzymamy jako gęstość brzegową
Z∞
fV (v) =
v 1
f(X,Y ) (u, )
du.
u |u|
−∞
Iloraz zmiennych losowych
Niech teraz V =
Y
X,
gdzie X 6= 0. W tym przypadku przyjmujemy
u = x,
Φ:
v = xy .
Mamy wówczas
Φ−1 :
x = u,
y = vu
oraz
1, 0 = u.
J = v, u
75
Wobec tego
f(U,V ) (u, v) = f(X,Y ) (u, vu) | u | .
Y
X
Gęstość zmiennej losowej V =
otrzymamy jako gęstość brzegową
Z∞
f(X,Y ) (u, vu) | u | du.
fV (v) =
−∞
Przykład 2.6.37 Niech X i Y będą niezależnymi zmiennymi losowymi o gęstościach fX (x) i fY (y), odpowiednio i niech V = aX +bY , gdzie a i b są pewnymi
stałymi rzeczywistymi. Wyznaczmy gęstość zmiennej Z. W tym celu zdefiniujmy
u = x,
Φ:
v = ax + by.
Mamy wówczas
Φ
Zatem
−1
1,
J = a
− ,
:
x = u,
y = 1b (v − au)
oraz
b
0 1
1 = .
b
b
1
1
f(U,V ) (u, v) = f(X,Y ) u, (v − au)
.
b
|b|
Wobec tego gęstość zmiennej losowej aX + bY dana jest wzorem
fV (v) =
1
|b|
Z∞
fX (u)fY
1
(v − au) du.
b
−∞
2.6.8
Regresja
Oznaczmy przez E(X/Y = y) wartość oczekiwaną zmiennej losowej X pod
warunkiem, że zmienna losowa Y przyjmuje wartość y, tzn.
w przypadku skokowym: E(X/Y = yj ) =
n
P
xi pi/j =
i=1
w przypadku ciągłym: E(X/Y = y) =
R∞
1
p·j
xf (x/y)dx =
−∞
n
P
xi pij ,
i=1
1
fY (y)
R∞
xf (x, y)dx.
−∞
Podobnie definiujemy wartość oczekiwaną zmiennej losowej Y pod warunkiem,
że zmienna losowa X przyjmuje wartość x
w przypadku skokowym: E(Y /X = xi ) =
n
P
yj pj/i =
j=1
w przypadku ciągłym: E(Y /X = x) =
R∞
−∞
yf (y/x)dy =
1
pi·
n
P
yj pij ,
j=1
1
fX (x)
R∞
−∞
yf (x, y)dy.
76
Wyżej zdefiniowane wartości oczekiwane rozkładów warunkowych nazywamy
regresją pierwszego rodzaju.
Postępując w analogiczny sposób można zdefiniować dla rozkładu warunkowego momenty dowolnego rzędu.
Zauważmy, że wartość oczekiwana zmiennej losowej X pod warunkiem, że
zmienna losowa Y przyjmuje wartość y jest funkcją zmiennej y, a wartość
oczekiwana zmiennej losowej Y pod warunkiem, że zmienna losowa X przyjmuje wartość x jest funkcją zmiennej x. W prowadźmy oznaczenia
E(X/Y = y) = m(y),
E(Y /X = x) = m(x).
Definicja 2.6.38 Zbiór punktów (x, y) ∈ R2 spełniających równanie x = m(y)
nazywamy linią regresji I-go rodzaju zmiennej losowej X względem Y .
Zbiór punktów (x, y) ∈ R2 spełniających równanie y = m(x) nazywamy linią
regresji I-go rodzaju zmiennej losowej Y względem X.
W przypadku skokowej zmiennej losowej linia regresji I-go rodzaju zmiennej losowej X względem Y jest łamaną łączącą punkty (xi , m(xi )), natomiast linia
regresji I-go rodzaju zmiennej losowej Y względem X jest łamaną łączącą punkty
(yj , m(yj )). W przypadku ciągłej zmiennej losowej linie regresji I-go rodzaju są
krzywymi mającymi co najwyżej przeliczalną liczbę punktów nieciągłości.
Jeśli linia regresji I-go rodzaju jest linią prostą, to mówimy, że regresja
między zmiennymi X i Y jest liniowa. Układ prostych regresji tworzy tak
zwane nożyce korelacyjne. Zwykle linie regresji I-go rodzaju nie pokrywają się.
Jeśli jednak z prawdopodobieństwem 1, zmienna losowa Y jest funkcją liniową
Y = aX + b, zmiennej losowej X, to obie linie regresji I-go rodzaju stanowi
prosta będąca wykresem funkcji liniowej f (x) = ax + b, gdyż zmienna losowa
(X, Y ) z prawdopodobieństwem 1, przyjmuje tylko wartości leżące na tej prostej.
Mówimy wtedy, że nożyce korelacyjne zamykają się. Jeśli natomiast zmienne
losowe X i Y są niezależne, to
E(Y /X) = EY
∧
E(X/Y ) = EX,
to znaczy, że liniami regresji I-go rodzaju są proste m(x) = EY , m(y) = EX,
które są równoległe do osi układu, a więc przecinające się pod kątem prostym.
Mówimy wówczas, że nożyce korelacyjne są maksymalnie rozwarte.
W przypadku, gdy linie regresji I-go rodzaju nie są liniami prostymi, można
wyznaczyć takie linie proste, dla których wartości oczekiwane
E(Y − (a1 X + b1 ))2
E(X − (a2 Y + b2 ))2
osiągają minimum. Proste te nazywamy liniami regresji II-go rodzaju.
Twierdzenie 2.6.39 Linia regresji II-go rodzaju zmiennej losowej Y względem
zmiennej losowej X ma postać
y − EY = %
DY
(x − EX).
DX
77
Linia regresji II-go rodzaju zmiennej losowej X względem zmiennej losowej Y
ma postać
1 DY
y − EY =
(x − EX).
% DX
Dowód. Aby wyznaczyć linię regresji II-go rodzaju zmiennej losowej Y względem zmiennej losowej X potraktujemy wyrażenie E(Y −(a1 X +b1 )2 jako funkcję
zmiennych a1 i b1 , a następnie wyznaczymy punkt, w którym ta funkcja osiąga
swoje minimum lokalne. W tym celu dokonajmy następujących przekształceń
E(Y − (a1 X + b1 ))2 = E(Y − EY − a1 (X − EX) + EY − a1 EX − b1 )2
= E(Y − EY )2 + a21 E(X − EX)2 + (EY − a1 EX − b1 )2
− 2a1 E(X − EX)(Y − EY ) − 2(EY − a1 EX − b1 )E(Y − EY )
− 2(EY − a1 EX − b1 )E(X − EX)
= D2 Y + a21 D2 X − 2a1 cov(X, Y ) + (EY − a1 EX − b1 )2 .
Zatem rozważamy funkcję
f (a1 , b1 ) = D2 Y + a21 D2 X − 2a1 cov(X, Y ) + (EY − a1 EX − b1 )2 .
Aby wyznaczyć punkt, w którym funkcja f osiąga minimum lokalne obliczymy
jej pochodne cząstkowe, a następnie przyrównamy je do zera. Mamy
∂f
= 2a1 D2 X − 2cov(X, Y ) − 2EX(EY − a1 EX − b1 )
∂a1
= 2a1 EX 2 − 2a1 (EX)2 − 2E(XY ) + 2EXEY − 2EXEY
+ 2a1 (EX)2 + 2b1 EX
= 2 EX 2 a1 + EXb1 − E(XY ) ,
∂f
= −2(EY − a1 EX − b1 ).
∂b1
Wobec tego szukane a1 i b1 wyznaczymy z układu równań
(
EX 2 a1 + EXb1 = E(XY )
EXa1 + b1 = EY.
Układ ten możemy rozwiązać metodą wyznacznikową
EX 2 , EX = EX 2 − (EX)2 = D2 X
W = EX,
1 E(XY ), EX = E(XY ) − EXEY = cov(X, Y )
Wa1 = EY,
1 EX 2 , E(XY )
= EX 2 EY − EXE(XY )
Wb1 = EX,
EY = EX 2 EY − (EX)2 EY + (EX)2 EY − EXE(XY )
= EY [EX 2 − (EX)2 ] − EX[E(XY ) − EXEY ]
= EY D2 X − EXcov(X, Y ).
78
Stąd
cov(X, Y )
DY
=%
D2 X
DX
cov(X, Y )
DY
b1 = EY − EX
= EY − %
EX.
D2 X
DX
Wstawiając otrzymane wartości do równania prostej otrzymamy żądaną postać
linii regresji II-go rodzaju.
Analogicznie można dowieść drugi wzór.
a1 =
Współczynniki a1 i a2 nazywamy współczynnikami regresji. Mając współczynniki regresji możemy wyznaczyć tangens kąta między liniami regresji II-go
rodzaju tzw. tangens kąta rozwarcia nożyc korelacyjnych
1 − a2 a1 1 − %2 DXDY
=
tg ϕ = .
a1 + a2 | % | D2 X + D2 Y
Zauważmy, że jeśli | % |= 1 (zmienne X i Y są zależne liniowo), to tg ϕ = 0, a
więc ϕ = 0 i nożyce korelacyjne zamykają się. Natomiast jeśli % = 0 (zmienne
są nieskorelowane), to ϕ = π2 i nożyce korelacyjne tworzą kąt prosty.
2.7
Ciągi zmiennych losowych
Wiele modeli probabilistycznych stosowanych w naukach technicznych bazuje
na zagadnieniu zbieżności ciągów zmiennych losowych. Jak wiadomo o modelu
badanego zjawiska można wnioskować na podstawie jego obserwacji, tj. obserwacji dostatecznie wielu realizacji ciągu zmiennych losowych. W paragrafie tym
omówimy podstawowe typy zbieżności ciągów zmiennych losowych.
Definicja 2.7.1 Nieskończony ciąg, którego elementami są zmienne losowe Xn
określone na tej samej przestrzeni probabilistycznej (Ω, F, P) nazywamy ciągiem
zmiennych losowych i oznaczamy (Xn ). Ustalając ω otrzymujemy ciąg liczbowy
(Xn (ω)), który nazywamy realizacją (trajektorią) ciągu zmiennych losowych
(Xn ) dla zdarzenia elementarnego ω.
Najbardziej znanymi rodzajami zbieżności powszechnie stosowanymi w analizie
matematycznej są zbieżność punktowa i zbieżność jednostajna.
Definicja 2.7.2 Ciąg (Xn ) nazywamy zbieżnym punktowo do zmiennej losowej
X jeśli lim Xn (ω) = X(ω) dla każdego ω ∈ Ω, tj.
n→∞
^ ^
_
^
| Xn (ω) − X(ω) |< ε.
ε>0 ω∈Ω N (ε,ω) n>N (ε,ω)
Definicja 2.7.3 Ciąg (Xn ) nazywamy jednostajnie zbieżnym na Ω do zmiennej
losowej X jeśli
^ _ ^ ^
| Xn (ω) − X(ω) |< ε.
ε>0 N (ε) ω∈Ω n>N (ε)
2.7. CIĄGI ZMIENNYCH LOSOWYCH
79
Jeżeli ciąg (Xn ) jest zbieżny jednostajnie, to jest również zbieżny punktowo,
ale nie na odwrót. Zbieżność punktowa ciągu zmiennych losowych jest pojęciem
bardzo silnym i niewiele ciągów może sprostać wymaganiom definicji. Istnieje jednak praktyczna potrzeba wprowadzenia definicji zbieżności innych niż
zbieżność punktowa, kilka takich sytuacji zaprezentujemy poniżej.
Przykład 2.7.4 Regulacja układu dynamicznego polega na doprowadzeniu tzw.
uchybu regulacji ε(t) do zera. Jeśli układ podlega losowym zakłóceniom, to w
danej chwili uchyb jest zmienną losową. Za cel regulacji można przyjąć doprowadzenie tzw. średniokwadratowego uchybu regulacji Eε2 (t) do zera. Załózmy,
że zadanie to wykonywane jest przez cyfrową maszynę sterującą, która zmienia
swój stan w chwilach t1 , t2 , . . . . Cel regulacji będzie zrealizowany, gdy
lim Eε2 (tn ) = 0. Żądanie, aby lim ε(tn ) = 0, tj. ciąg zmiennych losowych
n→∞
n→∞
ε(tn ) był punktowo zbieżny do zera jest zazwyczaj niemożliwe do zrealizowania.
Przykład 2.7.5 Niech zmienna losowa ξn oznacza procent chorych w populacji
Ω w czasie epidemii w n-tym dniu jej trwania. Możemy przyjąć, że epidemia
wygasła w m-tym dniu, jeśli po tym dniu dla dowolnie wybranych liczb c ∈
(0, 1) i ε > 0 zachodzi P(ξn > ε) < c. Zauważmy, że przy takim podejściu nie
żądamy aby ciąg (ξn ) był zbieżny punktowo, tj. by dowolnie wybrana osoba nie
chorowała po dniu m, ale by po dniu m nie chorowało równocześnie wiele osób.
Przykład 2.7.6 Niech εn (ω) oznacza energię kinetyczną cząstki ω w chwili t.
Zazwyczaj nie interesuje nas energia pojedynczej cząstki, ale rozkład energii
cząstek w pewnym zbiorze Ω. Na przykład mówi się, że gaz jest w stanie
ustalonym, jeśli rozkład energii kinetycznej cząstek nie zmienia się w czasie.
Zatem gaz jest w stanie ustalonym, gdy dla każdego x ∈ R granica ciągu Fεn (x)
dystrybuant rozkładu energii kinetycznej cząstek w chwili t istnieje.
Z powyższych przykładów wynika również, że zagadnienie zbieżności ciągu zmiennych losowych można sprowadzić do zagadnienia zbieżności odpowiednio skonstruowanych ciągów liczbowych. Metody konstruowania takich ciągów omówimy
poniżej.
Niech (Xn ) będzie ciągiem zmiennych losowych określonych na przestrzeni
probabilistycznej (Ω, F, P) i niech w tej przestrzeni określona będzie zmienna
losowa X.
Zbieżność z prawdopodobieństwem jeden
Definicja 2.7.7 Mówimy, że ciąg zmiennych losowych (Xn ) jest zbieżny z prawdopodobieństwem jeden (prawie na pewno lub prawie wszędzie) do zmiennej lop.n.
sowej X i piszemy Xn → X, jeśli
P({ω : lim Xn (ω) = X(ω)}) = 1
n→∞
lub równoważnie
P({ω : lim Xn (ω) 6= X(ω)}) = 0.
n→∞
80
Jeśli ciąg (Xn ) jest zbieżny z prawdopodobieństwem jeden do zmiennej losowej
X o rozkładzie jednopunktowym P(X = c) = 1, to mówimy, że jest on zbieżny
z prawdopodobieństwem jeden do liczby c i warunek z definicji zapisujemy w
postaci
P({ω : lim Xn (ω) = c}) = 1
n→∞
lub równoważnie
P({ω : lim Xn (ω) 6= c}) = 0.
n→∞
Zbieżność z prawdopodobieństwem jeden oznacza, że zbiór zdarzeń elementarnych, dla których realizacje ciągu (Xn ) są zbieżne jest zdarzeniem prawie
pewnym. Żądając aby ciąg był zbieżny z prawdopodobieństwem jeden, żądamy
aby prawdopodobieństwo tego, że trafimy na realizację, która nie jest zbieżna
było równe zero.
Jeśli dla każdego ω ∈ Ω realizacje ciągu zmiennych losowych są zbieżne, to
zbieżność prawie pewna pokrywa się ze zbieżnością punktową. Zatem każdy ciąg
zmiennych losowych zbieżny punktowo jest zbieżny z prawdopodobieństwem
jeden.
Granica ciągu zbieżnego z prawdopodobieństwem jeden nie jest określona
jednoznacznie, ale wszystkie granice ciągu zbieżnego prawie pewnie są sobie
równe z prawdopodobieństwem jeden.
Przykład 2.7.8 Niech Xn dla n ∈ N będzie zmienną losową przyjmującą wartości n1 i − n1 każdą z prawdopodobieństwem 21 . Wówczas dla dowolnego ω mamy
lim Xn (ω) = 0. Zatem P( lim Xn (ω) = 0) = 1. Oznacza to, że ciąg (Xn ) jest
n→∞
n→∞
zbieżny prawie na pewno do zmiennej losowej o rozkładzie jednopunktowym
skupionym w zerze.
Zbieżność według prawdopodobieństwa
Definicja 2.7.9 Mówimy, że ciąg zmiennych losowych (Xn ) jest zbieżny według
P
prawdopodobieństwa (stochastycznie) do zmiennej losowej X i piszemy Xn → X,
jeśli
^
lim P({ω :| Xn (ω) − X(ω) | ε}) = 0
ε>0
n→∞
lub równoważnie
^
ε>0
lim P({ω :| Xn (ω) − X(ω) |< ε}) = 1.
n→∞
Jeśli ciąg (Xn ) jest zbieżny według prawdopodobieństwa do zmiennej losowej
X o rozkładzie jednopunktowym, to mówimy, że jest on zbieżny według prawdopodobieństwa do liczby c, a warunek z definicji przyjmuje postać
^
lim P({ω :| Xn (ω) − c | ε}) = 0
ε>0
n→∞
2.7. CIĄGI ZMIENNYCH LOSOWYCH
81
lub równoważnie
^
ε>0
lim P({ω :| Xn (ω) − c |< ε}) = 1.
n→∞
Z definicji wynika, że ciąg zmiennych losowych jest bieżny według prawdopodobieństwa jeśli dla dużych n zbiór zdarzeń elementarnych, dla których różnica
między realizacjami zmiennych Xn , a realizacją zmiennej X jest dowolnie mała,
jest zdarzeniem prawie pewnym. Nie oznacza to na ogół, że realizacje ciągu
zbieżnego stochastycznie są zbieżne.
Podobnie jak w przypadku zbieżności z prawdopodobiestwem jeden granica
ciągu zbieżnego według prawdopodobieństwa jest określona jednoznacznie z
dokładnością do równości prawie na pewno.
Przykład 2.7.10 Rozważmy ciąg zmiennych losowych z poprzedniego przykładu. Obierzmy dowolne ε > 0. Jeśli n > 1ε , to n1 < ε oraz P(| Xn | ε) = 0.
Stąd wynika, że lim P(| Xn | ε) = 0. Oznacza to, że ciąg (Xn ) jest zbieżny
n→∞
według prawdopodobieństwa.
Zbieżność według średniej rzędu p
Założmy, że zmienne losowe Xn oraz zmienna X mają momenty zwykłe do rzędu
p włącznie.
Definicja 2.7.11 Mówimy, że ciąg zmiennych losowych (Xn ) jest zbieżny weLp
dług p-tej średniej do zmiennej losowej X i piszemy Xn → X, jeśli
lim E(| Xn − X |p ) = 0.
n→∞
Jeśli ciąg (Xn ) jest zbieżny według p-tej średniej do zmiennej losowej X o rozkładzie jednopunktowym, to mówimy, że jest on zbieżny według p-tej średniej
do liczby c, a warunek z definicji ma postać
lim E(| Xn − c |p ) = 0.
n→∞
Jeśli p = 2, to mówimy, że ciąg (Xn ) jest zbieżny średnikwardatowo.
Podobnie jak w poprzednich przypadkach granica ciągu zbieżnego według
p-tej średniej jest określona jednoznacznie z dokładnością do równości prawie
na pewno.
Przykład 2.7.12 Zauważmy, że w przypadku ciągu zmiennych losowych rozważanego w poprzednich przykładach mamy E(Xn2 ) = n12 . Zatem lim E(Xn2 ) =
n→∞
0. Oznacza to, że ciąg (Xn ) jest zbieżny średniokwadratowo.
Zbieżność według rozkładu
Niech Fn będzie dystrybuantą zmiennej losowej Xn , n ∈ N i niech F będzie
dystrybuantą zmiennej losowej X.
82
Definicja 2.7.13 Mówimy, że ciąg zmiennych losowych (Xn ) jest zbieżny weF
dług rozkładu (dystrybuant) do zmiennej losowej X i piszemy Xn → X, jeśli dla
każdego punktu x ciągłości dystrybuanty F zmiennej losowej X
lim Fn (x) = F (x).
n→∞
Zauważmy, że z tej definicji wynika następujący fakt. Jeśli n jest dużą liczbą
naturalną, to dystrybuanta Fn zmiennej losowej Xn niewiele różni się od dystrybuanty F zmiennej X. Zatem prawdopodobieństwa P(Xn < a), P(Xn a),
P(a ¬ Xn < b) mogą być w przybliżeniu obliczone za pomocą dystrybuanty F .
Jeśli ciąg Xn jest zbieżny według rozkładu, to tak naprawdę nie znana
nam jest zmienna losowa będąca granicą tego ciągu. Znana jest nam tylko dystrybuanta tej zmiennej, a jak wiemy z dystrybuanty nie można jednoznacznie
odtworzyć zmiennej losowej.
Przykład 2.7.14 Wyznaczmy dystrybuantę zmiennych losowych Xn rozważanych
we wcześniejszych przykładach. Mamy

1

0, x ¬ − n ,
Fn (x) = 12 , − n1 < x‘ n1 ,


1, x > n1 .
Zatem


0, x ¬ 0,
lim Fn (x) = 12 , x = 0,
n→∞


1, x > 1.
Punkt x = 0 jest punktem nieciągłości dystrybuanty F . Wobec tego ciąg Xn
jest zbieżny według rozkładu do zmiennej losowej X o dystrybuancie
(
0, x ¬ 0,
lim Fn (x) =
n→∞
1, x > 1.
Omówiliśmy sześć różnych typów zbieżności zmiennych losowych. Powstaje
pytanie jakie są między nimi zależności. Odpowiedź na to pytanie ilustruje
poniższy schemat.
zbieżność punktowa
zbieżność jednostajna
?
?
zbieżność prawie na pewno
zbieżność wedłu p-tej średniej
@
R
@
zbieżność wedłu prawdopodbieństwa
?
zbieżność według rozkładu