Procesy Poissona w geometrii stochastycznej

Transkrypt

Procesy Poissona w geometrii stochastycznej
Joanna Karłowska-Pik
Procesy Poissona w geometrii stochastycznej
Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci,
Toruń, 1-3 grudnia 2006 roku
1. Przestrzeń probabilistyczna
Przestrzenią probabilistyczną nazywamy trójkę (Ω, F, P ).
• Ω to przestrzeń zdarzeń elementarnych, czyli zbiór możliwych wyników badanego
doświadczenia losowego; zakładamy, że jest to zbiór niepusty.
Przykłady:
– dla rzutu monetą Ω = {O, R}, gdzie O oznacza orła, a R reszkę,
– dla rzutu kostką Ω = {1, 2, 3, 4, 5, 6},
– dla rzutu dwiema kostkami Ω = {(ω1 , ω2 ); ω1 , ω2 ∈ {1, 2, 3, 4, 5, 6}},
– dla spóźnienia się ucznia na 45-minutową lekcję Ω = [0, 45],
– dla rzutu lotką do tarczy o promieniu 30 cm Ω = {(x, y) ∈ R2 ; x2 + y 2 ¬ 900}.
• F to pewna rodzina zdarzeń, czyli podzbiorów przestrzeni Ω, o której zakładamy, że
tworzy σ-algebrę, czyli spełnia warunki:
– ∅ i Ω należą do F,
– jeśli A jest zdarzeniem (czyli A należy do F), to jego dopełnienie A0 także jest
zdarzeniem (czyli A0 należy do F),
– jeśli A1 , A2 , . . . ∈ F, to także A1 ∪ A2 ∪ . . . ∈ F.
Warunki te gwarantują, że jeśli A i B są zdarzeniami, to zdarzeniami będą też „nie
zaszło zdarzenie A” (A0 ), „zaszły jednocześnie A i B” (A ∩ B), „zaszło przynajmniej
jedno ze zdarzeń A, B” (A∪B), „zaszło zdarzenie A, a nie zaszło B” (A\B). Z drugiej
strony warunki te pozwalają pozbyć się pewnych „niedobrych zbiorów”, dla których
byłby kłopot z określeniem prawdopodobieństwa (patrz J. Jakubowski, R. Sztencel,
Rachunek prawdopodobieństwa dla (prawie) każdego, str. 228-230).
Uwaga: Najczęściej przyjmuje się, że jeśli Ω jest zbiorem skończonym lub przeliczalnym, to F jest po prostu rodziną wszystkich podzbiorów przestrzeni Ω. Jeśli Ω = R
lub Ω = R2 , to F = B(R) lub F = B(R2 ), czyli jest tzw. σ-algebrą zbiorów borelowskich. Na R zbiory borelowskie to wszystkie odcinki i zbiory z nich powstałe
poprzez przeliczalne stosowanie działań takich jak suma, przekrój, różnica i dopełnienie. Na R2 to wszystkie zbiory otwarte i zbiory z nich utworzone poprzez przeliczalne
stosowanie wspomnianych działań.
1
• P jest prawdopodobieństwem, czyli funkcją, która zdarzeniom z σ-algebry F przyporządkowuje pewne liczby rzeczywiste, które będziemy rozumieć jako szanse zajścia
poszczególnych zdarzeń. P spełnia warunki:
– P (∅) = 0, P (Ω) = 1,
– dla każdego A ∈ F mamy 0 ¬ P (A) ¬ 1,
– jeśli A1 , A2 , . . . są zdarzeniami rozłącznymi, to
P (A1 ∪ A2 ∪ . . .) = P (A1 ) ∪ P (A2 ) ∪ . . .
Prawdopodobieństwo jest szczególnym przykładem miary. „Mierzy” częstości pojawiania się pewnych zdarzeń.
Przykłady:
– dla rzutu monetą P ({O}) = P ({R}) = 1/2,
– dla rzutu kostką P ({3, 6}) = 1/3,
– dla rzutu dwiema kostkami P ({(ω1 , ω2 ); ω1 = ω2 }) = 6/36,
– dla rzutu lotką w tarczę o promieniu 30 cm P ({(x, y); x2 + y 2 ¬ 10}) nie jest
jednoznacznie określone, tzn. dla początkującego gracza prawdopodobieństwo
trafienia w każdy punkt tarczy jest jednakowe, więc
π102
1
P ({(x, y); x + y ¬ 10}) =
= ,
2
π30
9
2
2
ale rzuty dobrego gracza są już bardziej skoncentrowane wokół środka, a rzadziej trafiają blisko brzegu, tak więc to prawdopodobieństwo będzie zależało od
pewnej „funkcji trafień”.
2. Zmienne losowe
Często nie interesuje nas wynik doświadczenia losowego jako taki, ale pewna charakterystyka liczbowa z nim związana.
Przykłady:
a) wygrana w rzucie monetą, jeśli wiemy, że za orła dostajemy 2 zł, a za reszkę 1 zł,
b) liczba oczek w rzucie kostką,
c) suma oczek lub większy z dwóch wyników w rzucie dwiema kostkami,
d) odległość od środka tarczy punktu, w który trafiliśmy rzucając lotką.
2
Przyporządkowujemy więc zdarzeniom elementarnym ω pewne wartości liczbowe, otrzymując funkcję
X : Ω → R.
Będziemy pytać o szanse przyjęcia przez taką funkcję pewnego wyniku, czyli dobrze by
było, gdyby zbiór {ω; a ¬ X(ω) ¬ b} był zdarzeniem.
Definicja: Zmienną losową nazywamy funkcję X : Ω → R taką, że dla każdych a, b ∈ R
X −1 (ω) = {ω; a ¬ X(ω) ¬ b} ∈ F.
(O takiej funkcji mówimy, że jest mierzalna).
Uwaga: Zgodnie z treścią poprzedniej uwagi na przestrzeni Ω skończonej lub przeliczalnej
wszystkie funkcje X : Ω → R są zmiennymi losowymi.
Przykłady:
a) X(ω) =

2,
jeśli ω = O
,
jeśli ω = R
1,
b) X(ω) = ω,
c) X((ω1 , ω2 )) = ω1 + ω2 lub X((ω1 , ω2 )) = max{ω1 , ω2 },
d) X((ω1 , ω2 )) =
q
ω12 + ω22 .
Przykład: Niech Ω = {O, R}. Rozważmy zmienne losowe X i Y :

0,
X(ω) = 
1,

0,
jeśli ω = R
,
jeśli ω = O
Y (ω) = 
1,
jeśli ω = O
.
jeśli ω = R
Wtedy
k
0
1
P (Y (ω) = k) 1/2 1/2
0
1
k
P (X(ω) = k) 1/2 1/2
Mówimy, że zmienne X i Y mają taki sam rozkład, czyli przyjmują takie same wartości
z takimi samymi prawdopodobieństwami.
Rozważając zmienne losowe zwracamy uwagę nie na wzór, ale na wartości, jakie może
przyjmować zmienna losowa i prawdopodobieństwa, z którymi wartości te są przyjmowane. W związku z tym często nie pisze się X(ω) tylko X.
3
Dwa podstawowe typy zmiennych losowych:
• zmienne o rozkładach dyskretnych – przyjmują skończenie lub przeliczalnie wiele wartości, ich rozkład zadaje się podając jakie wartości są przyjmowane i z jakimi prawdopodobieństwami,
• zmienne o rozkładach (absolutnie) ciągłych – przyjmują wartości z pewnego przedziału, ich rozkład opisuje pewna funkcja zwana gęstością.
3. Rozkład Bernoulliego (dwumianowy)
Rozważamy schemat n prób Bernoulliego z prawdopodobieństwem sukcesu p, czyli powtarzamy w sposób niezależny n razy doświadczenie losowe, w wyniku którego otrzymujemy
dwa możliwe wyniki: 1 (sukces) i 0 (porażka), przy czym prawdopodobieństwo otrzymania
sukcesu jest równe p, a porażki 1 − p.
Definiujemy zmienną losową X jako liczbę sukcesów w tym schemacie. Tak więc X może
przyjąć jedną z wartości k = 0, 1, 2, . . . , n. Jakiejest
prawdopodobieństwo, że X = k?
k sukcesów na n miejscach można rozmieścić na nk sposobów. Każde rozmieszczenie to
konkretny ciąg o prawdopodobieństwie pk (1 − p)n−k , tak więc
!
n k
P (X = k) =
p (1 − p)n−k ,
k
k = 0, 1, 2, . . . , n.
Przykład: Rzucamy 3 razy kostką do gry. Jakie jest prawdopodobieństwo, że otrzymamy
0, 1, 2, 3 szóstki? Mamy tu schemat 3 prób Bernoulliego z prawdopodobieństwem sukcesu
p = 16 .
4
3
1 0 5 3
0
6
6
! 1 2
5
3
1
6
6
1
! 2 1
3
1
5
2
6
6
! 3 0
5
3
1
6
6
3
! P (X = 0) =
P (X = 1) =
P (X = 2) =
P (X = 3) =
53
63
52
=3· 3
6
51
=3· 3
6
50
=1· 3
6
=1·
125
,
216
75
,
=
216
15
,
=
216
1
.
=
216
=
4. Rozkład Poissona
Definicja: Liczba e jest definiowana jako granica ciągu 1 +
1
1+
1
1
= 2,
1
1+
2
2
9
= ,
4
1
1+
3
3
64
= ,
27
1
n
n
, tzn.
...,
1
1+
n
n
,
. . . −→ e.
Inaczej
e=1+
1
1
1
1
+ + + + ...
1! 2! 3! 4!
Ogólnie
ex =
x0 x1 x2 x3 x4
xn
+
+
+
+
+ ... +
+ ...
0!
1!
2!
3!
4!
n!
Liczba e jest niewymierna i w przybliżeniu jest równa
2, 71828182845904523536028747135266249775724709369995957496696762772407663035 . . .
Definicja: Zmienna losowa X ma rozkład Poissona z parametrem λ > 0, jeśli przyjmuje
wartości
k = 0, 1, 2, . . .
z prawdopodobieństwami
P (X = k) = e−λ
λk
.
k!
Definicja: Dla rozkładów dyskretnych wartość oczekiwaną (średnią) EX zmiennej X definiujemy jako
EX =
X
k · P (X = k).
k
5
Wniosek: Wartość oczekiwana dla rozkładu Poissona jest równa λ.
EX =
∞
X
−λ λ
k·e
k=0
k
k!
=
λ1
λ2
λ3
λ4
λ0
+ 1 · e−λ + 2 · e−λ + 3 · e−λ + 4 · e−λ + . . . =
0!
1!
2!
3!
4!
1
2
3
4
λ
λ
λ
λ
= e−λ (0 +
+
+
+
+ . . .) =
0!
1!
2!
3!
λ0 λ1 λ2 λ 3
= λe−λ ( +
+
+
+ . . .) =
0!
1!
2!
3!
= λe−λ eλ = λ.
= 0 · e−λ
5. Rozkład Bernoulliego a rozkład Poissona
Jeśli n jest duże, to obliczenie prawdopodobieństwa osiągnięcia k sukcesów w n próbach
Bernoulliego
!
n k
P (X = k) =
p (1 − p)n−k
k
jest kłopotliwe. Dlatego przydatne jest twierdzenie, które mówi, że rozkład Bernoulliego
może być przybliżony rozkładem Poissona.
Twierdzenie Poissona: Jeśli n → ∞, pn → 0 i npn → λ > 0, to
k
n k
−λ λ
pn (1 − pn )n−k −
−
−
→
e
.
n→∞
k
k!
!
Można pokazać, że
!
k
n
λ2
k
n−k
−λ λ p (1 − p)
−e
¬
.
k
k! n
6
Przykład: W tabeli przedstawiono prawdopodobieństwa uzyskania k =, 0, 1, . . . , 10 sukcesów w n próbach Bernoulliego z takim prawdopodobieństwem, żeby np = 2, oraz prawdopodobieństwa otrzymane dla rozkładu Poissona z parametrem λ = 2.
k
0
1
2
3
4
5
6
7
8
9
n = 10 n = 20
n = 50
n = 100 n = 200
p = 0, 2 p = 0, 1 p = 0, 04 p = 0, 02 p = 0, 01
0,1074
0,1216
0,1299
0,1326
0,1340
0,2684
0,2702
0,2706
0,2707
0,2707
0,3020
0,2852
0,2762
0,2734
0,2720
0,2013
0,1901
0,1842
0,1823
0,1814
0,0881
0,0898
0,0902
0,0902
0,0902
0,0264
0,0319
0,0346
0,0353
0,0357
0,0055
0,0089
0,0108
0,0114
0,0117
0,0008
0,0020
0,0028
0,0031
0,0033
0,0001
0,0004
0,0006
0,0007
0,0008
0,0000
0,0001
0,0001
0,0002
0,0002
λ=2
0,1353
0,2707
0,2707
0,1804
0,0902
0,0361
0,0120
0,0034
0,0009
0,0002
Uwaga: Zaleca się stosowanie przybliżenia Poissona przy założeniu, że spełnione są warunki
p ¬ 0, 1, np(1 − p) ¬ 9.
Przykład: Prawdopodobieństwo trafienia szóstki w Toto-Lotku jest równe
1
=
49
6
1
≈ 7 · 10−8 .
13 983 816
Jakie jest prawdopodobieństwo, że nie będzie w ogóle szóstek lub, że będzie tylko jedna,
jeśli grający wypełniają kupony losowo i niezależnie od siebie, a kuponów jest 10 mln?
Mamy n = 10 mln, p = 1/13 983 816. Stąd np ≈ 0, 7151 i np(1 − p) < 9. Rozkład Bernoulliego 10 mln prób z prawdopodobieństwem sukcesu p = 1/13 983 816 można przybliżyć
rozkładem Poissona z parametrem λ = np ≈ 0, 7151. Stąd prawdopodobieństwo, że nie
będzie w ogóle szóstek jest równe 0,4891, a że będzie dokładnie jedna to 0,3498. Błąd przybliżenia nie przekracza λ2 /n ¬ 5 · 10−8 .
Uwaga: Rozkład Poissona nazywa się rozkładem zdarzeń rzadkich. Mogą to być pożary,
wypadki, główne nagrody w grach losowych itp.
Przykład: Dane Władysława Bortkiewicza (Ladislaus von Bortkiewicz (1863-1931))
Statystyki zgonów na skutek kopnięcia przez konia w 10 korpusach armii pruskiej w latach 1875-1894 obejmują 191 korpuso-lat. W tym czasie zdarzyły się 122 wypadki, czyli
średnio 122/191 = 0, 6387 wypadku w każdym korpusie rocznie. Można się zatem spodziewać, że liczba wypadków w korpusie w ciągu roku będzie zmienną X o rozkładzie Poissona
z parametrem λ = 0, 6387. Możemy porównać przewidywania teoretyczne ze stanem faktycznym.
7
k
0
1
2
3
4
5
6
7
P (X = k) n · P (X = k)
nk
0,527955
100,839
100
0,337228
64,411
65
0,107701
20,571
22
0,022931
4,380
3
0,003662
0,699
1
0,000468
0,089
0
0,000050
0,011
0
0,000010
0,002
0
1,000000
191
191,000
Przykład: Doświadczenie Rutherforda zliczania rozpadów atomów w n = 2 608 przedziałach
czasu, każdy o długości 7,5 sekundy - patrz: W. Feller, Wstęp do rachunku prawdopodobieństwa, t. I, rozdz. VI.7.
Przykład: Pączek zawiera średnio dwa rodzynki. Jaka jest szansa, że zawiera choć jeden?
Możemy przyjąć, że liczba rodzynków w pączku ma rozkład Poissona z parametrem λ.
Dlaczego? Bo ciasto na pączki miało objętość V i zostało podzielone na pączki o objętości
v. Próby Bernoulliego polegają na „trafianiu” kolejnych rodzynków do konkretnego pączka.
Szansa trafienia rodzynka do pączka jest równa p = v/V , a np = 2. Tak więc
P (X ­ 1) = 1 − P (X = 0) = 1 − e−2 = 1 − 0, 135335 = 0, 864665.
Ta sama argumentacja stosuje się do trafień pocisków V2 w Londyn (patrz: Feller), rozkładu gwiazd w przestrzeni, czy rozkładu wypadków w pewnym okresie czasu. Mamy tu
do czynienia z losowym rozkładem punktów na płaszczyźnie, w przestrzeni i na odcinku.
6. Miary punktowe
Rozważamy cząstki lub obiekty, które pojawiły się w pewnej przestrzeni S (np. pod mikroskopem lub na ekranie). Obserwujemy podzbiór (obszar) D przestrzeni S.
Załóżmy, że w wyniku naszego doświadczenia pojawiły się punkty x1 , x2 , x3 , . . . (skończenie
lub przeliczalnie wiele punktów) i nie mamy punktów wielokrotnych. Rozważamy zbiory
8
{xi ; i ∈ I}, gdzie I ⊆ N. Opisu takiego zbioru dokonujemy wyznaczając dla każdego
„dobrego” („dobry” znaczy należący do σ-algebry F, w którą wyposażona jest przestrzeń
S) podzbioru B obszaru D liczbę punktów, które znalazły się w zbiorze B:
]({xi ; i ∈ I} ∩ B).
Definicja: Miarą Diraca nazywamy funkcję δx : F → [0, +∞) taką, że

1,
jeśli x ∈ A
.
jeśli x ∈
/A
δx (A) = 
0,
Liczbę punktów xi należących do zbioru B możemy teraz zapisać jako
]({xi ; i ∈ I} ∩ B) =
X
δxi (B).
i∈I
Definicja: Funkcja µ : F → [0, +∞) ∪ {∞}
µ(B) =
X
δxi (B)
i∈I
jest miarą. Nazywamy ją miarą punktową.
Uwaga: Wykorzystanie miar punktowych pozwala nam na rozważanie także sytuacji z pojawiającymi się punktami wielokrotnymi. Miara bez punktów wielokrotnych jest nazywana
prostą.
7. Procesy punktowe
Załóżmy teraz, że liczba i położenie punktów mogą być losowe. Jeśli prawdopodobieństwo,
że obiekt znajdzie się w zbiorze D jest małe, to mówimy o zdarzeniach rzadkich.
Definicja: Procesem punktowym nazywamy losową miarę punktową N , czyli taką miarę,
że dla każdego zbioru B ∈ F liczba punktów N (B), które znalazły się w tym zbiorze jest
zmienną losową.
Uwaga: N (S) jest liczbą wszystkich punktów xi , które pojawiły się na przestrzeni S.
Przykład: Niech X1 , X2 , . . . , Xn będą niezależnymi zmiennymi losowymi o jednakowym
rozkładzie, tzn. dla każdego zbioru B ∈ F prawdopodobieństwa P (Xi ∈ B) są równe.
Niech
n
Nn =
X
i=1
9
δXi .
Nn jest procesem punktowym, bo dla każdego B ∈ F
Nn (B) =
n
X
δXi (B)
i=1
jest zmienną losową o rozkładzie Bernoulliego (bo zlicza sukcesy polegające na trafieniu
w zbiór B w n próbach z prawdopodobieństwem sukcesu p = P (Xi ∈ B)). Proces ten
nazywamy procesem empirycznym.
Przykład: Mieszanym procesem empirycznym nazywamy proces empiryczny z losowym
rozmiarem próbki, tzn. proces
Nn =
ζ
X
δXi ,
i=1
gdzie ζ jest zmienną losową niezależną od X1 , X2 , . . . , Xn .
Definicja: Miarą intensywności procesu punktowego N nazywamy miarę ν, która dla każdego zbioru B ∈ F jest równa
ν(B) = EN (B),
czyli jest średnią (oczekiwaną) liczbą punktów, które znajdą się w zbiorze B.
Przykład: Dla procesu empirycznego miara intensywności jest równa
ν(B) = ENn (B) = E
n
X
i=1
δXi (B) =
n
X
EδXi (B) =
n
X
P (Xi ∈ B) = n · P (X1 ∈ B).
i=1
i=1
8. Proces Poissona ze skończoną miarą intensywności
Niech ν będzie miarą skończoną, tzn. ν(S) < +∞.
Definicja: Proces punktowy N jest procesem Poissona, jeśli
• dla każdego zbioru B ∈ F liczba punktów N (B), które znajdą się w zbiorze B ma
rozkład Poissona z parametrem λ = ν(B),
• N (B1 ), N (B2 ), . . . , N (Bk ) są niezależnymi zmiennymi losowymi dla każdego naturalnego k i dowolnych parami rozłącznych B1 , B2 , . . . , Bk ∈ F.
Uwaga: ν jest miarą intensywności procesu Poissona, bo N (B) jest zmienną losową o rozkładzie Poissona z parametrem ν(B), a rozkład ten ma wartość oczekiwaną równą ν(B).
Twierdzenie: Niech ν będzie miarą skończoną. Wówczas
10
• proces
N=
τ
X
δXi ,
i=1
gdzie τ, X1 , X2 , . . . , Xn są niezależne, τ ma rozkład Poissona z parametrem ν(S),
a rozkład losowych punktów Xi jest zadany wzorem P (Xi ∈ B) = ν(B)/ν(S) dla
każdego B ∈ F, jest procesem Poissona z miarą intensywności ν;
• procesy Poissona o takiej samej mierze intensywności są równe.
Przykład: Rozmieszczenie roślin lub zwierząt na pewnym terenie (J. G. Skellam, Studies
in statistical ecology)
„Rozważmy rozległy otwarty teren jednorodny ze względu na swój charakter, taki jak na
przykład błotniste koryto osuszonego płytkiego jeziora i położenie niezależnie rozsianych
przez wiatr nasion jednego z gatunków roślin, które kolonizują ten obszar. Liczba nasion,
które spadna na metr kwadratowy powierzchni jest zmienna o rozkładzie Poissona, co wynika z faktu, że jest wiele takich nasion, każde z bardzo małym prawdopodobieństwem
trafienia w wyznaczony kwadrat. ”
Fakt:
• Jeśli cząstki są rozmieszczone na płaszczyźnie zgodnie z Procesem Poissona o średniej
ν na powierzchni jednostkowej i T jest odległością pomiędzy konkretną cząstką a
najbliższym jej sąsiadem, to πT 2 ma rozkład wykładniczy z parametrem nu, czyli
P (πT 2 > y) = νe−νy
dla y > 0.
• Jeśli cząstki są rozmieszczone w przestrzeni to 43 πT 3 ma rozkład wykładniczy z parametrem ν, czyli
4 3
P
πT > y = νe−νy dla y > 0.
3
Literatura:
• J. Jakubowski, R. Sztencel, Rachunek prawdopodobieństwa dla (prawie) każdego,
• W. Feller, Wstęp do rachunku prawdopodobieństwa,
• E. Parzen, Stochastic Processes,
• R.-D. Reiss, A Course on Point Processes.
11