Podczas rozkładu prostego elementu matematyki

Transkrypt

Podczas rozkładu prostego elementu matematyki
1
Spis treści
1 Eksperyment losowy i jego matematyczny opis.
1.1 Wstęp - częstościowa definicja prawdopodobieństwa. . . . . .
1.2 Definicja i własności prawdopodobieństwa. . . . . . . . . . . .
1.3 Przykłady przestrzeni probabilistycznych. . . . . . . . . . . .
1.3.1 Prawdopodobieństwo klasyczne . . . . . . . . . . . . .
1.3.2 Przeliczalna nieskończona przestrzeń probabilistyczna
1.3.3 Prawdopodobieństwo geometryczne . . . . . . . . . . .
1.4 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
3
8
8
13
14
17
2 Prawdopodobieństwo warunkowe. Niezależność zdarzeń.
2.1 Prawdopodobieństwo warunkowe. . . . . . . . . . . . . . . .
2.2 Wzór na prawdopodobieństwo całkowite i wzór Bayesa. . .
2.3 Niezależność zdarzeń. . . . . . . . . . . . . . . . . . . . . .
2.4 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
21
24
28
3 Zmienne losowe jednowymiarowe.
3.1 Definicja oraz rozkład i dystrybuanta zmiennej losowej.
3.2 Parametry zmiennej losowej . . . . . . . . . . . . . . . .
3.2.1 Wartość oczekiwana. . . . . . . . . . . . . . . . .
3.2.2 Wariancja zmiennej losowej. . . . . . . . . . . . .
3.2.3 Momenty. . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Kwantyle. . . . . . . . . . . . . . . . . . . . . . .
3.3 Najważniejsze rozkłady dyskretne . . . . . . . . . . . . .
3.4 Najważniejsze rozkłady typu ciągłego . . . . . . . . . .
3.5 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
30
35
35
36
36
37
39
51
59
4 Twierdzenia graniczne
4.1 Ważne nierówności. . . . . . . . .
4.2 Prawa wielkich liczb. . . . . . . .
4.3 Centralne Twierdzenie Graniczne
4.4 Zadania . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
66
68
77
5 Zmienne losowe wielowymiarowe.
5.1 Definicja i przykłady. . . . . . . .
5.2 Zmienne losowe dwuwymiarowe.
5.2.1 Rozkłady brzegowe . . . .
5.2.2 Rozkłady warunkowe . . .
5.2.3 Regresja liniowa . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
78
78
79
80
81
81
2
6 Elementy statystyki matematycznej
6.1 Podstawowe pojęcia statystyki matematycznej.
6.2 Estymacja . . . . . . . . . . . . . . . . . . . . .
6.2.1 Podstawowe pojęcia. . . . . . . . . . . .
6.2.2 Estymacja punktowa . . . . . . . . . . .
6.2.3 Estymacja przedziałowa . . . . . . . . .
6.3 Testowanie hipotez . . . . . . . . . . . . . . . .
6.3.1 Testy istotności . . . . . . . . . . . . . .
6.3.2 Testy parametryczne. . . . . . . . . . .
6.3.3 Testy nieparametryczne. . . . . . . . . .
6.3.4 Testy niezależności. . . . . . . . . . . . .
6.3.5 Testy jednorodności. . . . . . . . . . . .
7 Funkcje charakterystyczne.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
83
83
88
88
89
92
94
100
100
106
109
111
115
3
1
Eksperyment losowy i jego matematyczny opis.
1.1
Wstęp - częstościowa definicja prawdopodobieństwa.
W życiu mamy do czynienia nie tylko ze zdarzeniami zdeterminowanymi ale też
ze zdarzeniami, których wyniku nie potrafimy z góry przewidzieć - tak zwanymi
zdarzeniami losowymi. Nie można np. przewidzieć, czy dany atom radu ulegnie
rozpadowi w czasie t lat, czy nie. Natomiast można powiedzieć, że prawdopodobieństwo rozpadu atomu w okresie t lat równne jest p = 1 − e−0,000436t .
Typowe przykłady zdarzeń losowych to: wynik rzutu monetą, liczba samochodów przejeżdżających przez skrzyżowanie w jednostce czasu, błąd pomiaru,
wytrzymałość belki, czas niezawodnej pracy urządzenia, prawdziwa przyczyna zaobserwowanych u pacjenta zmian chorobowych.
Zauważono, że tego typu eksperymenty odznaczają się jednak pewną regularnością. Np. dla rzetelnej monety częstość występowania orła (tzn. stosunek liczby
orłów do liczby wszystkich rzutów) zbliża się do 21 , a częstość pojawiania się sak
mochodów na danym moście w jednostce czasu dobrze opisuje wzór λk! e−λ , gdzie
k oznacza ilość samochodów przejeżdżających przez most w jednostce czasu, a λ
jest stałą charakterystyczną dla danego mostu (tzw. intensywnością).
1.2
Definicja i własności prawdopodobieństwa.
Przyjmujemy, że czytelnik zna podstawowe prawa rachunku zbiorów. Przypomnijmy jedynie, że:
• Prawami de Morgana nazywamy równości
∞
[
An
n=1
′
=
∞
\
′
An
oraz
n=1
∞
\
n=1
An
′
=
∞
[
′
An .
(1)
n=1
• Iloczynem kartezjańskim zbiorów A1 , A2 , . . . , Ak (i ogólnie: A1 , A2 , . . . ,)
nazywamy zbiór
A1 × A2 × . . . × Ak = {(a1 , a2 , . . . , ak ) : ai
i ogólnie
∞
Y
i=1
Ai = {(a1 , a2 , . . .) : ai
∈ Ai ,
∈ Ai ,
i = 1, 2, . . . , k}
i = 1, 2, . . .}.
(2)
Symbolem A oznaczamy w dalszym ciągu liczbę elementów zbioru skończonego A.
Posługując się zasadą indukcji matematycznej łatwo udowodnić, że liczbę elementów iloczynu kartezjańskiego zbiorów skończonych można policzyć w następujący
sposób.
4
• Fakt 1.1
Jeżeli dla i = 1, 2, . . . , k zbiór Ai ma ni elementów, to
A1 × A2 × . . . × Ak = n1 · n2 · . . . · nk .
W dalszym ciągu przez Ω oznaczamy zbiór wszystkich możliwych wyników
doświadczenia losowego. Każdy pojedynczy wynik nazywamy zdarzeniem elementarnym, a Ω - przestrzenią zdarzeń elementarnych.
Zdarzeniem losowym nazywamy podzbiór przestrzeni Ω. Jeżeli Ω jest dowolnym
zbiorem, to o rodzinie (zbiorze) F wszystkich zdarzeń losowych zakładamy, że:
(A1) Ω ∈ F,
(A2) Jeżeli A ∈ F, to A′
(A3) Jeżeli A1 , A2 , . . .
∈ F,
∈ F,
to
∞
S
An
n=1
∈ F.
Rodzinę F spełniającą warunki (A1) - (A3) nazywamy σ-ciałem (lub σ-algebrą)
zbiorów. Zbiór Ω nazywamy zdarzeniem pewnym. Zdarzeniem przeciwnym
′
do zdarzenia A nazywamy zbiór A = Ω \ A. Jeżeli A ∩ B = ∅, to mówimy, że
zdarzenia A i B wykluczają się.
Z warunków (A1) - (A3) wynika, że:
1) ∅ ∈ F;
2) A \ B ∈ F dla dowolnych A, B ∈ F;
∞
T
An ∈ F.
3) Jeżeli A1 , A2 , . . . ∈ F to
n=1
W przypadku dyskretnej (tzn. skończonej lub przeliczalnej) przestrzeni Ω zdarzeniem losowym jest dowolny jej podzbiór. W przypadku nieprzeliczalnej przestrzeni
Ω rodzinę F należy precyzyjnie określić. W niektórych zagadnieniach dobrym modelem probabilistycznym okazują się pewne podzbiory prostej, płaszczyzny czy
ogólnie przestrzeni euklidesowej IRk . Za rodzinę F przyjmuje się wówczas σ-ciało
zbiorów borelowskich w IR (w IR2 , IR3 lub ogólnie w IRk ), przez co rozumie się
najmniejsze σ-ciało zbiorów zawierające wszystkie przedziały otwarte (a, b) w IR
(koła otwarte w IR2 , kule otwarte w IR3 , itd. Mówiąc obrazowo, zbiór borelowski
w IR (w IRk ) to każdy zbiór, który można otrzymać jako wynik przeliczalnych działań mnogościowych wykonanych na rodzinie wszystkich przedziałów na prostej czy
kul otwartych w przestrzeni k-wymiarowej. Na przykład zbiorem borelowskim jest
każdy przedział jednostronnie czy dwustronnie domknięty i każda półprosta, bo
∞
∞
∞
T
T
T
a − n1 , b + n1 , (a, ∞) =
a + n − 1, a + n],
a, b + n1 , [a, b] =
(a, b] =
itd.
n=1
n=1
Określimy teraz pewną miarę wystąpienia danego zdarzenia.
i=1
5
• Definicja 1.2
Prawdopodobieństwem nazywamy funkcję określoną na rodzinie
zdarzeń F spełniającą następujące warunki:
1. 0 ¬ P (A) dla każdego A ∈ F,
2. P (Ω) = 1,
3. Jeżeli A1 , A2 , . . . są parami rozłączne, to P
S
∞
n=1
∞
P
P (En ).
An =
n=1
W szczególności P (A ∪ B) = P (A) + P (B) dla zdarzeń rozłącznych A i B.
Z powyższych aksjomatów wynika wiele własności, z których najważniejsze wymienimy
• Fakt 1.3
(Własności prawdopodobieństwa)
1. P (A) ¬ 1 dla każdego A ∈ F,
2. Jeżeli A ⊂ B, to P (A) ¬ P (B),
′
3. P (A ) = 1 − P (A), a stąd P (∅) = 0,
4. Jeżeli A ⊂ B, to P (B \ A) = P (B) − P (A) = P (B) − P (A ∩ B),
5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B),
n
n
P
S
P (Ai ),
Ai ¬
6. P
i=1
i=1
7. Jeżeli A1 ⊂ A2 ⊂ . . ., to P
jeżeli A1 ⊃ A2 ⊃ . . . , to P
S
∞
n=1
T
∞
An = lim P (An ) oraz
n→∞
An = lim P (An ).
n=1
n→∞
W przypadku trzech zbiorów A, B, C wzór z punktu 4. przyjmuje postać
P (A∪B∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (B∩C)−P (C∩A)+P (A∩B∩C),
(3)
a w przypadku dowolnej skończonej ilości zbiorów wzór ten można uogólnić w
sposób następujący:
P
∞
[
n=1
X
An =
P (Ai )−
1¬i¬n
X
1¬i1 <i2 ¬n
P (Ai1 ∩Ai2 )+. . .+(−1)n+1 P (A1 ∩. . .∩An ).
(4)
6
• Fakt 1.4
Jeżeli Ω = {ωi : i ∈ I}, gdzie I jest zbiorem skończonym lub I = IN oraz
∞
P
pi = 1, to dla A ⊂ Ω wzór
P (ωi ) = pi przy czym pi ­ 0 oraz
i=1
P (A) =
X
pi
ωi ∈ A
określa prawdopodobieństwo na rodzinie wszystkich podzbiorów zbioru Ω.
Trójkę (Ω, F , P ) nazywamy przestrzenią probabilistyczną.
• Przykład 1.1
Niech A, B, C będą zdarzeniami. Zapisać za pomocą działań na zbiorach następujące zdarzenia:
a) zachodzi dokładnie jedno ze zdarzeń A, B, C;
b) zachodzą dokładnie dwa spośród zdarzeń A, B, C;
c) zachodzą przynajmniej dwa spośród zdarzeń A, B, C.
d) zachodzą co najwyżej dwa spośród zdarzeń A, B, C.
R o z w i ą z a n i e.
a) Zachodzi dokładnie jedno ze zdarzeń A, B, C, to oznacza dokładnie, że zachodzi
A i nie zachodzą B ani C lub zachodzi B i nie zachodzą A ani C lub zachodzi C
i nie zachodzą A ani B czyli, że zachodzi zdarzenie
A ∩ B ′ ∩ C ′ ∪ A′ ∩ B ∩ C ′ ∪ A′ ∩ B ′ ∩ C.
b) Podobnie — zachodzą dokładnie dwa spośród zdarzeń A, B, C oznacza, że zachodzi zdarzenie
A ∩ B ∩ C ′ ∪ A ∩ B ′ ∩ C ∪ A′ ∩ B ∩ C.
c) Zachodzą przynajmniej dwa spośród zdarzeń A, B, C oznacza, że zachodzą dokładnie dwa spośród zdarzeń A, B, C lub zachodzą wszystkie trzy zdarzenia, czyli
zachodzi zdarzenie
A ∩ B ∩ C ′ ∪ A ∩ B ′ ∩ C ∪ A′ ∩ B ∩ C ∪ A ∩ B ∩ C.
d) Zachodzą co najwyżej dwa spośród zdarzeń A, B, C oznacza, że nie zachodzą
wszystkie trzy zdarzenia, czyli zachodzi zdarzenie
(A ∩ B ∩ C)′ = A′ ∪ B ′ ∪ C ′ .
• Przykład 1.2
Studenci Wydziału Elektroniki muszą zaliczyć dwa lektoraty: z języka angielskiego i z języka niemieckiego. Z danych Dziekanatu wynika, że 23 studentów zalicza
lektorat z języka angielskiego, oba lektoraty zalicza co czwarty student, zaś przynajmniej jeden z lektoratów zalicza również 32 studentów. Jakie jest prawdopodobieństwo, że losowo wybrany student:
7
a) nie zaliczył żadnego lektoratu?
b) zaliczył język angielski i nie zaliczył języka niemieckiego?
R o z w i ą z a n i e.
Niech A oznacza zdarzenie ”losowo wybrany student zaliczył lektorat z języka
angielskiego”, B — zdarzenie ”losowo wybrany student zaliczył lektorat z języka
niemieckiego”.
a) Oczywiście chodzi o zdarzenie A′ ∩ B ′ , więc
P (A′ ∩ B ′ ) = P ((A ∪ B)′ ) = 1 − P (A ∪ B) = 1 −
2
3
=
1
3
b) Podobnie
P (A \ B) = P (A) − P (A ∩ B) =
2
3
−
1
4
=
5
12
• Przykład 1.3
Studenci Wydziału PPT zdają w sesji zimowej I roku egzaminy z przedmiotów
A,B,C. Wiadomo z danych poprzednich lat, że przedmiot A zalicza 60% studentów, przedmiot B zalicza 80% studentów i przedmiot C zalicza 70% studentów.
Studenci, którzy zaliczyli A i B stanowią 55% ogółu, ci którzy zaliczyli A i C
stanowią 45% ogółu a studenci, którzy zaliczyli B i C stanowią 60% ogółu. Sesję
zimową zalicza ok. 40% studentów. Obliczyć prawdopodobieństwo, że losowo wybrany student:
a) zaliczył przynajmniej jeden egzamin,
b) zaliczył przynajmniej dwa egzaminy.
R o z w i ą z a n i e.
7
oraz
Wiemy, że P (A) = 35 , P (B) = 45 , P (C) = 10
P (A ∩ B) =
55
100 ,
P (A ∩ C) =
45
100 ,
P (C ∩ B) =
60
100 ,
P (A ∩ B ∩ C) =
40
100 .
Zatem:
a) P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (B ∩ C) − P (C ∩ A) +
7
55
45
60
40
9
− 100
− 100
− 100
+ 100
= 10
.
P (A ∩ B ∩ C) = 53 + 45 + 10
b) P (A∩B ∪A∩C ∪B ∩C)) = P (A∩B)+P (A∩C)+P (B ∩C)−P ((A∩B)∩(A∩
C))−P ((A∩B)∩(B ∩C))−P ((A∩C)∩(B ∩C))+P ((A∩B)∩(A∩C)∩(B ∩C)) =
8
.
P (A ∩ B) + P (A ∩ C) + P (B ∩ C) − 2P (A ∩ B ∩ C) = 10
8
1.3
1.3.1
Przykłady przestrzeni probabilistycznych.
Prawdopodobieństwo klasyczne
Przestrzeń Ω = {ω1 , ω2 , . . . , ωn } jest zbiorem n zdarzeń elementarnych, z których
każde zachodzi z tym samym prawdopodobieństwem, czyli P ({ωk }) = n1 dla
k = 1, 2, . . . , n. Zgodnie z faktem 1.4 wzór
A
.
n
określa prawdopodobieństwo na wszystkich zdarzeniach A ⊂ Ω.
prawdopodobieństwo klasyczne.
(5)
P (A) =
Jest to tzw.
W rozwiązywaniu zagadnień, w których przestrzeń zdarzeń elementarnych jest
skończona przydadzą się nam wiadomości z kombinatoryki. Będziemy przy tym
wielokrotnie wykorzystywać następującą regułę iloczynu. Jeżeli pewną czynność
wykonuje się w k etapach, z których każdy można wykonać ni sposobami, gdzie
i = 1, 2, . . . , k, to liczba N sposobów, jakimi można wykonać tę czynność wyraża
się wzorem
N = n1 n2 · · · nk .
(6)
Ostatni wzór staje się zupełnie oczywisty, jeżeli uświadomimy sobie, że każdy
ze sposobów wykonania danej czynności można jednoznacznie opisać jako ciąg
(a1 , a2 , . . . , ak ), gdzie ai oznacza numer sposobu użytego w i-tym etapie, czyli
ai ∈ {1, 2, . . . , ni }. Mamy zatem do czynienia z iloczynem kartezjańskim k zbiorów
o liczebnościach n1 , n1 , . . . , nk i wystarczy powołać się na fakt 1.1.
Podstawowe schematy kombinatoryczne
Niech A oznacza dowolny zbiór n różnych elementów A = {a1 , a2 , . . . , an }.
• Wariacje z powtórzeniami.
k-wyrazową wariacją z powtórzeniami zbioru A nazywamy każdy k-wyrazowy
ciąg elementów tego zbioru Liczba Vnk wszystkich wariacje z powtórzeniami ze
zbioru n-elementowego wynosi
k
V n = nk .
(7)
• Wariacje bez powtórzeń.
k-wyrazową wariacją bez powtórzeń zbioru A nazywamy każdy k-wyrazowy
ciąg różnych elementów tego zbioru Liczba Vnk wszystkich k-wyrazowych wariacji
bez powtórzeń ze zbioru n-elementowego wynosi
Vnk = n(n − 1)(n − 2) · · · (n − k + 1)
(8)
Jeżeli k = n, to k-wyrazową wariację bez powtórzeń ze zbioru A nazywamy
n-wyrazową permutacją. Zatem liczba Pn wszystkich permutacji zbioru nelementowego wynosi
Pn = n!.
(9)
9
• Kombinacje.
k-elementową kombinacją bez powtórzeń z n-elementowego zbioru A nazywamy każdy k-elementowy podzbiór zbioru A. Liczba Cnk wszystkich kombinacji
bez powtórzeń ze zbioru n-elementowego wynosi
n
k
Cn =
.
(10)
k
• Kombinacje z powtórzeniami.
Rozważamy elementy n różnych rodzajów. Elementy tego samego rodzaju traktujemy jako identyczne. Zbiór k elementów, z których każdy należy do jednego
z tych n rodzajów nazywamy k-elementową kombinacją z powtórzeniami
z n rodzajów elementów. Oznaczając np. kule gwiazdkami a komórki — pionowymi kreskami ((n − 1) przegród między komórkami) widzimy, że każdą taką
k-elementową kombinację bez powtórzeń z n rodzajów elementów można utożsamić z k + n − 1-wyrazowym ciągiem, którego elementami są gwiazdki i pionowe
kreski, czyli wystarczy wybrać k miejsc, na których są gwiazdki (lub n − 1 miejsc,
k
na których są pionowe kreski!). Zatem liczba C n wszystkich kombinacji bez powtórzeń z n rodzajów elementów wynosi
k+n−1
k+n−1
k
Cn =
=
.
(11)
k
n−1
• Przykład 1.4
W teorii cząstek elementarnych bada się rozmieszczenie n cząstek w podzielonej na komórki przestrzeni fazowej, którą można matematycznie opisać np.jako
podzbiór przestrzeni czterowymiarowej, gdzie współrzędnymi są położenie i pęd
cząstki. Fizycy stwierdzili doświadczalnie, że niektóre cząstki zachowują się, jak
kule rozróżnialne, inne - jak kule nierozróżnialne i zaproponowali trzy następujące
modele zachowania się cząstek :
a) statystyka Maxwella-Boltzmanna. Cząstki zachowują się, jak kule rozróżnialne,
więc pytając o liczbę możliwych rozmieszczeń n cząstek w k komórkach mamy do
czynienia z wariacjami bez powtórzeń i każde spośród k n rozmieszczeń jest jednakowo prawdopodobne. Nie znaleziono jeszcze cząstek, które zachowywałyby się
zgodnie z tym modelem.
b) statystyka Fermiego-Diraca. Cząstki zachowują się, jak kule nierozróżnialne,
ale w każdej komórce może być co najwyżej jedna cząstka i wszystkie możliwe
rozmieszczenia są jednakowo prawdopodobne. Tak zachowują się np. elektrony,
protony i neutrony.
c) statystyka Bosego-Einsteina. Cząstki zachowują się, jak kule nierozróżnialne, w
każdej komórce może być dowolna liczba cząstek i wszystkie możliwe rozmieszczenia są jednakowo prawdopodobne. Tak zachowują się np. fotony.
10
Zadanie — w każdym z rozważanych wyżej modeli wyznaczyć prawdopodobieństwo, z jakim k (k ¬ n) cząstek można rozmieścić po jednej w k ustalonych komórkach.
R o z w i ą z a n i e.
a) Przy ustalonej permutacji k rozróżnialnych cząstek tylko jedno rozmieszczenie
spośród wszystkich nk możliwych rozmieszczeń spełnia żądany warunek. Ponieważ
cząstki można ustawić na k! sposobów, więc prawdopodobieństwo, z jakim k rozróżnialnych cząstek można rozmieścić po jednej w k ustalonych komórkach równe
jest nk!k .
b) Jeżeli nie odróżniamy cząstek, ale w każdej komórce może być co najwyżej jedna
to wystarczy wybrać k spośród n komórek i wrzucić do niej cząstkę, a to można
zrobić na nk sposobów. Tylko jeden z nich spełnia warunek z zadania, więc prawdopodobieństwo, z jakim k nierozróżnialnych cząstek można rozmieścić po jednej
w k ustalonych komórkach wynosi n1 .
(k )
c) W tym przypadku mamy do czynienia z k-elementowymi kombinacjami z powtórzeniami z n rodzajów elementów. Dla ustalonych k-komórek jest tylko jeden
ciąg gwiazdek (cząstek) spełniający warunki zadania, więc prawdopodobieństwo, z
jakim k nierozróżnialnych cząstek można rozmieścić po jednej w k ustalonych k ko1
.
mórkach, przy założeniu, że wszystkie rozmieszczenia są możliwe wynosi k+n−1
( k )
• Przykład 1.5
W pudle są kule białe i czarne. Razem jest ich n. Ile powinno być kul czarnych, aby
prawdopodobieństwo wylosowania (bez zwracania) dwu kul różnych kolorów było
takie samo, jak prawdopodobieństwo wylosowania dwu kul tego samego koloru?
R o z w i ą z a n i e.
Dwie spośród n kul można wybrać na n2 sposobów. Oznaczmy przez k liczbę kul
czarnych. Zdarzeniu A ”wylosowano dwie kule różnych kolorów” sprzyja k(n − k)
zdarzeń
Zdarzeniu B ”wylosowano kule tego samego koloru” sprzy
elementarnych.
zdarzeń
elementarnych. Wykorzystując wzór na prawdopodobieńja n2 + n−k
2
stwo klasyczne otrzymujemy
P (A) =
k·(n−k)·2
n(n−1)
oraz
P (B) =
2k2 −2nk+n2 −n
.
n(n−1)
Ponieważ zdarzenia A i B są przeciwne, to zamiast warunku P (A) = P (B) wystarczy rozważać jeden z warunków P (A) = 21 lub P (B) = 21 . Każdy z nich jest
równoważny równaniu
4k 2 − 4kn + n2 − n = 0.
√
√
Rozwiązaniami
tego równania są liczby k1 = n+2 n oraz k1 = n−2 n . Zauważmy,
√
że
√ jeżeli n nie jest liczbą naturalną, to zadanie nie ma rozwiązania. Jeżeli zaś
n jest liczbą naturalną, to zarówno
k1 =
√
n− n
2
=
√ √
n( n−1)
2
jak i k2 =
√
n+ n
2
=
√ √
n( n+1)
2
11
są liczbami naturalnymi oraz k1 + k2 = n.
Podsumowując — zadanie ma rozwiązanie√jedynie w przypadku, gdy n jest kwadratem liczby naturalnej
(tylko
wówczas n jest liczbą
naturalną), czarnych kul
√ √
√ √
√
√
powinno być k1 = n−2 n = n( 2 n−1 lub k2 = n+2 n = n( 2 n+1 .
• Przykład 1.6
W szufladzie są dwie skarpety na prawą nogę i jedna na lewą nogę. Prawdopodobieństwo, że losowo wybierając dwie skarpety otrzymamy parę równe jest 23 = 32 ,
(2)
(22)
1
zaś prawdopodobieństwo wyciągnięcia dwu prawych wynosi 3 = 3 . Do szuflady
(2)
dołożono jedną skarpetę. Jaka to jest skarpeta, skoro teraz prawdopodobieństwo,
że wylosowane dwie skarpety stanowią parę, wynosi 21 ?
R o z w i ą z a n i e.
Wykorzystajmy poprzedni przykład. Mamy n = 4. Wylosowanie pary skarpet odpowiada wylosowaniu kul różnych kolorów. Zatem skarpet jednego typu może być
k1 = 3 lub k2 = 1, czyli dołożono prawą skarpetę.
• Przykład 1.7
Ze zbioru liczb {1, 2, . . . , N } losujemy kolejno bez zwracania dwie liczby. Obliczyć
prawdopodobieństwo, że pierwsza z wylosowanych liczb jest mniejsza od drugiej.
R o z w i ą z a n i e.
Zdarzeniem elementarnym jest uporządkowana para liczb, czyli
Ω = (k, l) : k 6= l, k, l ∈ {1, 2, . . . , N } .
Zdarzenia elementarne są jednakowo prawdopodobne i Ω = N (N −1). Interesujące
nas zdarzenie A można przedstawić w postaci
A = (k < l) =
N[
−1
m=1
Am ,
gdzie Am = (k, l) : k = m, l ∈ {m+1, m+2, . . . , N } .
Zdarzenia Am są oczywiście parami rozłączne (różnią się pierwszym elementem
pary) oraz Am = N − m. Zatem
A = (N − 1) + (N − 2) + . . . + 1 =
N (N −1)
.
2
Zgodnie ze wzorem na prawdopodobieństwo klasyczne otrzymujemy
P (A) =
• Przykład 1.8
A
Ω
= 12 .
12
O jedno miejsce pracy ubiega się n kandydatów. Poproszono trzech specjalistów,
aby każdy z osobna uporządkował kandydatów według przydatności do pracy.
Firma zatrudni osobę, którą przynajmniej dwu specjalistów umieści, jako pierwszą
na swojej liście. Obliczyć prawdopodobieństwo pn , że jeden z kandydatów zostanie
zatrudniony. Obliczyć lim pn . Dla jakich n zachodzi równość pn = 1?
n→∞
R o z w i ą z a n i e.
Zdarzenie elementarne to kandydaci umieszczeni jako pierwsi na trzech listach.
Wtedy
Ω = {(ω1 , ω2 , ω3 ) : ωi ∈ {1, 2 . . . , n}, i = 1, 2, 3}.
ma n3 elementów. Oznaczmy przez A zdarzenie ”jeden z kandydatów został zatrudniony” (przynajmniej na dwu listach był na pierwszym miejscu). Wtedy zdarzenie
przeciwne A′ oznacza, że na pierwszych miejscach każdej z list są różni kandydaci
i sprzyja mu n(n − 1)(n − 2) zdarzeń elementarnych, czyli
P (A′ ) =
n(n−1)(n−2)
n3
=
n2 −3n+2
.
n2
Mamy zatem
pn = P (A) =
3n−2
n2 .
Obliczmy jeszcze
lim
n→∞
3n−2
n2
= 0,
natomiast pn = 1 dla n = 1 lub n = 2.
Podsumowując — przy takich zasadach zatrudnienia, jeżeli liczba kandydatów jest
mniejsza niż liczba specjalistów, to któryś z kandydatów zostanie zatrudniony.
• Przykład 1.9
Przypuśćmy, że do jeziora zawierającego nieznaną liczbę N ryb wpuszczono dodatkowo 1000 ryb oznakowanych (np. pomalowanych na czerwono). Po pewnym
czasie dokonano połowu 1000 ryb i znaleziono wśród nich 100 ryb z czerwonymi
plamami. Jak na podstawie tych danych ocenić liczbę ryb w jeziorze?
R o z w i ą z a n i e.
Za ocenę N przyjmiemy taką liczbę, dla której prawdopodobieństwo wyłowienia
100 znaczonych ryb spośród 1000 jest największe. Zakładając, że liczba ryb w jeziorze jest znana i równa N +1000 wyznaczymy prawdopodobieństwo pN (A), gdzie
A oznacza zdarzenie polegające na wylosowaniu 100 ryb oznaczonych przy losowaniu 1000 ryb. Ω jest zbiorem kombinacji 1000-elementowych ze zbioru N + 1000
elementowego. Wśród wylosowanych jest 900 nieoznaczonyc, więc N ­ 900. Stąd
Ω=
N +1000
1000
,
A=
1000
100
N
900
,
więc
pN (A) =
N
(1000
100 )(900)
.
N +1000
( 1000 )
Aby określić najbardziej prawdopodobną liczbę ryb w jeziorze, wyznaczymy wartość N, przy której pN (A) osiąga wartość maksymalną. Rozpatrzmy
13
pN (A)
pN −1 (A)
=
N2
(N −900)(N +1000)
=1+
−100N +900·1000
(N −900)(N +1000) .
Zauważmy, że iloraz ten jest większy od 1 bądź mniejszy niż 1 w zależności od
tego, czy 100N < 900 · 1000, czy 100N > 900 · 1000. Oznacza to, że gdy N rośnie,
liczby pN (A) najpierw rosną a potem maleją. Rozważany iloraz osiąga wartość
największą, gdy N jest największą liczbą naturalną nie przekraczjącą 900·1000
100 ,
czyli N ≈ 900·1000
100
1.3.2
Przeliczalna nieskończona przestrzeń probabilistyczna
Zgodnie z faktem 1.4 rozważane klasyczne podejście można uogólnić na przypadek
nieskończonej przeliczalnej przestrzeni Ω = {ω1 , ω2 , . . .}. Jeżeli P (ωi ) = pi przy
∞
P
pi = 1, to prawdopodobieństwo zdarzenia A ⊂ Ω określone
czym pi ­ 0 oraz
jest wzorem
i=1
P (A) =
X
(12)
pi .
ωi ∈ A
• Przykład 1.10
• Przykład 1.11
Dwaj gracze, A oraz B, rzucają na przemian monetą, dopóki dwa razy pod rząd
upadnie ona na tę samą stronę. Jeżeli drugi pod rząd orzeł albo druga pod rząd
reszka pojawi się w rzucie nieparzystym, to wygrywa gracz A. W przeciwnym przypadku wygrywa gracz B. Obliczyć prawdopodobieństwo wygranej dla każdego z
graczy.
R o z w i ą z a n i e.
W opisanym eksperymencie zdarzeniem elementarnym jest ciąg, którego elementaki są orły lub reszki i na ostatnich dwu miejscach, po raz pierwszy pod rząd są
dwa orły lub dwie reszki, czyli
Ω = {oo, rr, orr, roo, oroo, rorr, . . .}.
Ω ma nieskończenie, ale przeliczalnie, wiele zdarzeń elementarnych. Wynik rzutu
monetą oror nie jest zdarzeniem, bo trzeba nadal rzucać monetą. Niech αk oznacza
zdarzenie ”druga reszka pod rząd pojawiła się po raz pierwszy w k-tym rzucie monetą”, zaś βk - ”drugi orzeł pod rząd pojawił się po raz pierwszy w k-tym rzucie.”.
Oczywiście k = 2, 3, . . . . Na przykład α5 = ororr, β5 = roroo. Przyjmujemy, że
moneta jest symetryczna, więc
P ({αk }) = P ({βk }) = 2−k ,
k = 2, 3, . . . .
Gracz A wygra, jeżeli zajdzie zdarzenie A = {α3 , β3 , α5 , β5 , . . .}. Wygranej gracza
B sprzyja zdarzenie A = {α2 , β2 , α4 , β4 , . . .}. Zatem
14
P (A) =
∞
P
k=1
oraz
P (B) =
P ({α2k+1 , β2k+1 }) = 2
∞
P
k=1
P ({α2k , β2k }) = 2
∞
P
k=1
∞
P
k=1
2−(2k+1) = 2 · 2−3 ·
2−2k = 2 · 2−2 ·
1
1−2−2
1
1−2−2
=
1
3
= 32 .
Prawdopodobieństwo wygranej gracza, który rzuca monetą na parzystych miejscach jest dwa razy większe niż gracza, który rzuca monetą na nieparzystych
miejscach. W tej grze pozwólmy przeciwnikowi rozpocząć grę! My rzucajmy na
miejscach parzystych!
1.3.3
Prawdopodobieństwo geometryczne
Jeżeli Ω jest ograniczonym zbiorem w IR (IR2 lub IR3 ), a F oznacza rodzinę zbiorów
borelowskich, to przez prawdopodobieństwo zdarzenia A będziemy rozumieć
m(A)
,
(13)
P (A) =
m(Ω)
gdzie m(A) oznacza długość (pole lub objętość) zbioru A. Jest to tzw. prawdopodobieństwo geometryczne.
• Przykład 1.12
Kawałek drutu o długości 20cm zgięto pod kątem prostym w przypadkowo wybranym punkcie. Następnie zgięto drut jeszcze w dwu punktach tak, by powstała
ramka prostokątna o obwodzie 20cm.
a) Jakie jest prawdopodobieństwo, że pole ograniczone ramką nie przekroczy 21cm2 ?
b) Jakie jest prawdopodobieństwo, że pole ograniczone ramką jest równe 21cm2 ?
R o z w i ą z a n i e.
a) Niech x oznacza odległość wybranego punktu od bliższego końca drutu. Wówczas Ω = [0, 10]. Zdarzenia A ”pole ograniczone ramką nie przekracza 21cm2 ”
zachodzi wtedy i tylko wtedy, gdy x(10 − x) ¬ 21. Rozwiązując nierówność
−x2 + 10x − 21 ¬ 0 dla x ∈ [0, 10]
otrzymujemy
A = {x ∈ [0, 10] : x ∈ [0, 3] ∪ [7, 10]},
więc P (A) =
m(A)
m(Ω)
=
6
10 .
b) Niech B oznacza zdarzenie ”pole ograniczone ramką jest równe 21cm2 ”. Wówczas B zachodzi wtedy i tylko wtedy, gdy x = 3 lub x = 7, więc P (B) = m(B)
m(Ω) = 0,
ponieważ długość zbioru złożonego z dwu punktów wynosi 0. Zauważmy, że zdarzenie B jest możliwe ale prawdopodobieństwo jego zajścia równe jest 0.
• Przykład 1.13
15
W każdej chwili odcinka czasu T jednakowo możliwe jest nadejście do odbiornika
każdego z dwu sygnałów, które w tym odcinku czasu zostaną przesłane. Odbiornik
nie może przyjąć drugiego sygnału, jeżeli nadejdzie on w czasie krótszym niż τ od
chwili nadejścia pierwszego sygnału. Należy obliczyć prawdopodobieństwo przyjęcia przez odbiornik obu sygnałów.
R o z w i ą z a n i e.
6y
Niech x i y oznaczają czasy nadejścia sygnałów do odbiornika. Wtedy przestrzeń
T
zdarzeń elementarnych
Ω = {(x, y) : x, y
∈ [0, T ]}
możemy interpretować jako kwadrat o boku T a interesujące nas zdarzenie można
zapisać w postaci
A = {(x, y) ∈ T × T : |x − y| > τ }.
2
2
Zatem P (A) = (T T−τ2 ) = 1 − Tτ .
τ
O
τ
T
x
Rys. 1.01.
• Przykład 1.14
Z przedziału [0, 1] wybieramy losowo trzy liczby x, y, z. Jakie jest prawdopodobieństwo, że ich suma jest liczbą z przedziału [ 12 , 1]?
R o z w i ą z a n i e.
W tym przykładzie Ω = {(x, y, z) : 0 ¬ x, y, z ¬ 1}, czyli geometrycznie Ω jest
sześcianem jednostkowym. Rozważane zdarzenie to zbiór
A = (x, y, z) : 12 ¬ x + y + z ¬ 1 .
Tutaj m(A) jest objętością zbioru A, który jest różnicą dwu ostrosłupów. Zatem
m(A) = 31 12 · 1 · 1 − 21 · 12 · 12 = 31 · 38 = 81 .
Ponieważ m(Ω) = 1, więc P (A) = 81 .
• Przykład 1.15
Z kwadratu jednostkowego wybrano losowo punkt o współrzędnych (x, y). Dla
każdego a ∈ IR obliczyć:
a) P (min(x, 12 ) < a) oraz b) P (min(x, y) < a).
R o z w i ą z a n i e.
a) Chyba jest jasne, że

 0 dla a < 0
a dla 0 ¬ a <¬ 12
P (min(x, y) < a) =

1 dla a > 21
16
6y
T
a
b) Ponieważ
min(x, y) < a ⇐⇒ nieprawda, że (x ­ a) i (y ­ a),
więc


0
1 − (1 − a)2
P (min(x, y) < a) =

1
τ
dla
dla
dla
a<0
0 ¬ a <¬ 1
a>1
O
τ
a T
Rys. 1.01.
x
17
1.4
Zadania
1) Pokazać, że dla dowolnych dwu zdarzeń A i B:
a) P (A ∩ B) ­ P (A) + P (B) − 1,
b) prawdopodobieństwo, że zaszło dokładnie jedno z tych zdarzeń równe jest
P (A) + P (B) − 2P (A ∩ B).
2) Dane są: P (A) = 14 , P (B) =
P (A ∪ B), P (Ac ∪ B), P (A ∪ B c ).
3
4,
A ∩ B = ∅.
Uporządkować rosnąco:
3) Z kwadratu jednostkowego wybrano losowo punkt o współrzędnych (x, y). Dla
każdego a ∈ IR obliczyć P (max(x, 21 ) < a) oraz g(a)=P (max(x, y) < a).
4) Cyfry 0, 1, 2, . . . , 9 ustawiono losowo. Jakie jest prawdopodobieństwo, że:
a) między 0 i 1 znajdą się dokładnie cztery cyfry?
b) 7, 8 i 9 będą stały obok siebie (w dowolnym porządku)?
5) W skład mechanizmu wchodzą dwa jednakowe koła zębate. Warunki techniczne
zostają naruszone, jeżeli w obu kołach występują dodatnie odchylenia grubości zębów od nominalnego wymiaru. Monter dysponuje 10 kołami zębatymi, z których
trzy są ”plusowe”, a 7 jest ”minusowych”. Obliczyć prawdopodobieństwo naruszenia warunków technicznych przy montażu, jeżeli koła są wybierane w sposób
przypadkowy.
6) Roztargniony nauczyciel ma 5 długopisów i wkłada je losowo do 4 kieszeni.
Jakie jest prawdopodobieństwo, że wszystkie długopisy będą w tej samej kieszeni?
7) Wśród m losów, gdzie m > 4 , są cztery wygrywające. Kupujemy dwa losy.
Dla jakich m prawdopodobieństwo, że:
a) oba są wygrywające - jest większe od 0,2;
b) oba są wygrywające - jest mniejsze od 0,5;
c) przynajmniej jeden wygrywa - jest większe od 0,5.
8) Przy okrągłym stole usiadło dziesięć dziewcząt i dziesięciu chłopców. Jakie jest
prawdopodobieństwo, że osoby tej samej płci nie siedzą obok siebie?
9) Ile różnych pochodnych cząstkowych rzędu r ma funkcja n zmiennych posiadająca pochodne cząstkowe dowolnego rzędu?
10) Dwie przyjaciółki umówiły się w kawiarni między godziną 18 a 19 i postanowiły czekać na siebie co najwyżej kwadrans. Jakie jest prawdopodobieństwo, że się
spotkają? Ile minut powinny na siebie czekać, by prawdopodobieństwo spotkania
było większe niż 0,8?
11) Współczynniki a, b trójmianu kwadratowego x2 + ax + b są losowo wybranymi liczbami z przedziału [0,1]. Jakie jest prawdopodobieństwo, że:
a) trójmian ten nie ma miejsc zerowych,
b) ma dwa dodatnie pierwiastki,
18
c) ma dwa pierwiastki różnych znaków?
19
2
2.1
Prawdopodobieństwo warunkowe. Niezależność
zdarzeń.
Prawdopodobieństwo warunkowe.
Niech B będzie dowolnie ustalonym zdarzeniem takim, że P (B) > 0.
• Definicja 2.1
Prawdopodobieństwem warunkowym zdarzenia A pod warunkiem B nazywamy liczbę
P (A|B) =
P (A ∩ B)
.
P (B)
Stąd oczywiście P (A ∩ B) = P (A|B)P (B).
Posługując się zasadą indukcji matematycznej możemy udowodnić, że dla dowolnego n, przy założeniu, że P (A1 ∩ · · · ∩ An−1 ) > 0, prawdziwa jest równość
P (A1 ∩· · ·∩An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩A2 )·. . .·P (An |A1 ∩· · ·∩An−1 ). (14)
• Fakt 2.2
Jeżeli P (B) > 0, to funkcja P (·|B) określona na F spełnia aksjomaty
prawdopodobieństwa.
• Przykład 2.1
Rzucamy dwa razy symetryczną kostką.
a) Jakie jest prawdopodobieństwo wyrzucenia różnej liczby oczek?
b) Jakie jest prawdopodobieństwo wyrzucenia różnej liczby oczek, jeżeli suma
oczek wynosi 11?
c) Jakie jest prawdopodobieństwo wyrzucenia różnej liczby oczek, jeżeli suma oczek
wynosi 10?
R o z w i ą z a n i e.
Przestrzeń zdarzeń elementarnych Ω jest zbiorem par uporządkowanych (a, b),
gdzie a, b ∈ {1, 2, 3, 4, 5, 6}. Wszystkie zdarzenia elementarne są jednakowo prawdopodobne.
a) Niech A oznacza zdarzenie ”wypadła różna liczba oczek”, czyli
A = {(a, b) ∈ Ω : a 6= b} = Ω \ {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}.
30
= 65 . b) ZdarzePonieważ Ω = 62 = 36 oraz A = 36 − 6 = 30, więc P (A) = 36
nie ”suma oczek wynosi 11” oznaczmy przez B. Oczywiście B = {(5, 6), (6, 5)}.
Ponieważ B ⊂ A, więc B ∩ A = B i stąd
P (A|B) =
P (B)
P (B)
= 1.
20
W tym przykładzie informacja zawarta w zdarzeniu B dawała pewność, że zajdzie
zdarzenie A.
c) Warunkiem jest zdarzenie D = {(4, 6), (6, 4), (5, 5)}. Mamy:
P (D) =
1
12 ,
Zatem
A ∩ D = {(4, 6), (6, 4)},
P (A|D) =
P (A∩D)
P (D)
P (A ∩ D) =
1
18 .
= 32 .
Jak widać, wpływ warunku B na prawdopodobieństwo zajścia zdarzenia A może
być różny.
• Przykład 2.2
Wybrano losowo dwie liczby z przedziału [0, 1]. Jakie jest prawdopodobieństwo, że
xy ­ 0, 09 , jeżeli wiadomo, że x + y ¬ 1 ?
R o z w i ą z a n i e.
Przestrzeń zdarzeń elementarnych jest kwadratem jednostkowym Ω = {(x, y) : x, y ∈ [0, 1]}. Interesujące
nas zdarzenia to A = {(x, y) : x, y ­ 0.09} oraz
B = {(x, y) : x + y ¬ 1}. Oczywiście P (B) = 12 .
Ponieważ
A ∩ B = (x, y) : 0.1 ¬ x ¬ 0, 9; 0,09
x ¬y ¬1−x ,
więc P (A ∩ B) =
Stąd P (A|B) =
0.9
R
0,1
(1 − x −
P (A∩B)
P (B)
=2·
0,09
x )dx
2
5
−
=
9
100
• Przykład 2.3
2
5
−
9
100
y
6
1
@
O
ln 9.
ln 9 .
@
@
@
@
@
@
@
@
1
Rys. 1.02.
Studenci Wydziału Elektroniki muszą zdać w I semestrze trzy egzaminy: z fizyki
(A), analizy matematycznej (B) i z albebry (C). Z danych Dziekanatu wynika, że
70% studentów zalicza I semestr a 90% — zdaje egzamin z teorii obwodów. Jeżeli
student zaliczy algebrę i fizykę, to prawdopodobieństwo, że zda analizę wynosi
4
5 . Jakie jest prawdopodobieństwo, że student, który zdał teorię obwodów, zda
algebrę?
R o z w i ą z a n i e.
Skorzystamy ze wzoru
Mamy
P (A ∩ B ∩ C) = P (A) · P (B|A) · P (C|A ∩ B).
7
10
skąd
=
9
10
· P (B|A) · 45 ,
P (B|A) =
18
25 .
x
21
2.2
Wzór na prawdopodobieństwo całkowite i wzór Bayesa.
Załóżmy,że Ω jest sumą rozłącznych zbiorów Bi ∈ F dla i ∈ I. Wówczas
P dla dowolnego zdarzenia A zbiory A ∩ Bi są parami rozłączne. Ponadto A =
(A ∩ Bi ),
i∈I
P
więc P (A) = P (A ∩ Bi ). Jeżeli wszystkie zdarzenia Bi mają dodatnie prawi∈
dopodobieństwo, to P (A ∩ Bi ) = P (A|Bi ) · P (Bi ) dla każdego i ∈ I i otrzymujemy
następujące twierdzenie.
• Twierdzenie 2.1
(Twierdzenie o prawdopodobieństwie całkowitym)
Jeżeli Ω jest sumą rozłącznych zbiorów Bi , przy czym P (Bi ) > 0 dla wszystkich
i ∈ I, to dla dowolnego zdarzenia A zachodzi równość
X
P (A) =
P (A|Bi ) · P (Bi ).
i∈I
Rozważmy zagadnienie w pewnym sensie odwrotne do zagadnienia obliczania prawdopodobieństwa całkowitego. Mianowicie zapytajmy, jakie jest prawdopodobieństwo przyczyny Bi , gdy znany jest skutek A. Ponieważ P (Bi ∩A) = P (A|Bi )·P (Bi ),
więc otrzymujemy tzw. wzór Bayesa
P (A|Bi )P (Bi )
.
P (Bi |A) = P
P (A|Bi ) · P (Bi )
(15)
i∈I
Czasem zdarzenia Bi występujące we wzorze na prawdopodobieństwo warunkowe
nazywamy przyczynami, zdarzenie A - skutkiem, a wzór Bayesa nazywamy wzorem
na prawdopodobieństwo przyczyny.
• Przykład 2.4
Telegraficzne przesyłanie informacji polega na wysyłaniu sygnałów: 0 albo 1. Przy
przesyłaniu 0 przekłamanie występuje w dwu przypadkach na trzydzieści, a przy
przesyłaniu 1 przekłamanie występuje w dwu przypadkach na czterdzieści. Stosunek liczby wysyłanych 0 do liczby wysyłanych 1 wynosi 5 : 3. Obliczyć prawdopodobieństwo, że:
a) wysłano 0, jeżeli wiadomo, że odebrano 0,
b) wysłano 1, jeżeli wiadomo, że odebrano 1,
c) wysłano 1, jeżeli wiadomo, że odebrano 0.
R o z w i ą z a n i e.
a) Oznaczmy przez B1 zdarzenie ”wysłano 0”, przez B2 zdarzenie ”wysłano 1”,
przez A1 zdarzenie ”odebrano 0” oraz przez A2 zdarzenie ”odebrano 1” . Wiemy,
że
P (A2 |B1 ) =
2
30 ,
P (A1 |B2 ) =
2
40 ,
P (B1 )
P (B2 )
= 35 .
22
Zgodnie ze wzorem Bayesa, prawdopodobieństwo zdarzenia ”wysłano 0, jeżeli odebrano 0” równe jest
P (B1 |A1 ) =
P (A1 |B1 )·P (B1 )
.
P (A1 )
Zdarzenia B1 , B2 spełniają założenia twierdzenia o prawdopodobieństwie całkowitym, więc
P (A1 ) = P (A1 |B1 ) · P (B1 ) + P (A1 |B2 ) · P (B2 ).
Ponieważ P (B2 ) = 53 P (B1 ) oraz P (A1 |B1 ) = 1 − P (A2 |B1 ), więc
P (B1 |A1 ) =
1−P (A2 |B1 )
1−P (A2 |B1 )+P (A1 |B2 )· 35
=
280
289
≈ 0, 969.
b) Zgodnie ze wzorem Bayesa, prawdopodobieństwo zdarzenia ”wysłano 1, jeżeli
odebrano 1” równe jest
P (B2 |A2 ) =
P (A2 |B2 )·P (B2 )
.
P (A2 )
Zdarzenia B1 , B2 spełniają założenia twierdzenia o prawdopodobieństwie całkowitym, więc
P (A2 ) = P (A2 |B1 ) · P (B1 ) + P (A2 |B2 ) · P (B2 ).
Ponieważ P (B1 ) = 35 P (B2 ) oraz P (A2 |B2 ) = 1 − P (A1 |B2 ), więc
P (B2 |A2 ) =
1−P (A1 |B2 )
1−P (A1 |B2 )+P (A1 |B2 )· 53
≈
c) P (B2 |A1 ) = 1 − P (B1 |A1 ) = 1 − 0.969 = 0.031.
• Przykład 2.5
Przeciętnie 3% wyprodukowanych elementów ma wadę. Do wykrywania wady stosuje się test, który z prawdopodobieństwem 0, 9 wskazuje wadę (wynik testu pozytywny), jeżeli element ma wadę i z prawdopodobieństwem 0, 95 nie wskazuje wady,
jeżeli element jej nie ma.
a) Jakie jest prawdopodobieństwo, że element ma wadę, jeżeli wynik testu jest
pozytywny?
b) Jakie jest powyższe prawdopodobieństwo, jeżeli element poddamy testowi dwukrotnie i za każdym razem otrzymamy pozytywny wynik testu?
R o z w i ą z a n i e.
a) Oznaczmy przez W zdarzenie ”element ma wadę” i przez N zdarzenie ”element
nie ma wady.” Zdarzenia te są rozłączne, W ∪ N = Ω oraz
P (W ) = 0.03,
P (N ) = 0.97.
Niech D oznacza zdarzenie ”wynik testu jest pozytywny”. Z danych zawartych w
zadaniu wynika, że
P (D|W ) = 0.9,
P (D′ |N ) = 0.95.
23
Do obliczenia prawdopodobieństwa zdarzenia ”element ma wadę, jeżeli wynik testu
był negatywny”, czyli prawdopodobieństwa warunkowego P (W |D) wykorzystamy
wzór Bayesa.
P (W |D) =
P (D|W )·P (W )
P (D)
=
P (D|W )·P (W )
P (D|W )·P (W )+P (D|N )·P (N )
=
0.9·0.03
0.9·0.03+0.05·0.97
= 0.358
ponieważ z własności prawdopodobieństwa warunkowego wynika, że
P (D|N ) = 1 − P (D′ |N ).
Zatem, jeżeli wynik testu jest pozytywny, to prawdopodobieństwo, że losowo wybrany element ma wadę wynosi 35, 8%, czyli wśród elementów, które test wskazuje
jako wadliwe tylko 35, 8% elementów ma wadę! Co wpływa na taką jakość testu?
Jaki test byłby lepszy? Dla wad, które występują rzadko należałoby wykorzystywać testy o większych wartościach P (D|W ) oraz P (D′ |N ).
b) Obliczamy, jakie jest prawdopodobieństwo, że element ma wadę, jeżeli test przeprowadzony na nim dwukrotnie dał wyniki pozytywne.
Niech A oznacza zdarzenie ”test przeprowadzony dwukrotnie na elemencie dał za
każdym razem wynik pozytywny”. Wówczas
P (A|W ) = P (D|W ) · P (D|W ) oraz P (A|N ) = P (D|N ) · P (D|N ).
2
P (A|W )·P (W )
(0.9) ·0.03
Stąd P (W |A) = P (A|W )·P
(W )+P (A|N )·P (N ) = (0.9)2 ·0.03+(0.05)2 ·0.97 = 0.909. Zatem, jeżeli dwukrotnie zastosowany test dał wyniki pozytywne, to prawdopodobieństwo, że element ma wadę wynosi 0.909. Prawdopodobieństwo trafnej diagnozy znacznie wzrosło, gdy test przeprowadzilśmy dwukrotnie! Łatwo policzyć,
że prawdopodobieństwo zdarzenia ”element ma wadę, jeżeli test przeprowadzony
trzykrotnie na tym elemencie dał za każdym razem wynik pozytywny” równe jest
0.994.
• Przykład 2.6
Prawdopodobieństwo, że pogoda w danej miejscowości jest taka sama, jak dnia
poprzedniego równe jest a dla dnia deszczowego i b — dla dnia bezdeszczowego
(a, b ∈ (0, 1)). Prawdopodobieństwo, że pierwszy dzień roku jest deszczowy równe
jest p1 . Obliczyć prawdopodobieństwo pn , że n-ty dzień roku jest deszczowy.
R o z w i ą z a n i e.
Oznaczmy przez Dn zdarzenie ”n-ty dzień roku jest deszczowy”, a przez Bn zdarzenie ”n-ty dzień roku jest bezdeszczowy”. Wówczas dla dowolnego n ­ 1 mamy:
P (Dn+1 |Dn ) = a,
P (Bn+1 |Bn ) = b, P (Dn+1 |Bn ) = 1 − b, P (Bn+1 |Dn ) =
1 − a.
Policzmy
p2
= P (D2 ) = P (D2 |D1 ) · p1 + P (D2 |B1 ) · (1 − p1 ) = ap1 + (1 − b)(1 − p1 )
= p1 (a + b − 1) + 1 − b,
p3
= P (D3 ) = P (D3 |D2 ) · p2 + P (D3 |B2 ) · (1 − p2 ) = ap2 + (1 − b)(1 − p2 )
24
= p1 (a + b − 1)2 + (1 − b)(a + b − 1) + 1 − b,
p4
..
.
= P (D4 ) = P (D4 |D3 ) · p3 + P (D4 |B3 ) · (1 − p3 ) = p3 (a + b − 1) + 1 − b
= p1 (a + b − 1)3 + (1 − b)(a + b − 1)2 + (1 − b)(a + b − 1) + 1 − b,
Posługując się zasadą indukcji matematycznej można pokazać, że
n−2
X
(a + b − 1)k
pn = p1 (a + b − 1)n−1 + (1 − b)
k=0
1 − (a + b − 1)n−1
1−a−b+1
1 − b)
(1 − b)(a + b − 1)n−1
+ p1 (a + b − 1)n−1 −
.
(1 − a) + (1 − b)
(1 − a) + (1 − b)
= p1 (a + b − 1)n−1 + (1 − b)
=
Ponieważ a + b − 1 ∈ (0, 1), więc lim (a + b − 1)n−1 = 0 i stąd
n→∞
lim pn =
n→∞
2.3
1−b
(1−a)+(1−b) .
Niezależność zdarzeń.
• Definicja 2.3
Dwa zdarzenia A i B nazywamy niezależnymi, jeżeli
P (A ∩ B) = P (A) · P (B).
Jeżeli P (B) > 0, to z niezależności zdarzeń A i B wynika, że P (A|B) = P (A),
czyli, jak się potocznie mówi, zajście zdarzenia B nie ma wpływu na prawdopodobieństwo zajścia zdarzenia A. Oczywiście dla dowolnego A ∈ F zdarzenia A i Ω
są niezależne. Podobnie - zdarzenia A i ∅ są niezależne. Jeżeli zdarzenia A i B są
rozłączne i mają niezerowe prawdopodobieństwa, to nie mogą być niezależne.
Zdarzenia A1 , A2 , A3 , . . . nazywamy rodziną zdarzeń niezależnych, jeżeli dla
każdej skończonej ilości zdarzeń Ai1 , Ai2 , . . . , Ain zachodzi równość
P (Ai1 ∩ · · · ∩ Ain ) = P (Ai1 ) · · · P (Ain ).
(16)
• Fakt 2.4
Jeżeli zdarzenia A1 , A2 , . . . , An są niezależne, to niezależne są także zda′
rzenia B1 , B2 , . . . , Bn , gdzie Bi = Ai lub Bi = Ai dla i = 1, 2, . . . , n.
• Przykład 2.7
Wyrazić prawdopodobieństwo sumy n niezależnych zdarzeń Ai , i = 1, 2, . . . , n za
pomocą prawdopodobieństw poszczególnych składników.
R o z w i ą z a n i e.
Ponieważ
25
n
S
i=1
Ai = Ω \
n
T
i=1
A′i ,
więc korzystając z własności prawdopodobieństwa i z niezależności zdarzeń Ai , i =
1, 2, . . . , n możemy napisać
S
n
n
n
n
Q
Q
T
(1 − P (Ai )).
P (A′i ) = 1 −
P
Ai = 1 − P ( A′i ) = 1 −
czyli
P
n
[
i=1
i=1
i=1
i=1
i=1
n
Y
Ai = 1 −
(1 − P (Ai )).
(17)
i=1
W tym momencie warto sobie przypomnieć, jak się oblicza prawdopodobieństwo
sumy zdarzeń, o których nie wiadomo, czy są parami rozłączne (wzór 4). Widać,
że, gdy zdarzenia Ai są niezależne, ten dość skomplikowany wzór można mocno
uprościć.
• Przykład 2.8
Niech Ω = {ω1 , ω2 , ω3 , ω4 , } przy czym P ({ωi , }) = 14 dla i = 1, 2, 3, 4. Zbadać
niezależność rodziny zdarzeń {{ω1 }, {ω2 }, {ω3 }, {ω4 }}.
R o z w i ą z a n i e.
Zdarzenia Ai = {ω1 , ωi+1 } są parami niezależne, bo P (Ai ∩ Aj ) = P ({ω1 }) = 14
oraz P (Ai ) · P (Aj ) = 12 · 12 = 41 . Tymczasem
P (A1 ∩ A2 ∩ A3 ) = P ({ω1 }) =
1
4
a
P (A1 ) · P (A2 ) · P (A3 ) =
1
2
·
1
2
·
1
2
= 18 .
Widać zatem, że z niezależności każdych dwu zdarzeń z danej rodziny S nie wynika
niezależność tej rodziny.
• Przykład 2.9
Trzech kontrolerów jakości pracuje niezależnie. Pierwszy wykrywa 90% wad, drugi
- 80% a trzeci - 60%. Jaki procent wad wykrywają łącznie? Jaki procent wad
wykrywa trzeci kontroler a nie wykrywa pierwszy ani drugi?
R o z w i ą z a n i e.
Niech Ai oznacza zdarzenie ”wadę wykrył i-ty kontroler”. Wówczas:
P (A1 ) =
9
10 ,
P (A2 ) =
8
10 ,
6
10 ,
P (A3 ) =
Wada zostanie wykryta, gdy zajdzie zdarzenie A = A1 ∪ A2 ∪ A3 . Wykorzystując wzór na prawdopodobieństwo zdarzenia przeciwnego oraz prawa de Morgana
otrzymujemy
′
′
′
P (A1 ∪ A2 ∪ A3 ) = 1 − P (A1 ∩ A2 ∩ A3 ).
′
′
′
Ponieważ z niezależności zdarzeń A1 , A2 , A3 wynika niezależność zdarzeń A1 , A2 , A3 ,
więc
26
′
′
′
P (A1 ∪ A2 ∪ A3 ) = 1 − P (A1 )P (A2 )P (A3 ) = 1 − 0, 1 · 0, 2 · 0, 4 = 0, 992.
Zatem łącznie kontrolerzy wykrywają 99, 2% wad.
Zdarzenie ”spośród trzech kontrolerów wadę wykrył tylko trzeci kontroler” można
′
′
′
′
zapisać jako zdarzenie A1 ∩ A2 ∩ A3 . Ponieważ te trzy zdarzenia (tzn. A1 , A2 , A3 )
są niezależne, więc
′
′
P (A1 ∩ A2 ∩ A3 ) = 0, 1 · 0, 2 · 0, 6 = 0, 012.
• Przykład 2.10
Niezawodnością urządzenia nazywamy prawdopodobieństwo tego, że będzie ono
pracować poprawnie przez czas nie mniejszy niż T. Obliczyć niezawodność urządzeń, których schematy przedstawiają poniższe rysunki. Liczby p1 , p2 , . . . oznaczają niezawodności poszczególnych, niezależnie pracujących elementów.
a)
p1
p2
pn
p1
p2
b)
pn
p5
p2
p6
p1
p3
c)
p4
p7
.
R o z w i ą z a n i e.
Niech Ai oznacza zdarzenie, że i-ty element pracuje poprawnie co najmniej przez
czas T. Wtedy pi = P (Ai ). Niech p oznacza niezawodność urządzenia.
a) Urządzenie pracuje niezawodnie wtedy i tylko wtedy, gdy niezawodny jest każdy
element, czyli, gdy zajdzie zdarzenie A1 ∩ A2 ∩ . . . ∩ An . Wykorzystując niezawodność zdarzeń Ai otrzymujemy
p = P (A1 ∩ A2 ∩ . . . ∩ An ) = p1 · p2 · . . . · pn .
b) Urządzenie pracuje niezawodnie wtedy i tylko wtedy, gdy przynajmniej jeden
element jest niezawodny, czyli, gdy zajdzie zdarzenie A1 ∪ A2 ∪ . . . ∪ An . Stąd
p = P (A1 ∪ A2 ∪ . . . ∪ An )
27
i wykorzystując na sumę zdarzeń oraz niezależność tych zdarzeń, otrzymujemy
p=
n
X
i=1
pi −
X
pi pj +
i<j
X
i<j<k
pi pj pk + . . . + (−1)n+1 p1 · p2 · . . . · pn .
c) Urządzenie pracuje niezawodnie wtedy i tylko wtedy, gdy zajdzie zdarzenie A1 i
zdarzenie A2 ∪ (A3 ∩ A4 ) i zdarzenie A5 ∪ A6 ∪ A7 . Wykorzystując na sumę zdarzeń
oraz ich niezależność otrzymujemy
p = P (A1 ) · P (A2 ∪ (A3 ∩ A4 )) · P (A5 ∪ A6 ∪ A7 )
= p1 (p2 + p3 · p4 − p2 · p3 · p4 )(p5 + p6 + p7 − p5 · p6 − p6 · p7 − p5 · p7 + p5 · p6 · p7 ).
• Przykład 2.11
Rozważamy rodziny posiadające n dzieci. Niech A oznacza zdarzenie, że rodzina
ma dzieci obu płci, a B - rodzina ma przynajmniej jedną dziewczynkę. Czy zdarzenia A i B są niezależne?
R o z w i ą z a n i e.
Przyjmując, że dzieci w rodzinie uporządkowane są np. według starszeństwa, oznaczmy przez Ω zbiór ciągów n-elementowych o elementach 0 (dziewczynka) i 1 (chłopiec). Wówczas
Ω = 2n ,
A = 2n − 2,
B = 2n − 1,
A ∩ B = 2n − 2.
Zatem
P (A ∩ B) =
2n −2
2n ,
a P (A) · P (B) =
2n −2
2n
·
2n −1
2n
i równość nigdy nie zachodzi.
• Przykład 2.12
Wkładamy losowo n ponumerowanych kul do n ponumerowanych szuflad. Jakie
jest prawdopodobieństwo pn , że przynajmniej jedna kula trafi do szuflady o tym
samym numerze? Obliczyć lim pn .
n→∞
R o z w i ą z a n i e.
Niech Ai oznacza zdarzenie ”i-ta kula wpadła do i-tej szuflady, i = 1, 2, . . . , n .
Każda kula wpada niezależnie do każdej z szuflad z tym samym prawdopodobieństwem równym n1 . Stąd, wykorzystując wzór 17, otrzymujemy
pn = P (
n
S
i=1
Zatem lim pn = 1 − lim
n→∞
n→∞
n−1 n
n
Ai ) = 1 −
= 1 − e−1 .
n−1 n
.
n
28
2.4
Zadania
1) Pokazać, że jeżeli P (B) > 0, to dla dowolnego zdarzenia A zachodzi równość
′
P (A |B) = 1 − P (A|B).
2) Zdarzenia A i B są niezależne przy czym A ∪ B = Ω. Pokazać, że P (A) = 1 lub
P (B) = 1.
3) Wykazać, że z niezależności zdarzeń A i B wynika niezależność zdarzeń A i B c ,
Ac i B c ?
13) Wykazać, że jeżeli zajście zdarzenia A zwiększa prawdopodobieństwo zajścia
zdarzenia B, to zajście zdarzenia B zwiększa prawdopodobieństwo zajścia zdarzenia A.
′
4) Pokazać, że jeżeli P (A|B) = P (A|B ), to A i B są niezależne.
5) Zdarzenia A1 , A2 , . . . , An są niezależne i mają jednakowe prawdopodobieństwa.
Jaka jest szansa, że:
a) zajdą wszystkie naraz?
b) nie zajdzie żadne z nich?
c) zajdzie dokładnie jedno?
6) Bolek, Lolek i Jacek rzucają po kolei monetą. Wygrywa ten, który pierwszy
wyrzuci orła. Znaleźć szanse wygranej dla każdego z graczy.
7) Winda wyposażona jest w dwa układy hamowania włączające się automatycznie (obydwa) w razie zerwania się liny. Prawdopodobieństwo wyhamowania przez
każdy układ z osobna jest jednakowe i wynosi 0,99. Jakie jest prawdopodobieństwo:
a) wyhamowania windy w razie zerwania się liny,
b) spadnięcie kabiny windy w razie zerwania się liny, jeżeli prawdopodobieństwo
tego ostatniego zdarzenia wynosi 10−5 . Rozwiązać to samo zadanie przy założeniu,
że drugi układ hamowania włączy się tylko w sytuacji, gdy nie zadziała pierwszy.
8) Na szczyt góry prowadzi pięć dróg. Każda z nich nadaje się również do zejścia.
Zakładamy ponadto, że wszystkie trasy są równorzędne. Obliczyć prawdopodobieństwo spotkania się dwu znajomych, z których jeden wchodzi na szczyt, a drugi
jest w drodze powrotnej.
9) Pięciu studentów powtarzających dany rok studiów wybiera losowo, każdy niezależnie od pozostałych, jedną z trzech niezależnych grup. Zakładając, że wszystkie
rozmieszczenia tych studentów są jednakowo prawdopodobne, znaleźć prawdopodobieństwo tego, że:
a) wszyscy znajdą się w pierwszej grupie,
b) wszyscy znajdą się w tej samej grupie,
c) w jednej z grup znajdzie się dokładnie jeden student,
29
d) w pierwszej grupie znajdzie się dokładnie jeden student,
10) Wśród 65 monet jest jedna z dwoma orłami. Rzucając losowo monetą otrzymaliśmy 6 razy pod rząd orła. Jakie jest prawdopodobieństwo, że była to moneta
z dwoma orłami?
11) Prawdopodobieństwo przekazania sygnału przez jeden przekaźnik równe jest
p. Przekaźniki działają niezależnie. Obliczyć prawdopodobieństwo przekazania sygnału:
a)przy połączeniu szeregowym dwu przekaźników (muszą działać oba),
b)przy połączeniu równoległym dwu przekaźników (wystarczy, by jeden z nich
działał).
Dla jakich p korzystniejsze jest połączenia a) a dla jakich - b)?
12) Rozpatrujemy rodziny z trójką dzieci. Zakładając, że wszystkie kombinacje są
jednakowo prawdopodobne, obliczyć prawdopodobieństwo, że w losowo wybranej
rodzinie:
a) jest przynajmniej jedna dziewczynka,
b) jest dokładnie jeden chłopiec,
c) jest co najwyżej jedna dziewczynka,
d) są dzieci obu płci?
Czy któreś ze zdarzeń są niezależne?
13) Zbadać, który z układów przedstawionych na rysunku ma większą niezawodność (niezawodności urządzeń podane są w nawiasach)
14) W ciągu 1000 dni przeprowadzono obserwacje astronomiczne dotyczące prędkości wiatru i ciśnienia atmosferycznego.
Niech A oznacza zdarzenie: prędkość wiatru = 5m, B - ciśnienie atmosferyczne
= 1020 milibarów. Zanotowano następujące liczby zdarzeń:
B
Bc
Razem
A
400
200
600
Ac
100
300
400
Razem
500
500
1000
Przyjmując częstości empiryczne jako prawdopodobieństwa zbadać, czy zdarzenia
A i B są niezależne.
30
3
Zmienne losowe jednowymiarowe.
3.1
Definicja oraz rozkład i dystrybuanta zmiennej losowej.
Chociaż matematyczny opis doświadczenia losowego wymaga w zasadzie sprecyzowania przestrzeni probabilistycznej, z którą mamy do czynienia, to w praktyce
interesują nas przede wszystkim pewne dane liczbowe dotyczące wyników eksperymentu. Wprowadzimy teraz pojęcie, które pozwoli uprościć i stworzyć jednolity
opis zjawiska losowego.
• Definicja 3.1
Zmienna֒ losowa֒ nazywamy każdą funkcję X : Ω −→ IR taką, że
dla dowolnego a ∈ IR zbiór {ω ∈ Ω : X(ω) < a} jest zdarzeniem losowym, czyli
{ω ∈ Ω : X(ω) < a} ∈ F dla dowolnego a ∈ IR.
W dalszym ciągu zapisujemy krótko
{ω
∈Ω
: X(ω) < a} = (X < a).
Z własności rodziny F wynika, że zdarzeniami losowymi są też wszystkie zbiory
postaci: (X ¬ a), (X > a), (X ­ a), (a < X < b), (a < X ¬ b), (a ¬ X < b).
• Definicja 3.2
Dystrybuanta֒ zmiennej losowej X: Ω −→ IR nazywamy funkcję FX : IR −→ [0, 1] określoną wzorem:
FX (x) = P (X < x)
• Twierdzenie 3.1
Funkcja F : IR −→ IR jest dystrybuantą pewnej zmiennej losowej wtedy i tylko wtedy, gdy :
• F jest niemalejąca,
•
lim F (x) = 0,
x→−∞
lim F (x) = 1.
x→+∞
• F jest lewostronnie ciągła,
Z dwu pierwszych warunków wynika, że dla każdego x ∈ IR prawdziwa jest nierówność
0 ¬ F (x) ¬ 1.
Wyróżniamy dwa zasadnicze typy zmiennych losowych: zmienne losowe typu skokowego i zmienne losowe typu ciągłego.
• Definicja 3.3
Mówimy, że zmienna losowa X jest typu skokowego lub X
jest zmienna֒ dyskretna֒, jeżeli X przyjmuje skończenie lub co najwyżej
przeliP
czalnie wiele wartości xi , i ∈ I przy czym P (X = xi ) = pi > 0 oraz
pi = 1.
i ∈I
31
• Definicja 3.4
Mówimy, że zmienna losowa X jest typu cia֒gl6 6 ego, jeżeli istnieje nieujemna funkcja całkowalna fX : IR −→ IR taka, że:
FX (x) =
Zx
−∞
fX (t)dt dla każdego x ∈ IR.
Funkcję fX nazywamy ge֒stościa֒ prawdopodobieństwa.
Wiemy z analizy, że funkcja FX jest wówczas ciągła. Ponadto - jest ona różniczkowalna we wszystkich punktach ciągłości funkcji fX i w punktach tych zachodzi
równość
′
FX (x) = fX (x).
Nietrudno wykazać, że prawdziwa jest następująca charakteryzacja.
• Twierdzenie 3.2
Funkcja f jest gęstością pewnej zmiennej losowej wtedy i tylko
wtedy, gdy :
• f (x) ­ 0 dla każdego x ∈ IR,
•
+∞
R
f (x)dx = 1.
−∞
Jeżeli potrafimy dla każdego podzbioru borelowskiego B określić prawdopodobienstwo, z jakim X przyjmuje wartości w zbiorze B, to mówimy, że został określony
rozkład zmiennej losowej:
PX (B) = P ({ω : X(ω) ∈ B}).
W dalszym ciągu oznaczamy krótko
P (X ∈ B) = PX (B).
Zauważmy, że rozkład zmiennej losowej spełnia aksjomaty prawdopodobieństwa.
Rozkład zmiennej losowej jest jednoznacznie wyznaczony przez jej dystrybuantę,
co jest treścią następującego faktu.
• Fakt 3.5
Prawdziwe są następujące równości:
1. P (X ­ a) = 1 − FX (a),
2. P (a ¬ X < b) = FX (b) − FX (a),
3. P (X = a) = FX (a+ ) − FX (a)
(stąd, jeżeli FX jest ciągła w punkcie a, to P (X = a) = 0),
4. P (X ¬ a) = FX (a+ ),
5. Jeżeli X jest typu ciągłego, to P (X = a) = 0 dla każdego a ∈ IR.
32
Z własności 2. wynika, że dla zmiennych ciągłych prawdziwa jest często wykorzystywana równość
Zb
P (a < X < b) = f (x)dx.
a
Rozkład prawdopodobieństwa zmiennej dyskretnej nazywa się często funkcją prawdopodobieństwa i zapisuje w postaci
{(xi , pi ) : i ∈ I}
Dystrybuanta FX : IR −→ [0, 1] zmiennej dyskretnej ma postać
X
FX (x) = P (X < x) =
pi .
{i:xi <x}
Jest to funkcja schodkowa, lewostronnie ciągła o skokach o wartości pi w punktach
xi , i ∈ I.
Jeżeli g jest przedziałami ciągłą funkcją zmiennej rzeczywistej oraz X jest zmienną
losową, to Y = g(X) też jest zmienną losową. Jeżeli X jest zmienną dyskretną o
skokach o wartości pi w punktach xi , i ∈ I, to Y jest też skokową zmienną losową
o skokach o wartości pi w punktach yi , gdzie yi = g(xi ). Jeżeli g jest w dodatku
ściśle rosnąca, to łatwo jest wyrazić dystrybuantę zmiennej Y przez dystrybuantę
zmiennej X, mianowicie:
FY (x) = P (g(X) < x) = P (X < g −1 (x)) = FX (g −1 (x)).
Podobnie, w przypadku funkcji g ściśle malejącej mamy:
FY (x)
= P (g(X) < x) = P (X > g −1 (x)) = 1 − P (X ¬ g −1 (x))
=
1 − FX (g −1 (x)) − P (X = g −1 (x)).
Jeżeli zmienna losowa X jest typu ciągłego, to w prostych przypadkach rozkład
zmiennej losowej g(X) można wyznaczyć bezpośrednio, co zobaczymy na przykładach.
• Definicja 3.6
Zmienne losowe X1 , X2 , . . . , Xn nazywają się niezależne, jeżeli
dla dowolnych
t1 , t2 , . . . , tn ∈ IR zachodzi równość
P (X1 < t1 , X2 < t2 , . . . , Xn < tn ) =
n
Q
i=1
• Przykład 3.1
P (Xi < ti ).
33
Czy można dobrać stałe a, b tak, by funkcja
zmiennej losowej?

 a − 21 + ex gdy
e−1
gdy
F (x) =

b(10 − x22 ) gdy
Przyjmując: a = 12 , b =
X < 3).
1
10
F (x) była dystrybuantą pewnej
x ¬ −1,
−1 ¬ x < 1,
x ­ 1.
obliczyć: P (1 ¬ X < 2), P (0 ¬ X ¬ 1), P (−1 ¬
• Przykład 3.2
Czy funkcja
F (x) =
0
2
1+x2
gdy x ¬ 0,
gdy x > 0.
jest dystrybuantą pewnej zmiennej losowej? Jeżeli nie, to czy można dobrać stałą
A tak, aby funkcja G(x) = A · F (x) była dystrybuantą?
• Przykład 3.3
Zorganizowano następującą grę: gracz wyciąga z talii dwie karty (bez zwracania).
Jeżeli są to dwa asy - gracz wygrywa 20zł; jeżeli dwie figury (król, dama, walet)
- gracz wygrywa 10zł; w każdym pozostałym przypadku gracz płaci dwa złote.
Znaleźć rozkład zmiennej losowej X oznaczającej wygraną gracza.
• Przykład 3.4
Spośród trzech dobrych i dwu wadliwych elementów losujemy 3 elementy. Wyznaczyć rozkład i dystrybuantę zmiennej losowej X oznaczającej liczbę wadliwych
elementów. Z wykresu dustrybuanty odczytać P (X ­ 1), P (0 < X ¬ 4).
• Przykład 3.5
Rzucamy dwiema kostkami.
Ω = {ω = (x1 , x2 ) : x1 , x2 ∈ {1, 2, 3, 4, 5, 6}}, n(Ω) = 62
Określamy X1 , X2 , X3 , X4 : Ω −→ IR wzorami:
X1 (ω) = x1 , X2 (ω) = x2 , X3 (ω) = x1 + x2 , X4 (ω) = x1 · x2 .
Wyznaczyć rozkłady i dystrybuanty tych zmiennych.
• Przykład 3.6
Wybieramy losowo punkt ω = (x, y) z kwadratu Ω = [0, 1] × [0, 1]. Rozważamy
prawdopodobienstwo geometryczne P (A) = m(A)
m(Ω) i zmienne losowe
X(ω) = x, Y (ω) = y.
34
Funkcje X, Y są zmiennymi losowymi, bo
X −1 ((−∞, a)) =
Y −1 ((−∞, a)) =
∅ gdya ¬ 0,
∅ gdya ¬ 0,
P (X < t, Y < s) = |{(x, y) : x < t, y < s}| = t · s = P (X < t)P (Y < s) dla
0 ¬ t, s ¬ 1.
FX (x) = P (X < x) =
• Przykład 3.7
Z bieżącej produkcji pobierane są próbki czteroelementowe celem zbadania jakości
wyrobów.
Ω = {(a, b, c, d) : a, b, c, d ∈ {0, 1}}, n(Ω) = 24
Określamy X : Ω −→ IR wzorem X((a, b, c, d)) = a + b + c + d .
Jeżeli przyjmiemy a = 0 (podobnie − b, c, d = 0) gdy wybrany element jest wadliwy, to zmienna X oznacza ilość elementów dobrych w próbie. Rozkład zmiennej
X możemy przedstawić ma postać:
4
6
4
1
1
), (1, 16
), (2, 16
), (3, 16
), (4, 16
)}.
{(0, 16
• Przykład 3.8
Dzienne zużycie energii (w setkach kWh) pewnej firmy jest zmienną losową X o
gęstości:
1
2
dla 1 < x < 3,
9 (3 + 2x − x )
fX (x) =
0
dla poza
Jakie jest prawdopodobieństwo, że: X > 50, 100 < X < 200? Opłatę za energię
Rx
f (t)dt = ...
oblicza się zgodnie ze wzorem Y = X 2 + 2... FX (x) =
−∞
P (X > 50) = 1 − F (50), P (100 < X < 200) = FX (200) − FX (100)
• Przykład 3.9
Rzucamy trzy razy symetryczną monetą. Zmienna losowa oznacza liczbę otrzymanych
√ orłów. Wyznaczyć funkcję prawdopodobieństwa zmiennych losowych; X,
X 2 , X, −2X + 1.
R o z w i ą z a n i e.
Ω = {(0, 0, 0), (0, 0, R), (0, R, 0), (R, 0, 0), (0, R, R), (R, 0, R), (R, R, 0), (R, R, R)},
Ω = 23 = 8
X ma rozkład { 0, 18 , 1, 83 , 2, 38 , 3, 18 }
X 2 ma rozkład { 0, 81 , 1, 38 , 4, 83 , 9, 18 }
√
√
√
X ma rozkład { 0, 18 , 1, 38 , 2, 38 , 3, 18 }
−2X + 3 ma rozkład { 3, 18 , 1, 38 , −1, 83 , −3, 81 }
35
3.2
Parametry zmiennej losowej
W praktyce istnieje na ogół potrzeba opisania zmiennej losowej przez podanie
pewnych charakterystycznych dla niej liczb, zwanych parametrami rozkładu
zmiennej losowej. Mówimy przecież np. o średniej płacy w danym sektorze gospodarki,...
Omówimy teraz najczęściej wykorzystywane parametry rozkładu zmiennej losowej.
3.2.1
Wartość oczekiwana.
• Definicja 3.7
Wartościa֒ oczekiwana֒ zmiennej
P losowej dyskretnej o rozkładzie {(xi , pi ) : i ∈ I} spełniającej warunek
|xi |pi < ∞ nazywamy liczbę
i∈I
określoną wzorem:
EX =
P
xi pi .
i∈I
Wartościa֒ oczekiwana֒ zmiennej losowej cia֒gl6 6 ej o gęstości f (x) spełniającej
+∞
R
|x|f (x)dx < ∞ nazywamy liczbę określoną wzorem:
warunek EX =
−∞
EX =
+∞
R
xf (x)dx.
−∞
Zauważmy, że wartość oczekiwana zmiennej losowej X jest odpowiednikiem znanego z fizyki pojęcia środka masy. W przypadku zmiennej dyskretnej prawdopodobieństwa pi interpretujemy jako masy skupione w punktach xi , a przyjęty układ
jednostek jest taki, że masa całkowita równa jest 1. W przypadku zmiennej ciągłej
f (x) jest gęstością masy.
Wprost z definicji (z własności szeregów i całek niewłaściwych zbieżnych) wynikają
następujące własności wartości oczekiwanej:
• Fakt 3.8
(Własności wartości oczekiwanej)
1. E(aX + c) = aE(X) + c, dla a, c ∈ IR;
2. Jeżeli P (X = c) = 1, to EX = c. W szczególności E(EX) = EX ;
3. |EX| ¬ E(|X|);
4. Jeżeli P (X ­ 0) = 1 , to EX ­ 0;
P
5. Jeżeli Y = g(X), to EY = i g(xi )pi w przypadku zmiennej dyskretnej
+∞
R
g(x)f (x)dx w przypadku zmiennej z gęstością f (x), o ile
oraz EY =
−∞
powyższy szereg i całka są zbieżne bezwzględnie;
6. E(X + Y ) = EX + EY ;
7. Jeżeli X, Y są niezależne, to E(XY ) = EX · EY .
36
3.2.2
Wariancja zmiennej losowej.
• Definicja 3.9
rem
Wariancja֒ zmiennej losowej nazywamy liczbę zdefiniowaną wzoVarX = E(X − EX)2
√
Pierwiastek z wariancji, czyli D(X) = VarX nazywamy odchyleniem standardowym albo dyspersją zmiennej losowej X, a wariancję oznaczamy często
także symbolem D2 (X). Wariancja pozwala ocenić, jak bardzo wartości zmiennej
losowej różnią się od wartości oczekiwanej. Zaliczamy ją do grupy tzw. parametrów rozproszenia. Interpretując rozkład prawdopodobieństwa jako rozkład
masy jednostkowej (podobnie, jak w przypadku wartości oczekiwanej) widzimy, że
wariancja jest odpowiednikiem występującego w fizyce pojęcia momentu bezwładności względem środka masy.
• Fakt 3.10
Prawdziwa jest następująca równość
• Fakt 3.11
(Własności wariancji)
VarX = EX 2 − (EX)2 .
1. VarX ­ 0,
2. VarX = 0 wtedy i tylko wtedy, gdy P (X = c) = 1 dla pewnej stałej c.
3. Var(aX) = a2 VarX,
4. Var(X + c) = VarX,
5. Jeżeli zmienne losowe X, Y są niezależne, to Var(X + Y ) = VarX + VarY.
Oczywiste jest uogólnienie dwu ostatnich własności faktu 3.8 i ostatniej własności
faktu 3.11 na przypadek dowolnej skończonej ilości zmiennych losowych.
3.2.3
Momenty.
Wartość oczekiwana i wariancja są szczególnymi przypadkami parametrów rozkładu zwanych momentami.
Momentem zwykłym rzędu r (r > 0) zmiennej losowej X nazywamy liczbę
EX r . Momentem absolutnym rzędu r (r > 0) zmiennej losowej X nazywamy
liczbę E|X|r . Momentem centralnym rzędu r (r > 0) zmiennej losowej X
nazywamy liczbę E(X − EX)r .
• Fakt 3.12
Jeżeli istnieje moment absolutny rzędu k, to istnieją momenty absolutny, zwykły i centralny rzędów l ¬ k.
Momenty centralne rzędu 3 i 4 wykorzystuje się do badania symetrii rozkładu
i stopnia jego koncentracji wokół wartości oczekiwanej.
37
3.2.4
Kwantyle.
• Definicja 3.13
Kwantylem rze֒du p, gdzie p ∈ (0, 1), rozkładu zmiennej losowej
X nazywamy każdą liczbę xp spełniającą warunek
FX (xp ) ¬ p ¬ FX (x+
p ).
Oznacza to, że P (X < xp ) ¬ p i jednocześnie P (X > xp ) ¬ 1 − p. Nie wszystkie
kwantyle rozkładu zmiennej dyskretnej są jednoznacznie wyznaczone, a kwantyle rozkładu zmiennej typu ciągłego są jedynymi liczbami spełniającymi warunek
FX (xp ) = p.
Kwantyl rzędu
mamy zatem
1
2
nazywamy medianą i oznaczamy me . Dla zmiennej dyskretnej
X
xi <me
pi ¬ 0, 5 ¬
X
pi ,
xi ¬me
a dla zmiennej typu ciągłego mediana spełnia równość
F (me ) = 0, 5.
Kwantyl rzędu 41 nazywamy kwartylem dolnym, a kwantyl rzędu
lem górnym. Mamy zatem
3
4
– kwarty-
P (x 41 < X ¬ x 43 ) ­ 12 .
• Przykład 3.10
Obliczyć wartość oczekiwaną i wariancję dla zmiennych losowych o następujących
rozkładach:
a) P (X = 49) = P (X = 51) = 12 ;
b) P (Y = −100) = 14 , P (Y = 100) = 43 ;
c) P (Z = 100) = P (Z = 0) = 14 , P (Z = 50) = 21 .
R o z w i ą z a n i e.
Opisane zmienne losowe są typu dyskretnego, więc:
EX = 49· 12 +51· 12 = 50, EY = −100· 14 +100· 34 = 50, EZ = 100· 14 +50· 12 +0· 14 = 50.
Te trzy zmienne losowe mają taką samą wartość oczekiwaną. Zwróćmy uwagę, że
wartość oczekiwana zmiennej losowej zależy nie tylko od wartości, jakie ta zmienna
losowa przyjmuje ale też od prawdopodobieństw, z jakimi te wartości są przyjmowane.
Wariancje tych zmiennych są następujące:
VarX = (49 − 50)2 · 12 + (51 − 50)2 · 21 = 1,
VarY = (−100 − 50)2 · 14 + (100 − 50)2 · 43 = 7500,
VarZ = (100 − 50)2 · 14 + (50 − 50)2 · 12 + (0 − 50)2 ·
1
4
= 1250,
Znajomość wariancji poprawia charakteryzację zmiennej losowej. Jeżeli zmiennej
losowej są odległe od wartości oczekiwanej, to wariancja jest duża. Mała wartość
38
wariancji mówi, że wartości zmiennej losowej są bliskie jej wartości oczekiwanej.
Zauważmy, że dla zmiennych losowych przyjmujących skończenie wiele wartości
istnieje wartość oczekiwana i wariancja.
• Przykład 3.11
Miesięczny koszt prowadzenia przyzakładowego laboratorium jest zależny od licz√
by x zatrudnionych w nim pracowników zgodnie ze wzorem y = 15000x+10000 x.
Koszty te traktujemy jako zmienną losową. Wyznaczyć
√ funkcję prawdopodobieństwa i dystrybuantę zmiennej Y = 15000X + 10000 X, przyjmując następujący
rozkład zmiennej losowej X:
xi
2
3
4
pi 0, 1 0, 25 0, 40
R o z w i ą z a n i e.
5
0, 25
Punkty skokowe yi zmiennej Y są postaci
√
yi = 15000xi + 10000 xi ,
co dla xi ∈ {2, 3, 4, 5} daje yi ∈ {44142, 62321, 8000, 97361}. Ponieważ g jest różnowartościowa, więc
P (Y = yi ) = P (X = xi ) = pi ,
czyli otrzymujemy
xi
pi
44142
0, 1
62321
0, 25
• Przykład 3.12
80000
0, 40
97361
0, 25
Załóżmy, że bok kwaratu jest zmienną o gęstości f (x) > 0 dla x ∈ IR. Wyznaczyć
gęstość zmiennej losowej, która opisuje pole tego kwadratu.
Rozwiązanie.
Y = X2
39
3.3
Najważniejsze rozkłady dyskretne
• Rozkład jednopunktowy - rozkład Diraca.
P (X = c) = 1 dla pewnej stałej c ∈ IR.
Taką zmienną losową jest np. temperatura, w której cząsteczka zamienia się w
ustalonych warunkach w parę. Parametry tego rozkładu są następujące:
EX = c, VarX = 0.
• Rozkład zerojedynkowy .
Mówimy, że zmienna losowa X ma rozkład zerojedynkowy z parametrem p (rozkład
B(1, p)), jeżeli X przyjmuje tylko dwie wartości oznaczane przez 1 i 0 (nazywane
odpowiednio sukcesem i porażką) oraz
P (X = 1) = p, P (X = 0) = 1 − p gdzie p ∈ (0, 1).
Typowymi przykładami zmiennych o rozkładzie zerojedynkowym są zmienne losowe, które opisują jakość wyrobu (dobry, wadliwy), pracę urządzeń dwustanowych
czy wynik gry (wygrana, przegrana).
W dalszym ciągu stosujemy oznaczenie q = 1 − p. Podstawowe parametry tego
rozkładu aerojedynkowego są następujące:
EX = p,
VarX = p(1 − p).
• Przykład 3.13
Wyłącznik ważnego urządzenia psuje się średnio raz na 1000 przypadków i wówczas
użytkownik otrzymuje odszkodowanie w wysokości 100. W każdym z pozostałych
przypadków użytkownik płaci za użycie wyłącznika 0,1.
R o z w i ą z a n i e.
P (X = 100) = 0, 001, P (X = 0, 1) = 0, 999
• Rozkład dwumianowy - rozkład Bernoulli’ego
Eksperyment ze zmienną losową o rozkładzie B(1, p) powtarzamy niezależnie n
razy. Niech X oznacza liczbę sukcesów w n powtórzeniach. Wówczas
n k n−k
P (X = k) =
p q
, dla k = 0, 1, . . . , n
k
40
Mówimy, że zmienna losowa zdefiniowana wyżej ma rozkład Bernoulli’ego z parametrem p. Powinniśmy oczywiście zdawać sobie sprawę, że definicja jest poprawna,
n
n
P
P
n k n−k
= (p + q)n = 1.
P (X = k) =
bo P (X = k) ­ 0 oraz
k p q
k=0
k=0
Zauważmy, że jeżeli Xi (i = 1, 2, . . . , n) są niezależnymi zmiennymi losowymi, z
których każda ma rozkład B(1, p), to zmienna losowa Y = X1 + X2 + . . . + Xn
opisuje łączną liczbę sukcesów w tych n próbach, czyli ma właśnie rozkład Bernoulli’ego z parametrem p. Posługując się tym przedstawieniem zmiennej losowej o
rozkładzie B(n, p) i korzystając z odpowiednich własności wartości oczekiwanej i
wariancji, możemy łatwo policzyć parametry tego rozkładu.
EX = np,
V arX = npq.
Wartość k0 , którą zmienna losowa dyskretna przyjmuje z największym prawdopodobieństwem, nazywamy najbardziej prawdopodobną wartością X. Jeżeli X
ma rozkład B(n, p), to
(
(n + 1)p lub (n + 1)p − 1
gdy (n + 1)p ∈ IN
k0 =
[(n + 1)p]
gdy (n + 1)p ∈6 IN.
• Przykład 3.14
W pewnym biurze zainstalowano 10 drukarek. Każda z drukarek pracuje niezależnie średnio przez 12 minut w ciągu jednej godziny.
a) Jakie jest prawdopodobieństwo, że w losowo wybranej chwili będzie włączonych
7 drukarek? co najmniej 7 drukarek?
b) Jaka jest najbardziej prawdopodobna liczba drukarek włączonych w danej chwili?
R o z w i ą z a n i e.
Jeżeli drukarki pracują niezależnie średnio przez 12 minut w ciągu jednej godziny,
to zmienna losowa X oznaczająca liczbę drukarek włączonych w danym momencie
1
ma rozkład Bernoulli’ego z parametrami n = 10, p = 12
60 = 5 . Zatem prawdopodobieństwo, że w losowo wybranej chwili będzie włączonych 7 drukarek wynosi
1 7 4 3
P (X = 7) = 10
5
5 , a prawdopodobieństwo, że w losowo wybranej chwili
7
będzie włączonych co najmniej 7 drukarek równe jest
P (X ­ 7) =
10
P
k=7
10
7
1 7
5
4 3
5
≈ 0, 00086.
Zatem, jeżeli zasilanie drukarek ustalone jest na poziomie dla sześciu drukarek, to
prawdopodobieństwo przeciążenia (czyli P (X ­ 7)) równe 0,00086. Czyli średnio
przeciążenie ma miejsce w ciągu 86 minut na 100000 minut (1 minute na 1157
minut). Czy te rozważania mogą pomóc w ustaleniu poziomu zasilania?
• Przykład 3.15
41
Prawdopodobieństwo prawidłowo wykonanej czynności dla pewnego pracownika
wynosi 0.99.
a) Jakie jest prawdopodobieństwo, że wszystkie spośród 100 takich samych, niezależnie wykonywanych, czynności zostaną wykonane prawidłowo?
b) Jaka jest oczekiwana a jaka najbardziej prawdopodobna liczba czynności wykonanych prawidłowo?
Rozważyć powyższe pytania, gdy czynność będzię powtarzana 199 razy.
R o z w i ą z a n i e.
a) Liczba prawidłowo wykonanych czynności wśród 100 niezależnych powtórzeń
opisanej czynności jest zmienną losową o rozkładzie B(100, 0.99). Wszystkie czynności wykonane prawidłowo opisuje zdarzenie (X = 100), więc
100
(0.01)0 ≈ 0.3660.
P (X = 100) = 100
100 (0.99)
b) Wartość oczekiwana wynosi EX = 100 · 0.99 = 99. Ponieważ dla zmiennej
losowej X liczba (n + 1)p = 101 · 0.99 = 99.99 nie jest całkowita, więc najbardziej prawdopodobną wartością X jest część całkowita z tej liczby, czyli 99. Zatem zmienna losowa z największym prawdopodobieństwem przyjmuje wartość 99
i prawdopodobieństwo to wynosi
99
1
P (X = 99) = 100
99 (0.99) (0.01) ≈ 0.3697.
Niech zmienna losowa Y określa liczbę czynności wykonanych prawidłowo przy
199 powtórzeniach. Y ma rozkład B(199, 0.99), więc
199
(0.01)0 ≈ 0.1353,
EY = 199 · 0.99 = 197.01.
P (X = 199) = 199
199 (0.99)
Dla zmiennej losowej Y liczba (n + 1)p = 200 · 0.99 = 198 jest całkowita, więc Y
z największym prawdopodobieństwem przyjmuje wartości 198 albo 197. Prawdopodobieństwo to wynosi
P (X = 197) = P (Y = 198) = 0.2720.
Widać, że nawet jeżeli prawdopodobieństwo sukcesu w jednej próbie jest bardzo
duże, to prawdopodobieństwo samych sukcesów oraz największa wartość prawdopodobieństwa maleje dowść szybko wraz ze wzrostem liczby powtórzeń.
• Przykład 3.16
Co jest bardziej prawdopodobne: wygrać z równorzędnym przeciwnikiem nie mniej
niż 3 partie z 4 partii, czy nie mniej niż 5 partii z 8 partii?
R o z w i ą z a n i e.
Zmienna losowa X określająca liczbę wygranych spotkań np. pierwszego gracza
ma rozkład Bernoulli’ego z paramatrem p = 21 . Dla n = 4 otrzymujemy zatem
3 1 1
= 14 ,
P (X = 3) = 43 12
2
a dla n = 8
42
P (X = 5) =
8
5
1 5 1 3
2
2
=
7
64 .
Zatem bardziej prawdopodobne jest wygranie dokładnie trzech spośród czterech
partii. Natomiast dla n = 4:
3 1 1
4 1 0
5
P (X ­ 3) = 43 12
,
+ 44 12
= 16
2
2
a dla n = 8
P (X ­ 5) =
8
5
1 5 1 3
2
2
+
8
6
1 6 1 2
2
2
+
8
7
1 7 1 1
2
2
+
8
8
1 8 1 0
2
2
=
11
16 ,
czyli bardziej prawdopodobne jest wygranie przynajmniej pięciu spośród ośmiu
partii niż przynajmniej trzech spośród czterech partii.
• Przykład 3.17
Kwiaciarnia wystawiła do sprzedaży 100 cebulek białych i fioletowych hiacyntów,
jednak podczas transportu opakowania zostały uszkodzone i cebuki się wymieszały. Jakie jest prawdopodobienstwo, że kupując 10 cebulek będziemy mieć przynajmniej 2 białe kwiaty, jeżeli cebulek fioletowych hiacyntów było 3 razy więcej niż
białych?
• Przykład 3.18
Prawdopodobieństwo trafienia w dziesiątkę wynosi 0,3, a wdziewiątkę - 0,7. Obliczyć prawdopodobienstwo, że strzelec uzyska w 50 strzałach co najmniej 499
punktów.
• Rozkład Poissona z parametrem λ
Można udowodnić, że prawdziwe jest następujące twierdzenie.
• Twierdzenie 3.3
(Poissona)
Jeżeli X1 , X2 , . . . jest ciągiem zmiennych losowych o rozkładzie dwumianowym
odpowiednio z parametrami (1, p1 ), (2, p2 ), . . . przy czym lim npn = λ, to dla
n→+∞
każdego k
∈ IN
zachodzi równość
λk
n k
pn (1 − pn )n−k = e−λ .
lim
n→+∞ k
k!
Mówimy, że zmienna losowa X ma rozkład Poissona z parametrem λ, λ > 0, jeżeli
P (X = k) =
λk −λ
e . dla k = 0, 1, 2, . . . .
k!
Oczywiście powinniśmy sprawdzić, że P (X = k) ­ 0 oraz
n
P
k=0
P (X = k) =
n
P
k=0
λk −λ
k! e
= e−λ
n
P
k=0
λk
k!
= e−λ · eλ = 1.
43
Przybliżanie rozkładu Bernoulli’ego rozkładem Poissona jest stosowane w przypadku, gdy n jest duże (n ­ 50) a p — małe tak, by np(1 − p) ¬ 9.
Podstawowe parametry tego rozkładu są następujące:
EX = λ, VarX = λ.
Najbardziej prawdopodobną wartością zmiennej lososwej o rozkładzie Poissona
jest
(
λ lub λ − 1
gdy λ ∈ IN
k0 =
[λ]
gdy λ ∈6 IN.
• Przykład 3.19
Po mieście jeździ 1000 samochodów. Prawdopodobieństwo wezwania pogotowia
technicznego w ciągu doby przez jeden samochód równe jest p = 0, 002. Obliczyć prawdopodobieństwo wezwania pogotowia przez którykolwiek z samochodów
zakładając, że wezwania są zdarzeniami niezależnymi. Jaka jest najbardziej prawdopodobna liczba uszkodzonych samochodów? Ile miejsc należy przygotować na
stacjach obsługi,by z prawdopodobieństwem 0, 95 było wolne miejsce dla uszkodzonego samochodu?
R o z w i ą z a n i e.
Oczywiście możemy tu skorzystać ze schematu Bernoulli’ego, czyli
(0, 002)0 (0, 998)1000 , jednak takie obliczenia
P (X ­ 1) = 1−P (X = 0) = 1− 1000
0
są praktycznie niewykonalne.
Zgodnie z Twierdzeniem 3.3 (biorąc λ = 1000 · 0, 002 = 2) otrzymujemy
P (X ­ 1) = 1 − P (X = 0) = 1 −
20 −2
.
0! e
Ponieważ λ = 2 ∈ IN, więc najbardziej prawdopodobną liczbą uszkodzonych samochodów jest k0 = 2 lub k0 = 1.
Aby odpowiedzieć na ostatnie pytanie należy znaleźć takie n, że
P (X ­ n) < 0, 05 czyli 1 − P (X = 0) − ... − P (X = n) < 0, 05
P (X = O) + ... + P (X = n) > 0, 95.
Posługując się tablicami rozkładu Poissona znajdujemy n =
• Przykład 3.20
Śrubki są pakowane w pudełka po 100 sztuk. Prawdopodobieństwo, że śrubka jest
wybrakowana wynosi 0,01. Ile sztuk należałoby dodać do każdego pudełka, aby
w celach marketingowych można było powiedzieć, że z prawdopodobieństwem nie
mniejszym niż 0,9 w każdym pudełku jest co najmniej 100 sztuk dobrych?
R o z w i ą z a n i e.
Niech X oznacza liczbę elementów wybrakowanych w pudełku. Zmienna losowa X
ma rozkład Bernoulli’ego z parametrami n = 100, p = 0, 01. Zatem
44
P (X = 0) =
100
0
p0 (1 − p)100 ≈ 0, 366.
Jeżeli rozkład zmiennej X przybliżymy rozkładem Poisoona z parametrem
λ = 100 · 0, 01 = 1, to
P (X = 0) = e−1 ≈ 0, 367.
Dodanie do pudełka kilku (k0 ) elementów tylko nieznacznie zmieni parametr λ
(np. dla k0 = 2 jest λ = 1, 02 oraz P (X = 0) = e−1,02 ≈ 0, 36059). Korzystając
z przybliżonego rozkładu zmiennej X szukajmy więc najmniejszej liczby k0 , dla
której
2
λk0
λ
+ λ2! + . . . + (k
­ 0, 9.
P (X ¬ k0 ) ≈ e−λ 1 + 1!
0 )!
Przyjmując dla uproszczenia λ = 1 i korzystając z tablic rozkładu Poissona otrzymujemy k0 = 2, bo
e−1 1 + 1 + 21 = 0, 9196.
Dokładniej — dla λ = 1, 02 mamy
P (X ¬ 2) = e−1,02 1 +
1,02
1!
+
1,02
2!
­ 0, 9295.
W rzeczywistości prawdopodobieństwo znalezienia co najmniej 100 sztuk dobrych
w pudełku zawierającym 102 śruby (czyli dla X o rozkładzie Bernoulli’ego z parametrami n = 102, p = 0, 01) wynosi
P (X ¬ 2) = (0, 99)102 +(0, 99)101 ·0, 01·1, 02+ 102·101
·(0, 99)100 ·(0, 01)2 ≈ 0, 9169.
2
• Przykład 3.21
Liczba komputerów, które mogą być zarażone wirusem przez pewną sieć ma rozkład Poissona z parametrem λ. W każdym zarażonym komputerze wirus niezależnie uaktywnia się z prawdopodobieństwem p. Jakie jest prawdopodobieństwo, że
wirus uaktywni się w m komputerach?
R o z w i ą z a n i e.
Niech zmienna losowa X oznacza liczbę zarażonych komputerów. X ma rozkład
Poissona z parametrem λ. Ponieważ zdarzenia (X = k), k = 0, 1, 2, . . . są parami
∞
S
k
(X = k) = Ω i P (X = k) = e−λ λk! > 0, więc spełnione są
rozłączne oraz
k=0
założenia twierdzenia o prawdopodobieństwie całkowitym. Niech zmienna losowa
Y oznacza liczbę komputerów, w których wirus uaktywni się. Mamy:
∞
∞
[
[
(X = k) = P
P (Y = m) = P (Y = m) ∩
((Y = m) ∩ (X = k)) .
k=0
k=0
Ponieważ zdarzenia (X = k), k = 0, 1, 2, . . . są parami rozłączne, więc zdarzenia
(Y = m)∩(X = k), k = 0, 1, 2, . . . są też parami rozłączne. Ponadto dla k < m jest
45
(Y = m)∩(X = k) = ∅. Zatem, wykorzystując twierdzenie o prawdopodobieństwie
całkowitym otrzymujemy
P (Y = m) =
∞
X
k=0
P ((Y = m) ∩ (X = k)) =
∞
X
k=m
P (Y = m|X = k) · P (X = k)).
Zdarzenie (Y = m|X = k) dla k ­ m oznacza, że spośród k zarażonych komputerów wiruś uaktywni się w m komputerach, w każdym z prawdopodobieństwem p
(m sukcesów w k próbach), czyli
m
k
p (1 − p)k−m .
P (Y = m|X = k) = m
Podstawiając wartości prawdopodobieństw i dokonując elementarnych przekształceń, otrzymujemy
∞
m
P
k
k
k−m
· e−λ λk!
P (Y = m) =
m p (1 − p)
k=0
=
e−λ
m!
∞
m P
((1−p)λ)l+m
p
1−p
l!
l=0
=
(pλ)m −λp
.
m! e
• Rozkład geometryczny z parametrem p.
Eksperyment ze zmienną losową o rozkładzie B(1, p) powtarzamy niezależnie dopóki pojawi się sukces. Niech X oznacza numer próby, w której sukces pojawił się
po raz pierwszy. Wówczas, kładąc q = 1 − p otrzymujemy
P (X = k) = pq k−1 , dla k = 1, 2 . . .
Mówimy, że zmienna losowa zdefiniowana wyżej ma rozkład geometryczny z parametrem p. Definicja jest poprawna, bo
n
P
k=0
P (X = k) =
∞
P
pq k−1 = p
k=1
∞
P
k=1
q k−1 = p ·
1
1−q
= 1.
Zmienną o rozkładzie geometrycznym wygodnie jest interpretować jako czas oczekiwania na pierwszy sukces, tzn. liczbę powtórzeń eksperymentu poprzedzających
eksperyment, w którym po raz pierwszy otrzymaliśmy sukces. Parametry tego
rozkładu są następujące.
EX =
1
q
, V arX = 2 .
p
p
• Fakt 3.14
Jeżeli zmienna losowa X ma rozkład geometryczny, to dla dowolnych
liczb naturalnych n0 , k zachodzi równość:
P (X > n0 + k|X > n0 ) = P (X > k).
46
O zmiennej losowej spełniającej warunek z Faktu 3.14 mówimy, że ma tzw. własność braku pamięci. Ciekawszym jest fakt, że rozkład geometryczny jest
jedynym rozkładem dyskretnym posiadającym własność braku pamięci.
• Przykład 3.22
Prawdopodobieństwo, że danego dnia w miejscowości A latem świeci słońce jest
stałe i równe p. Jakie jest prawdopodobieństwo, że jeszcze co najmniej przez 7 dni
będzie piękna słoneczna pogoda, jeżeli już od dwu tygodni świeci słońce?
R o z w i ą z a n i e.
Przy założeniu, że pogoda w danym dniu nie zależy od pogody w dniach poprzednich, zmienna losowa X określająca liczbę kolejnych słonecznych dni ma rozkład
geometryczny z parametrem p. Zatem
P (X ­ 21|X ­ 14) = P (X > 20|X > 13) = P (X > 7) = (1 − p)7 .
• Przykład 3.23
Główna wygrana w totolotku to prawidłowe skreślenie 6 liczb spśród 49. Jakie jest
prawdopodobieństwo głównej wygranej za 1001 razem, jeżeli przez 1000 razy nie
było głównej wygranej?
R o z w i ą z a n i e.
Sześć liczb spośród 49-u można wybrać na 49
6 sposobów(uporządkowanie liczb
nie jest istotne). Wygranej sprzyja tylko jeden spośrod 49
6 jednakowo prawdopodobnych sposobów, czyli prawdopodobieństwo głównej wygranej p równe jest
p=
1
(49
6)
=
1
13983816 ,
można powiedzieć, że jest bliskie jeden do czternastu milionów.
Grę w ”Toto-lotka” powtarza się i w każdym powtórzeniu prawdopodobieństwo
głównej wygranej równe jest wyżej obliczonemu p. Niech zmienne losowa X określa numer losowania, w którym główna wygrana pojawi się po raz pierwszy. X ma
rozkład geometryczny z parametrem p. Prawdopodobieństwo głównej wygranej za
1001 razem, jeżeli przez 1000 razy nie było głównej wygranej to prawdopodobieństwo warunkowe P (X = 1001|X > 1000). Zatem
P (X = 1001|X > 1000) =
P (X=1001∩X>1000)
P (X>1000)
=
P (X=1001)
P (X>1000) .
Ponieważ
P (X > 1000) =
∞
P
k=1001
więc
P (X = k) =
∞
P
k=1001
P (X = 1001|X > 1000) =
q k−1 p = q 1000 ·
q 1000 ·p
q 1000
= p,
p
1−q
= q 1000 ,
47
czyli prawdopodobieństwo wygranej za 1001 razem, jeżeli nie wygraliśmy przez
pierwsze 1000 jest takie samo, jak prawdopodobieństwo wygranej za pierwszym
razem. Na tym polega własność ”braku pamięci” rozkładu zmiennej losowej, a ma
ją opisana zmienna losowa X. Jeżeli wiemy, że zmienna losowa przyjęła wartość
większą niż n, to wszystkie następne wartości n + k są przyjmowane z takimi
samymi prawdopodobieństwami, z jakimi przyjmowane są wartości k. ”Przeszłość,
jeżeli dotrwamy do chwili n, nie ma wpływu na ”przyszłość”.
• Rozkład Pascala z parametrami r,p.
Eksperyment ze zmienną losową o rozkładzie B(1, p) powtarzamy niezależnie dopóki pojawi się r sukcesów. Niech X oznacza numer próby, w której r-ty sukces
pojawił się po raz pierwszy. Wówczas dla r ­ 1, q = 1 − p mamy
k − 1 r k−r
P (X = k) =
p q
, dla k = r, r + 1, . . . , gdzie r ­ 1, 0 < p < 1.
r−1
Mówimy, że zmienna losowa zdefiniowana wyżej ma rozkład Pascala z parametrami
r, p. Definicja jest poprawna, bo
n
P
P (X = k) =
k=r
∞
P
k=r
k−1
r−1
pr q k−r = 1.
Zmienną o rozkładzie Pascala wygodnie jest interpretować jako czas oczekiwania
na pierwszy r-ty sukces. Przedstawiając ją w postaci sumy r niezależnych zmiennych losowych o rozkładzie geometrycznym z parametrem p łatwo sprawdzamy, że
parametry tego rozkładu są następujące.
EX = rp−1 ,
V arX = rqp−2 .
• Przykład 3.24
Prawdopodobieństwo awarii aparatury doświadczalnej w jednym doświadczeniu
wynosi p=0,02. Obliczyć prawdopodobieństwo, że druga awaria zdarzy się:
a) w dziesiątym doświadczeniu,
b) najpóźniej w dziesiątym doświadczeniu,
c) nie zdarzy się w pierwszych dziesięciu doświadczeniach.
• Przykład 3.25
Na ulicy stoi sprzedawca gazet. Każdy z mijających go przechodniów kupuje gazetę z prawdopodobieństwem p = 31 . Niech X oznacza ilość ludzi mijających go
do momentu, gdy sprzeda 100 gazet. Znaleźć rozkład dokładny i asymptotyczny
zmiennej X.
R o z w i ą z a n i e.
(dokładny) X ma rozkład Pascala z parametrami r = 100, p = 13 , EX =
rq
rq
p , V arX = p2
48
• Rozkład hipergeometryczny
Z populacji składającej się z N elementów jednego rodzaju i M elementów drugiego rodzaju losujemy n elementów. Niech X oznacza liczbę elementów pierwszego
rodzaju wśród wszystkich wylosowanych. Wówczas
M N
P (X = k) =
k
n−k
N +M
n
, k = 0, 1, . . . , n.
Mówimy, że wyżej zdefiniowana zmienna losowa ma rozkład hipergeometryczny z
parametrami N, M, n, n < N, n < M . Definicja jest poprawna, bo
n
P
P (X = k) =
k=0
M
∞ N
P
( k )(n−k
)
= 1.
N +M
(
)
n
k=0
Parametry tego rozkładu są następujące.
EX = np,
VarX = npq,
gdzie p =
N
.
N +M
Przybliżenie rozkładem Poissona możemy stosować również w przypadku, gdy
zmienna losowa ma rozkład hipergeometryczny, gdzie N + M jest duże a liczba
N
N +M · n mieści się w przedziale (0, 10).
• Przykład 3.26
Zauważmy, że w Przykładzie 1.9 liczba ryb oznaczonych wśród 1000 wyłowionych
(jeżeli w jeziorze jest N + 1000 ryb) jest zmienną losową o rozkładzie hipergeometrycznym z parametrami N, M = 1000, n = 1000.
• Przykład 3.27
Spośród liczb 1, 2, . . . , 35 losujemy pięć liczb. Jakie jest prawdopodobienstwo, że
będą wśród nich cztery mniejsze od 21? Jaka jest najbardziej prawdopodobna ilość
liczb wylosowanych mniejszych od 21? Porównać wynik ze średnią z takich liczb.
R o z w i ą z a n i e.
W tym zadaniu mamy do czynienia ze zmienną losową (określającą ilość liczb
mniejszych od 21 wśród wszystkich wylosowanych) o rozkładzie hipergeometrycznym, gdzie N = 20, M = 15, n = 5, więc:
P (X = 4) =
15
(20
4 )( 1 )
.
(35
)
5
Warunek P (X = k) < P (X = k + 1) równoważny jest nierówności
15
15
( 20 )(5−(k+1)
)
(20
k )(5−k)
< k+1 35
,
35
(5)
(5)
której rozwiązanie daje k < 3.
49
• Przykład 3.28
Pudełko kulek potrzebnych do zmontowania łożyska zawiera 10 sztuk o dodatniej
odchyłce od nominalnego wymiaru średnicy i 15 sztuk - o ujemnej odchyłce. Do
zmontowania łożyska potrzeba 6 kulek, z których co najwyżej 3 mogą mieć dodatnią odchyłkę od nominalnego wymiaru średnicy. Jakie jest prawdopodobieństwo,
że monterowi, który wybiera 6 kulek losowo, uda się zmontować łożysko?
R o z w i ą z a n i e.
10 15
10 15
10 15
.
n(Ω) = 25
0
1 + 6
2 + 5
4
6 , n(A) = 1 −
• Przykład 3.29
Liczba osób, które mogą być zarażone wirusem zapalenia wątroby podczas operacji
1
. Prawdopodobieństwo, że dana osoba
ma rozkład Poissona z parametrem λ = 20
1
zachoruje wynosi a = 10 . Obliczyć prawdopodobieństwo, że wśród 1000 operowanych osób zachoruje: dokładnie 10, ­ 20, < 5.
R o z w i ą z a n i e.
1
1
1
· 10
= 200
.
B(1000, p), p = 20
• Przykład 3.30
Wiadomo, że 1% produkowanych żarówek to braki. Obliczyć dokładnie i w przybliżeniu, prawdopodobieństwo, że:
a) wśród losowo wybranych 100 żarówek nie ma ani jednej wybrakowanej,
b) wśród losowo wybranych 100 żarówek są 2 wybrakowane,
c) jaka jest minimalna liczba żarówek, które należy sprawdzić, by prawdopodobieństwo znalezienia złej żarówki było nie mniejsze niż 0,95.
R o z w i ą z a n i e.
1 0 99 100
0
1
≈ e−1 10! ≈ 0, 368 (λ = 100 · 100
a) P (X = 0) = 100
100
100
0
b) P (X ­ 2) =
c) P (X ­ 1) = 1 − P (X = 0) =­ 0, 95, więc P (X ­ 0) ¬ 0, 05
• Rozkład wielomianowy
Rozkład dwumianowy możemy uogólnić na przypadek n powtarzanych niezależnych eksperymentów, z których każdy może mieć jeden z k (k ­ 2) wyników. Niech
pi oznacza prawdopodobieństwo realizacji wyniku i-tego rodzaju w każdej próbie,
pi ∈ (0, 1), i = 1, 2, . . . , k, p1 + p2 + . . . + pk = 1, zaś Xi niech oznacza liczbę
wyników i-tego rodzaju w n powtórzeniach. Wówczas
P (X1 = n1 , X2 = n2 , . . . , Xk = nk ) =
n!
pn1 · pn2 2 · . . . · pnk k ,
n1 ! · n2 ! · . . . · nk ! 1
gdzie ni , i = 1, 2, . . . , k są liczbami naturalnymi oraz n1 + n2 + . . . + nk = n.
• Przykład 3.31
50
Jakie jest prawdopodobieństwo, że w sześciocyfrowym kodzie wystąpią trzy zera,
dwie piątki i jedna ósemka?
R o z w i ą z a n i e.
Zmienne losowe Xi , gdzie i = 0, 1, 2, . . . , 9 oznaczają odpowiednio liczbę zer, jedynek, . . ., dziewiątek w sześciocyfrowym kodzie. pi jest prawdopodobieństwem
1
, i = 0, 1, 2, . . . , 9. Zatem
wylosowania jednej z dziesięciu cyfr, czyli pi = 10
P (X0 = 3, X5 = 2, X8 = 1, X1 = X2 = X3 = X4 = X6 = X7 = X9 = X0 = 0) =
6!
1 3 1 2 1 1
= 0.00006.
3!2!1! 10
10
10
• Przykład 3.32
Po wstępnej kontroli technicznej 70% wyrobów oceniono jako dobre, 5% - jako
wadliwe, a 25% zdecydowano poddać dalszej kontroli. Jakie jest prawdopodobieństwo, że wśród 10 wylosowanych wyrobów jest 7 dobrych, 2 – wadliwe i 1 należy
poddać dalszej kontroli? Jaka jest oczekiwana liczba wyrobów, które należy poddać dalszej kontroli, wśród 10 wylosowanych?
R o z w i ą z a n i e.
Niech zmienne losowe X1 , X2 , X3 określają odpowiednio liczbę wyrobów dobrych,
wadliwych i przeznaczonych do dalszej kontroli wśród 10 wylosowanych. Prawdopodobieństwa dla poszczególnej jakości wyrobów wynoszą odpowiednio: p1 =
0.7, p2 = 0.05, p3 = 0.25. Zatem
P (X1 = 7, X2 = 2, X3 = 1) =
10!
7
7!2!1! (0.7)
· (0.05)2 · (0.25)1 = 0.0185.
W rozkładzie wielomianowym zmienna losowa Xi określa liczbę elementów i-tego
rodzaju wśród n elementów, więc Xi ma rozkład dwumianowy B(n, pi ). Zatem
oczekiwana liczba elementów przeznaczonych do dalszej kontroli spośród 10 wylosowanych równa jest EX3 = 10 · 0.25 = 2.5, zaś najbardziej prawdopodobna liczba
elementów przeznaczonych do dalszej kontroli spośród 10 wylosowanych to 2.
51
3.4
Najważniejsze rozkłady typu ciągłego
• Rozkład jednostajny na odcinku [a,b]:
Zmienna losowa X ma rozkład jednostajny na odcinku [a, b], jeżeli jej gęstość jest
postaci
1
dla x ∈ [a, b],
b−a
fX (x) =
0
dla x ∈ IR \ [a, b]
R∞
Definicja jest poprawna, bo
fX (x)dx = 1.
−∞
Wówczas
FX (t) =


 0
t−a
b−a

 1
gdy t ¬ a,
gdy t ∈ [a, b],
gdy t > b.
oraz
EX ==
a+b
,
2
y6
y6
1
2
1
2
x
2
O
V arX =
2
O
(b − a)2
.
12
x
Rys. 1.03.
Rys. 1.03.
Gęstość rozkładu jednostajnego
Dystrybuanta rozkładu jednostajnego
na przedziale [0,2]
na przedziale [0,2]
• Przykład 3.33
Z przystanku autobusy odjeżdżają co 10 minut. Zakładamy, że rozkład T czasu
przybycia pasażera na przystanek jest zmienną losową o rozkładzie jednostajnym.
Obliczyć prawdopodobieństwo, że pasażer będzie czekał co najmniej 4 minuty,
mniej niż 3 minuty.
R o z w i ą z a n i e.


1
gdy t ¬ 0,
 0
dla x ∈ [0, 10],
t
10
gdy t ∈ [0, 10],
fT (x) =
FT (t) =
10

0
dla x ∈ IR \ [a, b]
 1
gdy t > b.
Zatem
P (T < 3) = FT (3) =
oraz
P (T ­ 4) = 1 − P (T < 4) = 1 − FT (4) =
52
• Przykład 3.34
Automat produkuje kulki metalowe o średnicy X będącej zmienną losową o gęstości
5
dla x ∈ [0.4, 0.6],
fX (x) =
0
dla x ∈ IR \ [0.4, 0.6]
Wyznaczyć wartość przeciętną objętości kulek.
R o z w i ą z a n i e.
3
3
= πX
h(X) = 43 π X
2
6 . Stąd
Eh(X) =
Z
0,6
0,4
πx3
dx = .
6
• Rozkład Cauchy’ego z parametrem λ
Zmienna losowa X ma rozkład Cauchy’ego z parametrem λ, jeżeli jej gęstość jest
postaci
λ
.
fX (x) =
2
π(λ + x2 )
Definicja jest poprawna, bo
R∞
fX (x)dx = 1.
−∞
Wówczas
FX (x) =
Ponieważ całka
istnieje.
• Przykład 3.35
+∞
R
−∞
1
x π
arc tg +
.
π
λ
2
|x| π(λ2λ+x2 ) dx jest rozbieżna, więc wartość oczekiwana nie
W ustalonym punkcie płaskiej folii znajduje się źródło promieniowania radioaktywnego wysyłające promienie równomiernie we wszystkich kierunkach. W odległości
1 od folii znajduje się równoległy do niej ekran, na którym obserwuje się błyski spowodowane promieniowaniem. Niech X będzie zmienną losową oznaczjącą
współrzędną punktu obserwowanego na ekranie. Korzystając z założenia, że kąt
φ(t) jest wartością zmiennej losowej Φ o rozkładzie jednostajnym na (0, π) wyznaczyć jej gęstość i dystrybuantę zmiennej losowej X Naszkicować obydwie funkcje.
R o z w i ą z a n i e.
Spójrzmy na rysunek.
53
y6
1
Niech (u, 1) będzie punktem, w którym
umieszczone jest źródło promieniowania. Promienie wysyłane są równomiernie we wszystkich kierunkach oznacza,
że kąt φt = π2 + αt , gdzie tg αt = t−u
1 ,
jest wartością zmiennej losowej o rozkładzie jednostajnym na [0, π].
(u,1)
A
αA
t
A
A
A
A
x
O
Rys. 1.03.
Stąd
FX (t) = P (X < t) = P (Φ < φt ) = P Φ <
=
1
2
π
2
+arctg(t − u) =
′
+ π1 arctg(t − u), więc fX (t) = FX
(t) =
1 π
π 2
1
1
π 1+(t−u)2 .
+arctg(t − u)
Otrzymaliśmy zatem ”przesunięty” rozkład Cauchy’ego. Jeżeli źródło promieniowania znajduje się w punkcie (0, 1) to mamy zdefiniowany wyżej rozkład Cauchy’ego.
• Przykład 3.36
Niech X będzie zmienną losową o rozkładzie Cauchy’ego z parametrem λ,. Wyznaczyć rozkład zmiennej losowej Y = arctg X
λ.
R o z w i ą z a n i e.
Ponieważ dla y ∈ − π2 , π2 mamy
1
π
FY (y) = P (Y < y) = P (arctg X
λ < y) = P (X < λ tg y) = FX (λ tg y) = π y + 2 ,
więc



0,
1
1
FY (y) =
πy + 2 ,


1,
gdy
gdy
gdy
Policzmy jeszcze gęstość
y ¬ − π2
− π2 ¬ y ¬
y ­ π2 .
π
2
y ∈6 − π2 , π2
fY (y) =
(y) =
− π2 ¬ y ¬ π2 .
π π
Otrzymaliśmy rozkład jednostajny na przedziale − 2 , 2 .
FY′
0,
1
πy ,
gdy
gdy
• Rozkład wykładniczy z parametrem λ
Zmienna losowa X ma rozkład wykładniczy z parametrem λ, jeżeli jej gęstość ma
postać
0
dla x ¬ 0,
fX (x) =
−λx
λe
dla x > 0.
54
Definicja jest poprawna, bo
R∞
fX (x)dx = 1.
−∞
Wówczas
FX (x) = =
0
1 − e−λx
dla x ¬ 0,
dla x > 0
oraz
EX =
1
,
λ
VarX =
1
λ2
Rozkład wykładniczy posiada ”własność braku pamięci” przez co rozumiemy,
że dla dowolnych nieujemnych x, s zachodzi równość:
P (X > x + s|X > s) = P (X > x).
Można także wykazać, że rozkład wykładniczy jest jedynym rozkładem
ciągłym posiadającym własność ”braku pamięci”.
• Przykład 3.37
Czas pracy pewnego urządzenia jest zmienną losową X o rozkładzie wykładniczym z parametrem α = 10−4 . Wiadomo, że urządzenie pracowało 1000h. Jakie
jest prawdopodobieństwo, że popracuje co najmniej 6000h?
R o z w i ą z a n i e.
P (X ­ 6000|X > 1000) = P (X ­ 5000 + 1000) = P (X ­ 5000) = 1 − FX (5000).
• Przykład 3.38
Czas oczekiwania na połączenie w centrali telefonicznej dla każdego abonenta jest
zmienną losową X o rozkładzie wykładniczym z parametrem α = 0, 2s. Z centrali
korzysta jednocześnie i niezależnie 100 abonentów. Obliczyć prawdopodobieństwo,
że najkrótszy z czasów oczekiwania jest większy niż 5s a najdłuższy - mniejszy niż
10s.
R o z w i ą z a n i e.
Niech Xi będzie czasem oczekiwania na połączenie i-tego abonenta,
X1 , X2 , ...X100 są zmiennymi losowymi niezależnymi.
X = max{X1 , X2 , ...X100 },
Ponieważ
oraz
więc
Y = min{X1 , X2 , ...X100 },
X < x ⇐⇒
∀ 1¬k¬100Xk < x,
Y > x ⇐⇒
∀ 1¬k¬100Xk > x,
FX (x) = P (X < x) = P (X1 < x, X2 < x, . . . , X100 < x)
= P (X1 < x)P (X2 < x) · . . . · P (X100 < x) = (F (x))100
55
oraz
FY (x) = P (Y < x) = 1 − P (Y ­ x) = 1 − (1 − F (x))100
Dla zmiennej o rozkładzie wykładniczym otrzymujemy
0
dla x ¬ 0,
0
FX (x) =
oraz FY (x) =
(1 − e−λx )100
dlax > 0.
1 − e−λ100x
dla x ¬ 0,
dlax > 0.
• Rozkład gamma z parametrami a, b > 0)
Zmienna losowa X ma rozkład gamma z parametrami a, b > 0, jeżeli jej gęstość
ma postać

dla x ¬ 0,
 0
ba a−1 −bx
γa,b (x) =

x
e
dla x > 0.
Γ(a)
R∞
fX (x)dx = 1.
Definicja jest poprawna, bo
−∞
Przypomnijmy, że funkcja gamma zdefiniowana jest dla a > 0 za pomocą całki
niewłaściwej
Z∞
Γ(a) = ta−1 e−t dt.
0
Całkowanie przez części daje wzór rekurencyjny
Γ(a) = (a − 1)Γ(a − 1)
dla
a > 1,
więc dla a = n ∈ IN otrzymujemy
Γ(n) = (n − 1)!
Dla naturalnych a = n rozkład gamma jest rozkładem sumy n niezależnych zmiennych losowych o rozkładzie wykładniczym z parametrem b.
Podstawowe parametry tego rozkładu są następujące:
EX =
a
,
b
VarX =
a
.
b2
• Rozkład normalny z parametrami m, σ.
Zmienna losowa X ma rozkład normalny z parametrami m, σ (m, σ
jeżeli jej gęstość ma postać
fX (x) =
(x−m)2
1
√ e− 2σ2 .
σ 2π
∈ IR,
σ > 0,
56
Definicja jest poprawna, bo
R∞
fX (x)dx = 1.
−∞
Podstawowe parametry tego rozkładu są następujące:
EX = m,
VarX = σ 2 .
Rozkład normalny jest najważniejszym rozkładem w teorii prawdopodobieństwa.
Został wprowadzony w XVIIIw. przez Gaussa i Laplace’a Rozkład normalny, co
niedługo przedstawimy, stanowi dobre przybliżenie sum niezależnych zmiennych
losowych. Z tego względu jest wykorzystywany do opisu losowych błędów pomiarów. Jeżeli błąd pomiaru nieznanej wielkości jest sumą wielu małych losowych
błędów dodatnich i ujemnych, to suma tych błędów ma rozkład bliski rozkładowi
normalnemu.
Dystrybuanty rozkładu normalnego N (m, σ) , czyli funkcji
Z x
(t−m)2
1
e− 2σ2 dt.
FX (x) = √
σ 2π −∞
nie można wyrazić przez funkcje elementarne. Wartości dystrybuanty rozkładu
N (0, 1), czyli funkcji
Z x
t2
1
e− 2 dt.
Φ(x) = √
2π −∞
podane są w tablicach.
Wykres gęstości rozkładu N (0, 1) ma postać
Z symetrii wykresu względem osi Oy otrzymujemy wygodną w obliczeniach równość:
FX (−x) = 1 − FX (x).
Okazuje się, że wartości dystrybuanty dowolnego rozkładu N (m, σ) można obliczyć, znając wartości funkcji Φ(x).
• Fakt 3.15
Jeżeli X ma rozkład N (m, σ), to zmienna losowa Y =
rozkład N (0, 1) oraz
FX (x) = Φ
x−m
σ
.
X −m
ma
σ
57
Ostatni Fakt daje następujący, często wykorzystywany wzór
a−m
b−m
−Φ
.
P (a < X < b) = Φ
σ
σ
Ogólnie — dla dowolnej zmiennej losowej X posiadającej wariancję przekształcenie
X − EX
U (X) = √
VarX
nazywamy standaryzacją zmiennej X. Dlaczego standaryzacją — patrz przykład
Wykres gęstości rozkładu normalnego ma postać...
Widać, że jest to funkcja symetryczna względem prostej x = m. Zależność gęstości od wielkości σ ilustrują następujące wykresy:...
Korzystając ze standaryzacji i z tablic rozkładu N (0, 1) łatwo sprawdzić, że gdy
X ma rozkład N (m, σ), to
P (m − 3σ < X < m + 3σ) = P −3 < X−m
< 3 = 2Φ(3) ­ 0.997.
σ
Oznacza to, że wartości zmiennej X z prawdopodobieństwem bliskim 1 zawarte są
w przedziale (m − 3σ, m + 3σ). Własność tę nazywamy ”prawem trzech sigm”.
Bardzo ważną i pożyteczną własnością rozkładu normalnego jest teza następującego twierdzenia:
Twierdzenie 1 Jeżeli dla i = 1, 2, . . . , n Xi są niezależnymi zmiennymi losowyn
P
ci Xi
mi o rozkładach N (mi , σi ), to dla dowolnych stałych c1 zmienna losowa
i=1
!
s
n
n
P
P
c2i σi2 .
ci mi ,
ma rozkład N
i=1
• Przykład 3.39
i=1
58
Pokazać, że jeżeli zmienna losowa X ma wariancję, to dla zmiennej losowej Y =
X − EX
√
zachodzą równości: EY = 0, VarY = 1.
VarX
R o z w i ą z a n i e.
Wykorzystując własności wartości oczekiwanej i wariancji zawarte w faktach 3.8,
3.11 możemy policzyć
EY = √ 1 E(X − EX) = √ 1 (EX − EX) = 0
VarX
VarX
oraz
VarY = √ 1
VarX
• Przykład 3.40
2
Var(X − EX) = √
1
VarX
2
· VarX = 1.
Długość (w milimetrach) pewnej części produkowanej w pewnym automacie jest
zmienną losową o rozkładzie N (20; 0, 2). Obliczyć prawdopodobienstwo, że długość
losowo wybranej części jest między 19, 9 a 20, 3.
R o z w i ą z a n i e.
20,3−20
1
3
1
1
< X−20
P (19, 9 ¬ X ¬ 20, 3) = P ( 19,9−20
0,2
0,2 <
0,2 ) = 2 + Φ( 2 ) − ( 2 − Φ 2 ) =
Φ( 32 ) − +Φ 12 ) = 0, 433 + 0, 192 = 0, 625.
59
3.5
Zadania
1) Obsługa działa artyleryjskiego ma trzy pociski. Prawdopodobieństwo trafienia
do celu jednym pociskiem (przy jednym wystrzale) wynosi 0,7. Strzelanie kończy się z chwilą trafienia do celu albo wyczerpania pocisków. Wyznaczyć funkcję
prawdopodobieństwa liczby oddanych strzałów oraz przeciętną liczbę oddanych
strzałów.
2) Na drodze ruchu pociągów są w znacznej odległości od siebie 4 semafory, z
których każdy (niezależnie od pozostałych) zezwala na przejazd z prawdopodobieństwem 0,8. Niech X oznacza liczbę semaforów zezwalających na przejazd i
poprzedzających pierwsze zatrzymanie lub stację docelową. Wyznaczyć funkcję
prawdopodobieństwa i dystrybuantę zmiennej losowej X. Obliczyć prawdopodobieństwo, że pociąg nie zatrzyma się przed trzecim semaforem.
3) Robotnik obsługuje trzy maszyny. Długotrwałe obserwacje wykazały, że prawdopodobieństwo tego, że w ciągu godziny maszyna nie będzie wymagać jego interwencji wynosi 0,6 dla pierwszej oraz 0,7 dla drugiej i trzeciej maszyny. Przy
założeniu, że maszyny pracują niezależnie od siebie, wyznaczyć funkcję prawdopodobieństwa liczby X maszyn, które w ciągu godziny nie wymagają interwencji
robotnika. Znaleźć średnią liczbę maszyn, które w ciągu godziny nie wymagają
interwencji robotnika.
4) W celu sprawdzenia pracy automatycznej obrabiarki pobiera się próbę 4-elementową z bieżącej produkcji. Każdy element próby jest kwalifikowany jako brak, jeżeli jego wymiary nie mieszczą się w granicach tolerancji. Jak wygląda przestrzeń
zdarzeń elementarnych? Niech X będzie zmienną losową określającą liczbę braków
w 4-elementowej próbie. Zdefiniować formalnie zmienną losową X.
Przypuśćmy, że praca obrabiarki wymaga korekty, gdy w 4-elementowej próbie
będą co najmniej dwa braki. Opisać to zdarzenie: a)przez zdarzenia elementarne, b)przez zmienną losową X. Zakładając, że wszystkie zdarzenia elementarne są
jednakowo prawdopodobne, obliczyć P (X = x) dla x = 0, 1, 2, 3, 4. Obliczyć
prawdopodobieństwo zdarzenia „obrabiarka wymaga korekty”. Naszkicować dystrybuantę zmiennej X i odczytać to prawdopodobieństwo z wykresu dystrybuanty.
5) Czy można dobrać stałe
zmiennej losowej?

 a − 12 + ex gdy
e−1
gdy
F (x) =

b(10 − x2 ) gdy
Przyjmując: a = 12 , b =
X < 3).
1
10
a, b tak, by funkcja F (x) była dystrybuantą pewnej
x ¬ −1,
−1 ¬ x < 1,
x > 1.
F (x) =


1 ax
2e
bx +

1
3
4
gdy
gdy
gdy
x ¬ 1,
1 < x ¬< 2,
x > 2.
obliczyć: P (1 ¬ X < 2), P (0 ¬ X ¬ 1), P (−1 ¬
6) Zmienna losowa X ma funkcję prawdopodobieństwa
60
xi
pi
−3
0, 1
−1
0, 2
3
0, 5
5
0, 2
Wyznaczyć dystrybuantę zmiennej X oraz funkcje prawdopodobieństwa i dystrybuanty zmiennych losowych: 2X + 3, x2 , x2 − 5.
7) Niech √FX będzie dystrybuantą zmiennej X. Znaleźć dystrybuanty zmiennych
X 2 , eX , X, X1 , log X (przy oczywistych założeniach o X).
1) Prawdopodobieństwo trafienia do celu w jednym strzale jest p = 13 . Niech X5
oznacza liczbę strzałów celnych w serii 5 niezależnych strzałów. Znaleźć rozkład
zmiennej losowej X5 , jej dystrybuntę, wartość oczekiwaną, wariancję, medianę i
modę.
2) Wiadomo, że 1% skrzynek winogron psuje się w czasie transportu. Z transportu
przypadkowo wybrano 3 skrzynki. Niech X oznacza liczbę skrzynek z zepsutymi
winogronami spośród trzech wybranych. Znaleźć rozkład zmiennej losowej X, jej
dystrybuntę, wartość oczekiwaną, wariancję, medianę i modę.
3) Obliczyć prawdopodobieństwo przyjęcia partii N sztuk towaru, wśród których
jest M sztuk wadliwych, jeśli partię przyjmuje się, gdy w n-elementowej próbce
(losowanej bez zwrotu) z tej partii znajdzie się co najwyżej jedna sztuka wadliwa.
Wykonać rachunki, jeżeli:
a) N = 50, M = 8, n = 5;
b) N = 200, M = 20, n = 10.
4) W centrali telefonicznej jest n=20 linii. Wezwania nadchodzą niezależnie od
siebie i nadchodzące wezwanie może zająć którąkolwiek z wolnych linii. Prawdopodobieństwo tego, że linia jest wolna, wynosi 0,4. Obliczyć prawdopodobieństwo
tego, że liczba linii zajętych jest nie większa niż 8. Jaka jest najbardziej prawdopodobna liczba linii zajętych?
5) Dwie maszyny wykonują ten sam rodzaj produkcji. Niech X oznacza liczbę
produktów z usterkami wyprodukowanych w ciągu jednej zmiany przez pierwszą
maszynę, Y – liczbę produktów z usterkami wyprodukowanych w ciągu jednej
zmiany przez drugą maszynę. Dane są funkcje prawdopodobieństw tych zmiennych:
xi
pi
0
0, 3
1
0, 4
2
0, 3
xi
pi
0
0, 1
1
0, 4
2
0, 4
3
0, 1
Zakładając brak jakiejkolwiek zależności między jakością produkcji obu maszyn
znaleźć funkcje prawdopodobieństwa zmiennych losowych X+Y oraz XY.
6) Przyjmujemy, że uszkodzenia urządzenia wytwarzającego pewien produkt (w
sztukach) może nastąpić tylko na skutek awarii pewnego jego podzespołu (np.
przepalenia się bezpiecznika). Dla zwiększenia niezawodności tego urządzenia wyposażono je w 3 dodatkowe tego rodzaju podzespoły, które automatycznie (i pojedynczo) włączają się, gdy ulegnie awarii pracujący podzespół. Tak więc urządzenie
61
przerywa pracę dopiero po 4-krotnej awarii tego podzespołu. Zakładając, że:
1o w ciągu godziny wytwarzana jest jedna sztuka produktu,
2o prawdopodobieństwo powstania uszkodzenia przy produkcji kolejnych sztuk jest
stałe i wynosi p=0,005,
3o zdarzenia polegające na powstaniu uszkodzenia przy produkcji kolejnych sztuk
są niezależne,
znaleźć:
a) funkcję prawdopodobieństwa czasu pracy T(w godzinach),
b) dystrybuantę czasu pracy T,
c) prawdopodobieństwo tego, że czas pracy wyniesie: dokładnie 3 godziny, co najmniej 3 godziny, nie mniej niż 16 godzin i nie więcej niż 24 godziny,
d) średni czas pracy tego urządzenia.
7) Rozwiązać poprzednie zadanie dla urządzenia pracującego bez podzespołów zapasowych.
1) Przy masowych prześwietleniach małoobrazkowych prawdopodobieństwo trafienia na człowieka chorego na gruźlicę wynosi 0,01. Obliczyć prawdopodobieństwo
tego, że wśród 200 prześwietlonych osób liczba chorych na gruźlicę jest nie mniejsza niż 3.
2) W skład złożonej aparatury wchodzi n=1000 elementów określonego rodzaju.
Prawdopodobieństwo uszkodzenia w ciągu roku każdego z tych n elementów równe
jest 0,001 i nie zależy od stanu pozostałych elementów. Obliczyć prawdopodobieństwo: a) uszkodzenia w ciągu roku dokładnie 3 elementów, b) uszkodzenia w ciągu
roku nie więcej niż 3 elementów.
3) Wiadomo z obserwacji, że 5% pasażerów rezerwujących miejsce na pewien lot
nie pojawia się. Linia lotnicza sprzedaje więc 52 bilety na samolot mogący zabrać
50 pasażerów. Obliczyć prawdopodobieństwo, że w danym locie znajdzie się miejsce dla wszystkich pasażerów, którzy zgłoszą się przed odlotem samolotu.
4) Centrala telefoniczna obsługuje 100 abonentów. Każdy z abonentów może z
1
prawdopodobieństwem p = 10
, niezależnie od pozostałych abonentów, zamówić
połączenie zewnętrzne. Jaka powinna być minimalna ilość połączeń zewnętrznych
9
zostały zrealizowane wszystw tej centrali, aby z prawdopodobieństwem p = 10
kie zamówienia abonentów? Podać rozwiązanie dokładne i przybliżone.
5) Po mieście jeździ 1000 samochodów. Prawdopodobieństwo wezwania pogotowia
technicznego w ciągu doby przez jeden samochód jest p = 0, 002. Obliczyć prawdopodobieństwo wezwania pogotowia przez którykolwiek z samochodów zakładając,
że wezwania są zdarzeniami niezależnymi.
6) Ilość osób poszkodowanych w wypadkach drogowych w pewnym mieście w ciągu
doby ma rozkład Poissona z parametrem λ = 3. Jakie jest prawdopodobieństwo,
że:
62
a) dzisiaj będzie co najmniej trzech poszkodowanych,
b) dzisiaj będzie co najmniej trzech poszkodowanych, jeżeli wiadomo, że jest już
przynajmniej jeden?
Ile należy przygotować łóżek w szpitalach, by z prawdopodobieństwem większym
niż 0,95 znalazło się miejsce dla wszystkich rannych?
Jaka jest najbardziej prawdopodobna ilość poszkodowanych w ciągu tygodnia?
7) Średnica kabla ma rozkład normalny z parametrami m = 0, 775 i σ = 0, 01 .
Jakie jest prawdopodobieństwo, że średnica przekroczy 0,790?
8) Zmienna losowa ma rozkład N (−4, 3). Obliczyć P (|X| > 3), P (0 < X <
6), P (X < 0).
9) Pewien automat produkuje części, których długość jest zmienną losową o rozkładzie N (2; 0, 2) (w cm). Wyznaczyć prawdopodobieństwo otrzymania braku, jeżeli
dopuszczalne długości części powinny się zawierać w przedziale (1, 7; 2, 3).
10) Wytrzymałość stalowych lin pochodzących z produkcji masowej jest zmienną
losową o rozkładzie N (1000kgcm2 ; 50kgcm2 ). Obliczyć, jaki procent lin ma wytrzymałość mniejszą od 900kgcm2 .
63
4
4.1
Twierdzenia graniczne
Ważne nierówności.
W tym rozdziale pokażemy, że prawdopodobieństwa pewnych zdarzeń związanych
ze zmienną losową można szacować za pomocą jej parametrów.
Twierdzenie 2 (Nierówność Markowa)
Jeżeli P (X ­ 0) = 1 oraz EX < ∞, to dla dowolnego ε > 0 zachodzi nierówność
P (X ­ ε) ¬
EX
.
ε
lub równoważnie:
P (X < ε) > 1 −
EX
.
ε
Parametrem, za pomocą którego można charakteryzować rozrzut wartości zmiennej losowej jest wariancja i pierwiastek z wariancji (czyli tzw. odchylenie standardowe). Rolę wariancji jako miary rozrzutu obrazuje np. następujące twierdzenie.
Twierdzenie 3 (Nierówność Czebyszewa)
Jeżeli VarX < ∞, to dla dowolnego ε > 0 zachodzi nierówność:
P (|X − EX| ­ ε) ¬
lub równoważnie: P (|X − EX| < ε) > 1 −
VarX
ε2
VarX
.
ε2
• Przykład 4.1
Śrubki są pakowane w pudełka po 100 sztuk. Prawdopodobieństwo, że śrubka jest
wybrakowana wynosi 0,01. Ile sztuk należałoby dodać do każdego pudełka, aby
w celach marketingowych można było powiedzieć, że z prawdopodobieństwem nie
mniejszym niż 0,9 w każdym pudełku jest co najmniej 100 sztuk dobrych?
R o z w i ą z a n i e.
W rozdziale 3. rozwiązaliśmy to zadanie stosując przybliżenie rozkładu Bernoulli’ego rozkładem Poissona. Teraz rozwiążemy je wykorzystując nierówność Markowa . Dla ustalonego n niech X będzie zmienną losową określającą liczbę wybrakowanych zapałek w pudełku zawierającym n śrub. X ma rozkład Bernoulli’ego
1
. Chcemy, by P (n − X ­ 100) ­ 0.9 lub równoważnie
z parametrami n, p = 100
P (n − X < 100) < 0.1. Wykorzystując nierówność Markowa dla ε = n − 100
możemy napisać
P (n − X < 100) = P (X > n − 100) <
1
n· 100
n−100 .
Wystarczy zatem znaleźć takie n, by zachodziła nierówność
64
1
n· 100
n−100
< 0.1 równoważna nierówności n > 111.
• Przykład 4.2
Madzia - ważny (różne rozkłady)
• Przykład 4.3
Zobaczmy, jakie oszacowanie daje nierówność Czebyszewa dla następujących zmiennych losowych:
a) Zmienna losowa X ma rozkład normalny N (m, σ) i ε = 3σ
Ponieważ EX = m i VarX < σ 2 , więc z nierówności Czebyszewa mamy
P (|X − m| ­ 3σ) ¬
σ2
9σ 2
= 19 ,
podczas, gdy z prawa trzech sigm wynika, że prawdopodobieństwo tego zdarzenia
jest mniejsze niż 0,003.
b) Dla zmiennej losowej o rozkładzie prawdopodobieństwa
P (X = −2) = P (X = 2) = 0, 125,
P (X = 0) = 0, 75
mamy
EX = −2 · 0, 125 + 2 · 0, 125 = 0 oraz VarX = 4 · 0, 125 + 4 · 0, 125 = 1
Nierówność Czebyszewa z ε = 2 ma postać
P (|X − 0| ­ 2) ¬ 41 ,
a jednocześnie prawdopodobieństwo tego zdarzenia wynosi
P (|X| ­ 2) = P (X = −2 ∧ X = 2) = 14 ,
czyli dla tej zmiennej w nierówności Czebyszewa zachodzi ”równość”. Zatem oszacowania, jakie daje nierówność Czebyszewa, nie można ”polepszyć”.
• Przykład 4.4
Wykonujemy 80 rzutów kostką. Wykorzystując nierówność Czebyszewa znależć
przedział, w jaki z prawdopodobieństwem nie mniejszym niż 0,9 wpada ilość otrzymanych szóstek.
R o z w i ą z a n i e.
40
1 5
100
X ∈ B(80, 61 ), EX = 80
6 = 3 , V arX = 80 · 6 · 6 = 9 .
Szukamy ε > 0 takiego, że P (|X − 40
3 | ¬ ε) > 0, 9, co jest równoważne nierówności
P (|X −
40
3 |
¬ ε) ¬
100
9ε2 ,
więc
P (|X −
40
3 |
< ε) = 1 − P (|X −
40
3 |
­ ε) ­ 1 −
100
9ǫ2
> 0, 9.
65
Stąd ǫ >
√
10 10
3
≈ 10, 52.
• Przykład 4.5
Stosując nierówność Czebyszewa stwierdzono, że prawdopodobieństwo tego, iż liczba orłów różni się od wartości oczekiwanej o więcej niż 14 EX jest nie większe niż
1
160 . Z ilu co najmniej rzutów składała się seria?
R o z w i ą z a n i e.
Zmienna losowa X - liczba orłów w tej serii rzutów ma rozkład B(n, p), gdzie
p = 21 , q = 12 . Zatem EX = n · 21 = 12 n, q = n · 21 21 = 14 n. Szukamy zatem
takiego n, by
P (|X − 12 n| ­ 81 n) ¬
1
160 .
P (|X − 12 n| < 81 n) >
159
160 .
albo równoważnie
Dzięki nierówności Czebyszewa możemy napisać
X
P (|X − 12 n| ¬ 12 n) > 1 − Var
>
( 1 )2
8
159
160 .
Wystarczy zatem rozwiązać nierówność
VarX <
( 1 )2
8
1
160 .
Po jej rozwiązaniu mamy n > 2560.
• Przykład 4.6
Prawdopodobieństwo sukcesu w jednej próbie wynosi 14 . Ile prób należy wykonać,
by prawdopodobieństwo tego, że liczba sukcesów odchyla się od wartości oczekiwanej o mniej niż 20% liczby wszystkich prób było większe niż 0,8?
R o z w i ą z a n i e.
3
Zmienna losowa X ma rozkład B(n, 41 ), Zatem EX = 14 n, V arX = 16
n. Szukamy
zatem takiego n, by
P (|X − 14 n| ¬ 15 n) > 0, 8.
Dzięki nierówności Czebyszewa możemy napisać
4
X
P (|X − 41 n| ¬ 15 n) > 1 − Var
( n )2 > 5 .
5
Wystarczy zatem rozwiązać nierówność
VarX .
Po jej rozwiązaniu mamy n > .
66
4.2
Prawa wielkich liczb.
Sformułujemy teraz kilka twierdzeń dotyczących granic ciągów sum niezależnych
zmiennych losowych. Jedno twierdzenie tego typu już poznaliśmy. Przypomnijmy
sobie twierdzenie Poissona, które mówi, że przy n zmierzającym do ∞ i pn takim, że lim npn = λ zmienne losowe Xn ∼ B(n, pn ) (a więc sumy niezależnych
n→∞
zmiennych losowych o rozkładach B(1, pn )) można przybliżać rozkładem Poissona
z parametrem λ.
Niech X1 , X2 , . . . będzie ciągiem zmiennych losowych o skończonej wartości oczekiwanej. Mówimy, że dla ciągu (Xn ) zachodzi:
• Słabe Prawo Wielkich Liczb, jeżeli dla każdego ε > 0 prawdziwa jest
równość
!
n
n
1 X
X
lim P Xk < ε = 1
Xk − E
n→∞
n
k=1
k=1
• Mocne Prawo Wielkich Liczb, jeżeli prawdziwa jest równość
!
!
n
n
X
1 X
Xk = 0 = 1
Xk − E
P lim
n→∞ n
k=1
k=1
Zauważmy, że jeżeli Xk mają jednakowy rozkład o wartości oczekiwanej EXk = m,
to MPWL oznacza, że ..........
Można udowodnić, że jeżeli zachodzi Mocne Prawo Wielkich Liczb, to zachodzi
również Słabe Prawo Wielkich Liczb. Kolejne twierdzenia podają warunki na to,
by zachodziło któreś z praw wielkich liczb.
• Twierdzenie 4.1
Jeżeli Xn
(Twierdzenie Markowa)
są niezależne i spełniony jest warunek
!
n
X
1
lim
Var
Xk = 0,
n→∞ n2
k=1
to zachodzi Słabe Prawo Wielkich Liczb.
Z własności wariancji wynika, że dla zmiennych niezależnych warunek występujący
w założeniu twierdzenia równoważny jest warunkowi
n
1 X
V arXk = 0.
n→∞ n2
lim
k=1
Oczywiście, jeżeli VarXk są wspólnie ograniczone, to jest on spełniony i jako
wniosek z Twierdzenie Markowa otrzymujemy
67
• Twierdzenie 4.2
(Twierdzenie Czebyszewa)
Jeżeli Xn są niezależne i σk2 są wspólnie ograniczone, to zachodzi Słabe Prawo
Wielkich Liczb.
W statystyce najczęściej wykorzystujemy Prawa Wielkich Liczb w bardzo szczególnym przypadku, gdy Xn są niezależnymi zmiennymi losowymi o tym samym
rozkładzie (np. zmienne Xn opisują kolejne wyniki pomiaru tej samej wielkości).
Wówczas mn = m, VarXn = VarX1 < ∞. Ponieważ
n
n
P
P
1
E n
Xk = n1
EXk = n1 · n · m = m.
k=1
k=1
więc z twierdzenia Czebyszewa mamy dla dowolnego ε > 0
n
limn→∞ P X1 +···+X
−
m
<
ǫ
= 1.
n
Dla zmiennych niezależnych o tym samym rozkładzie i skończonej wartości oczekiwanej zachodzi nawet Mocne Prawo Wielkich Liczb, co jest treścią kolejnego
twierdzenia
• Twierdzenie 4.3
(Twierdzenie Chinczyna)
Dla zmiennych niezależnych o tym samym rozkładzie zachodzi Mocne Prawo Wielkich Liczb, czyli
X1 + X2 + . . . + Xn
=m =1
P lim
n→∞
n
Z praw wielkich liczb wynika, że dla zmiennych losowych o jednakowym rozkłaX1 + · · · + Xn
dzie można z dużą dokładnością zastąpić EX przez
biorąc
n
dostatecznie duże n. ZAPAMIĘTAJMY TO!!! Dlatego na przykład dla wyliczenia
x1 + · · · + xn
średniego dochodu na jednego mieszkańca liczy się x̄ =
, gdzie xi
n
oznacza dochód losowo wybranej osoby. Z prawa wielkich liczb wynika, że jest to
dobre szacowanie średniej.
• Przykład 4.7
Czy dla ciągu niezależnych zmiennych losowych o następujących rozkładach prawdopodobieństwa
√
√
P (Xn = n) = P (Xn = − n) = 2√1 n , P (Xn = 0) = 1 − √1n
zachodzi Słabe Prawo Wielkich Liczb?
R o z w i ą z a n i e.
Zmienne losowe X1 , X2 , . . . są niezależne, ale nie mają jednakowych rozkładów.
Sprawdźmy zatem, czy spełniony jest warunek występujący w Twierdzeniu Markowa. Ponieważ
68
EXk =
więc
n
P
√
k·
1
√
2 k
√
+ (− k) ·
VarXk =
k=1
1
√
2 k
+ 0 = 0 oraz VarXk = k ·
n √
P
√
k ¬ n · n, a stąd 0 ¬
k=1
1
n2 Var (
Zatem, dzięki twierdzeniu o trzech ciągach,
Pn
lim n12 Var k=1 Xk = 0.
Pn
1
√
2 k
k=1
+k·
Xk ) ¬
1
√
2 k
=
√
√
n n
n
=
√1 ,
n
k,
n→∞
Z Twierdzenia Markowa wynika, że dla rozważanego ciągu zmiennych losowych
zachodzi Słabe Prawo Wielkich Liczb.
• Przykład 4.8
(Metoda Monte Carlo obliczania całek oznaczonych)
Sensowne jest wykorzystywanie poniższej metody w przypadku, gdy wyznaczenie
funkcji pierwotnej jest trudne lub niemożliwe w sposób analityczny.
Niech g(x) będzie funkcją całkowalną na przedziale [a, b] i oznaczmy przez I nieRb
znaną wartość całki g(x)dx. Wiemy na podstawie Własności 5 Faktu 3.7, że
a
jeżeli X jest zmienną losową o rozkładzie jednostajnym na przedziale [a, b], to
Eg(x) =
Zb
a
g(x)
1
1
dx =
· I.
b−a
b−a
Jeżeli X1 , X2 , . . . są niezależnymi zmiennymi losowymi o rozkładzie jednostajnym
na przedziale [a, b], to g(X1 ), g(X2 ), . . . są niezależnymi zmiennymi losowymi o
I
. Zatem, na mocy Twierdzenia
jednakowym rozkładzie z wartością oczekiwaną b−a
Chinczyna, mamy
!
n
1X
I
P lim
= 1,
g(Xk ) = Eg(X1 ) =
n→∞ n
b−a
k=1
czyli z prawdopodobieństwem równym 1, dla dużych n, średnia z wartości
1
g(X1 ), g(X2 ), . . . , g(Xn ) jest dowolnie bliska liczbie b−a
·I. Wystarczy więc wygenerować dużo wartości zmiennych losowych X1 , X2 , . . . , Xn z rozkładu jednostajnego
n
Rb
P
g(X
)
za
oszacowanie
całki
I
=
g(x)dx.
na [a, b] i przyjąć liczbę b−a
k
n
k=1
a
Metody oparte na symulacji zmiennych losowych nazywają się metodami Monte
Carlo. Można je również wykorzystywać do obliczania całek wielokrotnych.
4.3
Centralne Twierdzenie Graniczne
Mówimy, że dla ciągu
oczekiwanych zachodzi
(Xn )
zmiennych losowych o skończonych wartościach
69
• Centralne Twierdzenia Graniczne, jeżeli dla dowolnego t ∈ IR


P
n
n
P


X −E
Xk
 k=1 k

k=1

s
lim P 
< t
 = Φ(t)
n→∞
n
P


VarXk
k=1
• Twierdzenie 4.4
(Twierdzenie Lindeberga-Levy’ego)
Niech X1 , X2 , . . . będzie ciągiem niezależnych zmiennych losowych o jednakowym
rozkładzie, wartości oczekiwanej m i wariancji 0 < VarX1 < ∞ . Wówczas dla
ciągu (Xn ) zachodzi Centralne Twierdzenia Graniczne, czyli dla dowolnego t ∈ IR
prawdziwa jest równość
Pn
k=1 Xk − nm
√
< t = Φ(t),
lim P
n→∞
σ n
gdzie Φ(t) jest dystrybuantą zmiennej losowej o rozkładzie N (0, 1).
Oznacza to, iż dystrybuanty zmiennych losowych
1
Yn = √
σ n
n
X
k=1
Xk − E
n
X
k=1
Xk
!!
Pn
(zauważmy, że Yn jest standaryzacją sumy Sn =
k=1 Xk !) dążą w każdym
punkcie t ∈ IR do dystrybuanty rozkładu normalnego N(0,1).
W praktyce Twierdzenie Lindeberga-Levy’ego wykorzystuje się, przyjmując, że dla
dużych n zachodzi przybliżona równość
Sn − nm
√
< b ≈ Φ(b) − Φ(a),
P a<
σ n
Stosując twierdzenie Lindeberga-Levy’ego do zmiennych o rozkładzie zerojedynkowym otrzymujemy:
• Twierdzenie 4.5
(Twierdzenie Moivre’a-Laplace’a)
Niech X1 , X2 , . . . będzie ciągiem niezależnych zmiennych losowych o jednakowym
rozkładzie B(n,p). Wówczas dla każdego t ∈ IR zachodzi równość
Sn − np
< t = Φ(t).
lim P
√
n→∞
npq
70
Ważne są uogólnienia Twierdzenie Lindeberga-Levy’ego idące w kierunku osłabiania założeń tego twierdzenia. Okazuje się, że można zastąpić, dość restrykcyjne,
założenie o jednakowym rozkładzie zmiennych Xn założeniami dotyczącymi momentów trzeciego rzędu.
• Twierdzenie 4.6
(Twierdzenie Lapunowa)
Jeżeli X1 , X2 , . . . jest ciągiem niezależnych zmiennych losowych o skończonych
trzecich momentach centralnych spełniającym warunek
s
n
P
3
E|Xk − EXk |3
lim
n→∞
k=1
s
n
P
= 0,
VarXk
k=1
to dla ciągu (Xn ) zachodzi Centralne Twierdzenie Graniczne.
Istnienie trzecich momentów pozwala też oszacować dokładność przybliżenia w
Centralnym Twierdzeniu Granicznym.
• Twierdzenie 4.7
(Twierdzenie Berry-Esséena)
Jeżeli X1 , X2 , . . . jest ciągiem niezależnych zmiennych losowych o tym samym
rozkładzie i E|X|3 < ∞, to prawdziwa jest nierówność


n
n
P
P


Xk
Xk − E

 k=1
|3
k=1
 − Φ(t) ¬ C E|X1 − EX
s
√1 ,
<
t
sup P 


3
(VarX1 ) n
n
P
t ∈ IR 

VarXk
k=1
gdzie
1
¬ C < 0, 8.
2π
• Przykład 4.9
Sprawdzić, czy dla ciągu (Xn ) niezależnych zmiennych losowych o następujących
rozkładach prawdopodobieństwa
P (Xk = k) = P (Xk = −k) = 21 ,
k = 1, 2, . . .
zachodzi Centralne Twierdzenie Graniczne?
R o z w i ą z a n i e.
Zmienne losowe X1 , X2 , . . . są niezależne, ale nie mają jednakowych rozkładów.
Sprawdźmy zatem, czy spełniony jest warunek występujący w Twierdzeniu Łapunowa. W tym celu obliczmy
EXk = 21 k − 21 k = 0, VarXk =
k2
2
+
k2
2
= k2 ,
71
E|Xk − EXk |3 = |k 3 | ·
1
2
+ | − k3 | ·
1
2
= k3 .
Wykorzystując wzory na sumę kwadratów i sumę trzecich potęg
12 + 22 + . . . + n2 =
n2 (n + 1)2
n(n + 1)(2n + 1)
, 13 + 23 + . . . + n3 =
6
4
otrzymujemy
s
n
P
3
E|Xk − EXk |3
lim
n→∞
k=1
s
n
P
k=1
VarXk
q
3
= lim q
n→∞
n2 (n+1)2
4
n(n+1)(2n+1)
6
= lim
n→∞
s
6
n4 (n + 1)4 63
=0
42 n3 (n + 1)3 (2n + 1)3
Zatem dla powyższego ciągu zmiennych losowych zachodzi Centralne
Twierdzenie
P
nXk ma rozkład
Graniczne, a to oznacza, że dla dużych n zmienna losowa
k=1
q
n(n+1)(2n+1)
.
zbliżony do rozkładu normalnego N 0,
6
Komentarz.
Omówione w tym rozdziale twierdzenia mówią o zachowaniu sum niezależnych
zmiennych losowych gdy liczba składników zmierza do nieskończoności. Początek
takim badaniom dały spostrzeżenia poczynione jeszcze w XVII wieku, że gdy rzucamy wielokrotnie symetryczną monetą, to częstość występowania orła stabilizuje
się w pobliżu 12 . Jakub Bernoulli ujął ten fakt w postaci następującego twierdzenia.
(Prawo wielkich liczb Bernoulli’ego)
Jeżeli Sn jest liczbą sukcesów w schemacie Bernoulli’ego n prób z prawdopodobieństwem sukcesu w pojedynczej próbie równym p, to dla każdego ε > 0
Sn
− p ¬ ε = 1.
lim P n→∞
n
Jeżeli X1 , X2 , . . . są niezależnymi zmiennymi losowymi o wartościach
oczekiwaPn
nych mk i wariancjach VarXk , to wariancja sumy VarSn = k=1 VarXk rośnie
wraz ze wzrostem n, czyli rozkład zmiennej Sn ma coraz większy rozrzut. Powstaje pytanie, jakiego rzędu jest wzrost wariancji. Dlatego rozważa się sumy Yn
mnożone przez pewne liczbowe współczynniki An , które hamują wzrost wariancji. W prawach wielkich liczb widzieliśmy, że czynnik An = n1 (co daje po prostu
średnią arytmetyczną zmiennych X1 , X2 , . . . , Xn .) jest tak silnie wygaszający,
iż powoduje koncentrację rozkładu granicznego w jednym punkcie! W centralnych
twierdzeniach granicznych rozpatruje się współczynniki zmierzające wolniej do ze1
. Wówczas graniczna zmienna losowa okazuje się mieć
ra, mianowicie An = σ√
n
rozkład normalny N (0, 1).
72
• Przykład 4.10
Z partii towarów o wadliwości 3% pobrano próbę 500-elementową. Obliczyć prawdopodobieństwo, że liczba elementów wadliwych w próbie nie przekroczy 4%.
!
P500
500
X
20 − 15
i=1 Xi − 500 · 0, 3
√
√
<
Xi < 20) = P
P(
500 · 0, 3 · 0, 97
0, 1 · 15 · 17
i=1
• Przykład 4.11
Samolot zabiera 80 pasażerów. Przyjmując, że waga pasażera jest zmienną losową
o rozkładzie N(80,10) obliczyć prawdopodobieństwo, że łączna waga pasażerów
przekroczy 9000kg.
!
P80
80
X
X
−
80
·
80
9000
−
6400
i
i=1
√ √
√
>
Xi > 9000) = P
P(
10 80
20 2
i=1
• Przykład 4.12
Rzucamy 80 razy kostką. Znaleźć przedział, w jaki z prawdopodobieństwem > 0, 9
wpada ilość otrzymanych ”szóstek”.
(a)(z wykorzystaniem nierówności Czebyszewa)
n = 80, p =
P (|
80
X
i=1
Xi −
40 2
100
1
, m = np =
, σ = npq =
,
6
3
9
V arX
80
| > ǫ) <
< 0, 1, to ǫ > 10, 52
6
ǫ2
i otrzymujemy [2, 81; 23, 85].
(b)(z wykorzystaniem twierdzenia Moivre’a-Laplace’a)
!
P80
i=1 Xi − m
P |
< ǫ ≈ Φ(ǫ) − Φ(−ǫ)
√
npq
i otrzymujemy [7, 84; 18, 82].
• Przykład 4.13
Prawdopodobieństwo spostrzeżenia sputnika z ziemi z określonego punktu obser1
przy każdym locie nad punktem obserwacyjnym.
wacyjnego jest równe p = 10
Znaleźć liczbę lotów, jaką powinien wykonać sputnik, aby z prawdopodobieństwem
nie mniejszym niż 0,9 liczba Xn spostrzeżeń sputnika była ­ 10.
Rozwiązanie.
Pn
1
1
9
1 9
Xk ∈ B(1, 10
), mk = 10
, σk2 = pq = 10
k=1 Xk
10 = 100 , Yn =
Z α
1
1
10 − n · 10
Yn − n · 10
t2
1
√
e− 2 dt = 0, 9.
­
≈
1
−
P (Yn ­ 10) = P
√
√
3
3
2π −∞
10 n
10 n
73
Mamy zatem: 1 − Φ(α) = 0, 9 i z tablic odczytujemy, że α = 0, 26.
Niech
Xk =
p=
1
10 ,
Yn =
1 gdy sputnik został dostrzeżony w k-tym locie,
0 gdy sputnik nie został dostrzeżony w k-tym locie.
P
k=1
nXk określa ilość spostrzeżeń sputnika w n lotach.
1
1
Yn − n · 10
10 − n · 10
Yn − n · p
10 − n · p
) = P(
­
P (Yn ­ 10) = P ( √
­ √
)≈
√
√
3
3
npq
npq
10 n
10 n
Z α
t2
1
1
e− 2 dt = 1 − ( + Φ(α)) = 0, 9
1−
2π −∞
2
• Przykład 4.14
Komputer dodaje 1200 liczb rzeczywistych i każdą zaokrągla do najbliższej liczby
całkowitej. Błędy zaokrągleń są niezależne i mają rozkład jednostajny na [− 12 , 21 ].
Obliczyć prawdopodobieństwo, że błąd w obliczeniu sumy przekroczy 10.
1200
Xi − błąd, m − 0, σ 2 =
• Przykład 4.15
X
1
1
1
1
Xi = 1200 ·
(b − a)2 =
, σ = √ , V ar
12
12
12
12
i=1
Czas pracy lampy elektronowej ma rozkład wykładniczy o średniej m = 900h.
Zgromadzono zapas 100 lamp. Obliczyć prawdopodobieństwo, że wystarczy ich na
100000 godzin pracy, jeżeli każdą lampę włączamy natychmiast po wygaśnięciu
poprzedniej. Ile lamp trzeba mieć w zapasie, by z prawdopodobieństwem > 0, 99
wystarczyło ich na 99000 godzin pracy urządzenia.
λ=
1
,
900
100
X
Xi ­ 100000) = 1 − P
P(
i=1
0¬
100
X
!
Xi < 100000
i=1
=
!
Xi − 90000
10000
1 − P −10 <
= 1 − (Φ(1, 11) − Φ(−10))
<
10 · 900
10 · 900
PN
Szukamy N takiego,że P ( i=1 Xi ­ 990000) > 0, 98 czyli
P100
i=1
P (0 ¬
P
PN
N
X
i=1
Xi ¬ 990000) < 0, 11
99000 − n · 900
i=1 Xi − N · 900
√
√
<
900 N
900 N
!
< 0, 01
74
= 1−P
0¬
100
X
!
Xi < 100000
i=1
= 1−P
−10 <
P100
Xi − 90000
10000
<
10 · 900
10 · 900
i=1
!
=
1 − (Φ(1, 11) − Φ(−10))
• Przykład 4.16
Zmienne losowe X1 , X2 , . . . , X100 są niezależne o rozkładzie
Poissona z parameP100
trem λ. Obliczyć przybliżoną wartość wyrażenia P ( k=1 Xk > 190)
R o z w i ą z a n i e.
√
P100
EXk = V arXk = λ = 2, więc σ = 2, E( k=1 Xk ) = 200, a stąd:
P(
100
X
Xk > 190) = P (
k=1
−
P100
Xk − 200
190 − 200
√
√
>
) = 1 − P(
σ 100
10 2
k=1
Pn
Xk − 200
√
>
σ n
k=1
√
√
2
2
) = 1 − Φ(
) = Φ(0, 707) = 0, 76.
2
2
• Przykład 4.17
Udźwig żurawia wynosi 20t. Jakie jest prawdopodobieństwo, że przy podnoszeniu
400 elementów ważących średnio 51kg z wariancją 6, 4kg 2 udźwig zostanie przekroczony? R o z w i ą z a n i e.
P(
400
X
Xk > 20000) = P (
k=1
P400
Xk − 400 · 51
20000 − 20400
√
>
) = 1 − Φ(2, 5).
0, 8 · 20
0, 8 400
k=1
• Przykład 4.18
Rozważamy rodziny z dwojgiem dzieci. Prawdopodobieństwo, że w rodzinie starszy
jest chłopiec wynosi 41 . Jakie jest prawdopodobieństwo, że częstość wylosowania
takiej rodziny różni się od 14 o ǫ = 0, 1 ? Ile średnio rodzin spośród 100 ma starszego chłopca? R o z w i ą z a n i e.
1 gdy w rodzinie starszy jest chłopiec,
Xk =
0 w pozostałych przypadkach.
√
100
X
1
10 3
√
n = 100, p = , Yn =
npq =
Xk , EYn = 25,
,
4
4
k=1
częstość występowania rodziny, w której starszy jset chłopiec A =
1
100 Y100 ,
1
1
1
1
Y100 − | < 0, 1) = P (| − 0, 1 <
Y100 − < 0, 1) =
100
4
100
4
!
10
4
Y100 − 25
10
4
√
√
P − √ <
<
= Φ( √ ) − Φ(− √ )
3
3
10 43
10 43
10 43
P (|
więc
75
• Przykład 4.19
Wśród produkowanych wyrobów jest 20% wadliwych. Wylosowano 100 sztuk. Obliczyć dokładnie i w przybliżeniu, prawdopodobieństwo, że wśród wylosowanych
są 22 sztuki wadliwe. R o z w i ą z a n i e.
• dokładnie - X ∈ B(100, 15 ), więc P (X = 22) =
• przybliżenie rozkładem Poissona - λ = 100 ·
1
5
100
22
1 22
5
4 78
5
,
jest zbyt duże,
• na mocy twierdzenia Moivre’a-Laplace’a (np = 20)
• Przykład 4.20
P (X = 22) ≈ q
1
100 15 54
(22−20)2
1
1
1
· √ e− 16
≈ √ e− 4
2π
2π
Prawdopodobieństwo sukcesu w każdej próbie wynosi p = 14 . Oszacować prawdopodobieństwo, że w n = 800 niezależnych próbach liczba sukcesów zawiera się w
przedziale [150, 250].
R o z w i ą z a n i e.
a) za pomocą nierówności Czebyszewa
EX = 800 · 14 , VarX = 800 · 41 34 = 150,
P (150 < X < 250) = P (|X 00| < 50) > 1 − VarX = 1 − 150 = 47
2
b) z tawierdzenia Moivre’a-Laplace’a
√
P (150 < X < 250) = P ( 150−200
) <
800·pq
2 · 0, 99 − 1 ≈ 0, 98.
ε2
X−200
√
800·pq
50·50
<
250−200
√
)
800·pq
50
√
≈ 2Φ( 250−200
) =
800·pq
• Przykład 4.21
Łańcuch w pewnym urządzeniu składa się z n = 43 ogniw o wymiarze od a =
19, 06 − 0, 04 do a = 19, 06 + 0, 05. Obliczyć prawdopodobieństwo, że montując
łańcuch z losowo wybranych ogniw otrzymamy przewidzianą normę długości łańcucha od L = 820 − 0, 85 do L = 820 + 0, 78. R o z w i ą z a n i e.
19, 02 + 19, 11
= 19, 065 i stosujemy twierdzenie Moivre’aPrzyjmujemy m =
2
Laplace.
• Przykład 4.22
Wiadomo, że 1% produkowanych żarówek to braki. Obliczyć dokładnie i w przybliżeniu, prawdopodobieństwo, że:
a) wśród losowo wybranych 100 żarówek nie ma ani jednej wybrakowanej,
b) wśród losowo wybranych 100 żarówek są 2 wybrakowane,
76
c)ka jest minimalna liczba żarówek, które należy sprawdzić, by prawdopodobieństwo znalezienia złej żarówki było nie mniejsze niż 0,95. R o z w i ą z a n i e.
1 0 99 100
0
1
≈ e−1 10! ≈ 0, 368 (λ = 100 · 100
)
a) P (X = 0) = 100
0
100
100
b P (X ­ 2) =
77
4.4
1)
Zadania
78
5
5.1
Zmienne losowe wielowymiarowe.
Definicja i przykłady.
W wielu przypadkach statystyka matematyczna bada zbiorowość ze względu na
więcej niż jedną cechę. W tym celu wygodnie jest posługiwać się zmiennymi losowymi wielowymiarowymi. Niech X1 , X2 , . . . , Xn będą zmiennymi losowymi na
przestrzeni probabilistycznej (Ω, F , P )
• Definicja 5.1
Zmienna֒ losowa֒ n-wymiarowa֒ lub n-wymiarowym wektorem losowym nazywamy funkcję X:Ω −→ IRk określoną wzorem
X(ω)=(X1 (ω), X2 (ω), . . . , Xk (ω))
gdzie Xi dla i = 1, 2, . . . , k są zmiennymi losowymi określonymi na przestrzeni Ω.
• Definicja 5.2
Dystrybuanta֒ zmiennej losowej X nazywamy funkcję FX (t1 , t2 , . . . , tn ) :
IRn −→ IR określoną wzorem
FX (t1 , t2 , . . . , tn ) = P (X1 < t1 , X2 < t2 , . . . , Xn < tn )
Jeżeli istnieją (skończone) wartości oczekiwane EXk , to wektor
EX = (EX1 , EX2 , . . . , EXn )
nazywamy wektorem wartości oczekiwanych zmiennej losowej X.
Kowariancją zmiennych X, Y nazywamy wielkość
Cov(X, Y ) = E(X − EX)(Y − EY ) = EXY − EXEY.
Jak widać - Cov(X, X) = VarX.
Kowariancja jest parametrem, który charakteryzuje związek między dwiema zmiennymi losowymi.
Macierzą kowariancji wektora losowego X nazywamy macierz R = (aij ) wymiaru n × n, gdzie aij = Cov(Xi , Xj ).
Jeżeli VarX > 0, VarY > 0, to określa się pewien ważny parametr zwany współczynnikiem korelacji.
Cov(X, Y )
ρ(X,Y ) =
.
σ(X)σ(Y )
W przypadku, gdy ρ = 0, zmienne losowe nazywamy nieskorelowanymi. Oczywiście zmienne niezależne są nieskorelowane, ale nie na odwrót.
• Przykład 5.1
79
Rozważamy dwiema (ponumerowanymi) symetrycznymi monetami. Niech X będzie zmienną losową określającą liczbę orłów na pierwszej monecie, Y — zmienną
losową określającą liczbę orłów na obu monetach, Z — zmienną losową przyjmującą wartość 0, gdy suma orłów na obu kostkach jest nieparzysta i na pierwszej
kostce jest orzeł, 1 — gdy suma orłów na obu kostkach jest parzysta i na pierwszej
kostce jest orzeł oraz 2 — suma orłów na obu kostkach jest nieparzysta. Wyznaczyć rozkłady łączne i brzegowe wektorów losowych (X, Y ) i (X, Z).
R o z w i ą z a n i e.
Ponieważ Ω = {(O, O), (O, R), (R, O), (R, R)}, więc wektory losowe (X, Y ) i (X, Z)
mają następujące rozkłady łączne i brzegowe.
X\Y
Y =0
Y =1
X =0
1
4
0
X =1
0
1
4
1
4
Y =2
1
4
1
2
1
4
1
4
1
2
1
2
X\Z
Z =0
Z =1
Z =2
X =0
1
4
0
1
4
X =1
0
1
2
0
1
4
1
2
1
4
1
2
1
2
Jak widać, różne wektory losowe mogą mieć te same rozkłady brzegowe.
5.2
Zmienne losowe dwuwymiarowe.
Zajmiemy się bliżej zmiennymi losowymi dwuwymiarowymi.
Dwuwymiarową zmienną losową (X,Y) przyjmującą co najwyżej przeliczalnie wiele
wartości P (X = xi , Y = yj ) nazywamy dwuwymiarową zmienną losową typu
skokowego lub zmienną losową dyskretną. Rozkład takiej zmiennej wygodnie
jest przedstawiać w postaci tabelki, w której
pik = P (X = xi , Y = yk ).
y1
y2
..
.
ym
x1
p11
p12
x2
p21
p22
...
...
...
xn
yn1
yn2
p1m
p2m
...
ynm
Dystrybuanta takiej zmiennej jest funkcją schodkową
X
F (x, y) = P (X < x, Y < y) =
pik .
i,k;xi <x,yk <k
Mówimy, że zmienna losowa (X, Y ) jest typu ciągłego, jeżeli istnieje nieujemna
funkcja całkowalna f (u, v) taka, że dystrybuanta ma postać
F (x, y) =
Zx Zy
−∞ −∞
f (u, v))dudv.
80
Jeżeli g : IR2 −→ IR jest funkcją całkowalną, to wartość oczekiwaną zmiennej
losowej g(X, Y ) dana jest wzorem:
X
Eg(X, Y ) =
g(xi , yk )pi,k dla zmiennej dyskretnej
i,k
oraz
Eg(X, Y ) =
Z∞ Z∞
g(x, y)f (x, y)dxdy dla zmiennej ciągłej
−∞ −∞
5.2.1
Rozkłady brzegowe
Ważną rolę w badaniu zmiennych losowych wielowych odgrywają tzw. rozkłady
brzegowe. W przypadku zmiennej losowej dwuwymiarowej dyskretnej (X, Y ) są
one zdefiniowane wzorami:
X
X
pi· = P (X = xi ) =
pik , oraz p·k = P (Y = yk ) =
pik
i
k
Dla zmiennej dwuwymiarowej ciągłej (X, Y ) definiujemy tzw. gęstości brzegowe:
fX (x) =
Z∞
f (x, y)dy,
fY (y) =
−∞
Z∞
f (x, y)dx.
−∞
Dystrybuanty rozkładów brzegowych dla zmiennej dyskretnej zadane są wzorami:
X
X
FX (x) =
pi· ,
FY (y) =
p·k
xi <x
yk <y
a dla zmiennej ciągłej wzorami:
FX (x) =
Zx
f1 (u)du,
−∞
FY (y) =
Zx
f2 (v)dv
−∞
dla zmiennej ciągłej. Rozkład wektora losowego (mówimy czasem rozkład łączny) wyznacza oczywiście jednoznacznie rozkłady brzegowe, ale nie na odwrót.
W języku wektorów losowych wygodnie jest formułować warunek niezależności
zmiennych losowych.
• Twierdzenie 5.1
Zmienne losowe X, Y są niezależne wtedy i tylko wtedy, gdy
F(X,Y ) (x, y) = FX (x) · FY (y).
W przypadku zmiennych dyskretnych warunek ten równoważny jest warunkowi
pik = pi· p·k dla wszystkich i, k
a dla zmiennych typu ciągłego – warunkowi
f(X,Y ) (x, y) = fX (x)fY (y) dla wszystkich x, y ∈ IR.
81
Oczywista jest postać powyższego twierdzenia w przypadku dowolnej skończonej
ilości zmiennych losowych X1 , X2 , . . . , Xn .
5.2.2
Rozkłady warunkowe
Przy badaniu zmiennych losowych dwuwymiarowych posługujemy się też pojęciem
rozkładu warunkowego. Dla zmiennej dyskretnej przy założeniu, że wszystkie
p·k są dodatnie, mamy
P (X = xi |Y = yk ) =
pik
p·k
oraz P (Y = yk |X = xi ) =
pik
.
pi·
Warunkowym rozkładem zmiennej losowej X przy warunku [Y = yk ]
nazywamy
(xik , P (X = xi |Y = yk ))
i analogicznie warunkowym rozkładem zmiennej losowej Y przy warunku
[X = xi ] nazywamy
(yk , P (Y = yk |X = xi ))
Podobnie dla zmiennych typu ciągłego funkcje:
f (x|y) =
f (x, y)
,
f2 (y)
f (y|x) =
f (x, y)
f2 (y)
nazywamy odpowiednio gęstością warunkową zmiennej losowej X (Y ) pod
warunkiem Y (X)
Ich dystrybuanty mają postać
F (x|y) =
Zx
f (u|y)du,
F (y|x) =
−∞
Zy
f (v|x)dv.
−∞
Z twierdzenia 5.1 i z definicji rozkładów warunkowych wynika, że X, Y są niezaleźnymi zmiennymi losowymi wtedy i tylko wtedy, gdy rozkłady warunkowe równe
są odpowiednim rozkładom brzegowym, czyli
F (y|x) = FY (y),
5.2.3
F (x|y) = FX (x).
Regresja liniowa
Niech X, Y będą dwiema zmiennymi losowymi. Rozwiązanie zagadnienia regresji
liniowej polega na wyznaczeniu takich stałych a, b ∈ IR, dla których wartość
E(Y − (aX + b))2
82
jest najmniejsza.
Ponieważ z własności wartości oczekiwanej wynika, że
r(a, b) = E(Y − (aX + b))2 = EY 2 + a2 EX 2 + b2 − 2aEXY − 2bEY + 2abEX,
więc, przy założeniu, że istnieją momenty rzędu drugiego zmiennych X, Y , funkcja
r(a, b) jest wielomianem drugiego stopnia zmiennych a, b. Punkty, w których funkcja r(a, b) może przyjmować najmniejszą wartość wyznaczamy, rozwiązując układ
równań

∂r


= 2aEX 2 − 2EXY + 2bEX = 0
∂a

 ∂r = 2b − 2EY + 2aEX = 0
∂b
Otrzymujemy
a0 =
EXY − EXEY
Cov(X, Y )
=
i b0 = ...
EX 2 − (EX)2
VarX
Ponieważ
∂2r ∂2r
∂2r
∂ 2 r 2
·
−
·
(a0 ,b0 ) = 2EX · 2 − 2EX · 2EX = 4VarX ­ 0
∂a2 ∂b2
∂a∂b ∂b∂a
oraz
∂2r
(a0 , b0 ) = ... > 0,
∂a2
więc w przypadku, gdy VarX > 0, funkcja r(a, b) ma w punkcie (a0 , b0 ) minimum
lokalne (a więc i globalne, bo jedyne).
Dla VarX = 0 zmienna losowa X przyjmuje z prawdopodobieństwem 1 wartość
EY
.
stałą c i my już wiemy, że należy przyjąć a =
c
Zatem najlepszym (w rozważanym wyżej sensie) przybliżeniem zmiennej losowej
Y za pomocą liniowej funkcji zmiennej X jest
Ỹ =
Cov(X, Y )
Cov(X, Y )
· X + (EY − EX ·
),
VarX
VarX
a ponieważ
√
VarY
Cov(X, Y )
,
= ρ(X,Y ) · √
VarX
VarX
więc
√
VarY
(X − EX) + EY.
Ỹ = ρ(X,Y ) · √
VarX
83
6
Elementy statystyki matematycznej
Statystyka matematyczna to opisywanie, badanie, wnioskowanie o całej zbiorowości zwanej populacją na podstawie jej, wyodrębnionej w sposób losowy, części
w oparciu o rachunek prawdopodobieństwa. Statystyka matematyczna umożliwia
uporządkowanie i interpretację wiedzy zawartej w obserwacjach. Niemal we wszystkich sferach naszej działalności zbieramy dane; z tego gąszczu liczb lub obserwacji
nieliczbowych poddanemu wnioskowaniu metodami statystyki otrzymuje się odpowiedź na wiele pytań związanych z danym zjawiskiem. W niniejszym opracowaniu
rozważymy niektóre z nich.
6.1
Podstawowe pojęcia statystyki matematycznej.
Na i-tym elemencie wyodrębnionej losowo części populacji obserwujemy realizację
xi zmiennej losowej Xi . Zmienne losowe Xi , i = 1, 2, . . . , n opisują tę samą cechę
populacji. Najczęściej będziemy zakładać, że mamy obserwacje tzw. próby prostej.
• Definicja 6.1
Prosta próba losowa o dl6 6 ugości n to ciąg (X1 , X2 , . . . , Xn ) niezależnych zmiennych losowych o jednakowych rozkładach określonych na tej samej
przestrzeni Ω.
We wnioskowaniach statystycznych wykorzystujemy funkcje f (X1 , X2 , . . . , Xn ) na
obserwowanych zmiennych losowych zwane statystykami. Zauważmy, że statystyki są też zmiennymi losowymi. A oto najważniejsze z nich.
• Dystrybuantę empiryczną nazywamy funkcję Fn (x) określoną w sposób
następujący
1
Fn (x) = card{i : Xi (ω) < x},
n
gdzie cardA oznacza liczbę elementów zbioru A.
Dla ustalonego x Fn (x) jest zmienną losową zależną od (X1 , X2 , . . . , Xn ).
Jedną z ważniejszych własności ciqagu (Fn (x)) podaje twierdzenie
• Twierdzenie 6.1
Jeżeli X1 , X2 , . . . , Xn są niezależnymi zmiennymi losowymi o jednakowej dystrybuancie F (x), to dla każdego x ∈ IR zachodzi równość
P ( lim Fn (x) = F (x)) = 1.
n→∞
• Jeżeli zbiór wartości zmiennej losowej X podzielimy na k rozłącznych przedziałów Pj , j = 1, 2, . . . , k oraz nad każdym przedziałem Pj narysujemy
prostokąt o polu Fn (x) = n1 card{i : xi ∈ Pj }, to otrzymamy tzw. histogram.
• Średnia z próby to statystyka potocznie zwana ”X z kreską” określona
wzorem
n
1X
Xi .
X¯n =
n i=1
84
• wariancją z próby (potocznie zwana ”S kwadrat”) to statystyka określona
wzorem
n
1X
2
(Xi − X¯n )2
Sn =
n i=1
Można łatwo sprawdzić, że
n
Sn2 =
1X 2
X − (X¯n )2 .
n i=1 i
Dyspersją z próby albo odchyleniem standardowym nazywamy statystykę
p
Sn = Sn2 .
• Moment rzędu r z próby to zmienna losowa
n
Mr =
1X r
X ,
n i=1 i
natomiast moment centralny rzędu r z próby to statystyka
n
1X
(Xi − X¯n )r .
Cr =
n i=1
• Statystyki pozycyjne.
W próbie losowej (X1 , X2 , . . . , Xn ) dla danego zdarzenia ω uporządkujmy
realizację próby, czyli x1 = X1 (ω), x2 = X2 (ω), . . . , xn = Xn (ω) od wartości
najmniejszej do największej i przez xk oznaczmy obserwację, która znajduje
się na k-tym miejscu od lewej strony, k = 1, 2, . . . , n. Mamy zatem
x(1) ¬ x(2) ¬ . . . ¬ x(n) .
Przeprowadzając powyższą procedurę dla każdego ω otrzymamy zmienne
losowe Xk spełniające nierówność
X(1) ¬ X(2) ¬ . . . ¬ X(n) .
Zmienną losową Xk nazywamy k-tą statystyką pozycyjną, k = 1, 2, . . . , n.
Zauważmy, że
X1 = min(X1 , X2 , . . . , Xn ),
Xn = min(X1 , X2 , . . . , Xn ).
• Mediana֒ z próby nazywamy statystykę
(
X( n+1 )
gdy n jest nieparzyste,
2
Me =
1
n
n
gdy n jest parzyste.
2 X( 2 ) + X( 2 )+1
85
• Kwantyl dolny z próby to mediana ze zmiennych X(1) , X(2) , . . . , X(n)
mniejszych niż Me a kwantyl górny z próby to mediana ze zmiennych
X(1) , X(2) , . . . , X(n) większych niż Me .
• wariancją empiryczną poprawioną Sb2 =
”statystyka S kwadrat z daszkiem”)
Fn (x) =
1
n

 0

i
n
1
1
n−1
Pn
i=1 (Xi
− X̄)2 (tzw.
gdy x ¬ x(i)
gdy x(i) ¬ x ¬ x(i+1) ,
gdy x > x(n)
= · card{i : xi ¬ x} .
Zauważmy, że
-odchylenie przeciętne
i
n
n
x̄ =
n
√
1X
1X
xi , m̄2 =
(xi − x̄), s = m̄2
n i=1
n i=1
Oprócz x̄ używane są jeszcze inne charakterystyki:
- środek rozstępu c = 21 (x(1) + x(n) ),
- dominanta lub moda - wartość występująca najczęściej,
- mediana lub wartość środkowa - dla n nieparzystych xM =
rzystych xM = 21 (x n2 + x n2 +1 )),
Pn
- odchylenie przeciętne - d = n1 i=1 |xi − x̄.
xn+1
2 ,
dla n pa-
Jeżeli liczba elementów próby jest duża (n > 20), to dzielimy przedział [min{:
xi √
: i = 1, . . . , √
n}, max{: xi : i = 1, . . . , n}] na skończenie wiele (m) podprzedziałów
( 21 n ¬ m ¬ n) i definiujemy tzw.
- Szereg rozdzielczy - ........(B)str.44-47 .....Wojtek 78-79
Próby dzielimy na:
• reprezentatywne (częstość występowania w próbie badanej cechy nie powinna odbiegać od częstości występowania tej cechy w całej populacji). Aby
zapewnić losowość próby dobrze jest np. posługiwać się tzw. tablicami liczb
losowych.
• tendencyjne (np. przy badaniu wytrzymałości prętów stalowych składowanych w magazynie pobranie prętów z górnej warstwy daje oszacowanie
wytrzymałości prętów najgorszych)
Przypuśćmy, że dana jest skończona populacja generalna A, w której każdej
jednostce przypisana jest pewna liczba - wartość cechy badanej X (np. wzrost
chłopców, temperatura prętów, itp.) Gdybyśmy znali tę liczbę dla każdego elementu populacji, to moglibyśmy określić F (x)
86
.............. Zatem n-elementową próbę można traktować jak wektor losowy (X1 , X2,...,Xn ),
którego poszczególne składowe mają rozkład zmiennej X, będącej modelem populacji. Na ogół zakładamy, że próby są proste, tzn. zmienne losowe są niezależne o
jednakowym rozkładzie.
W rozważanym wcześniej przykładzie liczba sztuk wadliwych w próbie jest
sumą X1 + X2 + X3 . Jest to więc pewna funkcja elementów próby losowej.
• Estymator to dowolna statystyka służąca do oszacowania nieznanej wartości parametru Θ populacji generalnej lub nieznanego rozkładu populacji.
Jeżeli Z jest funkcją liniową, to mówimy, że estymator jest liniowy. Takie są np.
suma czy średnia arytmetyczna.
• Hipoteza statystyczna jest to dowolne przypuszczenie dotyczące populacji
generalnej.
• Test statystyczny to reguła postępowania, która na podstawie wyników
próby ma doprowadzić do decyzji przyjęcia lub odrzucenia danej hipotezy.
....
W dalszych rozważaniach zakładamy zawsze, że populacja generalna jest dostatecznie liczna, tak, że po pobraniu próbki nie zmienia się rozkład badanej cechy
w populacji.
Jeżeli przez X oznaczymy interesującą nacechę elementów populacji generalnej,
FX nazywamy dystrybuantą teoretyczną, a momenty zmiennej X nazywamy
momentami teoretycznymi i oznaczmy mk .
Dla n-elementowej próby prostej X1 , X2 , . . . , Xn określamy:
• dystrybuantę empiryczną Fn (x) = n1 card{i : xi < x},
Pn
• k-ty moment empiryczny Mk = n1 i=1 Xik ,
Pn
• k-ty moment empiryczny centralny Ck = n1 i=1 (Xi − Mi )k ,
W statystyce, w odróżnieniu od rachunku prawdopodobieństwa nie znamy
wszystkich parametrów rozkładu zmiennej losowej, która reprezentuje konkretną
cechę populacji generalnej. Na podstawie wyników badania próby losowej staramy
się wyciągnąc wnioski dotyczące badanej cechy w całej populacji. Znajdowanie parametrów rozkładu statystyk jest jednym z podstawowych problemów statystyki
matematycznej i jest to na ogół zagadnienie trudne. Czasem jednak parametry statystyk zależą wyłącznie od odpowiednich parametrów populacji ogólnej i wówczas
stosunkowo nietrudno je oszacować.
Policzmy trochę:
Przykłady
Zad.1.
Przy przepływie prądu przez przewodnik o oporze R następuje zmiana energii
elektrycznej na cieplną. Zamiana zmiana energii elektrycznej na cieplną A odbywa
87
2
się zgodnie z zależnością: A = uRt , gdzie u oznacza przyłożone napięcie, a t -czas.
Jeżeli opór jest stały i ustalimy czas t, energia jest funkcją napięcia A = cu2 , c =
t
r . Przypuśćmy, że napięcie u jest zmienną losową o rozkładzie określonym przez
funkcję
88
6.2
6.2.1
Estymacja
Podstawowe pojęcia.
Estymacja jest to szacowanie, ocenianie nieznanych parametrów rozkładu charakeryzujących populację na podstawie pewnych funkcji określonych na próbie.
Co można estymować?
- X ∼ B(n, p)
- X ∼ Pλ
- X ∼ N (n, σ)
Dla danego parametru Θ można utworzyć wiele różnych estymatorów, jest jednak
oczywiste, że oczekujemy, by spełniały one pewne pożądane warunki:
- wraz ze wzrostem liczności próby powinna wzrastać dokładność oszacowania parametru, co prowadzi do warunku
∀ε>0
cn − Θ| < ε) = 1.
lim P (|Θ
n→∞
Taki estymator nazywamy estymatorem zgodnym parametru Θ.
- naturalne jest oczekiwać, że wartość oczekiwana estymatora równa jest samemu
estymatorowi, czyli
cn ) = Θ.
E(Θ
Taki estymator nazywamy estymatorem nieobciążonym parametru Θ.
Estymator spełniający warunek
cn ) − Θ = 0
lim E(Θ
n→∞
nazywamy estymatorem asymptotycznie nieobciążonym
Zauważmy, że:
1. Średnia arytmetyczna jest estymatorem nieobciążonym wartości oczekiwanej, mamy bowiem E X̄ = EX.
Z prawa wielkich liczb wynika, że E X̄ jest też estymatorem zgodnym wartości oczekiwanej.
2. Statystyka S 2 jest estymatorem obciążonym wariancji, ponieważ
n
S2 =
n
n
1X
1X
1X
(Xi −X̄)2 =
[(Xi −EX)−(EX−X̄)2 =
(Xi −EX)2 X̄)2
n i=1
n i=1
n i=1
n
VarX̄
= E(X̄ − E X̄)2 = E(
=
n
1X
1X
(Xi − EX)2 ) = E(
(Xi − EX))2
n i=1
n i=1
n
n
1
1 X
1 X
1
2
(X
−
EX)
=
V arXi = 2 nVarXi = VarX
i
n2 i=1
n2 i=1
n
n
89
przy czym pisząc przedostatnią równość skorzystaliśmy z niezależności zmiennych Xi . Stąd odchylenie standardowe σ¯X̄ = √σn .
3. Ponieważ
S2 =
n
n
1 X
1 X
(Xi − X̄)2 = )
(Xi − EX)2 − (X̄ − EX)2 ,
)
n i=1
n i=1
więc
ES 2 =
n
1 X
1
1
n−1
E(Xi −EX)2 −E(X̄−EX)2 = dotnV arX−X̄ = V arX− V arX =
)
V arX,
n i=1
n
n
n
czyli S 2 =
n−1
2
n V arX., = f racnn − 1S .
n
= n−1
n · n−1 V arX = V arX, co
oznacza, że S 2 jest estymatorem
Zatem ES
wariancji a S jest nieobciążonym estymatorem wariancji.
6.2.2
Estymacja punktowa
Metoda momentów
Jeżeli nieznany parametr Θ rozkładu jest określony przez k pierwszych momentów
b tego pacechy wzorem Θ = f (m1 , m2 , . . . , mk ), to przyjmujemy, że estymator Θ
rametru określony jest za pomocą tej samej funkcji f zmiennych m̄1 , m̄2 , . . . , m̄k ,
czyli - momentów empirycznych.
Przykłady.
1. Powiedzmy, że badana cecha ma rozkład jednostajny na odcinku [0, b], gdzie
b nie jest znane. Jak pamiętamy, dla rozkładu jednostajnego
m = EX =
a+b
(b − a)2
, V arX =
.
2
12
EX =
Zatem
b
, skąd b = 2EX.
2
bb = 2X̄.
2. Jeżeli badana cecha ma rozkład jednostajny na odcinku [a, b], gdzie a, b
nie są znane, to
m = EX =
(b − a)2
a+b
, VarX =
.
2
12
90
Zatem
a+b
(b − a)2
=
=
2X̄
12V arX = 12
Stąd b = 2X̄ − a.
Metoda największej wiarogodności
Metoda ta polega na oszacowaniu nieznanych parametrów tak, by dane empiryczne były przy tym najbardziej prawdopodobne.
Niech (X1 , X2 , . . . , Xn ) będzie próbą prostą, a (x1 , x2 , . . . , xn ) - konkretną wartością tej próby (tzn. konkretne wyniki). Niech Θ1 , Θ2 , . . . , Θk będą nieznanymi
parametrami rozkładu.
Konstruujemy tzw. funkcję wiarogodności.
(
f (x1 , Θ1 , Θ2 , . . . , Θk ) · . . . · f (xn , Θ1 , Θ2 , . . . , Θk )
L(Θ1 , . . . , Θk , x1 , . . . , xn ) =
P (x1 , Θ1 , Θ2 , . . . , Θk ) · . . . · P (xn , Θ1 , Θ2 , . . . , Θk )
Estymator dla parametrów Θ1 , Θ2 , . . . , Θk znaleziony metodą największej wiaroc1 , Θ
c2 , . . . , Θ
ck , dla których
godności (MLE) to te wartości Θ
c1 , . . . , Θ
ck , x1 , . . . , xn ) = max{L(Θ1 , . . . , Θk , x1 , . . . , xn ) : Θ1 , . . . , Θk }.
L(Θ
To jest logiczne, bo skoro przypadkiem otrzymano właśnie takie wyniki, to muszą
one być najbardziej prawdopodobne.
Przykłady.
1. Cecha X elementów populacji ma rozkład dwupunktowy B(1, p), gdzie p jest
nieznanym parametrem. Metodą największej wiarogodności znaleźć estymator parametru p, jeżeli w 10-elementowej próbie zaobserwowaliśmy 7 razy
wartość 1 i trzy razy wartość 0.
R o z w i ą z a n i e.
W tym przykładzie
L(p, x1 , x2 , . . . , x10 ) = p7 (1 − p)3 .
Wyznaczając największą wartość tej funkcji na [0,1] otrzymujemy p =
Zauważmy, że pb =
P (X=1)
10
(częstość występowania 1.
7
10 .
dla zmiennych z gęstością
dla zmiennych dyskretnych.
91
2. Cecha X elementów populacji ma rozkład Poissona z nieznanym λ, czyli
λk −λ
e .
k!
Zaobserwowaliśmy następujące wartości zmiennej X: 0, 1, 2, 5, 1, 0, 3, 4, 5, 6.
Funkcja wiarogodności ma postać
P (X = k) =
L(λ) = e−λ
λk1 −λ λk2
λk10
λk1 +k2 +...+k10
·e
· . . . · e−λ
= e−10λ
.
k1 !
k2 !
k10 !
k1 ! · k2 ! · . . . · k10 !
Ponieważ L przyjmuje wartość największą w tym samym punkcie, w którym
największą wartość przyjmuje funkcja
h(λ) = ln L(λ) = −nλ + ln λ
Obliczając
10
X
i=1
ki −
10
X
ln ki .
i=1
10
h′ (λ) = −10 +
otrzymujemy
1 X
ki = 0,
10 i=1
10
λ=
1 X
ki .
10 i=1
3. Cecha X elementów populacji ma rozkład N (m, σ) z nieznanymi parametrami m, σ. Mamy próbę (x1 , x2 , . . . , xn ).
Konstruujemy funkcję wiarogodności
L(m, σ, x1 , x2 , . . . , xn ) =
=
√1 e−
σ 2π
(x1 −m)2
2σ 2
·
√1 e−
σ 2π
(x2 −m)2
2σ 2
· ... ·
√1 e−
σ 2π
(xn −m)2
2σ 2
2
2
1
√1
e− 2σ2 [(x1 −m) +...+(xn −m) ] .
(σ 2π)n
Szukamy największej wartości tej funkcji. Funkcja L(m, σ, x1 , x2 , . . . , xn )
przyjmuje największą wartość w tym samym punkcie, w którym największą
wartość przyjmuje funkcja
n
(xk −m)2
P
−
1
2
2σ
ln σ√2π + ln e
h(λ) = ln L(m, σ, x1 , x2 , . . . , xn ) =
k=1 n
√
P
−m)2
− ln 2π − ln σ − (xk2σ
=
2
k=1
Policzmy
(
0
=
∂h
∂m
∂h
∂σ
=
0
=
Rozwiązując ten układ równań otrzymujemy
n
m=
1X
xk ,
n
k=1
n
σ2 =
1X
(xk − x̄)2 = Sn2 .
n
k=1
92
Estymatory uzyskane metodą największej wiarogodności mają rozkłady asymptotycznie normalne i asymptotycznie najefektywniejsze.
6.2.3
Estymacja przedziałowa
Estymacja punktowa polega na podaniu jednej liczby możliwie najmniej różniącej
się od nieznanej wartości parametru. To na ogół nie wystarcza, gdy powinno się
znać stopień dokładności oszacowania.
Zróbmy jakiś konkretny przykład. Powiedzmy, że w wyniku pomiaru jakiejś
wielkości otrzymaliśmy próbę 9-elementową: (4,9; 4,8; 5,1; 5,2; 4,7; 5,2; 5,1; 5,1;
4,9). Wówczas x̄ = 5 - estymator punktowy daje konkretną wartość.
Załóżmy, że X ≈ N (m, σ) . Wówczas, jak wiemy X̄ ≈ N (m, √σn ) . bo na
mocy tw. LL
n
X
√
Xi ≈ N (nm, σ n)
i=1
skąd
E(
n
n
n
1X
σ2
1X
1
1 X
1
Xi ) = · n · m = m, V ar(
Xi ) = 2
V arXi = 2 · n · σ 2 =
n i=1
n
n i=1
n i=1
n
n
Zatem
X̄ − m √
· n ≈ N (0, 1)
σ
Z tablic rozkładu normalnego wyznaczamy takie uα , że
X̄ − m √
· n| ¬ uα = 1 − α
P |
σ
U=
np. dla α = 0, 05 mamy 1 − α = 0, 95, uα = 1, 96. Stąd
|
σ
σ
σ
X̄ − m √
· n| ¬ uα ⇐⇒ |X̄ − m| ¬ uα · √ ⇐⇒ X̄ − uα · √ ¬ m ¬ X̄ + uα · √ .
σ
n
n
n
czyli
σ
σ
X̄ − uα · √ ¬ m ¬ X̄ + uα · √
= 1 − α.
n
n
Wyznaczyliśmy przedział o końcach losowych X̄ − uα · √σn ¬ m ¬ X̄ + uα · √σn ,
do którego z prawdopodobieństwem 1 − α wpada wartość oczekiwana m. Np. w
ostatnim przykładzie dla σ = 1 otrzymujemy przedział [4, 35; 5, 65].
Mówimy, że przedziałem ufności dla wartości oczekiwanej na poziomie ufności
0,95 jest [4, 35; 5, 65]. Przy znanej wariancji długość tego przedziału jest stała.
Fakt, że dany przedział liczbowy przedziałem ufności dla wartości oczekiwanej na
P
93
poziomie ufności 0,95 oznacza, że średnio w 95 próbach na 100 wyznaczony przedział zawiera m.
Estymacja punktowa polega na podaniu jednej liczby, możliwie najmniej różniącej
się od nieznanej wartości parametru. To czasem nie wystarcza, gdyż powinno się
znać stopień dokładności takiego oszacowania. W tzw. estymacji przedziałowej
nie podajemy jednej liczby, która ma stanowić domniemaną wartość estymowanego
parametru, lecz cały przedział, w którym znajduje się estymowany oarametr ze z
góry zadanym (zadowalającym nas) prawdopodobieństwem. Jest to przedział o
losowych końcach (Z1 , Z2 ), zależących od próby (X1 , X2 , . . . , Xn ), czyli Z1 =
u1 (X1 , X2 , . . . , Xn ), Z2 = u2 (X1 , X2 , . . . , Xn ). Mówimy, że przedział (Z1 , Z2 )
jest przedziałem ufności dla parametru Θ na poziomie ufności (1 − α),
jeżeli P (Z1 ¬ Θ ¬ Z2 ) = 1 − α.
Przykłady.
1. Wiadomo, że rozkład wyników pomiarów pewnej wielkości X jest N (m, 5).
Ile pomiarów należy wykonać, aby wyznaczyć przedział ufności dla m o długości ¬ 4 na poziomie
ufności 1 − α = 0, 95 ? *** Szukamy n takiego, by
X̄ + uα · √σn − X̄ − uα · √σn ¬ 4
94
6.3
Testowanie hipotez
Hipotezą statystyczną nazywamy dowolne przypuszczenie dotyczące nieznanego rozkładu zmiennej lub zmiennych losowych.
Niech Ω będzie zbiorem wartości obserwowanej zmiennej losowej X a F = B —
σ-ciałem podzbiorów zbioru Ω. Rozkład prawdopodobieństwa P nie jest w pełni
określony. Wiemy tylko, że należy do pewnej rodziny rozkładów P.
Gdy dla określenia rodziny rozkładów P wystarczy parametr θ ∈ Θ ⊂ IRn (np.
rodzinę rozkładów normalnych określa parametr θ = (m, σ), Θ = IR × IR+ ; rodzinę
rozkładów Poissona określa parametr θ = λ, Θ = IR+ ), to przypuszczenie o rozkładzie prawdopodobieństwa jest w pełni opisane przez przypuszczenie o parametrze
θ i mówimy wtedy o tzw. hipotezach parametrycznych. Gdy przypuszczenia
o rozkładzie prawdopodobieństwa nie można opisać za pomocą zbioru Θ ⊂ IRn , to
mówimy o tzw. hipotezach nieparametrycznych.
Rozpatrzmy przypuszczenie dotyczące nieznanego parametru θ. Rodzinę P można
podzielić na dwa rozłączne zbiory: zbiór H, zawierający rozkłady opisane przez
θ ∈ Θ1 , dla których hipoteza jest prawdziwa i zbiór K = P \ H, zawierający rozkłady (opisane przez θ ∈ Θ \ Θ1 , dla których hipoteza jest fałszywa. H nazywamy
hipotezą zerową, K — hipotezą alternatywną, a stawiany problem zapisujemy krótko
H : θ ∈ Θ1
K : θ ∈ Θ2 ,
θ ∈ Θ2 =
Przy weryfikacji hipotezy możemy popełnić następujące błędy:
— odrzucić H, jeżeli jest ona prawdziwa (tzw. błąd I rodzaju)
— nie odrzucić H, jeżeli jest ona fałszywa (tzw. błąd II rodzaju)
Obu rodzajów błędów kontrolować jednocześnie najczęściej nie można. Dlatego
przy pewnym ograniczeniu z góry na przwdopodobieństwo błędu I rodzju minimalizujemy prawdopodobieństwo błędu II rodzaju.
W celu weryfikacji hipotezy H przeciwko K, w zbiorze wartości próby losowej X =
(X1 , . . . , Xn ) wyróżnia się zbiór C zwany obszarem krytycznym, dla którego
hipoteza H jest odrzucona. Ograniczenia na błędy są wtedy następujące:
— Przy zadanej wartości α, zwanej poziomem istotności, zachodzi
_
Pθ (X ∈ C) = P rawdopodobiestwobduIrodzaju ¬ α,
θ ∈ Θ1
— Przy powyższym warunku minimalizujemy
_
PΘ (X ∈6 C) = P rawdopodobiestwobduIIrodzaju.
θ ∈ Θ2
95
Chcemy, aby prawdopodobieństwo odrzucenia H, gdy jest ona prawdziwa, było
małe, czyli poziomowi istotności α nadajemy wartości małe (najczęsćiej jedną z
liczb: 0,05, 0,025, 0,01, 0,005)
Obszar krytyczny C wygodnie jest konstruować w oparciu o funkcję na próbie
losowej (X1 , . . . , Xn ) zwaną statystyką testową.
Funkcją mocy nazywamy funkcję M (θ) określoną dla każdego θ ∈ Θ następująco
M (θ) = Pθ (X
∈ C).
Zauważmy, że dla θ ∈ Θ2 jest
M (θ) = 1 − P rawdopodobiestwobduIIrodzaju.
W zagadnieniach testowania hipotez, szczególnie z wykorzystaniem pakietów statystycznych, występuje pojęcie p-wartości. p-wartością przeprowadzonego testu
nazywamy najmniejszy poziom istotności, przy którym zaobserwowana wartość
statystyki testowej prowadzi do odrzucenia hipotezy zerowej.
Hipoteza zerowa H oraz alternatywna K odgrywają różne role. Za H stawiamy
przypuszczenie, w którego prawdziwość wątpimy i szukamy podstaw, przy których
można H odrzucić.
• Przykład 6.1
Aby sprawdzić symetryczność monety, rzucono nią 12 razy i 8 razy wypadł orzeł.
Na poziomie istotności α = 0, 1 zwryfikować hipotezę o symetryczności monety.
Wyznaczyć funkcję mocy, podać jej wartość dla p = 0.1, p = 0.8, p = 0.9.
R o z w i ą z a n i e.
Jednokrotny rzut monetą opisuje zmienna losowa X o rozkładzie dwumianowym
B(1, p), gdzie sukcesem jest wypadnięcie orła, p ∈ (0, 1) jest nieznanym parametrem. Symetryczność monety oznacza, że p = 12 , zatem stawiamy hipotezę zerową
H : p = 12 ,
a alternatywną określamy, jako
K : p 6= 21 ,
W celu zweryfikowania hipotezy H powtórzono 12 razy doświadczenie ze zmienną losową X otrzymując wektor losowy (X1 , . . . , X12 ), gdzie Xk , k = 1, 2, . . . , 12
są niezależne i każda z nich ma rozkład taki jak X. Podano też zaobserwowa12
P
Xk równą 8. Wiemy, że zmienna losowa Y
ną wartość zmiennej losowej Y =
k=1
ma rozkład dwumianowy B(12, p). Obszar krytyczny C to zbiór ”nietypowych”
96
wartości statystyki Y , które przy prawdziwości H(p = 21 ) zachodzą z prawdopodobieństwem α. Małe albo duże wartości zmiennej losowej Y przeczą hipotezie H
(tak podpowiada zdrowy rozsądek a uzasadnia lemat Neymana-Pearsona), czyli
zbiór C jest postaci
12
12
X
X
xk ­ 12 − k0 .
xk ¬ k0 lub
C = (x1 , . . . , x12 ) :
k=1
k=1
Ponadto dla poziomu istotności α = 0.1 przy prawdziwości H ma zachodzić równość
P 21 (C) = P 21 (Y ¬ k0 lub Y ­ 12 − k0 ) = 0.1.
Z warunku na poziom istotności wyznaczymy k0 . Ponieważ rozkład B(12, 21 ) jest
symetryczny, więc
P 21 (Y ¬ k0 lub Y ­ 12 − k0 ) = 2 · P 21 (Y ¬ k0 )
i stąd
P 12 (Y ¬ k0 ) =
α
= 0.05.
2
Wykorzystjąc tablice rozkładu dwumianowego B(12, 12 ) otrzymujemy k0 = 2 i
zbiór C ma postać
C = {0, 1, 2, 10, 11, 12}.
Zatem zaobserwowana liczba orłów 8 ∈6 C i na poziomie istotności α = 0.05 nie ma
podstaw do odrzucenia hipotezy o symetryczności monety.
Funkcja mocy tego testu ma postać
M (p) =
2 X
12
k=0
k
12−k
k
p (1 − p)
12 X
12 k
p (1 − p)12−k .
+
k
k=10
Jej wartości:
dla p = 0.1 mamy M (0.1) = 0.88913,
dla p = 0.8 mamy M (0.8) = 0.55835,
dla p = 0.9 mamy M (0.9) = 0.88913,
Rozważmy teraz problem weryfikacji hipotezy
H : p = 21 ,
przeciw alternatywie
K1 : p > 21 ,
97
Do takiego sformułowania K1 skłania nas zaobserwowana liczba orłów. Przy takiej
alternatywie tylko dwie wartości zmiennej losowej Y przeczą hipotezie H, zatem
zbiór krytyczny C1 będzie postaci
C1 = {12 − k1 , . . . , 11, 12}.
Liczbę k1 wyznaczamy z warunku na poziom istotności. Przy prawdziwości H
P 21 (C1 ) = 0.1.
Wykorzystjąc tablice rozkładu dwumianowego B(12, 12 ) otrzymujemy k1 = 3. Zatem zbiór C1 ma postać
C1 = {9, 10, 11, 12}.
Zaobserwowana liczba orłów 8 ∈6 C1 i w problemie H przeciwko K1 nie ma podstaw
do odrzucenia hipotezy o symetryczności monety.
Funkcja mocy określona dla p ­
1
2
ma postać
12 X
12 k
p (1 − p)12−k
M1 (p) =
k
k=9
i jej wartości to:
dla p = 0.8 mamy M1 (0.8) = 0.79457,
dla p = 0.9 mamy M1 (0.9) = 0.97436,
czyli dla p ­ 12 funkcja mocy M1 (p) testu opartego na zbiorze krytycznym C1 ma
większe wartości niż funkcja mocy M (p) testu opartego na zbiorze krytycznym C.
• Przykład 6.2
Producent twierdzi, że liczba godzin pracy (w setkach godzin) produkowanych
przez niego baterii ma rozkład N (30, 4). Na podstawie n = 25 obserwacji próby
prostej obliczono x = 29.
a) Na poziomie istotności α = 0.05 zweryfikować hipotezę, że oczekiwany czas
pracy baterii jest nadal taki sam.
b) Wyznaczyć funkcję mocy testu i odczytać jej wartość dla: m = 29, m = 28,
m = 27.
c) Rozważyć postawione w a) i b) pytania, gdy n = 64.
d) Porównać funkcje mocy testów dla n = 25 i n = 64.
R o z w i ą z a n i e.
Zmienna losowa X (czas pracy baterii) ma rozkład N (m, 4). Wątpimy w podaną
wartość m.
Stawiamy hipotezę
H : m = 30
98
przeciwko
K : m < 30.
Z obserwacji próby prostej (X1 , . . . , X25 ), gdzie Xk (k=1,2,. . . ,25) jest czasem
pracy k-tej baterii i ma rozkład taki, jak X obliczono x = 29. Wiadomo, że statystyka X ma rozkład N m, √σn dla σ = 4, m = 25. Oznacza to, że X ma roz-
kład N (m, 0.8). Przy prawdziwości hipotezy H X ma w pełni określony rozkład
N (30, 0.8). Wykorzystamy to do wyznaczenia obszaru krytycznego.
Zbiorów, które spełniają warunek na poziomie istotności P (X
α = 0.05 jest nieskończenie wiele, np. zbiór C1 , C2 , . . . .
∈C
: m = 30) =
(z rysunku widać, że pole między zbiorem a wykresem gęstości N (30, 0.8) ma
wynosić α). Wśród nich szukamy takiego, dla którego funkcja mocy, dla wszystkich
alternatyw (czyli m < 30) jest największa (wtedy prawdopodobieństwo błędu
drugiego rodzaju jest najmniejsze). Te warunki spełnia jedynie zbiór C postaci C =
(−∞, c0 ). Aby obliczyć c0 wykorzystamy fakt, że X przy prawdziwości hipotezy
H ma rozkład N (30, 0.8). Zatem
c0 −30
c0 −30
0.05 = P (X ∈ (−∞, c0 )) = P (X < c0 ) = P X−30
<
=
Φ
.
0.8
0.8
0.8
Z tablic wartości dystrybuanty Φ(t) otrzymujemy
−30
= 0.95 = Φ(1.64).
Φ c00.8
Stąd, dzięki różnowartościowości funkcji Φ(t) mamy
c0 −30
0.8
= 1.64, więc c0 = 28, 69.
Zaobserwowana wartość x = 29 ∈6 (−∞, 28, 69), więc nie ma podstaw do odrzucenia
hipotezy H na poziomie istotności α = 0.05.
b) Wartości funkcji mocy dla parametru m to prawdopodobieństwo odrzucenia H
(czyli zajścia zdarzenia C), gdy X ma rozkład N (m, 0.8). Zatem
c0 −m
<
= Φ(1.25(28.69 − m)).
M (m) = Pm (X < c0 ) = P X−m
0.8
0.8
Niektóre wartości M (m) to
M (29) = 0.3483,
M (28) = 0.8051,
M (27) = 0.9821.
99
Moc testu rośnie wraz ze wzrostem odległości między alternatywą m a wartością
parametru (30) określoną w hipotezie zerowej.
c) Dla n = 64 zmienna losowa X ma rozkład N (m, 0.5). Obszar krytyczny C1
wyznaczony analogicznie, jak w punkcie a) ma postać C1 = (−∞, 29.18). Funkcja
mocy M1 (m) jest postaci
M1 (m) = Pm (X < 29.18) = Φ(2(29.18 − m)).
Jej niektóre wartości M1 (m) to
M1 (29) = 0.6443,
M (28) = 0.9909,
M (27) = 1.
I ogólnie: M (30) = M1 (30) = α, natomiast dla każdego m < 30 (z własności Φ(t))
mamy M (m) < M1 (m). Na tym samym poziomie istotności test oparty na próbie
o większej długości ma większą moc.
• Przykład 6.3
Grubość płytki produkowanej przez automat jest zmienną losową o rozkładzie
normalnym N (m, σ) i znanej dyspersji σ = 4. Zmierzone (w milimetrach) grubości 9 płytek wyniosły: 56, 52, 48, 49, 50, 47, 51, 48, 54. Przetestować hipotezę
H : m = 50 przeciwko K : m 6= 50.
R o z w i ą z a n i e.
Podane grubości płytek to obserwacje próby prostej (X1 , . . . , X9 ), gdzie Xk (k=1,2,. . . ,9)
jest zmienną losową o rozkładzie N (m, 4). Statystyka X przy prawdziwości hipotezy H ma rozkład N (50, 4). Obszar krytyczny przy takiej alternatywie wyznacz0ny
(U ma rozkład N (0, 1))
w oparciu o standaryzację X, czyli statystykę U = X−50
4
jest postaci C = (−∞, −c) ∪ (c, ∞)
Dla podanych obserwacji mamy x = 50.6, więc u = 0.139. Przy zaobserwowanej wartości u odrzucamy hipotezę H, gdy u ∈ C, czyli gdy 1.39 > c. Najmniejszy poziom istotności ma zbiór krytyczny (−∞, −1.39) ∪ (1.39, ∞) i wynosi on
100
2 · Φ(−1.39) = 0.1646. Zatem p-wartość dla przeprowadzonego testu równa jest
0.1646.
Obliczanie p-wartości umożliwia w pewnym sensie uniknięcie określania poziomu istotności α przed testowaniem. Jeżeli przyjęta wartość α jest mniejsza niż
p-wartość, to nie ma podstaw do odrzucenia H, przy α większej niż p-wartość
odrzucamy H. Pamiętajmy jednak, że p-wartość, jako funkcja obliczana do zaobserwowanych wartości próby losowej, jest zmienną losową i nie powinniśmy jej
mylić z poziomem istotności, który jest ustaloną liczbą.
6.3.1
Testy istotności
W testach istotności podejmuje się jedynie decyzję odrzucenia sprawdzanej hipotezy H z określonym małym błędem, albo stwierdza brak podstaw do jej odrzucenia.
Przeprowadzenie testu istotności można opisać następującymi krokami:
1. Stawiamy hipotezę zerową H określającą nieznany rozkład prawdopodobieństwa
P0 obserwowanej zmiennej losowej (w hipotezach parametrycznych określamy wartości parametrów);
2. Konstruujemy statystykę testową T (T jest funkcją próby losowej X1 , X2 , . . . , Xn ),
której rozkład prawdopodobieństwa przy założeniu prawdziwości H jest całkowicie
znany;
3. Wyznaczamy obszar krytyczny C (w oparciu o statystykę T ) tak, żeby przy
prawdziwości H zachodziła nierówność
P0 (x1 , . . . , xn ) : T (x1 , . . . , xn ) ∈ C ¬ α
W większości problemów obszar krytyczny ma jedną z postaci:
(−∞, c), (d, ∞), (−∞, c) ∪ (d, ∞).
4. Podejmujemy decyzję: jeżeli dla zaobserwowanej wartości (x1 , . . . , xn ) próby
losowej wartość T (x1 , . . . , xn ) ∈ C, to odrzucamy H na poziomie istotności α, w
przeciwnym przypadku nie ma podstaw do odrzucenia H.
6.3.2
Testy parametryczne.
Poniżej przedstawimy najczęściej wykorzystywane testy parametryczne, α oznacza
poziom istotności.
1) Test dla średniej przy znanej wariancji.
(X1 , X2 , . . . , Xn ) — próba prosta z populacji, której cecha ma rozkład N (m, σ),
przy czym wariancja σ 2 jest znana.
H : m = m0
K : m 6= m0
Statystyka testowa U =
X−m0 √
n
σ
Obszar krytyczny ma postać
ma przy prawdziwości H rozkład N (0, 1).
101
C = (−∞, u0 ) ∪ (u0 , ∞),
gdzie Φ(u0 ) = 1 −
α
2
(u jest kwantylem rzędu 1 −
rozkładu N (0, 1)).
α
2
Dla problemu z alternatywą K : m > m0 mamy C = (u0 , ∞), Φ(u0 ) = 1 − α.
Dla problemu z alternatywą K : m < m0 mamy C = (−∞, −u0 ), Φ(u0 ) = 1 − α.
Dla dużych wartości n statystyka U ma rozkład asymptotycznie normalny dla dowolnych (nie tylko normalnych) rozkładów cechy, o ile tylko istnieje ich wariancja.
2) Test dla średniej przy nieznanej wariancji.
(X1 , X2 , . . . , Xn ) — próba prosta z populacji, której cecha ma rozkład N (m, σ),
przy czym wariancja σ 2 nie jest znana.
H : m = m0
K : m 6= m0
√
0
n−1
Statystyka testowa T = X−m
s
Studenta z (n − 1) stopniami swobody.
ma przy prawdziwości H rozkład t-
Obszar krytyczny ma postać
C = (−∞, t0 ) ∪ (t0 , ∞),
gdzie t0 jest kwantylem rzędu 1 −
α
2
rozkładu tn−1 ).
Dla problemu z alternatywą K : m > m0 mamy C = (t0 , ∞), a dla problemu z
alternatywą K : m < m0 mamy C = (−∞, −t0 ), gdzie t0 jest kwantylem rzędu
1 − α rozkładu tn−1 ).
Kiedy rozmiar próby n jest duży, rozkład graniczny tn−1 , przy prawdziwości H,
jest normalny N (0, 1) dla dowolnych (nie tylko normalnych) rozkładów cechy, o ile
tylko istnieje ich wariancja.
3) Test dla dwu średnich przy znanych wariancjach.
Niech (X1 , X2 , . . . , Xn ), (Y1 , Y2 , . . . , Ym ) będą dwiema niezależnymi próbami prostymi z dwu populacji o rozkładach odpowiednio N (m1 , σ1 ) oraz N (m2 , σ2 ), przy
czym wariancje σ12 , σ22 są znane.
H : m1 = m2
K : m1 6= m2
Statystyka testowa
X −Y
U=q 2
σ22
σ1
n + m
ma, przy prawdziwości H, rozkład N (0, 1).
Obszar krytyczny ma postać
C = (−∞, u) ∪ (u, ∞),
gdzie Φ(u) = 1 −
α
2
(u jest kwantylem rzędu 1 −
α
2
rozkładu N (0, 1)).
102
Dla problemu z alternatywą K : m1 > m2 mamy C = (u, ∞), Φ(u) = 1 − α.
Dla problemu z alternatywą K : m1 < m2 mamy C = (−∞, −u), Φ(u) = 1 − α.
Dla dużych wartości n statystyka U ma rozkład asymptotycznie normalny dla dowolnych (nie tylko normalnych) rozkładów cechy, o ile tylko istnieje ich wariancja.
4) Test dla dwu średnich przy nieznanych wariancjach.
Niech (X1 , X2 , . . . , Xn ), (Y1 , Y2 , . . . , Yn ) będą dwiema niezależnymi próbami prostymi z dwu populacji o rozkładach odpowiednio N (m1 , σ1 ) oraz N (m2 , σ2 ), przy
czym wariancje σ12 , σ22 są nieznane ale równe (σ1 = σ2 ).
H : m1 = m2
K : m1 6= m2
Statystyka testowa
U=p
X −Y
ns2X + ms2Y
r
nm(n + m − 2)
n+m
ma, przy prawdziwości H, rozkład t-Studenta z (n + m − 2) stopniami swobody..
Obszar krytyczny ma postać
C = (−∞, u) ∪ (u, ∞),
gdzie Φ(u) = 1 −
α
2
(u jest kwantylem rzędu 1 −
α
2
rozkładu tn+m−2 ).
Dla problemu z alternatywą K : m1 > m2 mamy C = (t0 , ∞) a dla problemu z
alternatywą K : m1 < m2 — C = (−∞, −t0 ), gdzie t0 jest kwantylem rzędu 1 − α
rozkładu tn+m−2 ).
Założenie o równości wariancji sprawdza się np. opisanym dalej testem F.
Gdy Xi , Yj mają rozkłady o skończonych nieznanych wariancjach, ale rozmiary
prób n i m są duże, to do testowania używamy statystyki
U=q
X −Y
s2X
n−1
+
s2Y
m−1
,
która przy prawdziwości H ma rozkład N (0, 1). 5) Test dla wskaźnika struktury
(X1 , X2 , . . . , Xn ) — próba prosta z populacji, której cecha ma rozkład B(1, p),
p ∈ (0, 1).
H : p = p0
K : p 6= p0
Statystyka testowa
B(n, p0 ).
T =
n
P
i=1
Obszar krytyczny ma postać
ma przy prawdziwości H rozkład Bernoulli’ego
103
C = {0, 1, . . . , k0 , l0 , . . . , n}
gdzie
Pp0 (T ¬ k0 ) = α1 , Pp0 (T ­ l0 ) = α2 ,
, α1 + α2 = α.
Zwykle przyjmuje się, że α1 = α2 = α2 . Jednak, gdy p0 leży bliżej 0, należy
wybrać α1 większe od α2 , a gdy p0 leży bliżej 1, wybieramy α1 mniejsze niż α2 .
Dla problemu z alternatywą K : p < p0 obszar krytyczny jest postaci C =
{0, 1, . . . , k0 } i Pp0 (T ¬ k0 ) = α, a dla problemu z alternatywą K : p > p0 obszar
krytyczny jest postaci C = {l0 , . . . , n} i Pp0 (T ­ l0 ) = α.
W przypadku n ­ 20 i 10 ¬ np0 ¬ n − 10 można wykorzystać statystykę
n
P
Xi − np0
i=1
,
U=p
np0 (1 − p0 )
której rozkład jest asymptotycznie normalny N (0, 1).
5) Test dla χ-kwadrat dla wariancji.
Niech (X1 , X2 , . . . , Xn ) będzie próbą prostą z populacji, której cecha ma rozkład
N (m, σ).
H : σ 2 = σ02
K : σ 2 6= σ02
Statystyka testowa χ2 =
stopniami swobody.
ns2
σ02
ma przy prawdziwości H rozkład χ-kwadrat z (n−1)
Obszar krytyczny ma postać
C = (0, c1 ) ∪ (c2 , ∞),
gdzie c1 jest kwantylem rzędu α2 , zaś c2 jest kwantylem rzędu 1 −
kwadrat z (n − 1) stopniami swobody.
α
2
rozkładu χ-
W zastosowaniach K ma najczęściej postać K : σ 2 > σ02 i wtedy C = (c2 , ∞),
gdzie c2 jest kwantylem rzędu 1 − α rozkładu χ-kwadrat z (n − 1) stopniami swobody.
q 2
√
Dla n wielkich zmienna losowa 2ns
ma przy prawdziwości H rozkład N ( 2n − 3, 1).
σ2
0
7) Test F równości dwu wariancji.
Niech (X1 , X2 , . . . , Xn ), (Y1 , Y2 , . . . , Ym ) będą dwiema niezależnymi próbami prostymi z dwu populacji o rozkładach odpowiednio N (m1 , σ1 ) oraz N (m2 , σ2 ).
H : σ12 = σ22
K : σ12 6= σ22
104
Statystyka testowa
F =
1
n−1
1
m−1
n
P
i=1
m
P
(Xi − X)2
i=1
(Yi − Y )2
ma przy prawdziwości H rozkład F-Snedecora z (n−1), (m−1) stopniami swobody
2
2
(krótko Fn−1,m−1 ). Zakładamy, że licznik S X i mianownik S Y zmiennej F są
nieobciążonymi estymatorami odpowiednio σ12 i σ22
Obszar krytyczny ma postać
C = (0, c1 ) ∪ (c2 , ∞),
gdzie c1 jest kwantylem rzędu
Fn−1,m−1 .
α
2,
zaś c2 jest kwantylem rzędu 1 −
Zauważmy, że jeżeli F ma rozkład Fn−1,m−1 , to
1
F
α
2
rozkładu
ma rozkład Fm−1,n−1 . Obli2
2
czając wartość statystyki F należy w liczniku wziąć większą z wartości S X , S Y ,
dokonując ewentualnie zmiany nazwy zmiennej X na Y . Korzystanie z tablic rozkładu F-Snedecora ułatwi uwaga, że jeżeli c jest kwantylem rzędu α rozkładu Fn,m ,
to 1c jest kwantylem rzędu (1 − α) rozkładu Fm,n .
5) Test Bartleta (dla porównania kilku wariancji.
Test ten wykorzystywany jest do weryfikowania hipotezy o równości kilku wariancji σi2 dla k populacji o rozkładach normalnych. Niech Xi = (Xi1 , Xi2 , . . . , Xini ),
i = 1, 2, . . . , k będą niezależnymi próbami prostymi z rozkładów N (mi , σi ).
H : σ12 = σ22 = . . . = σk2 = σ02
K : σi2 6= σ02 przynajmniej dla jednego i.
Statystyka testowa
T =
1
d
gdzie
N=
n
P
(N − k) ln S 2 −
ni ,
d=1+
i=1
oraz
Si2 =
1
ni −1)
ni
P
i=1
Xij − X i
2
(ni − 1) ln Si2 ,
k
P
i=1
1
3(k−1)
P
n
i=1
1
(ni −1)
oraz S 2 =
1
N −k
−
k
P
1
N −k
i=1
(ni − 1)Si2 .
ma przy prawdziwości H asymptotyczny (przy ni → ∞) rozkład χ-kwadrat z
(k − 1) stopniami swobody (χ2k−1 ).
Obszar krytyczny ma postać
C = (c, ∞),
105
gdzie c jest kwantylem rzędu 1 − α rozkładu χ2k−1 .
Zauważmy ścisły związek między testami parametrycznymi a przedziałami ufności dla parametrów. Konstrukcja zbioru krytycznego i budowa przedziału ufności
opierają się na równoważnych równaniach.
• Przykład 6.4
Dwa automaty nanoszą na układy elektryczne warstwę krzemu. Wiadomo, że grubość powłoki nanoszonej przez automaty jest zmienną losową o rozkładzie normalnym. Na poziomie ufności α = 0.05 zweryfikować hipotezę, że automaty nanoszą
powłokę o takiej samej grubości, jeżeli pomiary grubości wyniosły (w ...m):
- dla pierwszego automatu: 17, 12, 20, 18, 19, 13, 14, 16,
- dla drugiego automatu: 15, 12, 11, 18, 14, 16, 13.
R o z w i ą z a n i e.
Oznaczmy przez X i Y grubość powłoki nanoszonej odpowiednio przez pierwszy
i drugi automat. Wiemy, że X ma rozkład N (m1 , σ1 ) a Y ma rozkład N (m2 , σ2 ).
Chcemy zweryfikować hipotezę
H : m1 = m2
K : m1 6= m2
na poziomie ufności α = 0.05.
Aby można było zastosować test o równości dwu średnich (test 4), należy sprawdzić, czy obie zmienne mają równe wariancje. Najpierw zatem zweryfikujemy testem F hipotezę H1 o równości wariancji.
H1 : σ12 = σ22
K1 : σ12 6= σ22
Niech poziom ufności tez ma wartość α = 0.05, n = 8, m = 7. Dla naszych
obserwacji mamy:
x=
oraz
1
8
8
P
i=1
8
P
i=1
xi =
129
8
y=
= 16.1,
7
P
(xi − x)2 = 58.9,
i=1
czyli statystyka testowa
F =
6·
7·
n
P
i=1
m
P
1
7
7
P
i=1
99
7
= 14.1
(yi − y)2 = 34.9,
(Xi − X)2
i=1
yi =
(Yi − Y )2
106
przyjmuje wartość f =
6·58,9
7·34,9
= 1, 45.
Wiemy, że przy prawdziwości H1 statystyka F ma rozkład F-Snedecora z (n −
1), (m − 1) stopniami, czyli rozkład F7,6 . Obszar krytyczny jest postaci
C = (0, c1 ) ∪ (c2 , ∞),
gdzie c1 jest kwantylem rzędu α2 = 0, 975 rozkładu F7,6 i jego wartość odczytana z
tablicy wynosi 5, 1186. Wartość c1 jest odwrotnością kwantyla rzędu 0,975 rozkładu
1
F7,6 i wynosi c1 = 5,6955
= 0, 1756. Wartość statystyki F równa 1,45 nie należy
do zbioru krytycznego C = (0, 0.1756) ∪ (5.1186, +∞), więc nie ma podstaw do
odrzucenia hipotezy H1 o równości wariancji. Zwróćmy uwagę, że brak podstaw do
odrzucenia H1 nie jest tożsame z jej przyjęciem. W zastosowaniach praktycznych
tak jednak najczęściej postępujemy. Do weryfikacji hipotezy H o równości grubości
powłok wykorzystamy zatem statystykę testową
r
X −Y
nm(n + m − 2)
,
tn+m−2 = p 2
n+m
nsX + ms2Y
która dla danych obserwacji przyjmuje wartość
r
7 · 8 · 13
16.1 − 14.1
= 1.439.
t= √
15
58.9 + 34.9
Statystyka testowa t13 ma przy prawdziwości H rozkład t-Studenta z 13 stopniami
swobody i z tablic tego rozkładu odczytujemy, że kwantyl rzędu α2 = 0, 975 wynosi
t0 = 2.1604. Obszarem krytycznym jest zbiór C = (−∞, −2.1604) ∪ (2.1604, ∞).
Ponieważ t = 1.439 ∈6 C, więc na poziomie ufności α = 0, 05 nie ma podstaw do
odrzucenia hipotezy o równości grubości powłok nanoszonych przez dwa automaty.
6.3.3
Testy nieparametryczne.
Testy zgodności to testy, w których przypuszczenie o rozkładzie postaci: dystrybuanta F (x) badanej cechy X populacji jest konkretną dystrybuantą F0 (x).
H : F (x) = F0 (x) dla każdego x ∈ IR,
K : F (x) 6= F0 (x) przynajmniej dla jednego x ∈ IR.
Wnioskowanie opieramy o obserwację próby prostej (X1 , X2 , . . . , Xn ), gdzie dla
k = 1, 2, . . . , n dystrybuantą Xk jest F (x).
• Test zgodności χ-kwadrat Pearsona.
Obserwacje próby prostej (x1 , x2 , . . . , xn ) rozdzielamy na r klas niekoniecznie równej długości, przy czym w każdej klasie powinno być co najmniej 8 elementów oraz
r
P
ni = n, gdzie ni oznacza liczebność i-tej klasy.
i=1
klasa (i)
liczebność klasy (ni )
[a0 , a1 )
n1
[a1 , a2 )
n2
...
...
[ar−1 , ar )
Niech pi = F0 (ai ) −
nr
107
F0 (ai−1 ). Zauważmy, że pi jest prawdopodobieństwem przyjmowania przez zmienną losową o dystrybuancie F0 wartości w przedziale [ai−1 , ai ). Statystyka testowa
r
P
(ni −npi )2
ma, przy prawdziwości H i dla n → ∞ rozkład chi-kwadrat z
χ2 =
npi
i=1
(r −l −1) stopniami swobody, gdzie l określa liczbę parametrów, które estymujemy
metodą największej wiarogodności, aby w pełni opisać dystrybuantę F0 (x). Dla
F0 (x) w pełni określonej mamy l = 0. Obszar krytyczny C jest postaci C = (c, ∞),
gdzie c jest kwantylem rzędu (1 − α) rozkładu chi-kwadrat z (r − l − 1) stopniami
swobody.
• Przykład 6.5
Aby sprawdzić symetryczność kostki do gry rzucono nią 120 razy i otrzymano
2
3
4
5
6
liczba oczek (i) 1
następujące wyniki
Na poziomie
liczebność (ni ) 18 24 16 23 22 17.
istotności α = 0.1 zweryfikować hipotezę o symetryczności kostki.
R o z w i ą z a n i e.
Symetryczność kostki oznacza, że prawdopodobieństwo pi otrzymania ścianki o
i-oczkach wynosi 61 dla i = 1, 2, . . . , 6.
H : P (1) = . . . = P (6) = 16 ,
K : P (i) 6= 61 dla pewnego i.
Dla dyskretnych zmiennych losowych klasę mogą stanowić wartości zmiennej losowej, mamy więc 6 klas (r=6), każda o liczebności większej niż 8. Rozkład opisany
w H jest w pełni określony, więc l = 0.
r
P
(ni −npi )2
Wartość statystyki χ2 =
dla naszych danych wynosi χ2 = 2.9.
npi
i=1
Obszar krytyczny C jest postaci C = (c, ∞), gdzie c jest odczytane z tabeli rozkładu chi-kwadrat z 5 stopniami swobody (jako kwantyl rzędu 0.9) równe jest
c = 9.24. Ponieważ 2.9 ∈6 (9.24, ∞), więc nie ma przyczyn do odrzucenia hipotezy
o symetryczności kostki.
Przy założeniu, że nieznana postać dystrybuanty badanej cechy populacji jest
funkcją ciągłą, stosowany jest często test Kołmogorowa.
• Test zgodności Kołmogorowa
H : F (x) = F0 (x) dla każdego x ∈ IR, F0 (x) jest funkcją ciągłą na IR
K : F (x) 6= F0 (x) dla pewnego x ∈ IR.
Jako statystykę testową Kołmogorow wprowadził
Dn = supx ∈ IR |F0 (x) − Fn (x)|,
gdzie Fn jest dystrybuantą empiryczną z próby (X1 , X2 , . . . , Xn ). Rozkład Dn
zależy od n a nie zależy od F0 . Obszar krytyczny jest postaci C = (c, 1], gdzie c
108
jest kwantylem rzędu 1 − α rozkładu Dn (wartości
√ c odczytujemy z tablic kwantyli
Dn ). Gdy n → ∞, ciąg dystrybuant Kn (x) = P ( nDn < x), x > 0 jest zbieżny do
dystrybuanty
tzw. rozkładu Kołmogorowa i wówczas obszar krytyczny jest postaci
C = √cn , 1 , gdzie c jest kwantylem rzędu 1 − α rozkładu Kołmogorowa.
• Przykład 6.6
Testem Kołmogorowa na poziomie istotności α = 0.05 zweryfikować hipotezę, że
próba: 0.24, 0.51, 0.89, 1.56, 4.6 pochodzi z rozkładu wykładniczego z parametrem
λ = 1.
R o z w i ą z a n i e.
Stawiamy hipotezę:
0
dla x ¬ 0,
H : F (x) = F0 (x), gdzie F0 (x) = =
1 − e−x dla x > 0
przeciwko
K : F (x) 6= F0 (x).
Ponieważ F0 (x), jako dystrybuanta, jest funkcją niemalejącą a Fn (x) jest funkcją przedziałami stałą, to wartością statystyki Dn jest największa z liczb postaci
|F0 (xi ) − Fn (xi )|, |F0 (xi ) − Fn (x+
i )|, gdzie xi dla i = 1, 2, . . . , n są uporządkowanymi rosnąco wartościami próby.
Zbierzmy obliczenia w tabeli, zauważając, że dla dystrybuanty empirycznej
+
i
F5 (x) mamy: F5 (xi ) = i−1
5 , F5 (xi ) = 5 .
F0 (xi ) − F5 (xi ) F0 (xi ) − F5 (x+
i )
0.2134
0.034
0.1995
−0.0005
0.1893
−0.0107
0.1898
−0.0102
0.1899
−0.0101
= 0.2134
Stąd d5 = max F0 (xi ) − F5 (xi ), F0 (xi ) − F5 (x+
i )
i
1
2
3
4
5
xi
0.24
0.51
0.89
1.56
4.6
F0 (xi )
0.2134
0.3995
0.5893
0.7899
0.9899
Kwantyl rzędu 1 − α = 0.95 odczytany z tablicy rozkładu D5 określa obszar krytyczny jako C = (0.563, 1]. Ponieważ d5 ∈6 C, więc nie ma podstaw do odrzucenia
hipotezy, że próbka pochodzi z rozkładu wykładniczego z parametrem λ = 1.
Do sprawdzenia hipotezy o normalności rozkładu (bez określenia parametrów
m, σ) wykorzystamy test Shapiro-Wilka.
109
6.3.4
Testy niezależności.
Przy badaniu populacji jednocześnie ze względu na dwie cechy często interesuje
nas pytanie o ich niezależność.
Niexh (X, Y ) oznacza dwuwymiarowy wektor losowy dyskretny przyjmujący wartości (xi , yj ), i = 1, 2, . . . , r, j = 1, 2, . . . , s z prawdopodobieństwami pij =
P (X = xi , Y = yj ). Zmienne losowe X, Y są niezależne wtedy i tylko wtedy,
s
P
pij = P (X = xi ) jest rozkładem brzegowym X
gdy pij = pi· · p·j , gdzie pi· =
j=1
oraz p·j =
r
P
pij = P (Y = yj ) jest rozkładem brzegowym Y .
i=1
Niech (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) będzie próbą z rozkładu wektora (X, Y ).
• Test χ-kwadrat niezależności
H : pij = pi· · p·j dla wszystkich i = 1, 2, . . . , r, j = 1, 2, . . . , s
pij 6= pi· · p·j przynajmniej dla jednej pary (i, j).
Statystyka testowa postaci
ni· n′ 2
r
s P
n′ij − n ·j
P
2
χ =n
,
ni· n·j
j=1 i=1
gdzie:
n′ij jest liczbą obserwacji w próbie długości n,
s
P
nij jest liczbą par obserwacji, które na pierwszym miejscu mają xi ,
ni· =
n·j =
oraz
j=1
r
P
n′ij
i=1
r
s P
P
j=1 i=1
jest liczbą par obserwacji, które na drugim miejscu mają yj
nij = n ma przy prawdziwości H asymptotyczny (dla n → ∞) roz-
kład χ-kwadrat o (r − 1)(s − 1) stopniach swobody.
Wygodnie jest przedstawiać liczebności nij w postaci tzw. tablic wielodzielXY
y1
y2
. . . ys
ni·
x1
n11 n12 . . . n1s n1·
x2
n21 n22 . . . n2s n2·
czych
..
..
..
..
..
.. Dla tablicy wymiaru 2 × 2 statystyka
.
.
.
.
.
.
xr
nr1 nr2 . . . nrs nr·
n·j
n·1 n·2 . . . n·s
n
χ-kwadrat ma postać
χ22 = n
• Przykład 6.7
(n11 n22 − n12 n21 )2
.
n1· n2· n·1 n·2
110
Dyskietki produkowane są trzema różnymi metodami. Wysunięto przypuszczenie,
że wadliwość dyskietki nie zależy od metody produkcji. Sprawdzono jakość 270
XY
I
II III ni·
1
40 80 60 180
losowo wybranych dyskietek otrzymując
Na pozio2
10 60 20
90
n·j
50 40 80
mie istotności α = 0.05 zwaryfikować hipotezę o niezależności jakości dyskietki od
metody wytwarzania.
R o z w i ą z a n i e.
W podanej tabeli zmienna losowa X określa jakość dyskietki (x1 = 0 oznacza wadliwą, x2 = 1 — dobrą). Wartości zmiennej losowej Y to metody produkcji, czyli
y1 = I, y2 = II, y3 = III. Wpisane w tabelę liczby
??????????
W pewnych zastosowaniach spotykamy często cechy o charakterze jakościowym,
które trudno wyrazić ilością jednostek w obiektywnym układzie pomiarowym. Rozpatrzy dla przykładu postępy z algebry studentów pewnej grupy. Zamiast ”zmierzyć” (jak?) postępy w nauce ustawiamy wszystkich studentów w kolejności od
studenta, który ma najmniejsze postępy do studenta, który ma największe postępy w nauce algebry. Numer miejsca studenta w takim uporządkowaniu to ranga
cechy ”postępy w nauce algebry”. Następne cechy, które przedstawimy, oparte są
na pojęciu ”rangi”.
• Definicja 6.2
Rangą ri = r(xi ) współrzędnej xi wektora (x1 , x2 , . . . , xn ) nazywamy numer miejsca, które zajmuje xi w uporządkowanym rosnąco ciągu utworzonego
ze wszystkich wyrazów xi .
Dla cechy typu ciągłego prawdopodobieństwo, że wartości obserwacji powtórzą
się wynosi 0. Jeżeli wartości obserwacji są różne, to rangi są im przypisane jednoznacznie. A co zrobić, jeżeli wartości obserwacji powtarzają się? Wtedy rangę
każdej z nich określamy jako średnią arytmetyczną numerów miejsc, jakie zajmują
te wartości w uporządkowaniu.
• Przykład 6.8
Określić rangi dla następujących obserwacji:
a) 5, 3.1, 6, 2, 4
b) 9, 5, 4, 6, 5, 8, 5, 5
R o z w i ą z a n i e.
a) Obserwacje x1 = 5, x2 = 3.1, x3 = 6, x4 = 2, x5 = 4 uporządkujmy rosnąco:
2 < 3.1 < 4 < 5 < 6, czyli x4 < x2 < x5 < x1 < x3
Ich rangi to numer miejsca w tak uporządkowanym ciągu, czyli
r(x4 ) = 1, r(x2 ) = 2, r(x5 ) = 3, r(x1 ) = 4, r(x3 ) = 5.
111
Krótko — rangi 5, 3.1, 6, 2, 4, to 4, 2, 5, 1, 3.
b) Obserwacje x1 = 9, x2 = 5, x3 = 4, x4 = 6, x5 = 5, x6 = 8, x7 = 5, x8 = 5
uporządkujmy rosnąco:
4 < 5 ¬ 5 ¬ 5 ¬ 5 < 6 < 8 < 9, czyli x3 < x2 < x5 < x1 < x3 ?????
Ponieważ wartość 5 występuje na drugim, trzecim, czwartym i piątym miejscu,
więc rangą 5 jest 14 (2 + 3 + 4 + 5) = 3.5 Zatem rangi obserwacji są następujące
8, 3.5, 1, 6, 3.5, 7, 3.5, 3.5
6.3.5
Testy jednorodności.
Testy jednorodności służą do sprawdzenia hipotezy, czy dwie niezależne próby
losowe mają taki sam rozkład. Opiszemy test wykorzystujący rangi.
• Test Wilcoxona - Manna - Whitneya.
Niech (X1 , X2 , . . . , Xn ), (Y1 , Y2 , . . . , Ym ) będą dwiema niezależnymi próbami losowymi o ciągłych dystrybuantach F (x), G(x). Stawiamy hipotezę
H : F (x) = G(x) dla każdego x ∈ IR.
Hipoteza alternatywna może mieć jedną z postaci
K : F (x) 6= G(x) dla pewnego x ∈ IR albo......
Statystyka testowa jest postaci
U = R1 −
n(n + 1)
,
2
gdzie R1 jest sumą rang przydzielonych wartościom (X1 , X2 , . . . , Xn ) w łącznym
ciągu obserwacji (X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Ym ).
Rozkład prawdopodobieństwa zmiennej R1 to rozkład Wilcoxona z parametrami
n, m. Obszar krytyczny ma postać
C = [0, w) ∪ (n · m − w, nm] dla hipotezy K
C1 = (n · m − w1 , nm] dla hipotezy K1
C2 = [0, w2 ) dla hipotezy K
gdzie
P (|U | > w) = P (U > w1 ) = P (U < w2 ) = α.
Gdy długości prób są duże, to rozkład statystyki
R1 −
Z= q
n(m+n+1)
2
nm(m+n+1)
12
112
jest, przy prawdziwości H, asymptotycznie normalny N (0, 1) (gdy n → ∞, m →
∞). W praktyce rozkład zmiennej Z przybliżamy rozkładem N (0, 1) dla n ­
4, m ­ 4 i n + m ­ 20. Obszar krytyczny dla K jest postaci
C = −∞, −uα ∪ (uα , ∞),
gdzie Φ(uα ) = 1 − α2 .
• Przykład 6.9
Czasy wykonywania (ws) takich samych elementów przez dwa automaty są następujące:
3, 7.2, 4, 10, 2, 6, 8.1, 5.3, 9, 9.2 — dla pierwszego automatu,
8.4, 3.3, 6.1, 5.5, 8.8, 7, 5, 6.7, 8, 3.8 — dla drugiego automatu,
Na poziomie istotności α = 0, 05 zweryfikować hipotezę, że czasy wykonywania
elementów przez te dwa automaty są zmiennymi losowymi o tym samym rozkładzie.
R o z w i ą z a n i e.
Czasy wykonywania elementów przez pierwszy automat oznaczmy przez xi , i =
1, 2, . . . , 11. Łączny ciąg obserwacji ustawiamy niemalejąco
2¡3¡3.3¡3.8¡4¡5¡5.3¡5.5¡6¡6.2¡6.4¡6.7¡7¡7.2¡8¡8.1¡8.4¡8.8¡9¡9.2¡10
Rangi xi w łącznym ciągu obserwacji to
2, 14, 5, 21, 1, 9, 16, 7, 19, 20, 10.
Ich suma R1 wynosi 124. Mamy: n = 11, m = 10, n + M = 21. Wartość statystyki
testowej
R1 −
Z= q
n(m+n+1)
2
nm(m+n+1)
12
= 0.153
Obszar krytyczny dwustronny na poziomie istotności α = 0.05 ma postać C =
−∞, −1.96 ∪ (1.96, ∞). Ponieważ 0.153 ∈6 C, więc nie ma podstaw do odrzucenia
hipotezy, że czasy wykonywania elementów przez te dwa automaty są jednakowe.
• Test znakowanych rang Wilcoxona.
Jest to test jednorodności do porównywania rozkładów dla par obserwacji, gdy
składowe w parze są zależne. Obserwowane pary obserwacji to na przykład wartości porównywanej cechy przed i po zastosowaniu pewnego zabiegu, terapii, metody.
Niech (X, Y ) będzie wektorem losowym, którego współrzędne X, Y są typu ciągłego. Oznaczmy dystrybuantę zmiennej losowej D = Y − X przez D(t). Jeżeli
rozkłady zmiennych losowych X, Y są jednakowe, to zmienne losowe Y − X oraz
X −Y mają też taki sam rozkład, a skoro D i −D mają taki sam rozkład, więc rozkład D jest symetryczny względem 0. Hipotezę H o równości rozkładów zmiennych
113
X, Y zastępujemy hipotezą ogólniejszą, że dystrybuanta D(t) zmiennej losowej D
jest symetryczna względem 0.
H : D(t) = 1 − D(−t) dla każdego t ∈ IR, D(t) ciągła
przeciwko
K : D(t) 6= 1 − D(−t) i istnieje t0 takie, że D(t0 ) > 1 − D(t0 ).
Niech (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) będzie ciągiem niezależnych par obserwacji
o takim samym rozkładzie dwuwymiarowym (zmienne w parze mogą być zależne).
Statystyka testowa W + zdefiniowana jako suma rang wartości bezwzględnych
różnic di = xi − yi odpowiadających dodatnim różnicom di ma, przy założeniu
prawdziwości H rozkład niezależny od D(t), ponadto
EW + =
n(n+1)
4
oraz varw+ =
n(n+1)(2n+1)
.
24
Obszar krytyczny
C = [0, w) ∪
gdzie w jest kwantylem rzędu 1 −
α
2
n(n+1)
2
,
− w, n(n+1)
2
rozkładu W + .
Dla n ­ 25 zaleca się już przybliżanie rozkładu zmiennej
W + − EW +
√
VarW +
rozkładem normalnym N (0, 1).
W oparciu o wstępne rozważania w ostatnim teście o porównywaniu par obserwacji
łatwo można skonstruować nieparametryczny test dla porównania mediany dwu
zmiennych losowych.
• Test dla porównania mediany (test znaków).
Zakładamy, że zmienne losowe X i Y mają ciągłe dystrybuanty.
H : medianaX = medianaY ,
K : medianaX 6= medianaY .
K1 : medianaX > medianaY .
Przy założeniu prawdziwości H zachodzi
P (Di < 0) = D(0) = 12 .
Wtedy zmienna losowa Bn równa liczbie
dodatnich Di wśród n obserwacji D1 , D2 , . . . , Dn
ma rozkład Bernoulli’ego B n, 12 . Obszar krytyczny dla hipotezy alternatywnej
K jest postaci
C = [0, k0 ] ∪ [n − k0 , n],
gdzie P (Bn ¬ k0 ) = P (Bn ­ n − k0 ) =
natywnej K1 jest postaci
α
2.
Obszar krytyczny dla hipotezy alter-
114
C = [0, k0 ],
gdzie P (Bn ¬ k0 ) = α.
• Test dla mediany (test znaków).
Zakładamy, że zmienna losowa X ma ciągłą dystrybuantę.
H : medianaX = m0 ,
K : medianaX 6= m0 .
K1 : medianaX > m0 .
Statystyką testową jest liczba obserwacji X1 , X2 , . . . , Xn większych
od m0 . Przy
założeniu prawdziwości H ma ona rozkład Bernoulli’ego B n, 21 . Obszar krytyczny dla hipotezy alternatywnej K jest postaci
C = [0, k0 ] ∪ [n − k0 , n],
gdzie Sn ¬ k0 ) = P (Sn ­ n − k0 ) =
tywnej K1 jest postaci
α
2.
Obszar krytyczny dla hipotezy alterna-
C = [0, k0 ],
gdzie Sn ¬ k0 ) =
α
2.
115
7
Funkcje charakterystyczne.
W teorii prawdopodobieństwa wykorzystuje się intensywnie zaawansowane metody analizy matematycznej wśród których podstawową rolę odgrywa pojęcie transformaty Fouriera miary. Nie będziemy oczywiście podawać tu żadnych ogólnych
definicji, ale postaramy się przybliżyć czytelnikowi krótko pojęcie funkcji charakterystycznej rozkładu zmiennej losowej, które pozwalają przetłumaczyć bardzo wiele
własności rozkładów prawdopodobieństw zmiennych losowych na język ”zwyczajnych” (choć zespolonych) funkcji zmiennej rzeczywistej.
Najpierw jednak kilka słów o funkcjach zespolonych zmiennej rzeczywistej.
Jeżeli u(t) i v(t) są dwiema funkcjami zmiennej rzeczywistej o wartościach rzeczywistych, to wzór
z(t) = u(t) + iv(t)
określa funkcję zmiennej rzeczywistej o wartościach zespolonych. Granicę w punkcie, ciągłość, różniczkowalność i całkowalność takich funkcji określa się podobnie,
jak w przypadku funkcji zmiennej rzeczywistej o wartościach rzeczywistych, przy
czym, co łatwo udowodnić, prawdziwe są następujące równości:
′
′
′
z (t) = u (t) + iv (t)
oraz
Zb
z(t)dt =
Zb
u(t)dt + i
a
a
Zb
v(t)dt.
a
Niech X będzie zmienną losową określoną na przestrzeni Ω. Wówczas
z(t) = eitX = cos tX + i sin tX
jest zmienną losową na Ω przyjmującą wartości zespolone. Jej wartość oczekiwaną
(która jest oczywiście na ogół liczbą zespoloną) nazywamy funkcją charakterystyczną rozkładu zmiennej losowej X, czyli
• Definicja 7.1
Funkcja֒ charakterystyczna֒ rozkadu zmiennej losowej X
nazywamy funkcję φX : IR −→ CC określoną wzorem
φX (t) = EeitX .
Jak pamiętamy, dla zmiennej dyskretnej o rozkładzie (xk , pk ) oznacza to, że
X
φX (t) =
pk eitxk ,
k
a dla zmiennej typu ciągłego o gęstości f (x) mamy
φX (t) =
Z∞
−∞
eitx f (x)dx.
116
Powinniśmy w tym miejscu podkreślić, że dla każdej zmiennej losowej X funkcja
charakterystyczna φX (t) jest
określoną funkcją na całym IR, ponieważ
poprawnie
dla każdego ω ∈ Ω mamy eitX(ω) = 1.
Jeżeli g jest funkcją przedziałami ciągłą, to funkcja charakterystyczna rozkładu
zmiennej losowej y = g(X) jest postaci
X
φY (t) =
pk eitg(xk ) ,
k
dla zmiennej dyskretnej o rozkładzie (xk , pk ) oraz
φY (t) =
Z∞
eitg(x) f (x)dx.
−∞
dla zmiennej X typu ciągłego o gęstości f (x).
Łatwe do udowodnienia są następujące własności funkcji charakterystycznych.
• Fakt 7.2
Jeżeli φX jest funkcją charakterystyczną zmiennej losowej X, to
1) φX (0) = 1.
2) φX (t) ¬ 1 dla każdego t ∈ IR.
3) φX (t) = φX (−t).
4) φX jest jednostajnie ciągła na IR. 5) Funkcja charakterystyczna rozkładu zmiennej losowej X przyjmuje jedynie wartości rzeczywiste wtedy i tylko wtedy, gdy rozkład ten jest symetryczny.
Pojęcie funkcji charakterystycznej nie miałoby większego znaczenia gdyby nie fakt,
że funkcja charakterystyczna jednoznacznie wyznacza rozkład zmiennej
losowej. Mianowicie prawdziwe jest następujące twierdzenie.
• Twierdzenie 7.1
Jeżeli dla zmiennych losowych X i Y w każdym punkcie t ∈ IR
zachodzi równość φX (t) = φY (t), to P (X = Y ) = 1.
Przy pewnych dodatkowych założeniach można dokładnie ”odtworzyć” rozkład
zmiennej losowej, znając jego funkcję charakterystyczną. Najważniejsze przypadki
są następujące.
• Fakt 7.3
Jeżeli funkcja charakterystyczna φ rozkładu pewnej zmiennej losowej X
jest okresowa o okresie 2π, to przyjmuje ona tylko wartości całkowite, a zmienne
losowa X ma rozkład (k, pk ), gdzie
1
pk = P (X = k) =
2π
Zπ
−π
dla k = 0, −1, 1, −2, 2, −3, 3, . . . .
eitk φ(t)dt
117
• Fakt 7.4
Jeżeli funkcja charakterystyczna φ rozkładu pewnej zmiennej losowej X
R∞
jest bezwzględnie całkowalna na IR (tzn.
|φ(t)|dt < ∞), to X jest zmienną
−∞
losową typu ciągłego o ciągłej gęstości zadanej wzorem
1
f (x) =
2π
Z∞
−∞
e−itx φ(t)dt.

Podobne dokumenty