Podczas rozkładu prostego elementu matematyki
Transkrypt
Podczas rozkładu prostego elementu matematyki
1 Spis treści 1 Eksperyment losowy i jego matematyczny opis. 1.1 Wstęp - częstościowa definicja prawdopodobieństwa. . . . . . 1.2 Definicja i własności prawdopodobieństwa. . . . . . . . . . . . 1.3 Przykłady przestrzeni probabilistycznych. . . . . . . . . . . . 1.3.1 Prawdopodobieństwo klasyczne . . . . . . . . . . . . . 1.3.2 Przeliczalna nieskończona przestrzeń probabilistyczna 1.3.3 Prawdopodobieństwo geometryczne . . . . . . . . . . . 1.4 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 8 8 13 14 17 2 Prawdopodobieństwo warunkowe. Niezależność zdarzeń. 2.1 Prawdopodobieństwo warunkowe. . . . . . . . . . . . . . . . 2.2 Wzór na prawdopodobieństwo całkowite i wzór Bayesa. . . 2.3 Niezależność zdarzeń. . . . . . . . . . . . . . . . . . . . . . 2.4 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 21 24 28 3 Zmienne losowe jednowymiarowe. 3.1 Definicja oraz rozkład i dystrybuanta zmiennej losowej. 3.2 Parametry zmiennej losowej . . . . . . . . . . . . . . . . 3.2.1 Wartość oczekiwana. . . . . . . . . . . . . . . . . 3.2.2 Wariancja zmiennej losowej. . . . . . . . . . . . . 3.2.3 Momenty. . . . . . . . . . . . . . . . . . . . . . . 3.2.4 Kwantyle. . . . . . . . . . . . . . . . . . . . . . . 3.3 Najważniejsze rozkłady dyskretne . . . . . . . . . . . . . 3.4 Najważniejsze rozkłady typu ciągłego . . . . . . . . . . 3.5 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 30 35 35 36 36 37 39 51 59 4 Twierdzenia graniczne 4.1 Ważne nierówności. . . . . . . . . 4.2 Prawa wielkich liczb. . . . . . . . 4.3 Centralne Twierdzenie Graniczne 4.4 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 63 66 68 77 5 Zmienne losowe wielowymiarowe. 5.1 Definicja i przykłady. . . . . . . . 5.2 Zmienne losowe dwuwymiarowe. 5.2.1 Rozkłady brzegowe . . . . 5.2.2 Rozkłady warunkowe . . . 5.2.3 Regresja liniowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 78 79 80 81 81 2 6 Elementy statystyki matematycznej 6.1 Podstawowe pojęcia statystyki matematycznej. 6.2 Estymacja . . . . . . . . . . . . . . . . . . . . . 6.2.1 Podstawowe pojęcia. . . . . . . . . . . . 6.2.2 Estymacja punktowa . . . . . . . . . . . 6.2.3 Estymacja przedziałowa . . . . . . . . . 6.3 Testowanie hipotez . . . . . . . . . . . . . . . . 6.3.1 Testy istotności . . . . . . . . . . . . . . 6.3.2 Testy parametryczne. . . . . . . . . . . 6.3.3 Testy nieparametryczne. . . . . . . . . . 6.3.4 Testy niezależności. . . . . . . . . . . . . 6.3.5 Testy jednorodności. . . . . . . . . . . . 7 Funkcje charakterystyczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 83 88 88 89 92 94 100 100 106 109 111 115 3 1 Eksperyment losowy i jego matematyczny opis. 1.1 Wstęp - częstościowa definicja prawdopodobieństwa. W życiu mamy do czynienia nie tylko ze zdarzeniami zdeterminowanymi ale też ze zdarzeniami, których wyniku nie potrafimy z góry przewidzieć - tak zwanymi zdarzeniami losowymi. Nie można np. przewidzieć, czy dany atom radu ulegnie rozpadowi w czasie t lat, czy nie. Natomiast można powiedzieć, że prawdopodobieństwo rozpadu atomu w okresie t lat równne jest p = 1 − e−0,000436t . Typowe przykłady zdarzeń losowych to: wynik rzutu monetą, liczba samochodów przejeżdżających przez skrzyżowanie w jednostce czasu, błąd pomiaru, wytrzymałość belki, czas niezawodnej pracy urządzenia, prawdziwa przyczyna zaobserwowanych u pacjenta zmian chorobowych. Zauważono, że tego typu eksperymenty odznaczają się jednak pewną regularnością. Np. dla rzetelnej monety częstość występowania orła (tzn. stosunek liczby orłów do liczby wszystkich rzutów) zbliża się do 21 , a częstość pojawiania się sak mochodów na danym moście w jednostce czasu dobrze opisuje wzór λk! e−λ , gdzie k oznacza ilość samochodów przejeżdżających przez most w jednostce czasu, a λ jest stałą charakterystyczną dla danego mostu (tzw. intensywnością). 1.2 Definicja i własności prawdopodobieństwa. Przyjmujemy, że czytelnik zna podstawowe prawa rachunku zbiorów. Przypomnijmy jedynie, że: • Prawami de Morgana nazywamy równości ∞ [ An n=1 ′ = ∞ \ ′ An oraz n=1 ∞ \ n=1 An ′ = ∞ [ ′ An . (1) n=1 • Iloczynem kartezjańskim zbiorów A1 , A2 , . . . , Ak (i ogólnie: A1 , A2 , . . . ,) nazywamy zbiór A1 × A2 × . . . × Ak = {(a1 , a2 , . . . , ak ) : ai i ogólnie ∞ Y i=1 Ai = {(a1 , a2 , . . .) : ai ∈ Ai , ∈ Ai , i = 1, 2, . . . , k} i = 1, 2, . . .}. (2) Symbolem A oznaczamy w dalszym ciągu liczbę elementów zbioru skończonego A. Posługując się zasadą indukcji matematycznej łatwo udowodnić, że liczbę elementów iloczynu kartezjańskiego zbiorów skończonych można policzyć w następujący sposób. 4 • Fakt 1.1 Jeżeli dla i = 1, 2, . . . , k zbiór Ai ma ni elementów, to A1 × A2 × . . . × Ak = n1 · n2 · . . . · nk . W dalszym ciągu przez Ω oznaczamy zbiór wszystkich możliwych wyników doświadczenia losowego. Każdy pojedynczy wynik nazywamy zdarzeniem elementarnym, a Ω - przestrzenią zdarzeń elementarnych. Zdarzeniem losowym nazywamy podzbiór przestrzeni Ω. Jeżeli Ω jest dowolnym zbiorem, to o rodzinie (zbiorze) F wszystkich zdarzeń losowych zakładamy, że: (A1) Ω ∈ F, (A2) Jeżeli A ∈ F, to A′ (A3) Jeżeli A1 , A2 , . . . ∈ F, ∈ F, to ∞ S An n=1 ∈ F. Rodzinę F spełniającą warunki (A1) - (A3) nazywamy σ-ciałem (lub σ-algebrą) zbiorów. Zbiór Ω nazywamy zdarzeniem pewnym. Zdarzeniem przeciwnym ′ do zdarzenia A nazywamy zbiór A = Ω \ A. Jeżeli A ∩ B = ∅, to mówimy, że zdarzenia A i B wykluczają się. Z warunków (A1) - (A3) wynika, że: 1) ∅ ∈ F; 2) A \ B ∈ F dla dowolnych A, B ∈ F; ∞ T An ∈ F. 3) Jeżeli A1 , A2 , . . . ∈ F to n=1 W przypadku dyskretnej (tzn. skończonej lub przeliczalnej) przestrzeni Ω zdarzeniem losowym jest dowolny jej podzbiór. W przypadku nieprzeliczalnej przestrzeni Ω rodzinę F należy precyzyjnie określić. W niektórych zagadnieniach dobrym modelem probabilistycznym okazują się pewne podzbiory prostej, płaszczyzny czy ogólnie przestrzeni euklidesowej IRk . Za rodzinę F przyjmuje się wówczas σ-ciało zbiorów borelowskich w IR (w IR2 , IR3 lub ogólnie w IRk ), przez co rozumie się najmniejsze σ-ciało zbiorów zawierające wszystkie przedziały otwarte (a, b) w IR (koła otwarte w IR2 , kule otwarte w IR3 , itd. Mówiąc obrazowo, zbiór borelowski w IR (w IRk ) to każdy zbiór, który można otrzymać jako wynik przeliczalnych działań mnogościowych wykonanych na rodzinie wszystkich przedziałów na prostej czy kul otwartych w przestrzeni k-wymiarowej. Na przykład zbiorem borelowskim jest każdy przedział jednostronnie czy dwustronnie domknięty i każda półprosta, bo ∞ ∞ ∞ T T T a − n1 , b + n1 , (a, ∞) = a + n − 1, a + n], a, b + n1 , [a, b] = (a, b] = itd. n=1 n=1 Określimy teraz pewną miarę wystąpienia danego zdarzenia. i=1 5 • Definicja 1.2 Prawdopodobieństwem nazywamy funkcję określoną na rodzinie zdarzeń F spełniającą następujące warunki: 1. 0 ¬ P (A) dla każdego A ∈ F, 2. P (Ω) = 1, 3. Jeżeli A1 , A2 , . . . są parami rozłączne, to P S ∞ n=1 ∞ P P (En ). An = n=1 W szczególności P (A ∪ B) = P (A) + P (B) dla zdarzeń rozłącznych A i B. Z powyższych aksjomatów wynika wiele własności, z których najważniejsze wymienimy • Fakt 1.3 (Własności prawdopodobieństwa) 1. P (A) ¬ 1 dla każdego A ∈ F, 2. Jeżeli A ⊂ B, to P (A) ¬ P (B), ′ 3. P (A ) = 1 − P (A), a stąd P (∅) = 0, 4. Jeżeli A ⊂ B, to P (B \ A) = P (B) − P (A) = P (B) − P (A ∩ B), 5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B), n n P S P (Ai ), Ai ¬ 6. P i=1 i=1 7. Jeżeli A1 ⊂ A2 ⊂ . . ., to P jeżeli A1 ⊃ A2 ⊃ . . . , to P S ∞ n=1 T ∞ An = lim P (An ) oraz n→∞ An = lim P (An ). n=1 n→∞ W przypadku trzech zbiorów A, B, C wzór z punktu 4. przyjmuje postać P (A∪B∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (B∩C)−P (C∩A)+P (A∩B∩C), (3) a w przypadku dowolnej skończonej ilości zbiorów wzór ten można uogólnić w sposób następujący: P ∞ [ n=1 X An = P (Ai )− 1¬i¬n X 1¬i1 <i2 ¬n P (Ai1 ∩Ai2 )+. . .+(−1)n+1 P (A1 ∩. . .∩An ). (4) 6 • Fakt 1.4 Jeżeli Ω = {ωi : i ∈ I}, gdzie I jest zbiorem skończonym lub I = IN oraz ∞ P pi = 1, to dla A ⊂ Ω wzór P (ωi ) = pi przy czym pi 0 oraz i=1 P (A) = X pi ωi ∈ A określa prawdopodobieństwo na rodzinie wszystkich podzbiorów zbioru Ω. Trójkę (Ω, F , P ) nazywamy przestrzenią probabilistyczną. • Przykład 1.1 Niech A, B, C będą zdarzeniami. Zapisać za pomocą działań na zbiorach następujące zdarzenia: a) zachodzi dokładnie jedno ze zdarzeń A, B, C; b) zachodzą dokładnie dwa spośród zdarzeń A, B, C; c) zachodzą przynajmniej dwa spośród zdarzeń A, B, C. d) zachodzą co najwyżej dwa spośród zdarzeń A, B, C. R o z w i ą z a n i e. a) Zachodzi dokładnie jedno ze zdarzeń A, B, C, to oznacza dokładnie, że zachodzi A i nie zachodzą B ani C lub zachodzi B i nie zachodzą A ani C lub zachodzi C i nie zachodzą A ani B czyli, że zachodzi zdarzenie A ∩ B ′ ∩ C ′ ∪ A′ ∩ B ∩ C ′ ∪ A′ ∩ B ′ ∩ C. b) Podobnie — zachodzą dokładnie dwa spośród zdarzeń A, B, C oznacza, że zachodzi zdarzenie A ∩ B ∩ C ′ ∪ A ∩ B ′ ∩ C ∪ A′ ∩ B ∩ C. c) Zachodzą przynajmniej dwa spośród zdarzeń A, B, C oznacza, że zachodzą dokładnie dwa spośród zdarzeń A, B, C lub zachodzą wszystkie trzy zdarzenia, czyli zachodzi zdarzenie A ∩ B ∩ C ′ ∪ A ∩ B ′ ∩ C ∪ A′ ∩ B ∩ C ∪ A ∩ B ∩ C. d) Zachodzą co najwyżej dwa spośród zdarzeń A, B, C oznacza, że nie zachodzą wszystkie trzy zdarzenia, czyli zachodzi zdarzenie (A ∩ B ∩ C)′ = A′ ∪ B ′ ∪ C ′ . • Przykład 1.2 Studenci Wydziału Elektroniki muszą zaliczyć dwa lektoraty: z języka angielskiego i z języka niemieckiego. Z danych Dziekanatu wynika, że 23 studentów zalicza lektorat z języka angielskiego, oba lektoraty zalicza co czwarty student, zaś przynajmniej jeden z lektoratów zalicza również 32 studentów. Jakie jest prawdopodobieństwo, że losowo wybrany student: 7 a) nie zaliczył żadnego lektoratu? b) zaliczył język angielski i nie zaliczył języka niemieckiego? R o z w i ą z a n i e. Niech A oznacza zdarzenie ”losowo wybrany student zaliczył lektorat z języka angielskiego”, B — zdarzenie ”losowo wybrany student zaliczył lektorat z języka niemieckiego”. a) Oczywiście chodzi o zdarzenie A′ ∩ B ′ , więc P (A′ ∩ B ′ ) = P ((A ∪ B)′ ) = 1 − P (A ∪ B) = 1 − 2 3 = 1 3 b) Podobnie P (A \ B) = P (A) − P (A ∩ B) = 2 3 − 1 4 = 5 12 • Przykład 1.3 Studenci Wydziału PPT zdają w sesji zimowej I roku egzaminy z przedmiotów A,B,C. Wiadomo z danych poprzednich lat, że przedmiot A zalicza 60% studentów, przedmiot B zalicza 80% studentów i przedmiot C zalicza 70% studentów. Studenci, którzy zaliczyli A i B stanowią 55% ogółu, ci którzy zaliczyli A i C stanowią 45% ogółu a studenci, którzy zaliczyli B i C stanowią 60% ogółu. Sesję zimową zalicza ok. 40% studentów. Obliczyć prawdopodobieństwo, że losowo wybrany student: a) zaliczył przynajmniej jeden egzamin, b) zaliczył przynajmniej dwa egzaminy. R o z w i ą z a n i e. 7 oraz Wiemy, że P (A) = 35 , P (B) = 45 , P (C) = 10 P (A ∩ B) = 55 100 , P (A ∩ C) = 45 100 , P (C ∩ B) = 60 100 , P (A ∩ B ∩ C) = 40 100 . Zatem: a) P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (B ∩ C) − P (C ∩ A) + 7 55 45 60 40 9 − 100 − 100 − 100 + 100 = 10 . P (A ∩ B ∩ C) = 53 + 45 + 10 b) P (A∩B ∪A∩C ∪B ∩C)) = P (A∩B)+P (A∩C)+P (B ∩C)−P ((A∩B)∩(A∩ C))−P ((A∩B)∩(B ∩C))−P ((A∩C)∩(B ∩C))+P ((A∩B)∩(A∩C)∩(B ∩C)) = 8 . P (A ∩ B) + P (A ∩ C) + P (B ∩ C) − 2P (A ∩ B ∩ C) = 10 8 1.3 1.3.1 Przykłady przestrzeni probabilistycznych. Prawdopodobieństwo klasyczne Przestrzeń Ω = {ω1 , ω2 , . . . , ωn } jest zbiorem n zdarzeń elementarnych, z których każde zachodzi z tym samym prawdopodobieństwem, czyli P ({ωk }) = n1 dla k = 1, 2, . . . , n. Zgodnie z faktem 1.4 wzór A . n określa prawdopodobieństwo na wszystkich zdarzeniach A ⊂ Ω. prawdopodobieństwo klasyczne. (5) P (A) = Jest to tzw. W rozwiązywaniu zagadnień, w których przestrzeń zdarzeń elementarnych jest skończona przydadzą się nam wiadomości z kombinatoryki. Będziemy przy tym wielokrotnie wykorzystywać następującą regułę iloczynu. Jeżeli pewną czynność wykonuje się w k etapach, z których każdy można wykonać ni sposobami, gdzie i = 1, 2, . . . , k, to liczba N sposobów, jakimi można wykonać tę czynność wyraża się wzorem N = n1 n2 · · · nk . (6) Ostatni wzór staje się zupełnie oczywisty, jeżeli uświadomimy sobie, że każdy ze sposobów wykonania danej czynności można jednoznacznie opisać jako ciąg (a1 , a2 , . . . , ak ), gdzie ai oznacza numer sposobu użytego w i-tym etapie, czyli ai ∈ {1, 2, . . . , ni }. Mamy zatem do czynienia z iloczynem kartezjańskim k zbiorów o liczebnościach n1 , n1 , . . . , nk i wystarczy powołać się na fakt 1.1. Podstawowe schematy kombinatoryczne Niech A oznacza dowolny zbiór n różnych elementów A = {a1 , a2 , . . . , an }. • Wariacje z powtórzeniami. k-wyrazową wariacją z powtórzeniami zbioru A nazywamy każdy k-wyrazowy ciąg elementów tego zbioru Liczba Vnk wszystkich wariacje z powtórzeniami ze zbioru n-elementowego wynosi k V n = nk . (7) • Wariacje bez powtórzeń. k-wyrazową wariacją bez powtórzeń zbioru A nazywamy każdy k-wyrazowy ciąg różnych elementów tego zbioru Liczba Vnk wszystkich k-wyrazowych wariacji bez powtórzeń ze zbioru n-elementowego wynosi Vnk = n(n − 1)(n − 2) · · · (n − k + 1) (8) Jeżeli k = n, to k-wyrazową wariację bez powtórzeń ze zbioru A nazywamy n-wyrazową permutacją. Zatem liczba Pn wszystkich permutacji zbioru nelementowego wynosi Pn = n!. (9) 9 • Kombinacje. k-elementową kombinacją bez powtórzeń z n-elementowego zbioru A nazywamy każdy k-elementowy podzbiór zbioru A. Liczba Cnk wszystkich kombinacji bez powtórzeń ze zbioru n-elementowego wynosi n k Cn = . (10) k • Kombinacje z powtórzeniami. Rozważamy elementy n różnych rodzajów. Elementy tego samego rodzaju traktujemy jako identyczne. Zbiór k elementów, z których każdy należy do jednego z tych n rodzajów nazywamy k-elementową kombinacją z powtórzeniami z n rodzajów elementów. Oznaczając np. kule gwiazdkami a komórki — pionowymi kreskami ((n − 1) przegród między komórkami) widzimy, że każdą taką k-elementową kombinację bez powtórzeń z n rodzajów elementów można utożsamić z k + n − 1-wyrazowym ciągiem, którego elementami są gwiazdki i pionowe kreski, czyli wystarczy wybrać k miejsc, na których są gwiazdki (lub n − 1 miejsc, k na których są pionowe kreski!). Zatem liczba C n wszystkich kombinacji bez powtórzeń z n rodzajów elementów wynosi k+n−1 k+n−1 k Cn = = . (11) k n−1 • Przykład 1.4 W teorii cząstek elementarnych bada się rozmieszczenie n cząstek w podzielonej na komórki przestrzeni fazowej, którą można matematycznie opisać np.jako podzbiór przestrzeni czterowymiarowej, gdzie współrzędnymi są położenie i pęd cząstki. Fizycy stwierdzili doświadczalnie, że niektóre cząstki zachowują się, jak kule rozróżnialne, inne - jak kule nierozróżnialne i zaproponowali trzy następujące modele zachowania się cząstek : a) statystyka Maxwella-Boltzmanna. Cząstki zachowują się, jak kule rozróżnialne, więc pytając o liczbę możliwych rozmieszczeń n cząstek w k komórkach mamy do czynienia z wariacjami bez powtórzeń i każde spośród k n rozmieszczeń jest jednakowo prawdopodobne. Nie znaleziono jeszcze cząstek, które zachowywałyby się zgodnie z tym modelem. b) statystyka Fermiego-Diraca. Cząstki zachowują się, jak kule nierozróżnialne, ale w każdej komórce może być co najwyżej jedna cząstka i wszystkie możliwe rozmieszczenia są jednakowo prawdopodobne. Tak zachowują się np. elektrony, protony i neutrony. c) statystyka Bosego-Einsteina. Cząstki zachowują się, jak kule nierozróżnialne, w każdej komórce może być dowolna liczba cząstek i wszystkie możliwe rozmieszczenia są jednakowo prawdopodobne. Tak zachowują się np. fotony. 10 Zadanie — w każdym z rozważanych wyżej modeli wyznaczyć prawdopodobieństwo, z jakim k (k ¬ n) cząstek można rozmieścić po jednej w k ustalonych komórkach. R o z w i ą z a n i e. a) Przy ustalonej permutacji k rozróżnialnych cząstek tylko jedno rozmieszczenie spośród wszystkich nk możliwych rozmieszczeń spełnia żądany warunek. Ponieważ cząstki można ustawić na k! sposobów, więc prawdopodobieństwo, z jakim k rozróżnialnych cząstek można rozmieścić po jednej w k ustalonych komórkach równe jest nk!k . b) Jeżeli nie odróżniamy cząstek, ale w każdej komórce może być co najwyżej jedna to wystarczy wybrać k spośród n komórek i wrzucić do niej cząstkę, a to można zrobić na nk sposobów. Tylko jeden z nich spełnia warunek z zadania, więc prawdopodobieństwo, z jakim k nierozróżnialnych cząstek można rozmieścić po jednej w k ustalonych komórkach wynosi n1 . (k ) c) W tym przypadku mamy do czynienia z k-elementowymi kombinacjami z powtórzeniami z n rodzajów elementów. Dla ustalonych k-komórek jest tylko jeden ciąg gwiazdek (cząstek) spełniający warunki zadania, więc prawdopodobieństwo, z jakim k nierozróżnialnych cząstek można rozmieścić po jednej w k ustalonych k ko1 . mórkach, przy założeniu, że wszystkie rozmieszczenia są możliwe wynosi k+n−1 ( k ) • Przykład 1.5 W pudle są kule białe i czarne. Razem jest ich n. Ile powinno być kul czarnych, aby prawdopodobieństwo wylosowania (bez zwracania) dwu kul różnych kolorów było takie samo, jak prawdopodobieństwo wylosowania dwu kul tego samego koloru? R o z w i ą z a n i e. Dwie spośród n kul można wybrać na n2 sposobów. Oznaczmy przez k liczbę kul czarnych. Zdarzeniu A ”wylosowano dwie kule różnych kolorów” sprzyja k(n − k) zdarzeń Zdarzeniu B ”wylosowano kule tego samego koloru” sprzy elementarnych. zdarzeń elementarnych. Wykorzystując wzór na prawdopodobieńja n2 + n−k 2 stwo klasyczne otrzymujemy P (A) = k·(n−k)·2 n(n−1) oraz P (B) = 2k2 −2nk+n2 −n . n(n−1) Ponieważ zdarzenia A i B są przeciwne, to zamiast warunku P (A) = P (B) wystarczy rozważać jeden z warunków P (A) = 21 lub P (B) = 21 . Każdy z nich jest równoważny równaniu 4k 2 − 4kn + n2 − n = 0. √ √ Rozwiązaniami tego równania są liczby k1 = n+2 n oraz k1 = n−2 n . Zauważmy, √ że √ jeżeli n nie jest liczbą naturalną, to zadanie nie ma rozwiązania. Jeżeli zaś n jest liczbą naturalną, to zarówno k1 = √ n− n 2 = √ √ n( n−1) 2 jak i k2 = √ n+ n 2 = √ √ n( n+1) 2 11 są liczbami naturalnymi oraz k1 + k2 = n. Podsumowując — zadanie ma rozwiązanie√jedynie w przypadku, gdy n jest kwadratem liczby naturalnej (tylko wówczas n jest liczbą naturalną), czarnych kul √ √ √ √ √ √ powinno być k1 = n−2 n = n( 2 n−1 lub k2 = n+2 n = n( 2 n+1 . • Przykład 1.6 W szufladzie są dwie skarpety na prawą nogę i jedna na lewą nogę. Prawdopodobieństwo, że losowo wybierając dwie skarpety otrzymamy parę równe jest 23 = 32 , (2) (22) 1 zaś prawdopodobieństwo wyciągnięcia dwu prawych wynosi 3 = 3 . Do szuflady (2) dołożono jedną skarpetę. Jaka to jest skarpeta, skoro teraz prawdopodobieństwo, że wylosowane dwie skarpety stanowią parę, wynosi 21 ? R o z w i ą z a n i e. Wykorzystajmy poprzedni przykład. Mamy n = 4. Wylosowanie pary skarpet odpowiada wylosowaniu kul różnych kolorów. Zatem skarpet jednego typu może być k1 = 3 lub k2 = 1, czyli dołożono prawą skarpetę. • Przykład 1.7 Ze zbioru liczb {1, 2, . . . , N } losujemy kolejno bez zwracania dwie liczby. Obliczyć prawdopodobieństwo, że pierwsza z wylosowanych liczb jest mniejsza od drugiej. R o z w i ą z a n i e. Zdarzeniem elementarnym jest uporządkowana para liczb, czyli Ω = (k, l) : k 6= l, k, l ∈ {1, 2, . . . , N } . Zdarzenia elementarne są jednakowo prawdopodobne i Ω = N (N −1). Interesujące nas zdarzenie A można przedstawić w postaci A = (k < l) = N[ −1 m=1 Am , gdzie Am = (k, l) : k = m, l ∈ {m+1, m+2, . . . , N } . Zdarzenia Am są oczywiście parami rozłączne (różnią się pierwszym elementem pary) oraz Am = N − m. Zatem A = (N − 1) + (N − 2) + . . . + 1 = N (N −1) . 2 Zgodnie ze wzorem na prawdopodobieństwo klasyczne otrzymujemy P (A) = • Przykład 1.8 A Ω = 12 . 12 O jedno miejsce pracy ubiega się n kandydatów. Poproszono trzech specjalistów, aby każdy z osobna uporządkował kandydatów według przydatności do pracy. Firma zatrudni osobę, którą przynajmniej dwu specjalistów umieści, jako pierwszą na swojej liście. Obliczyć prawdopodobieństwo pn , że jeden z kandydatów zostanie zatrudniony. Obliczyć lim pn . Dla jakich n zachodzi równość pn = 1? n→∞ R o z w i ą z a n i e. Zdarzenie elementarne to kandydaci umieszczeni jako pierwsi na trzech listach. Wtedy Ω = {(ω1 , ω2 , ω3 ) : ωi ∈ {1, 2 . . . , n}, i = 1, 2, 3}. ma n3 elementów. Oznaczmy przez A zdarzenie ”jeden z kandydatów został zatrudniony” (przynajmniej na dwu listach był na pierwszym miejscu). Wtedy zdarzenie przeciwne A′ oznacza, że na pierwszych miejscach każdej z list są różni kandydaci i sprzyja mu n(n − 1)(n − 2) zdarzeń elementarnych, czyli P (A′ ) = n(n−1)(n−2) n3 = n2 −3n+2 . n2 Mamy zatem pn = P (A) = 3n−2 n2 . Obliczmy jeszcze lim n→∞ 3n−2 n2 = 0, natomiast pn = 1 dla n = 1 lub n = 2. Podsumowując — przy takich zasadach zatrudnienia, jeżeli liczba kandydatów jest mniejsza niż liczba specjalistów, to któryś z kandydatów zostanie zatrudniony. • Przykład 1.9 Przypuśćmy, że do jeziora zawierającego nieznaną liczbę N ryb wpuszczono dodatkowo 1000 ryb oznakowanych (np. pomalowanych na czerwono). Po pewnym czasie dokonano połowu 1000 ryb i znaleziono wśród nich 100 ryb z czerwonymi plamami. Jak na podstawie tych danych ocenić liczbę ryb w jeziorze? R o z w i ą z a n i e. Za ocenę N przyjmiemy taką liczbę, dla której prawdopodobieństwo wyłowienia 100 znaczonych ryb spośród 1000 jest największe. Zakładając, że liczba ryb w jeziorze jest znana i równa N +1000 wyznaczymy prawdopodobieństwo pN (A), gdzie A oznacza zdarzenie polegające na wylosowaniu 100 ryb oznaczonych przy losowaniu 1000 ryb. Ω jest zbiorem kombinacji 1000-elementowych ze zbioru N + 1000 elementowego. Wśród wylosowanych jest 900 nieoznaczonyc, więc N 900. Stąd Ω= N +1000 1000 , A= 1000 100 N 900 , więc pN (A) = N (1000 100 )(900) . N +1000 ( 1000 ) Aby określić najbardziej prawdopodobną liczbę ryb w jeziorze, wyznaczymy wartość N, przy której pN (A) osiąga wartość maksymalną. Rozpatrzmy 13 pN (A) pN −1 (A) = N2 (N −900)(N +1000) =1+ −100N +900·1000 (N −900)(N +1000) . Zauważmy, że iloraz ten jest większy od 1 bądź mniejszy niż 1 w zależności od tego, czy 100N < 900 · 1000, czy 100N > 900 · 1000. Oznacza to, że gdy N rośnie, liczby pN (A) najpierw rosną a potem maleją. Rozważany iloraz osiąga wartość największą, gdy N jest największą liczbą naturalną nie przekraczjącą 900·1000 100 , czyli N ≈ 900·1000 100 1.3.2 Przeliczalna nieskończona przestrzeń probabilistyczna Zgodnie z faktem 1.4 rozważane klasyczne podejście można uogólnić na przypadek nieskończonej przeliczalnej przestrzeni Ω = {ω1 , ω2 , . . .}. Jeżeli P (ωi ) = pi przy ∞ P pi = 1, to prawdopodobieństwo zdarzenia A ⊂ Ω określone czym pi 0 oraz jest wzorem i=1 P (A) = X (12) pi . ωi ∈ A • Przykład 1.10 • Przykład 1.11 Dwaj gracze, A oraz B, rzucają na przemian monetą, dopóki dwa razy pod rząd upadnie ona na tę samą stronę. Jeżeli drugi pod rząd orzeł albo druga pod rząd reszka pojawi się w rzucie nieparzystym, to wygrywa gracz A. W przeciwnym przypadku wygrywa gracz B. Obliczyć prawdopodobieństwo wygranej dla każdego z graczy. R o z w i ą z a n i e. W opisanym eksperymencie zdarzeniem elementarnym jest ciąg, którego elementaki są orły lub reszki i na ostatnich dwu miejscach, po raz pierwszy pod rząd są dwa orły lub dwie reszki, czyli Ω = {oo, rr, orr, roo, oroo, rorr, . . .}. Ω ma nieskończenie, ale przeliczalnie, wiele zdarzeń elementarnych. Wynik rzutu monetą oror nie jest zdarzeniem, bo trzeba nadal rzucać monetą. Niech αk oznacza zdarzenie ”druga reszka pod rząd pojawiła się po raz pierwszy w k-tym rzucie monetą”, zaś βk - ”drugi orzeł pod rząd pojawił się po raz pierwszy w k-tym rzucie.”. Oczywiście k = 2, 3, . . . . Na przykład α5 = ororr, β5 = roroo. Przyjmujemy, że moneta jest symetryczna, więc P ({αk }) = P ({βk }) = 2−k , k = 2, 3, . . . . Gracz A wygra, jeżeli zajdzie zdarzenie A = {α3 , β3 , α5 , β5 , . . .}. Wygranej gracza B sprzyja zdarzenie A = {α2 , β2 , α4 , β4 , . . .}. Zatem 14 P (A) = ∞ P k=1 oraz P (B) = P ({α2k+1 , β2k+1 }) = 2 ∞ P k=1 P ({α2k , β2k }) = 2 ∞ P k=1 ∞ P k=1 2−(2k+1) = 2 · 2−3 · 2−2k = 2 · 2−2 · 1 1−2−2 1 1−2−2 = 1 3 = 32 . Prawdopodobieństwo wygranej gracza, który rzuca monetą na parzystych miejscach jest dwa razy większe niż gracza, który rzuca monetą na nieparzystych miejscach. W tej grze pozwólmy przeciwnikowi rozpocząć grę! My rzucajmy na miejscach parzystych! 1.3.3 Prawdopodobieństwo geometryczne Jeżeli Ω jest ograniczonym zbiorem w IR (IR2 lub IR3 ), a F oznacza rodzinę zbiorów borelowskich, to przez prawdopodobieństwo zdarzenia A będziemy rozumieć m(A) , (13) P (A) = m(Ω) gdzie m(A) oznacza długość (pole lub objętość) zbioru A. Jest to tzw. prawdopodobieństwo geometryczne. • Przykład 1.12 Kawałek drutu o długości 20cm zgięto pod kątem prostym w przypadkowo wybranym punkcie. Następnie zgięto drut jeszcze w dwu punktach tak, by powstała ramka prostokątna o obwodzie 20cm. a) Jakie jest prawdopodobieństwo, że pole ograniczone ramką nie przekroczy 21cm2 ? b) Jakie jest prawdopodobieństwo, że pole ograniczone ramką jest równe 21cm2 ? R o z w i ą z a n i e. a) Niech x oznacza odległość wybranego punktu od bliższego końca drutu. Wówczas Ω = [0, 10]. Zdarzenia A ”pole ograniczone ramką nie przekracza 21cm2 ” zachodzi wtedy i tylko wtedy, gdy x(10 − x) ¬ 21. Rozwiązując nierówność −x2 + 10x − 21 ¬ 0 dla x ∈ [0, 10] otrzymujemy A = {x ∈ [0, 10] : x ∈ [0, 3] ∪ [7, 10]}, więc P (A) = m(A) m(Ω) = 6 10 . b) Niech B oznacza zdarzenie ”pole ograniczone ramką jest równe 21cm2 ”. Wówczas B zachodzi wtedy i tylko wtedy, gdy x = 3 lub x = 7, więc P (B) = m(B) m(Ω) = 0, ponieważ długość zbioru złożonego z dwu punktów wynosi 0. Zauważmy, że zdarzenie B jest możliwe ale prawdopodobieństwo jego zajścia równe jest 0. • Przykład 1.13 15 W każdej chwili odcinka czasu T jednakowo możliwe jest nadejście do odbiornika każdego z dwu sygnałów, które w tym odcinku czasu zostaną przesłane. Odbiornik nie może przyjąć drugiego sygnału, jeżeli nadejdzie on w czasie krótszym niż τ od chwili nadejścia pierwszego sygnału. Należy obliczyć prawdopodobieństwo przyjęcia przez odbiornik obu sygnałów. R o z w i ą z a n i e. 6y Niech x i y oznaczają czasy nadejścia sygnałów do odbiornika. Wtedy przestrzeń T zdarzeń elementarnych Ω = {(x, y) : x, y ∈ [0, T ]} możemy interpretować jako kwadrat o boku T a interesujące nas zdarzenie można zapisać w postaci A = {(x, y) ∈ T × T : |x − y| > τ }. 2 2 Zatem P (A) = (T T−τ2 ) = 1 − Tτ . τ O τ T x Rys. 1.01. • Przykład 1.14 Z przedziału [0, 1] wybieramy losowo trzy liczby x, y, z. Jakie jest prawdopodobieństwo, że ich suma jest liczbą z przedziału [ 12 , 1]? R o z w i ą z a n i e. W tym przykładzie Ω = {(x, y, z) : 0 ¬ x, y, z ¬ 1}, czyli geometrycznie Ω jest sześcianem jednostkowym. Rozważane zdarzenie to zbiór A = (x, y, z) : 12 ¬ x + y + z ¬ 1 . Tutaj m(A) jest objętością zbioru A, który jest różnicą dwu ostrosłupów. Zatem m(A) = 31 12 · 1 · 1 − 21 · 12 · 12 = 31 · 38 = 81 . Ponieważ m(Ω) = 1, więc P (A) = 81 . • Przykład 1.15 Z kwadratu jednostkowego wybrano losowo punkt o współrzędnych (x, y). Dla każdego a ∈ IR obliczyć: a) P (min(x, 12 ) < a) oraz b) P (min(x, y) < a). R o z w i ą z a n i e. a) Chyba jest jasne, że 0 dla a < 0 a dla 0 ¬ a <¬ 12 P (min(x, y) < a) = 1 dla a > 21 16 6y T a b) Ponieważ min(x, y) < a ⇐⇒ nieprawda, że (x a) i (y a), więc 0 1 − (1 − a)2 P (min(x, y) < a) = 1 τ dla dla dla a<0 0 ¬ a <¬ 1 a>1 O τ a T Rys. 1.01. x 17 1.4 Zadania 1) Pokazać, że dla dowolnych dwu zdarzeń A i B: a) P (A ∩ B) P (A) + P (B) − 1, b) prawdopodobieństwo, że zaszło dokładnie jedno z tych zdarzeń równe jest P (A) + P (B) − 2P (A ∩ B). 2) Dane są: P (A) = 14 , P (B) = P (A ∪ B), P (Ac ∪ B), P (A ∪ B c ). 3 4, A ∩ B = ∅. Uporządkować rosnąco: 3) Z kwadratu jednostkowego wybrano losowo punkt o współrzędnych (x, y). Dla każdego a ∈ IR obliczyć P (max(x, 21 ) < a) oraz g(a)=P (max(x, y) < a). 4) Cyfry 0, 1, 2, . . . , 9 ustawiono losowo. Jakie jest prawdopodobieństwo, że: a) między 0 i 1 znajdą się dokładnie cztery cyfry? b) 7, 8 i 9 będą stały obok siebie (w dowolnym porządku)? 5) W skład mechanizmu wchodzą dwa jednakowe koła zębate. Warunki techniczne zostają naruszone, jeżeli w obu kołach występują dodatnie odchylenia grubości zębów od nominalnego wymiaru. Monter dysponuje 10 kołami zębatymi, z których trzy są ”plusowe”, a 7 jest ”minusowych”. Obliczyć prawdopodobieństwo naruszenia warunków technicznych przy montażu, jeżeli koła są wybierane w sposób przypadkowy. 6) Roztargniony nauczyciel ma 5 długopisów i wkłada je losowo do 4 kieszeni. Jakie jest prawdopodobieństwo, że wszystkie długopisy będą w tej samej kieszeni? 7) Wśród m losów, gdzie m > 4 , są cztery wygrywające. Kupujemy dwa losy. Dla jakich m prawdopodobieństwo, że: a) oba są wygrywające - jest większe od 0,2; b) oba są wygrywające - jest mniejsze od 0,5; c) przynajmniej jeden wygrywa - jest większe od 0,5. 8) Przy okrągłym stole usiadło dziesięć dziewcząt i dziesięciu chłopców. Jakie jest prawdopodobieństwo, że osoby tej samej płci nie siedzą obok siebie? 9) Ile różnych pochodnych cząstkowych rzędu r ma funkcja n zmiennych posiadająca pochodne cząstkowe dowolnego rzędu? 10) Dwie przyjaciółki umówiły się w kawiarni między godziną 18 a 19 i postanowiły czekać na siebie co najwyżej kwadrans. Jakie jest prawdopodobieństwo, że się spotkają? Ile minut powinny na siebie czekać, by prawdopodobieństwo spotkania było większe niż 0,8? 11) Współczynniki a, b trójmianu kwadratowego x2 + ax + b są losowo wybranymi liczbami z przedziału [0,1]. Jakie jest prawdopodobieństwo, że: a) trójmian ten nie ma miejsc zerowych, b) ma dwa dodatnie pierwiastki, 18 c) ma dwa pierwiastki różnych znaków? 19 2 2.1 Prawdopodobieństwo warunkowe. Niezależność zdarzeń. Prawdopodobieństwo warunkowe. Niech B będzie dowolnie ustalonym zdarzeniem takim, że P (B) > 0. • Definicja 2.1 Prawdopodobieństwem warunkowym zdarzenia A pod warunkiem B nazywamy liczbę P (A|B) = P (A ∩ B) . P (B) Stąd oczywiście P (A ∩ B) = P (A|B)P (B). Posługując się zasadą indukcji matematycznej możemy udowodnić, że dla dowolnego n, przy założeniu, że P (A1 ∩ · · · ∩ An−1 ) > 0, prawdziwa jest równość P (A1 ∩· · ·∩An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩A2 )·. . .·P (An |A1 ∩· · ·∩An−1 ). (14) • Fakt 2.2 Jeżeli P (B) > 0, to funkcja P (·|B) określona na F spełnia aksjomaty prawdopodobieństwa. • Przykład 2.1 Rzucamy dwa razy symetryczną kostką. a) Jakie jest prawdopodobieństwo wyrzucenia różnej liczby oczek? b) Jakie jest prawdopodobieństwo wyrzucenia różnej liczby oczek, jeżeli suma oczek wynosi 11? c) Jakie jest prawdopodobieństwo wyrzucenia różnej liczby oczek, jeżeli suma oczek wynosi 10? R o z w i ą z a n i e. Przestrzeń zdarzeń elementarnych Ω jest zbiorem par uporządkowanych (a, b), gdzie a, b ∈ {1, 2, 3, 4, 5, 6}. Wszystkie zdarzenia elementarne są jednakowo prawdopodobne. a) Niech A oznacza zdarzenie ”wypadła różna liczba oczek”, czyli A = {(a, b) ∈ Ω : a 6= b} = Ω \ {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. 30 = 65 . b) ZdarzePonieważ Ω = 62 = 36 oraz A = 36 − 6 = 30, więc P (A) = 36 nie ”suma oczek wynosi 11” oznaczmy przez B. Oczywiście B = {(5, 6), (6, 5)}. Ponieważ B ⊂ A, więc B ∩ A = B i stąd P (A|B) = P (B) P (B) = 1. 20 W tym przykładzie informacja zawarta w zdarzeniu B dawała pewność, że zajdzie zdarzenie A. c) Warunkiem jest zdarzenie D = {(4, 6), (6, 4), (5, 5)}. Mamy: P (D) = 1 12 , Zatem A ∩ D = {(4, 6), (6, 4)}, P (A|D) = P (A∩D) P (D) P (A ∩ D) = 1 18 . = 32 . Jak widać, wpływ warunku B na prawdopodobieństwo zajścia zdarzenia A może być różny. • Przykład 2.2 Wybrano losowo dwie liczby z przedziału [0, 1]. Jakie jest prawdopodobieństwo, że xy 0, 09 , jeżeli wiadomo, że x + y ¬ 1 ? R o z w i ą z a n i e. Przestrzeń zdarzeń elementarnych jest kwadratem jednostkowym Ω = {(x, y) : x, y ∈ [0, 1]}. Interesujące nas zdarzenia to A = {(x, y) : x, y 0.09} oraz B = {(x, y) : x + y ¬ 1}. Oczywiście P (B) = 12 . Ponieważ A ∩ B = (x, y) : 0.1 ¬ x ¬ 0, 9; 0,09 x ¬y ¬1−x , więc P (A ∩ B) = Stąd P (A|B) = 0.9 R 0,1 (1 − x − P (A∩B) P (B) =2· 0,09 x )dx 2 5 − = 9 100 • Przykład 2.3 2 5 − 9 100 y 6 1 @ O ln 9. ln 9 . @ @ @ @ @ @ @ @ 1 Rys. 1.02. Studenci Wydziału Elektroniki muszą zdać w I semestrze trzy egzaminy: z fizyki (A), analizy matematycznej (B) i z albebry (C). Z danych Dziekanatu wynika, że 70% studentów zalicza I semestr a 90% — zdaje egzamin z teorii obwodów. Jeżeli student zaliczy algebrę i fizykę, to prawdopodobieństwo, że zda analizę wynosi 4 5 . Jakie jest prawdopodobieństwo, że student, który zdał teorię obwodów, zda algebrę? R o z w i ą z a n i e. Skorzystamy ze wzoru Mamy P (A ∩ B ∩ C) = P (A) · P (B|A) · P (C|A ∩ B). 7 10 skąd = 9 10 · P (B|A) · 45 , P (B|A) = 18 25 . x 21 2.2 Wzór na prawdopodobieństwo całkowite i wzór Bayesa. Załóżmy,że Ω jest sumą rozłącznych zbiorów Bi ∈ F dla i ∈ I. Wówczas P dla dowolnego zdarzenia A zbiory A ∩ Bi są parami rozłączne. Ponadto A = (A ∩ Bi ), i∈I P więc P (A) = P (A ∩ Bi ). Jeżeli wszystkie zdarzenia Bi mają dodatnie prawi∈ dopodobieństwo, to P (A ∩ Bi ) = P (A|Bi ) · P (Bi ) dla każdego i ∈ I i otrzymujemy następujące twierdzenie. • Twierdzenie 2.1 (Twierdzenie o prawdopodobieństwie całkowitym) Jeżeli Ω jest sumą rozłącznych zbiorów Bi , przy czym P (Bi ) > 0 dla wszystkich i ∈ I, to dla dowolnego zdarzenia A zachodzi równość X P (A) = P (A|Bi ) · P (Bi ). i∈I Rozważmy zagadnienie w pewnym sensie odwrotne do zagadnienia obliczania prawdopodobieństwa całkowitego. Mianowicie zapytajmy, jakie jest prawdopodobieństwo przyczyny Bi , gdy znany jest skutek A. Ponieważ P (Bi ∩A) = P (A|Bi )·P (Bi ), więc otrzymujemy tzw. wzór Bayesa P (A|Bi )P (Bi ) . P (Bi |A) = P P (A|Bi ) · P (Bi ) (15) i∈I Czasem zdarzenia Bi występujące we wzorze na prawdopodobieństwo warunkowe nazywamy przyczynami, zdarzenie A - skutkiem, a wzór Bayesa nazywamy wzorem na prawdopodobieństwo przyczyny. • Przykład 2.4 Telegraficzne przesyłanie informacji polega na wysyłaniu sygnałów: 0 albo 1. Przy przesyłaniu 0 przekłamanie występuje w dwu przypadkach na trzydzieści, a przy przesyłaniu 1 przekłamanie występuje w dwu przypadkach na czterdzieści. Stosunek liczby wysyłanych 0 do liczby wysyłanych 1 wynosi 5 : 3. Obliczyć prawdopodobieństwo, że: a) wysłano 0, jeżeli wiadomo, że odebrano 0, b) wysłano 1, jeżeli wiadomo, że odebrano 1, c) wysłano 1, jeżeli wiadomo, że odebrano 0. R o z w i ą z a n i e. a) Oznaczmy przez B1 zdarzenie ”wysłano 0”, przez B2 zdarzenie ”wysłano 1”, przez A1 zdarzenie ”odebrano 0” oraz przez A2 zdarzenie ”odebrano 1” . Wiemy, że P (A2 |B1 ) = 2 30 , P (A1 |B2 ) = 2 40 , P (B1 ) P (B2 ) = 35 . 22 Zgodnie ze wzorem Bayesa, prawdopodobieństwo zdarzenia ”wysłano 0, jeżeli odebrano 0” równe jest P (B1 |A1 ) = P (A1 |B1 )·P (B1 ) . P (A1 ) Zdarzenia B1 , B2 spełniają założenia twierdzenia o prawdopodobieństwie całkowitym, więc P (A1 ) = P (A1 |B1 ) · P (B1 ) + P (A1 |B2 ) · P (B2 ). Ponieważ P (B2 ) = 53 P (B1 ) oraz P (A1 |B1 ) = 1 − P (A2 |B1 ), więc P (B1 |A1 ) = 1−P (A2 |B1 ) 1−P (A2 |B1 )+P (A1 |B2 )· 35 = 280 289 ≈ 0, 969. b) Zgodnie ze wzorem Bayesa, prawdopodobieństwo zdarzenia ”wysłano 1, jeżeli odebrano 1” równe jest P (B2 |A2 ) = P (A2 |B2 )·P (B2 ) . P (A2 ) Zdarzenia B1 , B2 spełniają założenia twierdzenia o prawdopodobieństwie całkowitym, więc P (A2 ) = P (A2 |B1 ) · P (B1 ) + P (A2 |B2 ) · P (B2 ). Ponieważ P (B1 ) = 35 P (B2 ) oraz P (A2 |B2 ) = 1 − P (A1 |B2 ), więc P (B2 |A2 ) = 1−P (A1 |B2 ) 1−P (A1 |B2 )+P (A1 |B2 )· 53 ≈ c) P (B2 |A1 ) = 1 − P (B1 |A1 ) = 1 − 0.969 = 0.031. • Przykład 2.5 Przeciętnie 3% wyprodukowanych elementów ma wadę. Do wykrywania wady stosuje się test, który z prawdopodobieństwem 0, 9 wskazuje wadę (wynik testu pozytywny), jeżeli element ma wadę i z prawdopodobieństwem 0, 95 nie wskazuje wady, jeżeli element jej nie ma. a) Jakie jest prawdopodobieństwo, że element ma wadę, jeżeli wynik testu jest pozytywny? b) Jakie jest powyższe prawdopodobieństwo, jeżeli element poddamy testowi dwukrotnie i za każdym razem otrzymamy pozytywny wynik testu? R o z w i ą z a n i e. a) Oznaczmy przez W zdarzenie ”element ma wadę” i przez N zdarzenie ”element nie ma wady.” Zdarzenia te są rozłączne, W ∪ N = Ω oraz P (W ) = 0.03, P (N ) = 0.97. Niech D oznacza zdarzenie ”wynik testu jest pozytywny”. Z danych zawartych w zadaniu wynika, że P (D|W ) = 0.9, P (D′ |N ) = 0.95. 23 Do obliczenia prawdopodobieństwa zdarzenia ”element ma wadę, jeżeli wynik testu był negatywny”, czyli prawdopodobieństwa warunkowego P (W |D) wykorzystamy wzór Bayesa. P (W |D) = P (D|W )·P (W ) P (D) = P (D|W )·P (W ) P (D|W )·P (W )+P (D|N )·P (N ) = 0.9·0.03 0.9·0.03+0.05·0.97 = 0.358 ponieważ z własności prawdopodobieństwa warunkowego wynika, że P (D|N ) = 1 − P (D′ |N ). Zatem, jeżeli wynik testu jest pozytywny, to prawdopodobieństwo, że losowo wybrany element ma wadę wynosi 35, 8%, czyli wśród elementów, które test wskazuje jako wadliwe tylko 35, 8% elementów ma wadę! Co wpływa na taką jakość testu? Jaki test byłby lepszy? Dla wad, które występują rzadko należałoby wykorzystywać testy o większych wartościach P (D|W ) oraz P (D′ |N ). b) Obliczamy, jakie jest prawdopodobieństwo, że element ma wadę, jeżeli test przeprowadzony na nim dwukrotnie dał wyniki pozytywne. Niech A oznacza zdarzenie ”test przeprowadzony dwukrotnie na elemencie dał za każdym razem wynik pozytywny”. Wówczas P (A|W ) = P (D|W ) · P (D|W ) oraz P (A|N ) = P (D|N ) · P (D|N ). 2 P (A|W )·P (W ) (0.9) ·0.03 Stąd P (W |A) = P (A|W )·P (W )+P (A|N )·P (N ) = (0.9)2 ·0.03+(0.05)2 ·0.97 = 0.909. Zatem, jeżeli dwukrotnie zastosowany test dał wyniki pozytywne, to prawdopodobieństwo, że element ma wadę wynosi 0.909. Prawdopodobieństwo trafnej diagnozy znacznie wzrosło, gdy test przeprowadzilśmy dwukrotnie! Łatwo policzyć, że prawdopodobieństwo zdarzenia ”element ma wadę, jeżeli test przeprowadzony trzykrotnie na tym elemencie dał za każdym razem wynik pozytywny” równe jest 0.994. • Przykład 2.6 Prawdopodobieństwo, że pogoda w danej miejscowości jest taka sama, jak dnia poprzedniego równe jest a dla dnia deszczowego i b — dla dnia bezdeszczowego (a, b ∈ (0, 1)). Prawdopodobieństwo, że pierwszy dzień roku jest deszczowy równe jest p1 . Obliczyć prawdopodobieństwo pn , że n-ty dzień roku jest deszczowy. R o z w i ą z a n i e. Oznaczmy przez Dn zdarzenie ”n-ty dzień roku jest deszczowy”, a przez Bn zdarzenie ”n-ty dzień roku jest bezdeszczowy”. Wówczas dla dowolnego n 1 mamy: P (Dn+1 |Dn ) = a, P (Bn+1 |Bn ) = b, P (Dn+1 |Bn ) = 1 − b, P (Bn+1 |Dn ) = 1 − a. Policzmy p2 = P (D2 ) = P (D2 |D1 ) · p1 + P (D2 |B1 ) · (1 − p1 ) = ap1 + (1 − b)(1 − p1 ) = p1 (a + b − 1) + 1 − b, p3 = P (D3 ) = P (D3 |D2 ) · p2 + P (D3 |B2 ) · (1 − p2 ) = ap2 + (1 − b)(1 − p2 ) 24 = p1 (a + b − 1)2 + (1 − b)(a + b − 1) + 1 − b, p4 .. . = P (D4 ) = P (D4 |D3 ) · p3 + P (D4 |B3 ) · (1 − p3 ) = p3 (a + b − 1) + 1 − b = p1 (a + b − 1)3 + (1 − b)(a + b − 1)2 + (1 − b)(a + b − 1) + 1 − b, Posługując się zasadą indukcji matematycznej można pokazać, że n−2 X (a + b − 1)k pn = p1 (a + b − 1)n−1 + (1 − b) k=0 1 − (a + b − 1)n−1 1−a−b+1 1 − b) (1 − b)(a + b − 1)n−1 + p1 (a + b − 1)n−1 − . (1 − a) + (1 − b) (1 − a) + (1 − b) = p1 (a + b − 1)n−1 + (1 − b) = Ponieważ a + b − 1 ∈ (0, 1), więc lim (a + b − 1)n−1 = 0 i stąd n→∞ lim pn = n→∞ 2.3 1−b (1−a)+(1−b) . Niezależność zdarzeń. • Definicja 2.3 Dwa zdarzenia A i B nazywamy niezależnymi, jeżeli P (A ∩ B) = P (A) · P (B). Jeżeli P (B) > 0, to z niezależności zdarzeń A i B wynika, że P (A|B) = P (A), czyli, jak się potocznie mówi, zajście zdarzenia B nie ma wpływu na prawdopodobieństwo zajścia zdarzenia A. Oczywiście dla dowolnego A ∈ F zdarzenia A i Ω są niezależne. Podobnie - zdarzenia A i ∅ są niezależne. Jeżeli zdarzenia A i B są rozłączne i mają niezerowe prawdopodobieństwa, to nie mogą być niezależne. Zdarzenia A1 , A2 , A3 , . . . nazywamy rodziną zdarzeń niezależnych, jeżeli dla każdej skończonej ilości zdarzeń Ai1 , Ai2 , . . . , Ain zachodzi równość P (Ai1 ∩ · · · ∩ Ain ) = P (Ai1 ) · · · P (Ain ). (16) • Fakt 2.4 Jeżeli zdarzenia A1 , A2 , . . . , An są niezależne, to niezależne są także zda′ rzenia B1 , B2 , . . . , Bn , gdzie Bi = Ai lub Bi = Ai dla i = 1, 2, . . . , n. • Przykład 2.7 Wyrazić prawdopodobieństwo sumy n niezależnych zdarzeń Ai , i = 1, 2, . . . , n za pomocą prawdopodobieństw poszczególnych składników. R o z w i ą z a n i e. Ponieważ 25 n S i=1 Ai = Ω \ n T i=1 A′i , więc korzystając z własności prawdopodobieństwa i z niezależności zdarzeń Ai , i = 1, 2, . . . , n możemy napisać S n n n n Q Q T (1 − P (Ai )). P (A′i ) = 1 − P Ai = 1 − P ( A′i ) = 1 − czyli P n [ i=1 i=1 i=1 i=1 i=1 n Y Ai = 1 − (1 − P (Ai )). (17) i=1 W tym momencie warto sobie przypomnieć, jak się oblicza prawdopodobieństwo sumy zdarzeń, o których nie wiadomo, czy są parami rozłączne (wzór 4). Widać, że, gdy zdarzenia Ai są niezależne, ten dość skomplikowany wzór można mocno uprościć. • Przykład 2.8 Niech Ω = {ω1 , ω2 , ω3 , ω4 , } przy czym P ({ωi , }) = 14 dla i = 1, 2, 3, 4. Zbadać niezależność rodziny zdarzeń {{ω1 }, {ω2 }, {ω3 }, {ω4 }}. R o z w i ą z a n i e. Zdarzenia Ai = {ω1 , ωi+1 } są parami niezależne, bo P (Ai ∩ Aj ) = P ({ω1 }) = 14 oraz P (Ai ) · P (Aj ) = 12 · 12 = 41 . Tymczasem P (A1 ∩ A2 ∩ A3 ) = P ({ω1 }) = 1 4 a P (A1 ) · P (A2 ) · P (A3 ) = 1 2 · 1 2 · 1 2 = 18 . Widać zatem, że z niezależności każdych dwu zdarzeń z danej rodziny S nie wynika niezależność tej rodziny. • Przykład 2.9 Trzech kontrolerów jakości pracuje niezależnie. Pierwszy wykrywa 90% wad, drugi - 80% a trzeci - 60%. Jaki procent wad wykrywają łącznie? Jaki procent wad wykrywa trzeci kontroler a nie wykrywa pierwszy ani drugi? R o z w i ą z a n i e. Niech Ai oznacza zdarzenie ”wadę wykrył i-ty kontroler”. Wówczas: P (A1 ) = 9 10 , P (A2 ) = 8 10 , 6 10 , P (A3 ) = Wada zostanie wykryta, gdy zajdzie zdarzenie A = A1 ∪ A2 ∪ A3 . Wykorzystując wzór na prawdopodobieństwo zdarzenia przeciwnego oraz prawa de Morgana otrzymujemy ′ ′ ′ P (A1 ∪ A2 ∪ A3 ) = 1 − P (A1 ∩ A2 ∩ A3 ). ′ ′ ′ Ponieważ z niezależności zdarzeń A1 , A2 , A3 wynika niezależność zdarzeń A1 , A2 , A3 , więc 26 ′ ′ ′ P (A1 ∪ A2 ∪ A3 ) = 1 − P (A1 )P (A2 )P (A3 ) = 1 − 0, 1 · 0, 2 · 0, 4 = 0, 992. Zatem łącznie kontrolerzy wykrywają 99, 2% wad. Zdarzenie ”spośród trzech kontrolerów wadę wykrył tylko trzeci kontroler” można ′ ′ ′ ′ zapisać jako zdarzenie A1 ∩ A2 ∩ A3 . Ponieważ te trzy zdarzenia (tzn. A1 , A2 , A3 ) są niezależne, więc ′ ′ P (A1 ∩ A2 ∩ A3 ) = 0, 1 · 0, 2 · 0, 6 = 0, 012. • Przykład 2.10 Niezawodnością urządzenia nazywamy prawdopodobieństwo tego, że będzie ono pracować poprawnie przez czas nie mniejszy niż T. Obliczyć niezawodność urządzeń, których schematy przedstawiają poniższe rysunki. Liczby p1 , p2 , . . . oznaczają niezawodności poszczególnych, niezależnie pracujących elementów. a) p1 p2 pn p1 p2 b) pn p5 p2 p6 p1 p3 c) p4 p7 . R o z w i ą z a n i e. Niech Ai oznacza zdarzenie, że i-ty element pracuje poprawnie co najmniej przez czas T. Wtedy pi = P (Ai ). Niech p oznacza niezawodność urządzenia. a) Urządzenie pracuje niezawodnie wtedy i tylko wtedy, gdy niezawodny jest każdy element, czyli, gdy zajdzie zdarzenie A1 ∩ A2 ∩ . . . ∩ An . Wykorzystując niezawodność zdarzeń Ai otrzymujemy p = P (A1 ∩ A2 ∩ . . . ∩ An ) = p1 · p2 · . . . · pn . b) Urządzenie pracuje niezawodnie wtedy i tylko wtedy, gdy przynajmniej jeden element jest niezawodny, czyli, gdy zajdzie zdarzenie A1 ∪ A2 ∪ . . . ∪ An . Stąd p = P (A1 ∪ A2 ∪ . . . ∪ An ) 27 i wykorzystując na sumę zdarzeń oraz niezależność tych zdarzeń, otrzymujemy p= n X i=1 pi − X pi pj + i<j X i<j<k pi pj pk + . . . + (−1)n+1 p1 · p2 · . . . · pn . c) Urządzenie pracuje niezawodnie wtedy i tylko wtedy, gdy zajdzie zdarzenie A1 i zdarzenie A2 ∪ (A3 ∩ A4 ) i zdarzenie A5 ∪ A6 ∪ A7 . Wykorzystując na sumę zdarzeń oraz ich niezależność otrzymujemy p = P (A1 ) · P (A2 ∪ (A3 ∩ A4 )) · P (A5 ∪ A6 ∪ A7 ) = p1 (p2 + p3 · p4 − p2 · p3 · p4 )(p5 + p6 + p7 − p5 · p6 − p6 · p7 − p5 · p7 + p5 · p6 · p7 ). • Przykład 2.11 Rozważamy rodziny posiadające n dzieci. Niech A oznacza zdarzenie, że rodzina ma dzieci obu płci, a B - rodzina ma przynajmniej jedną dziewczynkę. Czy zdarzenia A i B są niezależne? R o z w i ą z a n i e. Przyjmując, że dzieci w rodzinie uporządkowane są np. według starszeństwa, oznaczmy przez Ω zbiór ciągów n-elementowych o elementach 0 (dziewczynka) i 1 (chłopiec). Wówczas Ω = 2n , A = 2n − 2, B = 2n − 1, A ∩ B = 2n − 2. Zatem P (A ∩ B) = 2n −2 2n , a P (A) · P (B) = 2n −2 2n · 2n −1 2n i równość nigdy nie zachodzi. • Przykład 2.12 Wkładamy losowo n ponumerowanych kul do n ponumerowanych szuflad. Jakie jest prawdopodobieństwo pn , że przynajmniej jedna kula trafi do szuflady o tym samym numerze? Obliczyć lim pn . n→∞ R o z w i ą z a n i e. Niech Ai oznacza zdarzenie ”i-ta kula wpadła do i-tej szuflady, i = 1, 2, . . . , n . Każda kula wpada niezależnie do każdej z szuflad z tym samym prawdopodobieństwem równym n1 . Stąd, wykorzystując wzór 17, otrzymujemy pn = P ( n S i=1 Zatem lim pn = 1 − lim n→∞ n→∞ n−1 n n Ai ) = 1 − = 1 − e−1 . n−1 n . n 28 2.4 Zadania 1) Pokazać, że jeżeli P (B) > 0, to dla dowolnego zdarzenia A zachodzi równość ′ P (A |B) = 1 − P (A|B). 2) Zdarzenia A i B są niezależne przy czym A ∪ B = Ω. Pokazać, że P (A) = 1 lub P (B) = 1. 3) Wykazać, że z niezależności zdarzeń A i B wynika niezależność zdarzeń A i B c , Ac i B c ? 13) Wykazać, że jeżeli zajście zdarzenia A zwiększa prawdopodobieństwo zajścia zdarzenia B, to zajście zdarzenia B zwiększa prawdopodobieństwo zajścia zdarzenia A. ′ 4) Pokazać, że jeżeli P (A|B) = P (A|B ), to A i B są niezależne. 5) Zdarzenia A1 , A2 , . . . , An są niezależne i mają jednakowe prawdopodobieństwa. Jaka jest szansa, że: a) zajdą wszystkie naraz? b) nie zajdzie żadne z nich? c) zajdzie dokładnie jedno? 6) Bolek, Lolek i Jacek rzucają po kolei monetą. Wygrywa ten, który pierwszy wyrzuci orła. Znaleźć szanse wygranej dla każdego z graczy. 7) Winda wyposażona jest w dwa układy hamowania włączające się automatycznie (obydwa) w razie zerwania się liny. Prawdopodobieństwo wyhamowania przez każdy układ z osobna jest jednakowe i wynosi 0,99. Jakie jest prawdopodobieństwo: a) wyhamowania windy w razie zerwania się liny, b) spadnięcie kabiny windy w razie zerwania się liny, jeżeli prawdopodobieństwo tego ostatniego zdarzenia wynosi 10−5 . Rozwiązać to samo zadanie przy założeniu, że drugi układ hamowania włączy się tylko w sytuacji, gdy nie zadziała pierwszy. 8) Na szczyt góry prowadzi pięć dróg. Każda z nich nadaje się również do zejścia. Zakładamy ponadto, że wszystkie trasy są równorzędne. Obliczyć prawdopodobieństwo spotkania się dwu znajomych, z których jeden wchodzi na szczyt, a drugi jest w drodze powrotnej. 9) Pięciu studentów powtarzających dany rok studiów wybiera losowo, każdy niezależnie od pozostałych, jedną z trzech niezależnych grup. Zakładając, że wszystkie rozmieszczenia tych studentów są jednakowo prawdopodobne, znaleźć prawdopodobieństwo tego, że: a) wszyscy znajdą się w pierwszej grupie, b) wszyscy znajdą się w tej samej grupie, c) w jednej z grup znajdzie się dokładnie jeden student, 29 d) w pierwszej grupie znajdzie się dokładnie jeden student, 10) Wśród 65 monet jest jedna z dwoma orłami. Rzucając losowo monetą otrzymaliśmy 6 razy pod rząd orła. Jakie jest prawdopodobieństwo, że była to moneta z dwoma orłami? 11) Prawdopodobieństwo przekazania sygnału przez jeden przekaźnik równe jest p. Przekaźniki działają niezależnie. Obliczyć prawdopodobieństwo przekazania sygnału: a)przy połączeniu szeregowym dwu przekaźników (muszą działać oba), b)przy połączeniu równoległym dwu przekaźników (wystarczy, by jeden z nich działał). Dla jakich p korzystniejsze jest połączenia a) a dla jakich - b)? 12) Rozpatrujemy rodziny z trójką dzieci. Zakładając, że wszystkie kombinacje są jednakowo prawdopodobne, obliczyć prawdopodobieństwo, że w losowo wybranej rodzinie: a) jest przynajmniej jedna dziewczynka, b) jest dokładnie jeden chłopiec, c) jest co najwyżej jedna dziewczynka, d) są dzieci obu płci? Czy któreś ze zdarzeń są niezależne? 13) Zbadać, który z układów przedstawionych na rysunku ma większą niezawodność (niezawodności urządzeń podane są w nawiasach) 14) W ciągu 1000 dni przeprowadzono obserwacje astronomiczne dotyczące prędkości wiatru i ciśnienia atmosferycznego. Niech A oznacza zdarzenie: prędkość wiatru = 5m, B - ciśnienie atmosferyczne = 1020 milibarów. Zanotowano następujące liczby zdarzeń: B Bc Razem A 400 200 600 Ac 100 300 400 Razem 500 500 1000 Przyjmując częstości empiryczne jako prawdopodobieństwa zbadać, czy zdarzenia A i B są niezależne. 30 3 Zmienne losowe jednowymiarowe. 3.1 Definicja oraz rozkład i dystrybuanta zmiennej losowej. Chociaż matematyczny opis doświadczenia losowego wymaga w zasadzie sprecyzowania przestrzeni probabilistycznej, z którą mamy do czynienia, to w praktyce interesują nas przede wszystkim pewne dane liczbowe dotyczące wyników eksperymentu. Wprowadzimy teraz pojęcie, które pozwoli uprościć i stworzyć jednolity opis zjawiska losowego. • Definicja 3.1 Zmienna֒ losowa֒ nazywamy każdą funkcję X : Ω −→ IR taką, że dla dowolnego a ∈ IR zbiór {ω ∈ Ω : X(ω) < a} jest zdarzeniem losowym, czyli {ω ∈ Ω : X(ω) < a} ∈ F dla dowolnego a ∈ IR. W dalszym ciągu zapisujemy krótko {ω ∈Ω : X(ω) < a} = (X < a). Z własności rodziny F wynika, że zdarzeniami losowymi są też wszystkie zbiory postaci: (X ¬ a), (X > a), (X a), (a < X < b), (a < X ¬ b), (a ¬ X < b). • Definicja 3.2 Dystrybuanta֒ zmiennej losowej X: Ω −→ IR nazywamy funkcję FX : IR −→ [0, 1] określoną wzorem: FX (x) = P (X < x) • Twierdzenie 3.1 Funkcja F : IR −→ IR jest dystrybuantą pewnej zmiennej losowej wtedy i tylko wtedy, gdy : • F jest niemalejąca, • lim F (x) = 0, x→−∞ lim F (x) = 1. x→+∞ • F jest lewostronnie ciągła, Z dwu pierwszych warunków wynika, że dla każdego x ∈ IR prawdziwa jest nierówność 0 ¬ F (x) ¬ 1. Wyróżniamy dwa zasadnicze typy zmiennych losowych: zmienne losowe typu skokowego i zmienne losowe typu ciągłego. • Definicja 3.3 Mówimy, że zmienna losowa X jest typu skokowego lub X jest zmienna֒ dyskretna֒, jeżeli X przyjmuje skończenie lub co najwyżej przeliP czalnie wiele wartości xi , i ∈ I przy czym P (X = xi ) = pi > 0 oraz pi = 1. i ∈I 31 • Definicja 3.4 Mówimy, że zmienna losowa X jest typu cia֒gl6 6 ego, jeżeli istnieje nieujemna funkcja całkowalna fX : IR −→ IR taka, że: FX (x) = Zx −∞ fX (t)dt dla każdego x ∈ IR. Funkcję fX nazywamy ge֒stościa֒ prawdopodobieństwa. Wiemy z analizy, że funkcja FX jest wówczas ciągła. Ponadto - jest ona różniczkowalna we wszystkich punktach ciągłości funkcji fX i w punktach tych zachodzi równość ′ FX (x) = fX (x). Nietrudno wykazać, że prawdziwa jest następująca charakteryzacja. • Twierdzenie 3.2 Funkcja f jest gęstością pewnej zmiennej losowej wtedy i tylko wtedy, gdy : • f (x) 0 dla każdego x ∈ IR, • +∞ R f (x)dx = 1. −∞ Jeżeli potrafimy dla każdego podzbioru borelowskiego B określić prawdopodobienstwo, z jakim X przyjmuje wartości w zbiorze B, to mówimy, że został określony rozkład zmiennej losowej: PX (B) = P ({ω : X(ω) ∈ B}). W dalszym ciągu oznaczamy krótko P (X ∈ B) = PX (B). Zauważmy, że rozkład zmiennej losowej spełnia aksjomaty prawdopodobieństwa. Rozkład zmiennej losowej jest jednoznacznie wyznaczony przez jej dystrybuantę, co jest treścią następującego faktu. • Fakt 3.5 Prawdziwe są następujące równości: 1. P (X a) = 1 − FX (a), 2. P (a ¬ X < b) = FX (b) − FX (a), 3. P (X = a) = FX (a+ ) − FX (a) (stąd, jeżeli FX jest ciągła w punkcie a, to P (X = a) = 0), 4. P (X ¬ a) = FX (a+ ), 5. Jeżeli X jest typu ciągłego, to P (X = a) = 0 dla każdego a ∈ IR. 32 Z własności 2. wynika, że dla zmiennych ciągłych prawdziwa jest często wykorzystywana równość Zb P (a < X < b) = f (x)dx. a Rozkład prawdopodobieństwa zmiennej dyskretnej nazywa się często funkcją prawdopodobieństwa i zapisuje w postaci {(xi , pi ) : i ∈ I} Dystrybuanta FX : IR −→ [0, 1] zmiennej dyskretnej ma postać X FX (x) = P (X < x) = pi . {i:xi <x} Jest to funkcja schodkowa, lewostronnie ciągła o skokach o wartości pi w punktach xi , i ∈ I. Jeżeli g jest przedziałami ciągłą funkcją zmiennej rzeczywistej oraz X jest zmienną losową, to Y = g(X) też jest zmienną losową. Jeżeli X jest zmienną dyskretną o skokach o wartości pi w punktach xi , i ∈ I, to Y jest też skokową zmienną losową o skokach o wartości pi w punktach yi , gdzie yi = g(xi ). Jeżeli g jest w dodatku ściśle rosnąca, to łatwo jest wyrazić dystrybuantę zmiennej Y przez dystrybuantę zmiennej X, mianowicie: FY (x) = P (g(X) < x) = P (X < g −1 (x)) = FX (g −1 (x)). Podobnie, w przypadku funkcji g ściśle malejącej mamy: FY (x) = P (g(X) < x) = P (X > g −1 (x)) = 1 − P (X ¬ g −1 (x)) = 1 − FX (g −1 (x)) − P (X = g −1 (x)). Jeżeli zmienna losowa X jest typu ciągłego, to w prostych przypadkach rozkład zmiennej losowej g(X) można wyznaczyć bezpośrednio, co zobaczymy na przykładach. • Definicja 3.6 Zmienne losowe X1 , X2 , . . . , Xn nazywają się niezależne, jeżeli dla dowolnych t1 , t2 , . . . , tn ∈ IR zachodzi równość P (X1 < t1 , X2 < t2 , . . . , Xn < tn ) = n Q i=1 • Przykład 3.1 P (Xi < ti ). 33 Czy można dobrać stałe a, b tak, by funkcja zmiennej losowej? a − 21 + ex gdy e−1 gdy F (x) = b(10 − x22 ) gdy Przyjmując: a = 12 , b = X < 3). 1 10 F (x) była dystrybuantą pewnej x ¬ −1, −1 ¬ x < 1, x 1. obliczyć: P (1 ¬ X < 2), P (0 ¬ X ¬ 1), P (−1 ¬ • Przykład 3.2 Czy funkcja F (x) = 0 2 1+x2 gdy x ¬ 0, gdy x > 0. jest dystrybuantą pewnej zmiennej losowej? Jeżeli nie, to czy można dobrać stałą A tak, aby funkcja G(x) = A · F (x) była dystrybuantą? • Przykład 3.3 Zorganizowano następującą grę: gracz wyciąga z talii dwie karty (bez zwracania). Jeżeli są to dwa asy - gracz wygrywa 20zł; jeżeli dwie figury (król, dama, walet) - gracz wygrywa 10zł; w każdym pozostałym przypadku gracz płaci dwa złote. Znaleźć rozkład zmiennej losowej X oznaczającej wygraną gracza. • Przykład 3.4 Spośród trzech dobrych i dwu wadliwych elementów losujemy 3 elementy. Wyznaczyć rozkład i dystrybuantę zmiennej losowej X oznaczającej liczbę wadliwych elementów. Z wykresu dustrybuanty odczytać P (X 1), P (0 < X ¬ 4). • Przykład 3.5 Rzucamy dwiema kostkami. Ω = {ω = (x1 , x2 ) : x1 , x2 ∈ {1, 2, 3, 4, 5, 6}}, n(Ω) = 62 Określamy X1 , X2 , X3 , X4 : Ω −→ IR wzorami: X1 (ω) = x1 , X2 (ω) = x2 , X3 (ω) = x1 + x2 , X4 (ω) = x1 · x2 . Wyznaczyć rozkłady i dystrybuanty tych zmiennych. • Przykład 3.6 Wybieramy losowo punkt ω = (x, y) z kwadratu Ω = [0, 1] × [0, 1]. Rozważamy prawdopodobienstwo geometryczne P (A) = m(A) m(Ω) i zmienne losowe X(ω) = x, Y (ω) = y. 34 Funkcje X, Y są zmiennymi losowymi, bo X −1 ((−∞, a)) = Y −1 ((−∞, a)) = ∅ gdya ¬ 0, ∅ gdya ¬ 0, P (X < t, Y < s) = |{(x, y) : x < t, y < s}| = t · s = P (X < t)P (Y < s) dla 0 ¬ t, s ¬ 1. FX (x) = P (X < x) = • Przykład 3.7 Z bieżącej produkcji pobierane są próbki czteroelementowe celem zbadania jakości wyrobów. Ω = {(a, b, c, d) : a, b, c, d ∈ {0, 1}}, n(Ω) = 24 Określamy X : Ω −→ IR wzorem X((a, b, c, d)) = a + b + c + d . Jeżeli przyjmiemy a = 0 (podobnie − b, c, d = 0) gdy wybrany element jest wadliwy, to zmienna X oznacza ilość elementów dobrych w próbie. Rozkład zmiennej X możemy przedstawić ma postać: 4 6 4 1 1 ), (1, 16 ), (2, 16 ), (3, 16 ), (4, 16 )}. {(0, 16 • Przykład 3.8 Dzienne zużycie energii (w setkach kWh) pewnej firmy jest zmienną losową X o gęstości: 1 2 dla 1 < x < 3, 9 (3 + 2x − x ) fX (x) = 0 dla poza Jakie jest prawdopodobieństwo, że: X > 50, 100 < X < 200? Opłatę za energię Rx f (t)dt = ... oblicza się zgodnie ze wzorem Y = X 2 + 2... FX (x) = −∞ P (X > 50) = 1 − F (50), P (100 < X < 200) = FX (200) − FX (100) • Przykład 3.9 Rzucamy trzy razy symetryczną monetą. Zmienna losowa oznacza liczbę otrzymanych √ orłów. Wyznaczyć funkcję prawdopodobieństwa zmiennych losowych; X, X 2 , X, −2X + 1. R o z w i ą z a n i e. Ω = {(0, 0, 0), (0, 0, R), (0, R, 0), (R, 0, 0), (0, R, R), (R, 0, R), (R, R, 0), (R, R, R)}, Ω = 23 = 8 X ma rozkład { 0, 18 , 1, 83 , 2, 38 , 3, 18 } X 2 ma rozkład { 0, 81 , 1, 38 , 4, 83 , 9, 18 } √ √ √ X ma rozkład { 0, 18 , 1, 38 , 2, 38 , 3, 18 } −2X + 3 ma rozkład { 3, 18 , 1, 38 , −1, 83 , −3, 81 } 35 3.2 Parametry zmiennej losowej W praktyce istnieje na ogół potrzeba opisania zmiennej losowej przez podanie pewnych charakterystycznych dla niej liczb, zwanych parametrami rozkładu zmiennej losowej. Mówimy przecież np. o średniej płacy w danym sektorze gospodarki,... Omówimy teraz najczęściej wykorzystywane parametry rozkładu zmiennej losowej. 3.2.1 Wartość oczekiwana. • Definicja 3.7 Wartościa֒ oczekiwana֒ zmiennej P losowej dyskretnej o rozkładzie {(xi , pi ) : i ∈ I} spełniającej warunek |xi |pi < ∞ nazywamy liczbę i∈I określoną wzorem: EX = P xi pi . i∈I Wartościa֒ oczekiwana֒ zmiennej losowej cia֒gl6 6 ej o gęstości f (x) spełniającej +∞ R |x|f (x)dx < ∞ nazywamy liczbę określoną wzorem: warunek EX = −∞ EX = +∞ R xf (x)dx. −∞ Zauważmy, że wartość oczekiwana zmiennej losowej X jest odpowiednikiem znanego z fizyki pojęcia środka masy. W przypadku zmiennej dyskretnej prawdopodobieństwa pi interpretujemy jako masy skupione w punktach xi , a przyjęty układ jednostek jest taki, że masa całkowita równa jest 1. W przypadku zmiennej ciągłej f (x) jest gęstością masy. Wprost z definicji (z własności szeregów i całek niewłaściwych zbieżnych) wynikają następujące własności wartości oczekiwanej: • Fakt 3.8 (Własności wartości oczekiwanej) 1. E(aX + c) = aE(X) + c, dla a, c ∈ IR; 2. Jeżeli P (X = c) = 1, to EX = c. W szczególności E(EX) = EX ; 3. |EX| ¬ E(|X|); 4. Jeżeli P (X 0) = 1 , to EX 0; P 5. Jeżeli Y = g(X), to EY = i g(xi )pi w przypadku zmiennej dyskretnej +∞ R g(x)f (x)dx w przypadku zmiennej z gęstością f (x), o ile oraz EY = −∞ powyższy szereg i całka są zbieżne bezwzględnie; 6. E(X + Y ) = EX + EY ; 7. Jeżeli X, Y są niezależne, to E(XY ) = EX · EY . 36 3.2.2 Wariancja zmiennej losowej. • Definicja 3.9 rem Wariancja֒ zmiennej losowej nazywamy liczbę zdefiniowaną wzoVarX = E(X − EX)2 √ Pierwiastek z wariancji, czyli D(X) = VarX nazywamy odchyleniem standardowym albo dyspersją zmiennej losowej X, a wariancję oznaczamy często także symbolem D2 (X). Wariancja pozwala ocenić, jak bardzo wartości zmiennej losowej różnią się od wartości oczekiwanej. Zaliczamy ją do grupy tzw. parametrów rozproszenia. Interpretując rozkład prawdopodobieństwa jako rozkład masy jednostkowej (podobnie, jak w przypadku wartości oczekiwanej) widzimy, że wariancja jest odpowiednikiem występującego w fizyce pojęcia momentu bezwładności względem środka masy. • Fakt 3.10 Prawdziwa jest następująca równość • Fakt 3.11 (Własności wariancji) VarX = EX 2 − (EX)2 . 1. VarX 0, 2. VarX = 0 wtedy i tylko wtedy, gdy P (X = c) = 1 dla pewnej stałej c. 3. Var(aX) = a2 VarX, 4. Var(X + c) = VarX, 5. Jeżeli zmienne losowe X, Y są niezależne, to Var(X + Y ) = VarX + VarY. Oczywiste jest uogólnienie dwu ostatnich własności faktu 3.8 i ostatniej własności faktu 3.11 na przypadek dowolnej skończonej ilości zmiennych losowych. 3.2.3 Momenty. Wartość oczekiwana i wariancja są szczególnymi przypadkami parametrów rozkładu zwanych momentami. Momentem zwykłym rzędu r (r > 0) zmiennej losowej X nazywamy liczbę EX r . Momentem absolutnym rzędu r (r > 0) zmiennej losowej X nazywamy liczbę E|X|r . Momentem centralnym rzędu r (r > 0) zmiennej losowej X nazywamy liczbę E(X − EX)r . • Fakt 3.12 Jeżeli istnieje moment absolutny rzędu k, to istnieją momenty absolutny, zwykły i centralny rzędów l ¬ k. Momenty centralne rzędu 3 i 4 wykorzystuje się do badania symetrii rozkładu i stopnia jego koncentracji wokół wartości oczekiwanej. 37 3.2.4 Kwantyle. • Definicja 3.13 Kwantylem rze֒du p, gdzie p ∈ (0, 1), rozkładu zmiennej losowej X nazywamy każdą liczbę xp spełniającą warunek FX (xp ) ¬ p ¬ FX (x+ p ). Oznacza to, że P (X < xp ) ¬ p i jednocześnie P (X > xp ) ¬ 1 − p. Nie wszystkie kwantyle rozkładu zmiennej dyskretnej są jednoznacznie wyznaczone, a kwantyle rozkładu zmiennej typu ciągłego są jedynymi liczbami spełniającymi warunek FX (xp ) = p. Kwantyl rzędu mamy zatem 1 2 nazywamy medianą i oznaczamy me . Dla zmiennej dyskretnej X xi <me pi ¬ 0, 5 ¬ X pi , xi ¬me a dla zmiennej typu ciągłego mediana spełnia równość F (me ) = 0, 5. Kwantyl rzędu 41 nazywamy kwartylem dolnym, a kwantyl rzędu lem górnym. Mamy zatem 3 4 – kwarty- P (x 41 < X ¬ x 43 ) 12 . • Przykład 3.10 Obliczyć wartość oczekiwaną i wariancję dla zmiennych losowych o następujących rozkładach: a) P (X = 49) = P (X = 51) = 12 ; b) P (Y = −100) = 14 , P (Y = 100) = 43 ; c) P (Z = 100) = P (Z = 0) = 14 , P (Z = 50) = 21 . R o z w i ą z a n i e. Opisane zmienne losowe są typu dyskretnego, więc: EX = 49· 12 +51· 12 = 50, EY = −100· 14 +100· 34 = 50, EZ = 100· 14 +50· 12 +0· 14 = 50. Te trzy zmienne losowe mają taką samą wartość oczekiwaną. Zwróćmy uwagę, że wartość oczekiwana zmiennej losowej zależy nie tylko od wartości, jakie ta zmienna losowa przyjmuje ale też od prawdopodobieństw, z jakimi te wartości są przyjmowane. Wariancje tych zmiennych są następujące: VarX = (49 − 50)2 · 12 + (51 − 50)2 · 21 = 1, VarY = (−100 − 50)2 · 14 + (100 − 50)2 · 43 = 7500, VarZ = (100 − 50)2 · 14 + (50 − 50)2 · 12 + (0 − 50)2 · 1 4 = 1250, Znajomość wariancji poprawia charakteryzację zmiennej losowej. Jeżeli zmiennej losowej są odległe od wartości oczekiwanej, to wariancja jest duża. Mała wartość 38 wariancji mówi, że wartości zmiennej losowej są bliskie jej wartości oczekiwanej. Zauważmy, że dla zmiennych losowych przyjmujących skończenie wiele wartości istnieje wartość oczekiwana i wariancja. • Przykład 3.11 Miesięczny koszt prowadzenia przyzakładowego laboratorium jest zależny od licz√ by x zatrudnionych w nim pracowników zgodnie ze wzorem y = 15000x+10000 x. Koszty te traktujemy jako zmienną losową. Wyznaczyć √ funkcję prawdopodobieństwa i dystrybuantę zmiennej Y = 15000X + 10000 X, przyjmując następujący rozkład zmiennej losowej X: xi 2 3 4 pi 0, 1 0, 25 0, 40 R o z w i ą z a n i e. 5 0, 25 Punkty skokowe yi zmiennej Y są postaci √ yi = 15000xi + 10000 xi , co dla xi ∈ {2, 3, 4, 5} daje yi ∈ {44142, 62321, 8000, 97361}. Ponieważ g jest różnowartościowa, więc P (Y = yi ) = P (X = xi ) = pi , czyli otrzymujemy xi pi 44142 0, 1 62321 0, 25 • Przykład 3.12 80000 0, 40 97361 0, 25 Załóżmy, że bok kwaratu jest zmienną o gęstości f (x) > 0 dla x ∈ IR. Wyznaczyć gęstość zmiennej losowej, która opisuje pole tego kwadratu. Rozwiązanie. Y = X2 39 3.3 Najważniejsze rozkłady dyskretne • Rozkład jednopunktowy - rozkład Diraca. P (X = c) = 1 dla pewnej stałej c ∈ IR. Taką zmienną losową jest np. temperatura, w której cząsteczka zamienia się w ustalonych warunkach w parę. Parametry tego rozkładu są następujące: EX = c, VarX = 0. • Rozkład zerojedynkowy . Mówimy, że zmienna losowa X ma rozkład zerojedynkowy z parametrem p (rozkład B(1, p)), jeżeli X przyjmuje tylko dwie wartości oznaczane przez 1 i 0 (nazywane odpowiednio sukcesem i porażką) oraz P (X = 1) = p, P (X = 0) = 1 − p gdzie p ∈ (0, 1). Typowymi przykładami zmiennych o rozkładzie zerojedynkowym są zmienne losowe, które opisują jakość wyrobu (dobry, wadliwy), pracę urządzeń dwustanowych czy wynik gry (wygrana, przegrana). W dalszym ciągu stosujemy oznaczenie q = 1 − p. Podstawowe parametry tego rozkładu aerojedynkowego są następujące: EX = p, VarX = p(1 − p). • Przykład 3.13 Wyłącznik ważnego urządzenia psuje się średnio raz na 1000 przypadków i wówczas użytkownik otrzymuje odszkodowanie w wysokości 100. W każdym z pozostałych przypadków użytkownik płaci za użycie wyłącznika 0,1. R o z w i ą z a n i e. P (X = 100) = 0, 001, P (X = 0, 1) = 0, 999 • Rozkład dwumianowy - rozkład Bernoulli’ego Eksperyment ze zmienną losową o rozkładzie B(1, p) powtarzamy niezależnie n razy. Niech X oznacza liczbę sukcesów w n powtórzeniach. Wówczas n k n−k P (X = k) = p q , dla k = 0, 1, . . . , n k 40 Mówimy, że zmienna losowa zdefiniowana wyżej ma rozkład Bernoulli’ego z parametrem p. Powinniśmy oczywiście zdawać sobie sprawę, że definicja jest poprawna, n n P P n k n−k = (p + q)n = 1. P (X = k) = bo P (X = k) 0 oraz k p q k=0 k=0 Zauważmy, że jeżeli Xi (i = 1, 2, . . . , n) są niezależnymi zmiennymi losowymi, z których każda ma rozkład B(1, p), to zmienna losowa Y = X1 + X2 + . . . + Xn opisuje łączną liczbę sukcesów w tych n próbach, czyli ma właśnie rozkład Bernoulli’ego z parametrem p. Posługując się tym przedstawieniem zmiennej losowej o rozkładzie B(n, p) i korzystając z odpowiednich własności wartości oczekiwanej i wariancji, możemy łatwo policzyć parametry tego rozkładu. EX = np, V arX = npq. Wartość k0 , którą zmienna losowa dyskretna przyjmuje z największym prawdopodobieństwem, nazywamy najbardziej prawdopodobną wartością X. Jeżeli X ma rozkład B(n, p), to ( (n + 1)p lub (n + 1)p − 1 gdy (n + 1)p ∈ IN k0 = [(n + 1)p] gdy (n + 1)p ∈6 IN. • Przykład 3.14 W pewnym biurze zainstalowano 10 drukarek. Każda z drukarek pracuje niezależnie średnio przez 12 minut w ciągu jednej godziny. a) Jakie jest prawdopodobieństwo, że w losowo wybranej chwili będzie włączonych 7 drukarek? co najmniej 7 drukarek? b) Jaka jest najbardziej prawdopodobna liczba drukarek włączonych w danej chwili? R o z w i ą z a n i e. Jeżeli drukarki pracują niezależnie średnio przez 12 minut w ciągu jednej godziny, to zmienna losowa X oznaczająca liczbę drukarek włączonych w danym momencie 1 ma rozkład Bernoulli’ego z parametrami n = 10, p = 12 60 = 5 . Zatem prawdopodobieństwo, że w losowo wybranej chwili będzie włączonych 7 drukarek wynosi 1 7 4 3 P (X = 7) = 10 5 5 , a prawdopodobieństwo, że w losowo wybranej chwili 7 będzie włączonych co najmniej 7 drukarek równe jest P (X 7) = 10 P k=7 10 7 1 7 5 4 3 5 ≈ 0, 00086. Zatem, jeżeli zasilanie drukarek ustalone jest na poziomie dla sześciu drukarek, to prawdopodobieństwo przeciążenia (czyli P (X 7)) równe 0,00086. Czyli średnio przeciążenie ma miejsce w ciągu 86 minut na 100000 minut (1 minute na 1157 minut). Czy te rozważania mogą pomóc w ustaleniu poziomu zasilania? • Przykład 3.15 41 Prawdopodobieństwo prawidłowo wykonanej czynności dla pewnego pracownika wynosi 0.99. a) Jakie jest prawdopodobieństwo, że wszystkie spośród 100 takich samych, niezależnie wykonywanych, czynności zostaną wykonane prawidłowo? b) Jaka jest oczekiwana a jaka najbardziej prawdopodobna liczba czynności wykonanych prawidłowo? Rozważyć powyższe pytania, gdy czynność będzię powtarzana 199 razy. R o z w i ą z a n i e. a) Liczba prawidłowo wykonanych czynności wśród 100 niezależnych powtórzeń opisanej czynności jest zmienną losową o rozkładzie B(100, 0.99). Wszystkie czynności wykonane prawidłowo opisuje zdarzenie (X = 100), więc 100 (0.01)0 ≈ 0.3660. P (X = 100) = 100 100 (0.99) b) Wartość oczekiwana wynosi EX = 100 · 0.99 = 99. Ponieważ dla zmiennej losowej X liczba (n + 1)p = 101 · 0.99 = 99.99 nie jest całkowita, więc najbardziej prawdopodobną wartością X jest część całkowita z tej liczby, czyli 99. Zatem zmienna losowa z największym prawdopodobieństwem przyjmuje wartość 99 i prawdopodobieństwo to wynosi 99 1 P (X = 99) = 100 99 (0.99) (0.01) ≈ 0.3697. Niech zmienna losowa Y określa liczbę czynności wykonanych prawidłowo przy 199 powtórzeniach. Y ma rozkład B(199, 0.99), więc 199 (0.01)0 ≈ 0.1353, EY = 199 · 0.99 = 197.01. P (X = 199) = 199 199 (0.99) Dla zmiennej losowej Y liczba (n + 1)p = 200 · 0.99 = 198 jest całkowita, więc Y z największym prawdopodobieństwem przyjmuje wartości 198 albo 197. Prawdopodobieństwo to wynosi P (X = 197) = P (Y = 198) = 0.2720. Widać, że nawet jeżeli prawdopodobieństwo sukcesu w jednej próbie jest bardzo duże, to prawdopodobieństwo samych sukcesów oraz największa wartość prawdopodobieństwa maleje dowść szybko wraz ze wzrostem liczby powtórzeń. • Przykład 3.16 Co jest bardziej prawdopodobne: wygrać z równorzędnym przeciwnikiem nie mniej niż 3 partie z 4 partii, czy nie mniej niż 5 partii z 8 partii? R o z w i ą z a n i e. Zmienna losowa X określająca liczbę wygranych spotkań np. pierwszego gracza ma rozkład Bernoulli’ego z paramatrem p = 21 . Dla n = 4 otrzymujemy zatem 3 1 1 = 14 , P (X = 3) = 43 12 2 a dla n = 8 42 P (X = 5) = 8 5 1 5 1 3 2 2 = 7 64 . Zatem bardziej prawdopodobne jest wygranie dokładnie trzech spośród czterech partii. Natomiast dla n = 4: 3 1 1 4 1 0 5 P (X 3) = 43 12 , + 44 12 = 16 2 2 a dla n = 8 P (X 5) = 8 5 1 5 1 3 2 2 + 8 6 1 6 1 2 2 2 + 8 7 1 7 1 1 2 2 + 8 8 1 8 1 0 2 2 = 11 16 , czyli bardziej prawdopodobne jest wygranie przynajmniej pięciu spośród ośmiu partii niż przynajmniej trzech spośród czterech partii. • Przykład 3.17 Kwiaciarnia wystawiła do sprzedaży 100 cebulek białych i fioletowych hiacyntów, jednak podczas transportu opakowania zostały uszkodzone i cebuki się wymieszały. Jakie jest prawdopodobienstwo, że kupując 10 cebulek będziemy mieć przynajmniej 2 białe kwiaty, jeżeli cebulek fioletowych hiacyntów było 3 razy więcej niż białych? • Przykład 3.18 Prawdopodobieństwo trafienia w dziesiątkę wynosi 0,3, a wdziewiątkę - 0,7. Obliczyć prawdopodobienstwo, że strzelec uzyska w 50 strzałach co najmniej 499 punktów. • Rozkład Poissona z parametrem λ Można udowodnić, że prawdziwe jest następujące twierdzenie. • Twierdzenie 3.3 (Poissona) Jeżeli X1 , X2 , . . . jest ciągiem zmiennych losowych o rozkładzie dwumianowym odpowiednio z parametrami (1, p1 ), (2, p2 ), . . . przy czym lim npn = λ, to dla n→+∞ każdego k ∈ IN zachodzi równość λk n k pn (1 − pn )n−k = e−λ . lim n→+∞ k k! Mówimy, że zmienna losowa X ma rozkład Poissona z parametrem λ, λ > 0, jeżeli P (X = k) = λk −λ e . dla k = 0, 1, 2, . . . . k! Oczywiście powinniśmy sprawdzić, że P (X = k) 0 oraz n P k=0 P (X = k) = n P k=0 λk −λ k! e = e−λ n P k=0 λk k! = e−λ · eλ = 1. 43 Przybliżanie rozkładu Bernoulli’ego rozkładem Poissona jest stosowane w przypadku, gdy n jest duże (n 50) a p — małe tak, by np(1 − p) ¬ 9. Podstawowe parametry tego rozkładu są następujące: EX = λ, VarX = λ. Najbardziej prawdopodobną wartością zmiennej lososwej o rozkładzie Poissona jest ( λ lub λ − 1 gdy λ ∈ IN k0 = [λ] gdy λ ∈6 IN. • Przykład 3.19 Po mieście jeździ 1000 samochodów. Prawdopodobieństwo wezwania pogotowia technicznego w ciągu doby przez jeden samochód równe jest p = 0, 002. Obliczyć prawdopodobieństwo wezwania pogotowia przez którykolwiek z samochodów zakładając, że wezwania są zdarzeniami niezależnymi. Jaka jest najbardziej prawdopodobna liczba uszkodzonych samochodów? Ile miejsc należy przygotować na stacjach obsługi,by z prawdopodobieństwem 0, 95 było wolne miejsce dla uszkodzonego samochodu? R o z w i ą z a n i e. Oczywiście możemy tu skorzystać ze schematu Bernoulli’ego, czyli (0, 002)0 (0, 998)1000 , jednak takie obliczenia P (X 1) = 1−P (X = 0) = 1− 1000 0 są praktycznie niewykonalne. Zgodnie z Twierdzeniem 3.3 (biorąc λ = 1000 · 0, 002 = 2) otrzymujemy P (X 1) = 1 − P (X = 0) = 1 − 20 −2 . 0! e Ponieważ λ = 2 ∈ IN, więc najbardziej prawdopodobną liczbą uszkodzonych samochodów jest k0 = 2 lub k0 = 1. Aby odpowiedzieć na ostatnie pytanie należy znaleźć takie n, że P (X n) < 0, 05 czyli 1 − P (X = 0) − ... − P (X = n) < 0, 05 P (X = O) + ... + P (X = n) > 0, 95. Posługując się tablicami rozkładu Poissona znajdujemy n = • Przykład 3.20 Śrubki są pakowane w pudełka po 100 sztuk. Prawdopodobieństwo, że śrubka jest wybrakowana wynosi 0,01. Ile sztuk należałoby dodać do każdego pudełka, aby w celach marketingowych można było powiedzieć, że z prawdopodobieństwem nie mniejszym niż 0,9 w każdym pudełku jest co najmniej 100 sztuk dobrych? R o z w i ą z a n i e. Niech X oznacza liczbę elementów wybrakowanych w pudełku. Zmienna losowa X ma rozkład Bernoulli’ego z parametrami n = 100, p = 0, 01. Zatem 44 P (X = 0) = 100 0 p0 (1 − p)100 ≈ 0, 366. Jeżeli rozkład zmiennej X przybliżymy rozkładem Poisoona z parametrem λ = 100 · 0, 01 = 1, to P (X = 0) = e−1 ≈ 0, 367. Dodanie do pudełka kilku (k0 ) elementów tylko nieznacznie zmieni parametr λ (np. dla k0 = 2 jest λ = 1, 02 oraz P (X = 0) = e−1,02 ≈ 0, 36059). Korzystając z przybliżonego rozkładu zmiennej X szukajmy więc najmniejszej liczby k0 , dla której 2 λk0 λ + λ2! + . . . + (k 0, 9. P (X ¬ k0 ) ≈ e−λ 1 + 1! 0 )! Przyjmując dla uproszczenia λ = 1 i korzystając z tablic rozkładu Poissona otrzymujemy k0 = 2, bo e−1 1 + 1 + 21 = 0, 9196. Dokładniej — dla λ = 1, 02 mamy P (X ¬ 2) = e−1,02 1 + 1,02 1! + 1,02 2! 0, 9295. W rzeczywistości prawdopodobieństwo znalezienia co najmniej 100 sztuk dobrych w pudełku zawierającym 102 śruby (czyli dla X o rozkładzie Bernoulli’ego z parametrami n = 102, p = 0, 01) wynosi P (X ¬ 2) = (0, 99)102 +(0, 99)101 ·0, 01·1, 02+ 102·101 ·(0, 99)100 ·(0, 01)2 ≈ 0, 9169. 2 • Przykład 3.21 Liczba komputerów, które mogą być zarażone wirusem przez pewną sieć ma rozkład Poissona z parametrem λ. W każdym zarażonym komputerze wirus niezależnie uaktywnia się z prawdopodobieństwem p. Jakie jest prawdopodobieństwo, że wirus uaktywni się w m komputerach? R o z w i ą z a n i e. Niech zmienna losowa X oznacza liczbę zarażonych komputerów. X ma rozkład Poissona z parametrem λ. Ponieważ zdarzenia (X = k), k = 0, 1, 2, . . . są parami ∞ S k (X = k) = Ω i P (X = k) = e−λ λk! > 0, więc spełnione są rozłączne oraz k=0 założenia twierdzenia o prawdopodobieństwie całkowitym. Niech zmienna losowa Y oznacza liczbę komputerów, w których wirus uaktywni się. Mamy: ∞ ∞ [ [ (X = k) = P P (Y = m) = P (Y = m) ∩ ((Y = m) ∩ (X = k)) . k=0 k=0 Ponieważ zdarzenia (X = k), k = 0, 1, 2, . . . są parami rozłączne, więc zdarzenia (Y = m)∩(X = k), k = 0, 1, 2, . . . są też parami rozłączne. Ponadto dla k < m jest 45 (Y = m)∩(X = k) = ∅. Zatem, wykorzystując twierdzenie o prawdopodobieństwie całkowitym otrzymujemy P (Y = m) = ∞ X k=0 P ((Y = m) ∩ (X = k)) = ∞ X k=m P (Y = m|X = k) · P (X = k)). Zdarzenie (Y = m|X = k) dla k m oznacza, że spośród k zarażonych komputerów wiruś uaktywni się w m komputerach, w każdym z prawdopodobieństwem p (m sukcesów w k próbach), czyli m k p (1 − p)k−m . P (Y = m|X = k) = m Podstawiając wartości prawdopodobieństw i dokonując elementarnych przekształceń, otrzymujemy ∞ m P k k k−m · e−λ λk! P (Y = m) = m p (1 − p) k=0 = e−λ m! ∞ m P ((1−p)λ)l+m p 1−p l! l=0 = (pλ)m −λp . m! e • Rozkład geometryczny z parametrem p. Eksperyment ze zmienną losową o rozkładzie B(1, p) powtarzamy niezależnie dopóki pojawi się sukces. Niech X oznacza numer próby, w której sukces pojawił się po raz pierwszy. Wówczas, kładąc q = 1 − p otrzymujemy P (X = k) = pq k−1 , dla k = 1, 2 . . . Mówimy, że zmienna losowa zdefiniowana wyżej ma rozkład geometryczny z parametrem p. Definicja jest poprawna, bo n P k=0 P (X = k) = ∞ P pq k−1 = p k=1 ∞ P k=1 q k−1 = p · 1 1−q = 1. Zmienną o rozkładzie geometrycznym wygodnie jest interpretować jako czas oczekiwania na pierwszy sukces, tzn. liczbę powtórzeń eksperymentu poprzedzających eksperyment, w którym po raz pierwszy otrzymaliśmy sukces. Parametry tego rozkładu są następujące. EX = 1 q , V arX = 2 . p p • Fakt 3.14 Jeżeli zmienna losowa X ma rozkład geometryczny, to dla dowolnych liczb naturalnych n0 , k zachodzi równość: P (X > n0 + k|X > n0 ) = P (X > k). 46 O zmiennej losowej spełniającej warunek z Faktu 3.14 mówimy, że ma tzw. własność braku pamięci. Ciekawszym jest fakt, że rozkład geometryczny jest jedynym rozkładem dyskretnym posiadającym własność braku pamięci. • Przykład 3.22 Prawdopodobieństwo, że danego dnia w miejscowości A latem świeci słońce jest stałe i równe p. Jakie jest prawdopodobieństwo, że jeszcze co najmniej przez 7 dni będzie piękna słoneczna pogoda, jeżeli już od dwu tygodni świeci słońce? R o z w i ą z a n i e. Przy założeniu, że pogoda w danym dniu nie zależy od pogody w dniach poprzednich, zmienna losowa X określająca liczbę kolejnych słonecznych dni ma rozkład geometryczny z parametrem p. Zatem P (X 21|X 14) = P (X > 20|X > 13) = P (X > 7) = (1 − p)7 . • Przykład 3.23 Główna wygrana w totolotku to prawidłowe skreślenie 6 liczb spśród 49. Jakie jest prawdopodobieństwo głównej wygranej za 1001 razem, jeżeli przez 1000 razy nie było głównej wygranej? R o z w i ą z a n i e. Sześć liczb spośród 49-u można wybrać na 49 6 sposobów(uporządkowanie liczb nie jest istotne). Wygranej sprzyja tylko jeden spośrod 49 6 jednakowo prawdopodobnych sposobów, czyli prawdopodobieństwo głównej wygranej p równe jest p= 1 (49 6) = 1 13983816 , można powiedzieć, że jest bliskie jeden do czternastu milionów. Grę w ”Toto-lotka” powtarza się i w każdym powtórzeniu prawdopodobieństwo głównej wygranej równe jest wyżej obliczonemu p. Niech zmienne losowa X określa numer losowania, w którym główna wygrana pojawi się po raz pierwszy. X ma rozkład geometryczny z parametrem p. Prawdopodobieństwo głównej wygranej za 1001 razem, jeżeli przez 1000 razy nie było głównej wygranej to prawdopodobieństwo warunkowe P (X = 1001|X > 1000). Zatem P (X = 1001|X > 1000) = P (X=1001∩X>1000) P (X>1000) = P (X=1001) P (X>1000) . Ponieważ P (X > 1000) = ∞ P k=1001 więc P (X = k) = ∞ P k=1001 P (X = 1001|X > 1000) = q k−1 p = q 1000 · q 1000 ·p q 1000 = p, p 1−q = q 1000 , 47 czyli prawdopodobieństwo wygranej za 1001 razem, jeżeli nie wygraliśmy przez pierwsze 1000 jest takie samo, jak prawdopodobieństwo wygranej za pierwszym razem. Na tym polega własność ”braku pamięci” rozkładu zmiennej losowej, a ma ją opisana zmienna losowa X. Jeżeli wiemy, że zmienna losowa przyjęła wartość większą niż n, to wszystkie następne wartości n + k są przyjmowane z takimi samymi prawdopodobieństwami, z jakimi przyjmowane są wartości k. ”Przeszłość, jeżeli dotrwamy do chwili n, nie ma wpływu na ”przyszłość”. • Rozkład Pascala z parametrami r,p. Eksperyment ze zmienną losową o rozkładzie B(1, p) powtarzamy niezależnie dopóki pojawi się r sukcesów. Niech X oznacza numer próby, w której r-ty sukces pojawił się po raz pierwszy. Wówczas dla r 1, q = 1 − p mamy k − 1 r k−r P (X = k) = p q , dla k = r, r + 1, . . . , gdzie r 1, 0 < p < 1. r−1 Mówimy, że zmienna losowa zdefiniowana wyżej ma rozkład Pascala z parametrami r, p. Definicja jest poprawna, bo n P P (X = k) = k=r ∞ P k=r k−1 r−1 pr q k−r = 1. Zmienną o rozkładzie Pascala wygodnie jest interpretować jako czas oczekiwania na pierwszy r-ty sukces. Przedstawiając ją w postaci sumy r niezależnych zmiennych losowych o rozkładzie geometrycznym z parametrem p łatwo sprawdzamy, że parametry tego rozkładu są następujące. EX = rp−1 , V arX = rqp−2 . • Przykład 3.24 Prawdopodobieństwo awarii aparatury doświadczalnej w jednym doświadczeniu wynosi p=0,02. Obliczyć prawdopodobieństwo, że druga awaria zdarzy się: a) w dziesiątym doświadczeniu, b) najpóźniej w dziesiątym doświadczeniu, c) nie zdarzy się w pierwszych dziesięciu doświadczeniach. • Przykład 3.25 Na ulicy stoi sprzedawca gazet. Każdy z mijających go przechodniów kupuje gazetę z prawdopodobieństwem p = 31 . Niech X oznacza ilość ludzi mijających go do momentu, gdy sprzeda 100 gazet. Znaleźć rozkład dokładny i asymptotyczny zmiennej X. R o z w i ą z a n i e. (dokładny) X ma rozkład Pascala z parametrami r = 100, p = 13 , EX = rq rq p , V arX = p2 48 • Rozkład hipergeometryczny Z populacji składającej się z N elementów jednego rodzaju i M elementów drugiego rodzaju losujemy n elementów. Niech X oznacza liczbę elementów pierwszego rodzaju wśród wszystkich wylosowanych. Wówczas M N P (X = k) = k n−k N +M n , k = 0, 1, . . . , n. Mówimy, że wyżej zdefiniowana zmienna losowa ma rozkład hipergeometryczny z parametrami N, M, n, n < N, n < M . Definicja jest poprawna, bo n P P (X = k) = k=0 M ∞ N P ( k )(n−k ) = 1. N +M ( ) n k=0 Parametry tego rozkładu są następujące. EX = np, VarX = npq, gdzie p = N . N +M Przybliżenie rozkładem Poissona możemy stosować również w przypadku, gdy zmienna losowa ma rozkład hipergeometryczny, gdzie N + M jest duże a liczba N N +M · n mieści się w przedziale (0, 10). • Przykład 3.26 Zauważmy, że w Przykładzie 1.9 liczba ryb oznaczonych wśród 1000 wyłowionych (jeżeli w jeziorze jest N + 1000 ryb) jest zmienną losową o rozkładzie hipergeometrycznym z parametrami N, M = 1000, n = 1000. • Przykład 3.27 Spośród liczb 1, 2, . . . , 35 losujemy pięć liczb. Jakie jest prawdopodobienstwo, że będą wśród nich cztery mniejsze od 21? Jaka jest najbardziej prawdopodobna ilość liczb wylosowanych mniejszych od 21? Porównać wynik ze średnią z takich liczb. R o z w i ą z a n i e. W tym zadaniu mamy do czynienia ze zmienną losową (określającą ilość liczb mniejszych od 21 wśród wszystkich wylosowanych) o rozkładzie hipergeometrycznym, gdzie N = 20, M = 15, n = 5, więc: P (X = 4) = 15 (20 4 )( 1 ) . (35 ) 5 Warunek P (X = k) < P (X = k + 1) równoważny jest nierówności 15 15 ( 20 )(5−(k+1) ) (20 k )(5−k) < k+1 35 , 35 (5) (5) której rozwiązanie daje k < 3. 49 • Przykład 3.28 Pudełko kulek potrzebnych do zmontowania łożyska zawiera 10 sztuk o dodatniej odchyłce od nominalnego wymiaru średnicy i 15 sztuk - o ujemnej odchyłce. Do zmontowania łożyska potrzeba 6 kulek, z których co najwyżej 3 mogą mieć dodatnią odchyłkę od nominalnego wymiaru średnicy. Jakie jest prawdopodobieństwo, że monterowi, który wybiera 6 kulek losowo, uda się zmontować łożysko? R o z w i ą z a n i e. 10 15 10 15 10 15 . n(Ω) = 25 0 1 + 6 2 + 5 4 6 , n(A) = 1 − • Przykład 3.29 Liczba osób, które mogą być zarażone wirusem zapalenia wątroby podczas operacji 1 . Prawdopodobieństwo, że dana osoba ma rozkład Poissona z parametrem λ = 20 1 zachoruje wynosi a = 10 . Obliczyć prawdopodobieństwo, że wśród 1000 operowanych osób zachoruje: dokładnie 10, 20, < 5. R o z w i ą z a n i e. 1 1 1 · 10 = 200 . B(1000, p), p = 20 • Przykład 3.30 Wiadomo, że 1% produkowanych żarówek to braki. Obliczyć dokładnie i w przybliżeniu, prawdopodobieństwo, że: a) wśród losowo wybranych 100 żarówek nie ma ani jednej wybrakowanej, b) wśród losowo wybranych 100 żarówek są 2 wybrakowane, c) jaka jest minimalna liczba żarówek, które należy sprawdzić, by prawdopodobieństwo znalezienia złej żarówki było nie mniejsze niż 0,95. R o z w i ą z a n i e. 1 0 99 100 0 1 ≈ e−1 10! ≈ 0, 368 (λ = 100 · 100 a) P (X = 0) = 100 100 100 0 b) P (X 2) = c) P (X 1) = 1 − P (X = 0) = 0, 95, więc P (X 0) ¬ 0, 05 • Rozkład wielomianowy Rozkład dwumianowy możemy uogólnić na przypadek n powtarzanych niezależnych eksperymentów, z których każdy może mieć jeden z k (k 2) wyników. Niech pi oznacza prawdopodobieństwo realizacji wyniku i-tego rodzaju w każdej próbie, pi ∈ (0, 1), i = 1, 2, . . . , k, p1 + p2 + . . . + pk = 1, zaś Xi niech oznacza liczbę wyników i-tego rodzaju w n powtórzeniach. Wówczas P (X1 = n1 , X2 = n2 , . . . , Xk = nk ) = n! pn1 · pn2 2 · . . . · pnk k , n1 ! · n2 ! · . . . · nk ! 1 gdzie ni , i = 1, 2, . . . , k są liczbami naturalnymi oraz n1 + n2 + . . . + nk = n. • Przykład 3.31 50 Jakie jest prawdopodobieństwo, że w sześciocyfrowym kodzie wystąpią trzy zera, dwie piątki i jedna ósemka? R o z w i ą z a n i e. Zmienne losowe Xi , gdzie i = 0, 1, 2, . . . , 9 oznaczają odpowiednio liczbę zer, jedynek, . . ., dziewiątek w sześciocyfrowym kodzie. pi jest prawdopodobieństwem 1 , i = 0, 1, 2, . . . , 9. Zatem wylosowania jednej z dziesięciu cyfr, czyli pi = 10 P (X0 = 3, X5 = 2, X8 = 1, X1 = X2 = X3 = X4 = X6 = X7 = X9 = X0 = 0) = 6! 1 3 1 2 1 1 = 0.00006. 3!2!1! 10 10 10 • Przykład 3.32 Po wstępnej kontroli technicznej 70% wyrobów oceniono jako dobre, 5% - jako wadliwe, a 25% zdecydowano poddać dalszej kontroli. Jakie jest prawdopodobieństwo, że wśród 10 wylosowanych wyrobów jest 7 dobrych, 2 – wadliwe i 1 należy poddać dalszej kontroli? Jaka jest oczekiwana liczba wyrobów, które należy poddać dalszej kontroli, wśród 10 wylosowanych? R o z w i ą z a n i e. Niech zmienne losowe X1 , X2 , X3 określają odpowiednio liczbę wyrobów dobrych, wadliwych i przeznaczonych do dalszej kontroli wśród 10 wylosowanych. Prawdopodobieństwa dla poszczególnej jakości wyrobów wynoszą odpowiednio: p1 = 0.7, p2 = 0.05, p3 = 0.25. Zatem P (X1 = 7, X2 = 2, X3 = 1) = 10! 7 7!2!1! (0.7) · (0.05)2 · (0.25)1 = 0.0185. W rozkładzie wielomianowym zmienna losowa Xi określa liczbę elementów i-tego rodzaju wśród n elementów, więc Xi ma rozkład dwumianowy B(n, pi ). Zatem oczekiwana liczba elementów przeznaczonych do dalszej kontroli spośród 10 wylosowanych równa jest EX3 = 10 · 0.25 = 2.5, zaś najbardziej prawdopodobna liczba elementów przeznaczonych do dalszej kontroli spośród 10 wylosowanych to 2. 51 3.4 Najważniejsze rozkłady typu ciągłego • Rozkład jednostajny na odcinku [a,b]: Zmienna losowa X ma rozkład jednostajny na odcinku [a, b], jeżeli jej gęstość jest postaci 1 dla x ∈ [a, b], b−a fX (x) = 0 dla x ∈ IR \ [a, b] R∞ Definicja jest poprawna, bo fX (x)dx = 1. −∞ Wówczas FX (t) = 0 t−a b−a 1 gdy t ¬ a, gdy t ∈ [a, b], gdy t > b. oraz EX == a+b , 2 y6 y6 1 2 1 2 x 2 O V arX = 2 O (b − a)2 . 12 x Rys. 1.03. Rys. 1.03. Gęstość rozkładu jednostajnego Dystrybuanta rozkładu jednostajnego na przedziale [0,2] na przedziale [0,2] • Przykład 3.33 Z przystanku autobusy odjeżdżają co 10 minut. Zakładamy, że rozkład T czasu przybycia pasażera na przystanek jest zmienną losową o rozkładzie jednostajnym. Obliczyć prawdopodobieństwo, że pasażer będzie czekał co najmniej 4 minuty, mniej niż 3 minuty. R o z w i ą z a n i e. 1 gdy t ¬ 0, 0 dla x ∈ [0, 10], t 10 gdy t ∈ [0, 10], fT (x) = FT (t) = 10 0 dla x ∈ IR \ [a, b] 1 gdy t > b. Zatem P (T < 3) = FT (3) = oraz P (T 4) = 1 − P (T < 4) = 1 − FT (4) = 52 • Przykład 3.34 Automat produkuje kulki metalowe o średnicy X będącej zmienną losową o gęstości 5 dla x ∈ [0.4, 0.6], fX (x) = 0 dla x ∈ IR \ [0.4, 0.6] Wyznaczyć wartość przeciętną objętości kulek. R o z w i ą z a n i e. 3 3 = πX h(X) = 43 π X 2 6 . Stąd Eh(X) = Z 0,6 0,4 πx3 dx = . 6 • Rozkład Cauchy’ego z parametrem λ Zmienna losowa X ma rozkład Cauchy’ego z parametrem λ, jeżeli jej gęstość jest postaci λ . fX (x) = 2 π(λ + x2 ) Definicja jest poprawna, bo R∞ fX (x)dx = 1. −∞ Wówczas FX (x) = Ponieważ całka istnieje. • Przykład 3.35 +∞ R −∞ 1 x π arc tg + . π λ 2 |x| π(λ2λ+x2 ) dx jest rozbieżna, więc wartość oczekiwana nie W ustalonym punkcie płaskiej folii znajduje się źródło promieniowania radioaktywnego wysyłające promienie równomiernie we wszystkich kierunkach. W odległości 1 od folii znajduje się równoległy do niej ekran, na którym obserwuje się błyski spowodowane promieniowaniem. Niech X będzie zmienną losową oznaczjącą współrzędną punktu obserwowanego na ekranie. Korzystając z założenia, że kąt φ(t) jest wartością zmiennej losowej Φ o rozkładzie jednostajnym na (0, π) wyznaczyć jej gęstość i dystrybuantę zmiennej losowej X Naszkicować obydwie funkcje. R o z w i ą z a n i e. Spójrzmy na rysunek. 53 y6 1 Niech (u, 1) będzie punktem, w którym umieszczone jest źródło promieniowania. Promienie wysyłane są równomiernie we wszystkich kierunkach oznacza, że kąt φt = π2 + αt , gdzie tg αt = t−u 1 , jest wartością zmiennej losowej o rozkładzie jednostajnym na [0, π]. (u,1) A αA t A A A A x O Rys. 1.03. Stąd FX (t) = P (X < t) = P (Φ < φt ) = P Φ < = 1 2 π 2 +arctg(t − u) = ′ + π1 arctg(t − u), więc fX (t) = FX (t) = 1 π π 2 1 1 π 1+(t−u)2 . +arctg(t − u) Otrzymaliśmy zatem ”przesunięty” rozkład Cauchy’ego. Jeżeli źródło promieniowania znajduje się w punkcie (0, 1) to mamy zdefiniowany wyżej rozkład Cauchy’ego. • Przykład 3.36 Niech X będzie zmienną losową o rozkładzie Cauchy’ego z parametrem λ,. Wyznaczyć rozkład zmiennej losowej Y = arctg X λ. R o z w i ą z a n i e. Ponieważ dla y ∈ − π2 , π2 mamy 1 π FY (y) = P (Y < y) = P (arctg X λ < y) = P (X < λ tg y) = FX (λ tg y) = π y + 2 , więc 0, 1 1 FY (y) = πy + 2 , 1, gdy gdy gdy Policzmy jeszcze gęstość y ¬ − π2 − π2 ¬ y ¬ y π2 . π 2 y ∈6 − π2 , π2 fY (y) = (y) = − π2 ¬ y ¬ π2 . π π Otrzymaliśmy rozkład jednostajny na przedziale − 2 , 2 . FY′ 0, 1 πy , gdy gdy • Rozkład wykładniczy z parametrem λ Zmienna losowa X ma rozkład wykładniczy z parametrem λ, jeżeli jej gęstość ma postać 0 dla x ¬ 0, fX (x) = −λx λe dla x > 0. 54 Definicja jest poprawna, bo R∞ fX (x)dx = 1. −∞ Wówczas FX (x) = = 0 1 − e−λx dla x ¬ 0, dla x > 0 oraz EX = 1 , λ VarX = 1 λ2 Rozkład wykładniczy posiada ”własność braku pamięci” przez co rozumiemy, że dla dowolnych nieujemnych x, s zachodzi równość: P (X > x + s|X > s) = P (X > x). Można także wykazać, że rozkład wykładniczy jest jedynym rozkładem ciągłym posiadającym własność ”braku pamięci”. • Przykład 3.37 Czas pracy pewnego urządzenia jest zmienną losową X o rozkładzie wykładniczym z parametrem α = 10−4 . Wiadomo, że urządzenie pracowało 1000h. Jakie jest prawdopodobieństwo, że popracuje co najmniej 6000h? R o z w i ą z a n i e. P (X 6000|X > 1000) = P (X 5000 + 1000) = P (X 5000) = 1 − FX (5000). • Przykład 3.38 Czas oczekiwania na połączenie w centrali telefonicznej dla każdego abonenta jest zmienną losową X o rozkładzie wykładniczym z parametrem α = 0, 2s. Z centrali korzysta jednocześnie i niezależnie 100 abonentów. Obliczyć prawdopodobieństwo, że najkrótszy z czasów oczekiwania jest większy niż 5s a najdłuższy - mniejszy niż 10s. R o z w i ą z a n i e. Niech Xi będzie czasem oczekiwania na połączenie i-tego abonenta, X1 , X2 , ...X100 są zmiennymi losowymi niezależnymi. X = max{X1 , X2 , ...X100 }, Ponieważ oraz więc Y = min{X1 , X2 , ...X100 }, X < x ⇐⇒ ∀ 1¬k¬100Xk < x, Y > x ⇐⇒ ∀ 1¬k¬100Xk > x, FX (x) = P (X < x) = P (X1 < x, X2 < x, . . . , X100 < x) = P (X1 < x)P (X2 < x) · . . . · P (X100 < x) = (F (x))100 55 oraz FY (x) = P (Y < x) = 1 − P (Y x) = 1 − (1 − F (x))100 Dla zmiennej o rozkładzie wykładniczym otrzymujemy 0 dla x ¬ 0, 0 FX (x) = oraz FY (x) = (1 − e−λx )100 dlax > 0. 1 − e−λ100x dla x ¬ 0, dlax > 0. • Rozkład gamma z parametrami a, b > 0) Zmienna losowa X ma rozkład gamma z parametrami a, b > 0, jeżeli jej gęstość ma postać dla x ¬ 0, 0 ba a−1 −bx γa,b (x) = x e dla x > 0. Γ(a) R∞ fX (x)dx = 1. Definicja jest poprawna, bo −∞ Przypomnijmy, że funkcja gamma zdefiniowana jest dla a > 0 za pomocą całki niewłaściwej Z∞ Γ(a) = ta−1 e−t dt. 0 Całkowanie przez części daje wzór rekurencyjny Γ(a) = (a − 1)Γ(a − 1) dla a > 1, więc dla a = n ∈ IN otrzymujemy Γ(n) = (n − 1)! Dla naturalnych a = n rozkład gamma jest rozkładem sumy n niezależnych zmiennych losowych o rozkładzie wykładniczym z parametrem b. Podstawowe parametry tego rozkładu są następujące: EX = a , b VarX = a . b2 • Rozkład normalny z parametrami m, σ. Zmienna losowa X ma rozkład normalny z parametrami m, σ (m, σ jeżeli jej gęstość ma postać fX (x) = (x−m)2 1 √ e− 2σ2 . σ 2π ∈ IR, σ > 0, 56 Definicja jest poprawna, bo R∞ fX (x)dx = 1. −∞ Podstawowe parametry tego rozkładu są następujące: EX = m, VarX = σ 2 . Rozkład normalny jest najważniejszym rozkładem w teorii prawdopodobieństwa. Został wprowadzony w XVIIIw. przez Gaussa i Laplace’a Rozkład normalny, co niedługo przedstawimy, stanowi dobre przybliżenie sum niezależnych zmiennych losowych. Z tego względu jest wykorzystywany do opisu losowych błędów pomiarów. Jeżeli błąd pomiaru nieznanej wielkości jest sumą wielu małych losowych błędów dodatnich i ujemnych, to suma tych błędów ma rozkład bliski rozkładowi normalnemu. Dystrybuanty rozkładu normalnego N (m, σ) , czyli funkcji Z x (t−m)2 1 e− 2σ2 dt. FX (x) = √ σ 2π −∞ nie można wyrazić przez funkcje elementarne. Wartości dystrybuanty rozkładu N (0, 1), czyli funkcji Z x t2 1 e− 2 dt. Φ(x) = √ 2π −∞ podane są w tablicach. Wykres gęstości rozkładu N (0, 1) ma postać Z symetrii wykresu względem osi Oy otrzymujemy wygodną w obliczeniach równość: FX (−x) = 1 − FX (x). Okazuje się, że wartości dystrybuanty dowolnego rozkładu N (m, σ) można obliczyć, znając wartości funkcji Φ(x). • Fakt 3.15 Jeżeli X ma rozkład N (m, σ), to zmienna losowa Y = rozkład N (0, 1) oraz FX (x) = Φ x−m σ . X −m ma σ 57 Ostatni Fakt daje następujący, często wykorzystywany wzór a−m b−m −Φ . P (a < X < b) = Φ σ σ Ogólnie — dla dowolnej zmiennej losowej X posiadającej wariancję przekształcenie X − EX U (X) = √ VarX nazywamy standaryzacją zmiennej X. Dlaczego standaryzacją — patrz przykład Wykres gęstości rozkładu normalnego ma postać... Widać, że jest to funkcja symetryczna względem prostej x = m. Zależność gęstości od wielkości σ ilustrują następujące wykresy:... Korzystając ze standaryzacji i z tablic rozkładu N (0, 1) łatwo sprawdzić, że gdy X ma rozkład N (m, σ), to P (m − 3σ < X < m + 3σ) = P −3 < X−m < 3 = 2Φ(3) 0.997. σ Oznacza to, że wartości zmiennej X z prawdopodobieństwem bliskim 1 zawarte są w przedziale (m − 3σ, m + 3σ). Własność tę nazywamy ”prawem trzech sigm”. Bardzo ważną i pożyteczną własnością rozkładu normalnego jest teza następującego twierdzenia: Twierdzenie 1 Jeżeli dla i = 1, 2, . . . , n Xi są niezależnymi zmiennymi losowyn P ci Xi mi o rozkładach N (mi , σi ), to dla dowolnych stałych c1 zmienna losowa i=1 ! s n n P P c2i σi2 . ci mi , ma rozkład N i=1 • Przykład 3.39 i=1 58 Pokazać, że jeżeli zmienna losowa X ma wariancję, to dla zmiennej losowej Y = X − EX √ zachodzą równości: EY = 0, VarY = 1. VarX R o z w i ą z a n i e. Wykorzystując własności wartości oczekiwanej i wariancji zawarte w faktach 3.8, 3.11 możemy policzyć EY = √ 1 E(X − EX) = √ 1 (EX − EX) = 0 VarX VarX oraz VarY = √ 1 VarX • Przykład 3.40 2 Var(X − EX) = √ 1 VarX 2 · VarX = 1. Długość (w milimetrach) pewnej części produkowanej w pewnym automacie jest zmienną losową o rozkładzie N (20; 0, 2). Obliczyć prawdopodobienstwo, że długość losowo wybranej części jest między 19, 9 a 20, 3. R o z w i ą z a n i e. 20,3−20 1 3 1 1 < X−20 P (19, 9 ¬ X ¬ 20, 3) = P ( 19,9−20 0,2 0,2 < 0,2 ) = 2 + Φ( 2 ) − ( 2 − Φ 2 ) = Φ( 32 ) − +Φ 12 ) = 0, 433 + 0, 192 = 0, 625. 59 3.5 Zadania 1) Obsługa działa artyleryjskiego ma trzy pociski. Prawdopodobieństwo trafienia do celu jednym pociskiem (przy jednym wystrzale) wynosi 0,7. Strzelanie kończy się z chwilą trafienia do celu albo wyczerpania pocisków. Wyznaczyć funkcję prawdopodobieństwa liczby oddanych strzałów oraz przeciętną liczbę oddanych strzałów. 2) Na drodze ruchu pociągów są w znacznej odległości od siebie 4 semafory, z których każdy (niezależnie od pozostałych) zezwala na przejazd z prawdopodobieństwem 0,8. Niech X oznacza liczbę semaforów zezwalających na przejazd i poprzedzających pierwsze zatrzymanie lub stację docelową. Wyznaczyć funkcję prawdopodobieństwa i dystrybuantę zmiennej losowej X. Obliczyć prawdopodobieństwo, że pociąg nie zatrzyma się przed trzecim semaforem. 3) Robotnik obsługuje trzy maszyny. Długotrwałe obserwacje wykazały, że prawdopodobieństwo tego, że w ciągu godziny maszyna nie będzie wymagać jego interwencji wynosi 0,6 dla pierwszej oraz 0,7 dla drugiej i trzeciej maszyny. Przy założeniu, że maszyny pracują niezależnie od siebie, wyznaczyć funkcję prawdopodobieństwa liczby X maszyn, które w ciągu godziny nie wymagają interwencji robotnika. Znaleźć średnią liczbę maszyn, które w ciągu godziny nie wymagają interwencji robotnika. 4) W celu sprawdzenia pracy automatycznej obrabiarki pobiera się próbę 4-elementową z bieżącej produkcji. Każdy element próby jest kwalifikowany jako brak, jeżeli jego wymiary nie mieszczą się w granicach tolerancji. Jak wygląda przestrzeń zdarzeń elementarnych? Niech X będzie zmienną losową określającą liczbę braków w 4-elementowej próbie. Zdefiniować formalnie zmienną losową X. Przypuśćmy, że praca obrabiarki wymaga korekty, gdy w 4-elementowej próbie będą co najmniej dwa braki. Opisać to zdarzenie: a)przez zdarzenia elementarne, b)przez zmienną losową X. Zakładając, że wszystkie zdarzenia elementarne są jednakowo prawdopodobne, obliczyć P (X = x) dla x = 0, 1, 2, 3, 4. Obliczyć prawdopodobieństwo zdarzenia „obrabiarka wymaga korekty”. Naszkicować dystrybuantę zmiennej X i odczytać to prawdopodobieństwo z wykresu dystrybuanty. 5) Czy można dobrać stałe zmiennej losowej? a − 12 + ex gdy e−1 gdy F (x) = b(10 − x2 ) gdy Przyjmując: a = 12 , b = X < 3). 1 10 a, b tak, by funkcja F (x) była dystrybuantą pewnej x ¬ −1, −1 ¬ x < 1, x > 1. F (x) = 1 ax 2e bx + 1 3 4 gdy gdy gdy x ¬ 1, 1 < x ¬< 2, x > 2. obliczyć: P (1 ¬ X < 2), P (0 ¬ X ¬ 1), P (−1 ¬ 6) Zmienna losowa X ma funkcję prawdopodobieństwa 60 xi pi −3 0, 1 −1 0, 2 3 0, 5 5 0, 2 Wyznaczyć dystrybuantę zmiennej X oraz funkcje prawdopodobieństwa i dystrybuanty zmiennych losowych: 2X + 3, x2 , x2 − 5. 7) Niech √FX będzie dystrybuantą zmiennej X. Znaleźć dystrybuanty zmiennych X 2 , eX , X, X1 , log X (przy oczywistych założeniach o X). 1) Prawdopodobieństwo trafienia do celu w jednym strzale jest p = 13 . Niech X5 oznacza liczbę strzałów celnych w serii 5 niezależnych strzałów. Znaleźć rozkład zmiennej losowej X5 , jej dystrybuntę, wartość oczekiwaną, wariancję, medianę i modę. 2) Wiadomo, że 1% skrzynek winogron psuje się w czasie transportu. Z transportu przypadkowo wybrano 3 skrzynki. Niech X oznacza liczbę skrzynek z zepsutymi winogronami spośród trzech wybranych. Znaleźć rozkład zmiennej losowej X, jej dystrybuntę, wartość oczekiwaną, wariancję, medianę i modę. 3) Obliczyć prawdopodobieństwo przyjęcia partii N sztuk towaru, wśród których jest M sztuk wadliwych, jeśli partię przyjmuje się, gdy w n-elementowej próbce (losowanej bez zwrotu) z tej partii znajdzie się co najwyżej jedna sztuka wadliwa. Wykonać rachunki, jeżeli: a) N = 50, M = 8, n = 5; b) N = 200, M = 20, n = 10. 4) W centrali telefonicznej jest n=20 linii. Wezwania nadchodzą niezależnie od siebie i nadchodzące wezwanie może zająć którąkolwiek z wolnych linii. Prawdopodobieństwo tego, że linia jest wolna, wynosi 0,4. Obliczyć prawdopodobieństwo tego, że liczba linii zajętych jest nie większa niż 8. Jaka jest najbardziej prawdopodobna liczba linii zajętych? 5) Dwie maszyny wykonują ten sam rodzaj produkcji. Niech X oznacza liczbę produktów z usterkami wyprodukowanych w ciągu jednej zmiany przez pierwszą maszynę, Y – liczbę produktów z usterkami wyprodukowanych w ciągu jednej zmiany przez drugą maszynę. Dane są funkcje prawdopodobieństw tych zmiennych: xi pi 0 0, 3 1 0, 4 2 0, 3 xi pi 0 0, 1 1 0, 4 2 0, 4 3 0, 1 Zakładając brak jakiejkolwiek zależności między jakością produkcji obu maszyn znaleźć funkcje prawdopodobieństwa zmiennych losowych X+Y oraz XY. 6) Przyjmujemy, że uszkodzenia urządzenia wytwarzającego pewien produkt (w sztukach) może nastąpić tylko na skutek awarii pewnego jego podzespołu (np. przepalenia się bezpiecznika). Dla zwiększenia niezawodności tego urządzenia wyposażono je w 3 dodatkowe tego rodzaju podzespoły, które automatycznie (i pojedynczo) włączają się, gdy ulegnie awarii pracujący podzespół. Tak więc urządzenie 61 przerywa pracę dopiero po 4-krotnej awarii tego podzespołu. Zakładając, że: 1o w ciągu godziny wytwarzana jest jedna sztuka produktu, 2o prawdopodobieństwo powstania uszkodzenia przy produkcji kolejnych sztuk jest stałe i wynosi p=0,005, 3o zdarzenia polegające na powstaniu uszkodzenia przy produkcji kolejnych sztuk są niezależne, znaleźć: a) funkcję prawdopodobieństwa czasu pracy T(w godzinach), b) dystrybuantę czasu pracy T, c) prawdopodobieństwo tego, że czas pracy wyniesie: dokładnie 3 godziny, co najmniej 3 godziny, nie mniej niż 16 godzin i nie więcej niż 24 godziny, d) średni czas pracy tego urządzenia. 7) Rozwiązać poprzednie zadanie dla urządzenia pracującego bez podzespołów zapasowych. 1) Przy masowych prześwietleniach małoobrazkowych prawdopodobieństwo trafienia na człowieka chorego na gruźlicę wynosi 0,01. Obliczyć prawdopodobieństwo tego, że wśród 200 prześwietlonych osób liczba chorych na gruźlicę jest nie mniejsza niż 3. 2) W skład złożonej aparatury wchodzi n=1000 elementów określonego rodzaju. Prawdopodobieństwo uszkodzenia w ciągu roku każdego z tych n elementów równe jest 0,001 i nie zależy od stanu pozostałych elementów. Obliczyć prawdopodobieństwo: a) uszkodzenia w ciągu roku dokładnie 3 elementów, b) uszkodzenia w ciągu roku nie więcej niż 3 elementów. 3) Wiadomo z obserwacji, że 5% pasażerów rezerwujących miejsce na pewien lot nie pojawia się. Linia lotnicza sprzedaje więc 52 bilety na samolot mogący zabrać 50 pasażerów. Obliczyć prawdopodobieństwo, że w danym locie znajdzie się miejsce dla wszystkich pasażerów, którzy zgłoszą się przed odlotem samolotu. 4) Centrala telefoniczna obsługuje 100 abonentów. Każdy z abonentów może z 1 prawdopodobieństwem p = 10 , niezależnie od pozostałych abonentów, zamówić połączenie zewnętrzne. Jaka powinna być minimalna ilość połączeń zewnętrznych 9 zostały zrealizowane wszystw tej centrali, aby z prawdopodobieństwem p = 10 kie zamówienia abonentów? Podać rozwiązanie dokładne i przybliżone. 5) Po mieście jeździ 1000 samochodów. Prawdopodobieństwo wezwania pogotowia technicznego w ciągu doby przez jeden samochód jest p = 0, 002. Obliczyć prawdopodobieństwo wezwania pogotowia przez którykolwiek z samochodów zakładając, że wezwania są zdarzeniami niezależnymi. 6) Ilość osób poszkodowanych w wypadkach drogowych w pewnym mieście w ciągu doby ma rozkład Poissona z parametrem λ = 3. Jakie jest prawdopodobieństwo, że: 62 a) dzisiaj będzie co najmniej trzech poszkodowanych, b) dzisiaj będzie co najmniej trzech poszkodowanych, jeżeli wiadomo, że jest już przynajmniej jeden? Ile należy przygotować łóżek w szpitalach, by z prawdopodobieństwem większym niż 0,95 znalazło się miejsce dla wszystkich rannych? Jaka jest najbardziej prawdopodobna ilość poszkodowanych w ciągu tygodnia? 7) Średnica kabla ma rozkład normalny z parametrami m = 0, 775 i σ = 0, 01 . Jakie jest prawdopodobieństwo, że średnica przekroczy 0,790? 8) Zmienna losowa ma rozkład N (−4, 3). Obliczyć P (|X| > 3), P (0 < X < 6), P (X < 0). 9) Pewien automat produkuje części, których długość jest zmienną losową o rozkładzie N (2; 0, 2) (w cm). Wyznaczyć prawdopodobieństwo otrzymania braku, jeżeli dopuszczalne długości części powinny się zawierać w przedziale (1, 7; 2, 3). 10) Wytrzymałość stalowych lin pochodzących z produkcji masowej jest zmienną losową o rozkładzie N (1000kgcm2 ; 50kgcm2 ). Obliczyć, jaki procent lin ma wytrzymałość mniejszą od 900kgcm2 . 63 4 4.1 Twierdzenia graniczne Ważne nierówności. W tym rozdziale pokażemy, że prawdopodobieństwa pewnych zdarzeń związanych ze zmienną losową można szacować za pomocą jej parametrów. Twierdzenie 2 (Nierówność Markowa) Jeżeli P (X 0) = 1 oraz EX < ∞, to dla dowolnego ε > 0 zachodzi nierówność P (X ε) ¬ EX . ε lub równoważnie: P (X < ε) > 1 − EX . ε Parametrem, za pomocą którego można charakteryzować rozrzut wartości zmiennej losowej jest wariancja i pierwiastek z wariancji (czyli tzw. odchylenie standardowe). Rolę wariancji jako miary rozrzutu obrazuje np. następujące twierdzenie. Twierdzenie 3 (Nierówność Czebyszewa) Jeżeli VarX < ∞, to dla dowolnego ε > 0 zachodzi nierówność: P (|X − EX| ε) ¬ lub równoważnie: P (|X − EX| < ε) > 1 − VarX ε2 VarX . ε2 • Przykład 4.1 Śrubki są pakowane w pudełka po 100 sztuk. Prawdopodobieństwo, że śrubka jest wybrakowana wynosi 0,01. Ile sztuk należałoby dodać do każdego pudełka, aby w celach marketingowych można było powiedzieć, że z prawdopodobieństwem nie mniejszym niż 0,9 w każdym pudełku jest co najmniej 100 sztuk dobrych? R o z w i ą z a n i e. W rozdziale 3. rozwiązaliśmy to zadanie stosując przybliżenie rozkładu Bernoulli’ego rozkładem Poissona. Teraz rozwiążemy je wykorzystując nierówność Markowa . Dla ustalonego n niech X będzie zmienną losową określającą liczbę wybrakowanych zapałek w pudełku zawierającym n śrub. X ma rozkład Bernoulli’ego 1 . Chcemy, by P (n − X 100) 0.9 lub równoważnie z parametrami n, p = 100 P (n − X < 100) < 0.1. Wykorzystując nierówność Markowa dla ε = n − 100 możemy napisać P (n − X < 100) = P (X > n − 100) < 1 n· 100 n−100 . Wystarczy zatem znaleźć takie n, by zachodziła nierówność 64 1 n· 100 n−100 < 0.1 równoważna nierówności n > 111. • Przykład 4.2 Madzia - ważny (różne rozkłady) • Przykład 4.3 Zobaczmy, jakie oszacowanie daje nierówność Czebyszewa dla następujących zmiennych losowych: a) Zmienna losowa X ma rozkład normalny N (m, σ) i ε = 3σ Ponieważ EX = m i VarX < σ 2 , więc z nierówności Czebyszewa mamy P (|X − m| 3σ) ¬ σ2 9σ 2 = 19 , podczas, gdy z prawa trzech sigm wynika, że prawdopodobieństwo tego zdarzenia jest mniejsze niż 0,003. b) Dla zmiennej losowej o rozkładzie prawdopodobieństwa P (X = −2) = P (X = 2) = 0, 125, P (X = 0) = 0, 75 mamy EX = −2 · 0, 125 + 2 · 0, 125 = 0 oraz VarX = 4 · 0, 125 + 4 · 0, 125 = 1 Nierówność Czebyszewa z ε = 2 ma postać P (|X − 0| 2) ¬ 41 , a jednocześnie prawdopodobieństwo tego zdarzenia wynosi P (|X| 2) = P (X = −2 ∧ X = 2) = 14 , czyli dla tej zmiennej w nierówności Czebyszewa zachodzi ”równość”. Zatem oszacowania, jakie daje nierówność Czebyszewa, nie można ”polepszyć”. • Przykład 4.4 Wykonujemy 80 rzutów kostką. Wykorzystując nierówność Czebyszewa znależć przedział, w jaki z prawdopodobieństwem nie mniejszym niż 0,9 wpada ilość otrzymanych szóstek. R o z w i ą z a n i e. 40 1 5 100 X ∈ B(80, 61 ), EX = 80 6 = 3 , V arX = 80 · 6 · 6 = 9 . Szukamy ε > 0 takiego, że P (|X − 40 3 | ¬ ε) > 0, 9, co jest równoważne nierówności P (|X − 40 3 | ¬ ε) ¬ 100 9ε2 , więc P (|X − 40 3 | < ε) = 1 − P (|X − 40 3 | ε) 1 − 100 9ǫ2 > 0, 9. 65 Stąd ǫ > √ 10 10 3 ≈ 10, 52. • Przykład 4.5 Stosując nierówność Czebyszewa stwierdzono, że prawdopodobieństwo tego, iż liczba orłów różni się od wartości oczekiwanej o więcej niż 14 EX jest nie większe niż 1 160 . Z ilu co najmniej rzutów składała się seria? R o z w i ą z a n i e. Zmienna losowa X - liczba orłów w tej serii rzutów ma rozkład B(n, p), gdzie p = 21 , q = 12 . Zatem EX = n · 21 = 12 n, q = n · 21 21 = 14 n. Szukamy zatem takiego n, by P (|X − 12 n| 81 n) ¬ 1 160 . P (|X − 12 n| < 81 n) > 159 160 . albo równoważnie Dzięki nierówności Czebyszewa możemy napisać X P (|X − 12 n| ¬ 12 n) > 1 − Var > ( 1 )2 8 159 160 . Wystarczy zatem rozwiązać nierówność VarX < ( 1 )2 8 1 160 . Po jej rozwiązaniu mamy n > 2560. • Przykład 4.6 Prawdopodobieństwo sukcesu w jednej próbie wynosi 14 . Ile prób należy wykonać, by prawdopodobieństwo tego, że liczba sukcesów odchyla się od wartości oczekiwanej o mniej niż 20% liczby wszystkich prób było większe niż 0,8? R o z w i ą z a n i e. 3 Zmienna losowa X ma rozkład B(n, 41 ), Zatem EX = 14 n, V arX = 16 n. Szukamy zatem takiego n, by P (|X − 14 n| ¬ 15 n) > 0, 8. Dzięki nierówności Czebyszewa możemy napisać 4 X P (|X − 41 n| ¬ 15 n) > 1 − Var ( n )2 > 5 . 5 Wystarczy zatem rozwiązać nierówność VarX . Po jej rozwiązaniu mamy n > . 66 4.2 Prawa wielkich liczb. Sformułujemy teraz kilka twierdzeń dotyczących granic ciągów sum niezależnych zmiennych losowych. Jedno twierdzenie tego typu już poznaliśmy. Przypomnijmy sobie twierdzenie Poissona, które mówi, że przy n zmierzającym do ∞ i pn takim, że lim npn = λ zmienne losowe Xn ∼ B(n, pn ) (a więc sumy niezależnych n→∞ zmiennych losowych o rozkładach B(1, pn )) można przybliżać rozkładem Poissona z parametrem λ. Niech X1 , X2 , . . . będzie ciągiem zmiennych losowych o skończonej wartości oczekiwanej. Mówimy, że dla ciągu (Xn ) zachodzi: • Słabe Prawo Wielkich Liczb, jeżeli dla każdego ε > 0 prawdziwa jest równość ! n n 1 X X lim P Xk < ε = 1 Xk − E n→∞ n k=1 k=1 • Mocne Prawo Wielkich Liczb, jeżeli prawdziwa jest równość ! ! n n X 1 X Xk = 0 = 1 Xk − E P lim n→∞ n k=1 k=1 Zauważmy, że jeżeli Xk mają jednakowy rozkład o wartości oczekiwanej EXk = m, to MPWL oznacza, że .......... Można udowodnić, że jeżeli zachodzi Mocne Prawo Wielkich Liczb, to zachodzi również Słabe Prawo Wielkich Liczb. Kolejne twierdzenia podają warunki na to, by zachodziło któreś z praw wielkich liczb. • Twierdzenie 4.1 Jeżeli Xn (Twierdzenie Markowa) są niezależne i spełniony jest warunek ! n X 1 lim Var Xk = 0, n→∞ n2 k=1 to zachodzi Słabe Prawo Wielkich Liczb. Z własności wariancji wynika, że dla zmiennych niezależnych warunek występujący w założeniu twierdzenia równoważny jest warunkowi n 1 X V arXk = 0. n→∞ n2 lim k=1 Oczywiście, jeżeli VarXk są wspólnie ograniczone, to jest on spełniony i jako wniosek z Twierdzenie Markowa otrzymujemy 67 • Twierdzenie 4.2 (Twierdzenie Czebyszewa) Jeżeli Xn są niezależne i σk2 są wspólnie ograniczone, to zachodzi Słabe Prawo Wielkich Liczb. W statystyce najczęściej wykorzystujemy Prawa Wielkich Liczb w bardzo szczególnym przypadku, gdy Xn są niezależnymi zmiennymi losowymi o tym samym rozkładzie (np. zmienne Xn opisują kolejne wyniki pomiaru tej samej wielkości). Wówczas mn = m, VarXn = VarX1 < ∞. Ponieważ n n P P 1 E n Xk = n1 EXk = n1 · n · m = m. k=1 k=1 więc z twierdzenia Czebyszewa mamy dla dowolnego ε > 0 n limn→∞ P X1 +···+X − m < ǫ = 1. n Dla zmiennych niezależnych o tym samym rozkładzie i skończonej wartości oczekiwanej zachodzi nawet Mocne Prawo Wielkich Liczb, co jest treścią kolejnego twierdzenia • Twierdzenie 4.3 (Twierdzenie Chinczyna) Dla zmiennych niezależnych o tym samym rozkładzie zachodzi Mocne Prawo Wielkich Liczb, czyli X1 + X2 + . . . + Xn =m =1 P lim n→∞ n Z praw wielkich liczb wynika, że dla zmiennych losowych o jednakowym rozkłaX1 + · · · + Xn dzie można z dużą dokładnością zastąpić EX przez biorąc n dostatecznie duże n. ZAPAMIĘTAJMY TO!!! Dlatego na przykład dla wyliczenia x1 + · · · + xn średniego dochodu na jednego mieszkańca liczy się x̄ = , gdzie xi n oznacza dochód losowo wybranej osoby. Z prawa wielkich liczb wynika, że jest to dobre szacowanie średniej. • Przykład 4.7 Czy dla ciągu niezależnych zmiennych losowych o następujących rozkładach prawdopodobieństwa √ √ P (Xn = n) = P (Xn = − n) = 2√1 n , P (Xn = 0) = 1 − √1n zachodzi Słabe Prawo Wielkich Liczb? R o z w i ą z a n i e. Zmienne losowe X1 , X2 , . . . są niezależne, ale nie mają jednakowych rozkładów. Sprawdźmy zatem, czy spełniony jest warunek występujący w Twierdzeniu Markowa. Ponieważ 68 EXk = więc n P √ k· 1 √ 2 k √ + (− k) · VarXk = k=1 1 √ 2 k + 0 = 0 oraz VarXk = k · n √ P √ k ¬ n · n, a stąd 0 ¬ k=1 1 n2 Var ( Zatem, dzięki twierdzeniu o trzech ciągach, Pn lim n12 Var k=1 Xk = 0. Pn 1 √ 2 k k=1 +k· Xk ) ¬ 1 √ 2 k = √ √ n n n = √1 , n k, n→∞ Z Twierdzenia Markowa wynika, że dla rozważanego ciągu zmiennych losowych zachodzi Słabe Prawo Wielkich Liczb. • Przykład 4.8 (Metoda Monte Carlo obliczania całek oznaczonych) Sensowne jest wykorzystywanie poniższej metody w przypadku, gdy wyznaczenie funkcji pierwotnej jest trudne lub niemożliwe w sposób analityczny. Niech g(x) będzie funkcją całkowalną na przedziale [a, b] i oznaczmy przez I nieRb znaną wartość całki g(x)dx. Wiemy na podstawie Własności 5 Faktu 3.7, że a jeżeli X jest zmienną losową o rozkładzie jednostajnym na przedziale [a, b], to Eg(x) = Zb a g(x) 1 1 dx = · I. b−a b−a Jeżeli X1 , X2 , . . . są niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na przedziale [a, b], to g(X1 ), g(X2 ), . . . są niezależnymi zmiennymi losowymi o I . Zatem, na mocy Twierdzenia jednakowym rozkładzie z wartością oczekiwaną b−a Chinczyna, mamy ! n 1X I P lim = 1, g(Xk ) = Eg(X1 ) = n→∞ n b−a k=1 czyli z prawdopodobieństwem równym 1, dla dużych n, średnia z wartości 1 g(X1 ), g(X2 ), . . . , g(Xn ) jest dowolnie bliska liczbie b−a ·I. Wystarczy więc wygenerować dużo wartości zmiennych losowych X1 , X2 , . . . , Xn z rozkładu jednostajnego n Rb P g(X ) za oszacowanie całki I = g(x)dx. na [a, b] i przyjąć liczbę b−a k n k=1 a Metody oparte na symulacji zmiennych losowych nazywają się metodami Monte Carlo. Można je również wykorzystywać do obliczania całek wielokrotnych. 4.3 Centralne Twierdzenie Graniczne Mówimy, że dla ciągu oczekiwanych zachodzi (Xn ) zmiennych losowych o skończonych wartościach 69 • Centralne Twierdzenia Graniczne, jeżeli dla dowolnego t ∈ IR P n n P X −E Xk k=1 k k=1 s lim P < t = Φ(t) n→∞ n P VarXk k=1 • Twierdzenie 4.4 (Twierdzenie Lindeberga-Levy’ego) Niech X1 , X2 , . . . będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie, wartości oczekiwanej m i wariancji 0 < VarX1 < ∞ . Wówczas dla ciągu (Xn ) zachodzi Centralne Twierdzenia Graniczne, czyli dla dowolnego t ∈ IR prawdziwa jest równość Pn k=1 Xk − nm √ < t = Φ(t), lim P n→∞ σ n gdzie Φ(t) jest dystrybuantą zmiennej losowej o rozkładzie N (0, 1). Oznacza to, iż dystrybuanty zmiennych losowych 1 Yn = √ σ n n X k=1 Xk − E n X k=1 Xk !! Pn (zauważmy, że Yn jest standaryzacją sumy Sn = k=1 Xk !) dążą w każdym punkcie t ∈ IR do dystrybuanty rozkładu normalnego N(0,1). W praktyce Twierdzenie Lindeberga-Levy’ego wykorzystuje się, przyjmując, że dla dużych n zachodzi przybliżona równość Sn − nm √ < b ≈ Φ(b) − Φ(a), P a< σ n Stosując twierdzenie Lindeberga-Levy’ego do zmiennych o rozkładzie zerojedynkowym otrzymujemy: • Twierdzenie 4.5 (Twierdzenie Moivre’a-Laplace’a) Niech X1 , X2 , . . . będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie B(n,p). Wówczas dla każdego t ∈ IR zachodzi równość Sn − np < t = Φ(t). lim P √ n→∞ npq 70 Ważne są uogólnienia Twierdzenie Lindeberga-Levy’ego idące w kierunku osłabiania założeń tego twierdzenia. Okazuje się, że można zastąpić, dość restrykcyjne, założenie o jednakowym rozkładzie zmiennych Xn założeniami dotyczącymi momentów trzeciego rzędu. • Twierdzenie 4.6 (Twierdzenie Lapunowa) Jeżeli X1 , X2 , . . . jest ciągiem niezależnych zmiennych losowych o skończonych trzecich momentach centralnych spełniającym warunek s n P 3 E|Xk − EXk |3 lim n→∞ k=1 s n P = 0, VarXk k=1 to dla ciągu (Xn ) zachodzi Centralne Twierdzenie Graniczne. Istnienie trzecich momentów pozwala też oszacować dokładność przybliżenia w Centralnym Twierdzeniu Granicznym. • Twierdzenie 4.7 (Twierdzenie Berry-Esséena) Jeżeli X1 , X2 , . . . jest ciągiem niezależnych zmiennych losowych o tym samym rozkładzie i E|X|3 < ∞, to prawdziwa jest nierówność n n P P Xk Xk − E k=1 |3 k=1 − Φ(t) ¬ C E|X1 − EX s √1 , < t sup P 3 (VarX1 ) n n P t ∈ IR VarXk k=1 gdzie 1 ¬ C < 0, 8. 2π • Przykład 4.9 Sprawdzić, czy dla ciągu (Xn ) niezależnych zmiennych losowych o następujących rozkładach prawdopodobieństwa P (Xk = k) = P (Xk = −k) = 21 , k = 1, 2, . . . zachodzi Centralne Twierdzenie Graniczne? R o z w i ą z a n i e. Zmienne losowe X1 , X2 , . . . są niezależne, ale nie mają jednakowych rozkładów. Sprawdźmy zatem, czy spełniony jest warunek występujący w Twierdzeniu Łapunowa. W tym celu obliczmy EXk = 21 k − 21 k = 0, VarXk = k2 2 + k2 2 = k2 , 71 E|Xk − EXk |3 = |k 3 | · 1 2 + | − k3 | · 1 2 = k3 . Wykorzystując wzory na sumę kwadratów i sumę trzecich potęg 12 + 22 + . . . + n2 = n2 (n + 1)2 n(n + 1)(2n + 1) , 13 + 23 + . . . + n3 = 6 4 otrzymujemy s n P 3 E|Xk − EXk |3 lim n→∞ k=1 s n P k=1 VarXk q 3 = lim q n→∞ n2 (n+1)2 4 n(n+1)(2n+1) 6 = lim n→∞ s 6 n4 (n + 1)4 63 =0 42 n3 (n + 1)3 (2n + 1)3 Zatem dla powyższego ciągu zmiennych losowych zachodzi Centralne Twierdzenie P nXk ma rozkład Graniczne, a to oznacza, że dla dużych n zmienna losowa k=1 q n(n+1)(2n+1) . zbliżony do rozkładu normalnego N 0, 6 Komentarz. Omówione w tym rozdziale twierdzenia mówią o zachowaniu sum niezależnych zmiennych losowych gdy liczba składników zmierza do nieskończoności. Początek takim badaniom dały spostrzeżenia poczynione jeszcze w XVII wieku, że gdy rzucamy wielokrotnie symetryczną monetą, to częstość występowania orła stabilizuje się w pobliżu 12 . Jakub Bernoulli ujął ten fakt w postaci następującego twierdzenia. (Prawo wielkich liczb Bernoulli’ego) Jeżeli Sn jest liczbą sukcesów w schemacie Bernoulli’ego n prób z prawdopodobieństwem sukcesu w pojedynczej próbie równym p, to dla każdego ε > 0 Sn − p ¬ ε = 1. lim P n→∞ n Jeżeli X1 , X2 , . . . są niezależnymi zmiennymi losowymi o wartościach oczekiwaPn nych mk i wariancjach VarXk , to wariancja sumy VarSn = k=1 VarXk rośnie wraz ze wzrostem n, czyli rozkład zmiennej Sn ma coraz większy rozrzut. Powstaje pytanie, jakiego rzędu jest wzrost wariancji. Dlatego rozważa się sumy Yn mnożone przez pewne liczbowe współczynniki An , które hamują wzrost wariancji. W prawach wielkich liczb widzieliśmy, że czynnik An = n1 (co daje po prostu średnią arytmetyczną zmiennych X1 , X2 , . . . , Xn .) jest tak silnie wygaszający, iż powoduje koncentrację rozkładu granicznego w jednym punkcie! W centralnych twierdzeniach granicznych rozpatruje się współczynniki zmierzające wolniej do ze1 . Wówczas graniczna zmienna losowa okazuje się mieć ra, mianowicie An = σ√ n rozkład normalny N (0, 1). 72 • Przykład 4.10 Z partii towarów o wadliwości 3% pobrano próbę 500-elementową. Obliczyć prawdopodobieństwo, że liczba elementów wadliwych w próbie nie przekroczy 4%. ! P500 500 X 20 − 15 i=1 Xi − 500 · 0, 3 √ √ < Xi < 20) = P P( 500 · 0, 3 · 0, 97 0, 1 · 15 · 17 i=1 • Przykład 4.11 Samolot zabiera 80 pasażerów. Przyjmując, że waga pasażera jest zmienną losową o rozkładzie N(80,10) obliczyć prawdopodobieństwo, że łączna waga pasażerów przekroczy 9000kg. ! P80 80 X X − 80 · 80 9000 − 6400 i i=1 √ √ √ > Xi > 9000) = P P( 10 80 20 2 i=1 • Przykład 4.12 Rzucamy 80 razy kostką. Znaleźć przedział, w jaki z prawdopodobieństwem > 0, 9 wpada ilość otrzymanych ”szóstek”. (a)(z wykorzystaniem nierówności Czebyszewa) n = 80, p = P (| 80 X i=1 Xi − 40 2 100 1 , m = np = , σ = npq = , 6 3 9 V arX 80 | > ǫ) < < 0, 1, to ǫ > 10, 52 6 ǫ2 i otrzymujemy [2, 81; 23, 85]. (b)(z wykorzystaniem twierdzenia Moivre’a-Laplace’a) ! P80 i=1 Xi − m P | < ǫ ≈ Φ(ǫ) − Φ(−ǫ) √ npq i otrzymujemy [7, 84; 18, 82]. • Przykład 4.13 Prawdopodobieństwo spostrzeżenia sputnika z ziemi z określonego punktu obser1 przy każdym locie nad punktem obserwacyjnym. wacyjnego jest równe p = 10 Znaleźć liczbę lotów, jaką powinien wykonać sputnik, aby z prawdopodobieństwem nie mniejszym niż 0,9 liczba Xn spostrzeżeń sputnika była 10. Rozwiązanie. Pn 1 1 9 1 9 Xk ∈ B(1, 10 ), mk = 10 , σk2 = pq = 10 k=1 Xk 10 = 100 , Yn = Z α 1 1 10 − n · 10 Yn − n · 10 t2 1 √ e− 2 dt = 0, 9. ≈ 1 − P (Yn 10) = P √ √ 3 3 2π −∞ 10 n 10 n 73 Mamy zatem: 1 − Φ(α) = 0, 9 i z tablic odczytujemy, że α = 0, 26. Niech Xk = p= 1 10 , Yn = 1 gdy sputnik został dostrzeżony w k-tym locie, 0 gdy sputnik nie został dostrzeżony w k-tym locie. P k=1 nXk określa ilość spostrzeżeń sputnika w n lotach. 1 1 Yn − n · 10 10 − n · 10 Yn − n · p 10 − n · p ) = P( P (Yn 10) = P ( √ √ )≈ √ √ 3 3 npq npq 10 n 10 n Z α t2 1 1 e− 2 dt = 1 − ( + Φ(α)) = 0, 9 1− 2π −∞ 2 • Przykład 4.14 Komputer dodaje 1200 liczb rzeczywistych i każdą zaokrągla do najbliższej liczby całkowitej. Błędy zaokrągleń są niezależne i mają rozkład jednostajny na [− 12 , 21 ]. Obliczyć prawdopodobieństwo, że błąd w obliczeniu sumy przekroczy 10. 1200 Xi − błąd, m − 0, σ 2 = • Przykład 4.15 X 1 1 1 1 Xi = 1200 · (b − a)2 = , σ = √ , V ar 12 12 12 12 i=1 Czas pracy lampy elektronowej ma rozkład wykładniczy o średniej m = 900h. Zgromadzono zapas 100 lamp. Obliczyć prawdopodobieństwo, że wystarczy ich na 100000 godzin pracy, jeżeli każdą lampę włączamy natychmiast po wygaśnięciu poprzedniej. Ile lamp trzeba mieć w zapasie, by z prawdopodobieństwem > 0, 99 wystarczyło ich na 99000 godzin pracy urządzenia. λ= 1 , 900 100 X Xi 100000) = 1 − P P( i=1 0¬ 100 X ! Xi < 100000 i=1 = ! Xi − 90000 10000 1 − P −10 < = 1 − (Φ(1, 11) − Φ(−10)) < 10 · 900 10 · 900 PN Szukamy N takiego,że P ( i=1 Xi 990000) > 0, 98 czyli P100 i=1 P (0 ¬ P PN N X i=1 Xi ¬ 990000) < 0, 11 99000 − n · 900 i=1 Xi − N · 900 √ √ < 900 N 900 N ! < 0, 01 74 = 1−P 0¬ 100 X ! Xi < 100000 i=1 = 1−P −10 < P100 Xi − 90000 10000 < 10 · 900 10 · 900 i=1 ! = 1 − (Φ(1, 11) − Φ(−10)) • Przykład 4.16 Zmienne losowe X1 , X2 , . . . , X100 są niezależne o rozkładzie Poissona z parameP100 trem λ. Obliczyć przybliżoną wartość wyrażenia P ( k=1 Xk > 190) R o z w i ą z a n i e. √ P100 EXk = V arXk = λ = 2, więc σ = 2, E( k=1 Xk ) = 200, a stąd: P( 100 X Xk > 190) = P ( k=1 − P100 Xk − 200 190 − 200 √ √ > ) = 1 − P( σ 100 10 2 k=1 Pn Xk − 200 √ > σ n k=1 √ √ 2 2 ) = 1 − Φ( ) = Φ(0, 707) = 0, 76. 2 2 • Przykład 4.17 Udźwig żurawia wynosi 20t. Jakie jest prawdopodobieństwo, że przy podnoszeniu 400 elementów ważących średnio 51kg z wariancją 6, 4kg 2 udźwig zostanie przekroczony? R o z w i ą z a n i e. P( 400 X Xk > 20000) = P ( k=1 P400 Xk − 400 · 51 20000 − 20400 √ > ) = 1 − Φ(2, 5). 0, 8 · 20 0, 8 400 k=1 • Przykład 4.18 Rozważamy rodziny z dwojgiem dzieci. Prawdopodobieństwo, że w rodzinie starszy jest chłopiec wynosi 41 . Jakie jest prawdopodobieństwo, że częstość wylosowania takiej rodziny różni się od 14 o ǫ = 0, 1 ? Ile średnio rodzin spośród 100 ma starszego chłopca? R o z w i ą z a n i e. 1 gdy w rodzinie starszy jest chłopiec, Xk = 0 w pozostałych przypadkach. √ 100 X 1 10 3 √ n = 100, p = , Yn = npq = Xk , EYn = 25, , 4 4 k=1 częstość występowania rodziny, w której starszy jset chłopiec A = 1 100 Y100 , 1 1 1 1 Y100 − | < 0, 1) = P (| − 0, 1 < Y100 − < 0, 1) = 100 4 100 4 ! 10 4 Y100 − 25 10 4 √ √ P − √ < < = Φ( √ ) − Φ(− √ ) 3 3 10 43 10 43 10 43 P (| więc 75 • Przykład 4.19 Wśród produkowanych wyrobów jest 20% wadliwych. Wylosowano 100 sztuk. Obliczyć dokładnie i w przybliżeniu, prawdopodobieństwo, że wśród wylosowanych są 22 sztuki wadliwe. R o z w i ą z a n i e. • dokładnie - X ∈ B(100, 15 ), więc P (X = 22) = • przybliżenie rozkładem Poissona - λ = 100 · 1 5 100 22 1 22 5 4 78 5 , jest zbyt duże, • na mocy twierdzenia Moivre’a-Laplace’a (np = 20) • Przykład 4.20 P (X = 22) ≈ q 1 100 15 54 (22−20)2 1 1 1 · √ e− 16 ≈ √ e− 4 2π 2π Prawdopodobieństwo sukcesu w każdej próbie wynosi p = 14 . Oszacować prawdopodobieństwo, że w n = 800 niezależnych próbach liczba sukcesów zawiera się w przedziale [150, 250]. R o z w i ą z a n i e. a) za pomocą nierówności Czebyszewa EX = 800 · 14 , VarX = 800 · 41 34 = 150, P (150 < X < 250) = P (|X 00| < 50) > 1 − VarX = 1 − 150 = 47 2 b) z tawierdzenia Moivre’a-Laplace’a √ P (150 < X < 250) = P ( 150−200 ) < 800·pq 2 · 0, 99 − 1 ≈ 0, 98. ε2 X−200 √ 800·pq 50·50 < 250−200 √ ) 800·pq 50 √ ≈ 2Φ( 250−200 ) = 800·pq • Przykład 4.21 Łańcuch w pewnym urządzeniu składa się z n = 43 ogniw o wymiarze od a = 19, 06 − 0, 04 do a = 19, 06 + 0, 05. Obliczyć prawdopodobieństwo, że montując łańcuch z losowo wybranych ogniw otrzymamy przewidzianą normę długości łańcucha od L = 820 − 0, 85 do L = 820 + 0, 78. R o z w i ą z a n i e. 19, 02 + 19, 11 = 19, 065 i stosujemy twierdzenie Moivre’aPrzyjmujemy m = 2 Laplace. • Przykład 4.22 Wiadomo, że 1% produkowanych żarówek to braki. Obliczyć dokładnie i w przybliżeniu, prawdopodobieństwo, że: a) wśród losowo wybranych 100 żarówek nie ma ani jednej wybrakowanej, b) wśród losowo wybranych 100 żarówek są 2 wybrakowane, 76 c)ka jest minimalna liczba żarówek, które należy sprawdzić, by prawdopodobieństwo znalezienia złej żarówki było nie mniejsze niż 0,95. R o z w i ą z a n i e. 1 0 99 100 0 1 ≈ e−1 10! ≈ 0, 368 (λ = 100 · 100 ) a) P (X = 0) = 100 0 100 100 b P (X 2) = 77 4.4 1) Zadania 78 5 5.1 Zmienne losowe wielowymiarowe. Definicja i przykłady. W wielu przypadkach statystyka matematyczna bada zbiorowość ze względu na więcej niż jedną cechę. W tym celu wygodnie jest posługiwać się zmiennymi losowymi wielowymiarowymi. Niech X1 , X2 , . . . , Xn będą zmiennymi losowymi na przestrzeni probabilistycznej (Ω, F , P ) • Definicja 5.1 Zmienna֒ losowa֒ n-wymiarowa֒ lub n-wymiarowym wektorem losowym nazywamy funkcję X:Ω −→ IRk określoną wzorem X(ω)=(X1 (ω), X2 (ω), . . . , Xk (ω)) gdzie Xi dla i = 1, 2, . . . , k są zmiennymi losowymi określonymi na przestrzeni Ω. • Definicja 5.2 Dystrybuanta֒ zmiennej losowej X nazywamy funkcję FX (t1 , t2 , . . . , tn ) : IRn −→ IR określoną wzorem FX (t1 , t2 , . . . , tn ) = P (X1 < t1 , X2 < t2 , . . . , Xn < tn ) Jeżeli istnieją (skończone) wartości oczekiwane EXk , to wektor EX = (EX1 , EX2 , . . . , EXn ) nazywamy wektorem wartości oczekiwanych zmiennej losowej X. Kowariancją zmiennych X, Y nazywamy wielkość Cov(X, Y ) = E(X − EX)(Y − EY ) = EXY − EXEY. Jak widać - Cov(X, X) = VarX. Kowariancja jest parametrem, który charakteryzuje związek między dwiema zmiennymi losowymi. Macierzą kowariancji wektora losowego X nazywamy macierz R = (aij ) wymiaru n × n, gdzie aij = Cov(Xi , Xj ). Jeżeli VarX > 0, VarY > 0, to określa się pewien ważny parametr zwany współczynnikiem korelacji. Cov(X, Y ) ρ(X,Y ) = . σ(X)σ(Y ) W przypadku, gdy ρ = 0, zmienne losowe nazywamy nieskorelowanymi. Oczywiście zmienne niezależne są nieskorelowane, ale nie na odwrót. • Przykład 5.1 79 Rozważamy dwiema (ponumerowanymi) symetrycznymi monetami. Niech X będzie zmienną losową określającą liczbę orłów na pierwszej monecie, Y — zmienną losową określającą liczbę orłów na obu monetach, Z — zmienną losową przyjmującą wartość 0, gdy suma orłów na obu kostkach jest nieparzysta i na pierwszej kostce jest orzeł, 1 — gdy suma orłów na obu kostkach jest parzysta i na pierwszej kostce jest orzeł oraz 2 — suma orłów na obu kostkach jest nieparzysta. Wyznaczyć rozkłady łączne i brzegowe wektorów losowych (X, Y ) i (X, Z). R o z w i ą z a n i e. Ponieważ Ω = {(O, O), (O, R), (R, O), (R, R)}, więc wektory losowe (X, Y ) i (X, Z) mają następujące rozkłady łączne i brzegowe. X\Y Y =0 Y =1 X =0 1 4 0 X =1 0 1 4 1 4 Y =2 1 4 1 2 1 4 1 4 1 2 1 2 X\Z Z =0 Z =1 Z =2 X =0 1 4 0 1 4 X =1 0 1 2 0 1 4 1 2 1 4 1 2 1 2 Jak widać, różne wektory losowe mogą mieć te same rozkłady brzegowe. 5.2 Zmienne losowe dwuwymiarowe. Zajmiemy się bliżej zmiennymi losowymi dwuwymiarowymi. Dwuwymiarową zmienną losową (X,Y) przyjmującą co najwyżej przeliczalnie wiele wartości P (X = xi , Y = yj ) nazywamy dwuwymiarową zmienną losową typu skokowego lub zmienną losową dyskretną. Rozkład takiej zmiennej wygodnie jest przedstawiać w postaci tabelki, w której pik = P (X = xi , Y = yk ). y1 y2 .. . ym x1 p11 p12 x2 p21 p22 ... ... ... xn yn1 yn2 p1m p2m ... ynm Dystrybuanta takiej zmiennej jest funkcją schodkową X F (x, y) = P (X < x, Y < y) = pik . i,k;xi <x,yk <k Mówimy, że zmienna losowa (X, Y ) jest typu ciągłego, jeżeli istnieje nieujemna funkcja całkowalna f (u, v) taka, że dystrybuanta ma postać F (x, y) = Zx Zy −∞ −∞ f (u, v))dudv. 80 Jeżeli g : IR2 −→ IR jest funkcją całkowalną, to wartość oczekiwaną zmiennej losowej g(X, Y ) dana jest wzorem: X Eg(X, Y ) = g(xi , yk )pi,k dla zmiennej dyskretnej i,k oraz Eg(X, Y ) = Z∞ Z∞ g(x, y)f (x, y)dxdy dla zmiennej ciągłej −∞ −∞ 5.2.1 Rozkłady brzegowe Ważną rolę w badaniu zmiennych losowych wielowych odgrywają tzw. rozkłady brzegowe. W przypadku zmiennej losowej dwuwymiarowej dyskretnej (X, Y ) są one zdefiniowane wzorami: X X pi· = P (X = xi ) = pik , oraz p·k = P (Y = yk ) = pik i k Dla zmiennej dwuwymiarowej ciągłej (X, Y ) definiujemy tzw. gęstości brzegowe: fX (x) = Z∞ f (x, y)dy, fY (y) = −∞ Z∞ f (x, y)dx. −∞ Dystrybuanty rozkładów brzegowych dla zmiennej dyskretnej zadane są wzorami: X X FX (x) = pi· , FY (y) = p·k xi <x yk <y a dla zmiennej ciągłej wzorami: FX (x) = Zx f1 (u)du, −∞ FY (y) = Zx f2 (v)dv −∞ dla zmiennej ciągłej. Rozkład wektora losowego (mówimy czasem rozkład łączny) wyznacza oczywiście jednoznacznie rozkłady brzegowe, ale nie na odwrót. W języku wektorów losowych wygodnie jest formułować warunek niezależności zmiennych losowych. • Twierdzenie 5.1 Zmienne losowe X, Y są niezależne wtedy i tylko wtedy, gdy F(X,Y ) (x, y) = FX (x) · FY (y). W przypadku zmiennych dyskretnych warunek ten równoważny jest warunkowi pik = pi· p·k dla wszystkich i, k a dla zmiennych typu ciągłego – warunkowi f(X,Y ) (x, y) = fX (x)fY (y) dla wszystkich x, y ∈ IR. 81 Oczywista jest postać powyższego twierdzenia w przypadku dowolnej skończonej ilości zmiennych losowych X1 , X2 , . . . , Xn . 5.2.2 Rozkłady warunkowe Przy badaniu zmiennych losowych dwuwymiarowych posługujemy się też pojęciem rozkładu warunkowego. Dla zmiennej dyskretnej przy założeniu, że wszystkie p·k są dodatnie, mamy P (X = xi |Y = yk ) = pik p·k oraz P (Y = yk |X = xi ) = pik . pi· Warunkowym rozkładem zmiennej losowej X przy warunku [Y = yk ] nazywamy (xik , P (X = xi |Y = yk )) i analogicznie warunkowym rozkładem zmiennej losowej Y przy warunku [X = xi ] nazywamy (yk , P (Y = yk |X = xi )) Podobnie dla zmiennych typu ciągłego funkcje: f (x|y) = f (x, y) , f2 (y) f (y|x) = f (x, y) f2 (y) nazywamy odpowiednio gęstością warunkową zmiennej losowej X (Y ) pod warunkiem Y (X) Ich dystrybuanty mają postać F (x|y) = Zx f (u|y)du, F (y|x) = −∞ Zy f (v|x)dv. −∞ Z twierdzenia 5.1 i z definicji rozkładów warunkowych wynika, że X, Y są niezaleźnymi zmiennymi losowymi wtedy i tylko wtedy, gdy rozkłady warunkowe równe są odpowiednim rozkładom brzegowym, czyli F (y|x) = FY (y), 5.2.3 F (x|y) = FX (x). Regresja liniowa Niech X, Y będą dwiema zmiennymi losowymi. Rozwiązanie zagadnienia regresji liniowej polega na wyznaczeniu takich stałych a, b ∈ IR, dla których wartość E(Y − (aX + b))2 82 jest najmniejsza. Ponieważ z własności wartości oczekiwanej wynika, że r(a, b) = E(Y − (aX + b))2 = EY 2 + a2 EX 2 + b2 − 2aEXY − 2bEY + 2abEX, więc, przy założeniu, że istnieją momenty rzędu drugiego zmiennych X, Y , funkcja r(a, b) jest wielomianem drugiego stopnia zmiennych a, b. Punkty, w których funkcja r(a, b) może przyjmować najmniejszą wartość wyznaczamy, rozwiązując układ równań ∂r = 2aEX 2 − 2EXY + 2bEX = 0 ∂a ∂r = 2b − 2EY + 2aEX = 0 ∂b Otrzymujemy a0 = EXY − EXEY Cov(X, Y ) = i b0 = ... EX 2 − (EX)2 VarX Ponieważ ∂2r ∂2r ∂2r ∂ 2 r 2 · − · (a0 ,b0 ) = 2EX · 2 − 2EX · 2EX = 4VarX 0 ∂a2 ∂b2 ∂a∂b ∂b∂a oraz ∂2r (a0 , b0 ) = ... > 0, ∂a2 więc w przypadku, gdy VarX > 0, funkcja r(a, b) ma w punkcie (a0 , b0 ) minimum lokalne (a więc i globalne, bo jedyne). Dla VarX = 0 zmienna losowa X przyjmuje z prawdopodobieństwem 1 wartość EY . stałą c i my już wiemy, że należy przyjąć a = c Zatem najlepszym (w rozważanym wyżej sensie) przybliżeniem zmiennej losowej Y za pomocą liniowej funkcji zmiennej X jest Ỹ = Cov(X, Y ) Cov(X, Y ) · X + (EY − EX · ), VarX VarX a ponieważ √ VarY Cov(X, Y ) , = ρ(X,Y ) · √ VarX VarX więc √ VarY (X − EX) + EY. Ỹ = ρ(X,Y ) · √ VarX 83 6 Elementy statystyki matematycznej Statystyka matematyczna to opisywanie, badanie, wnioskowanie o całej zbiorowości zwanej populacją na podstawie jej, wyodrębnionej w sposób losowy, części w oparciu o rachunek prawdopodobieństwa. Statystyka matematyczna umożliwia uporządkowanie i interpretację wiedzy zawartej w obserwacjach. Niemal we wszystkich sferach naszej działalności zbieramy dane; z tego gąszczu liczb lub obserwacji nieliczbowych poddanemu wnioskowaniu metodami statystyki otrzymuje się odpowiedź na wiele pytań związanych z danym zjawiskiem. W niniejszym opracowaniu rozważymy niektóre z nich. 6.1 Podstawowe pojęcia statystyki matematycznej. Na i-tym elemencie wyodrębnionej losowo części populacji obserwujemy realizację xi zmiennej losowej Xi . Zmienne losowe Xi , i = 1, 2, . . . , n opisują tę samą cechę populacji. Najczęściej będziemy zakładać, że mamy obserwacje tzw. próby prostej. • Definicja 6.1 Prosta próba losowa o dl6 6 ugości n to ciąg (X1 , X2 , . . . , Xn ) niezależnych zmiennych losowych o jednakowych rozkładach określonych na tej samej przestrzeni Ω. We wnioskowaniach statystycznych wykorzystujemy funkcje f (X1 , X2 , . . . , Xn ) na obserwowanych zmiennych losowych zwane statystykami. Zauważmy, że statystyki są też zmiennymi losowymi. A oto najważniejsze z nich. • Dystrybuantę empiryczną nazywamy funkcję Fn (x) określoną w sposób następujący 1 Fn (x) = card{i : Xi (ω) < x}, n gdzie cardA oznacza liczbę elementów zbioru A. Dla ustalonego x Fn (x) jest zmienną losową zależną od (X1 , X2 , . . . , Xn ). Jedną z ważniejszych własności ciqagu (Fn (x)) podaje twierdzenie • Twierdzenie 6.1 Jeżeli X1 , X2 , . . . , Xn są niezależnymi zmiennymi losowymi o jednakowej dystrybuancie F (x), to dla każdego x ∈ IR zachodzi równość P ( lim Fn (x) = F (x)) = 1. n→∞ • Jeżeli zbiór wartości zmiennej losowej X podzielimy na k rozłącznych przedziałów Pj , j = 1, 2, . . . , k oraz nad każdym przedziałem Pj narysujemy prostokąt o polu Fn (x) = n1 card{i : xi ∈ Pj }, to otrzymamy tzw. histogram. • Średnia z próby to statystyka potocznie zwana ”X z kreską” określona wzorem n 1X Xi . X¯n = n i=1 84 • wariancją z próby (potocznie zwana ”S kwadrat”) to statystyka określona wzorem n 1X 2 (Xi − X¯n )2 Sn = n i=1 Można łatwo sprawdzić, że n Sn2 = 1X 2 X − (X¯n )2 . n i=1 i Dyspersją z próby albo odchyleniem standardowym nazywamy statystykę p Sn = Sn2 . • Moment rzędu r z próby to zmienna losowa n Mr = 1X r X , n i=1 i natomiast moment centralny rzędu r z próby to statystyka n 1X (Xi − X¯n )r . Cr = n i=1 • Statystyki pozycyjne. W próbie losowej (X1 , X2 , . . . , Xn ) dla danego zdarzenia ω uporządkujmy realizację próby, czyli x1 = X1 (ω), x2 = X2 (ω), . . . , xn = Xn (ω) od wartości najmniejszej do największej i przez xk oznaczmy obserwację, która znajduje się na k-tym miejscu od lewej strony, k = 1, 2, . . . , n. Mamy zatem x(1) ¬ x(2) ¬ . . . ¬ x(n) . Przeprowadzając powyższą procedurę dla każdego ω otrzymamy zmienne losowe Xk spełniające nierówność X(1) ¬ X(2) ¬ . . . ¬ X(n) . Zmienną losową Xk nazywamy k-tą statystyką pozycyjną, k = 1, 2, . . . , n. Zauważmy, że X1 = min(X1 , X2 , . . . , Xn ), Xn = min(X1 , X2 , . . . , Xn ). • Mediana֒ z próby nazywamy statystykę ( X( n+1 ) gdy n jest nieparzyste, 2 Me = 1 n n gdy n jest parzyste. 2 X( 2 ) + X( 2 )+1 85 • Kwantyl dolny z próby to mediana ze zmiennych X(1) , X(2) , . . . , X(n) mniejszych niż Me a kwantyl górny z próby to mediana ze zmiennych X(1) , X(2) , . . . , X(n) większych niż Me . • wariancją empiryczną poprawioną Sb2 = ”statystyka S kwadrat z daszkiem”) Fn (x) = 1 n 0 i n 1 1 n−1 Pn i=1 (Xi − X̄)2 (tzw. gdy x ¬ x(i) gdy x(i) ¬ x ¬ x(i+1) , gdy x > x(n) = · card{i : xi ¬ x} . Zauważmy, że -odchylenie przeciętne i n n x̄ = n √ 1X 1X xi , m̄2 = (xi − x̄), s = m̄2 n i=1 n i=1 Oprócz x̄ używane są jeszcze inne charakterystyki: - środek rozstępu c = 21 (x(1) + x(n) ), - dominanta lub moda - wartość występująca najczęściej, - mediana lub wartość środkowa - dla n nieparzystych xM = rzystych xM = 21 (x n2 + x n2 +1 )), Pn - odchylenie przeciętne - d = n1 i=1 |xi − x̄. xn+1 2 , dla n pa- Jeżeli liczba elementów próby jest duża (n > 20), to dzielimy przedział [min{: xi √ : i = 1, . . . , √ n}, max{: xi : i = 1, . . . , n}] na skończenie wiele (m) podprzedziałów ( 21 n ¬ m ¬ n) i definiujemy tzw. - Szereg rozdzielczy - ........(B)str.44-47 .....Wojtek 78-79 Próby dzielimy na: • reprezentatywne (częstość występowania w próbie badanej cechy nie powinna odbiegać od częstości występowania tej cechy w całej populacji). Aby zapewnić losowość próby dobrze jest np. posługiwać się tzw. tablicami liczb losowych. • tendencyjne (np. przy badaniu wytrzymałości prętów stalowych składowanych w magazynie pobranie prętów z górnej warstwy daje oszacowanie wytrzymałości prętów najgorszych) Przypuśćmy, że dana jest skończona populacja generalna A, w której każdej jednostce przypisana jest pewna liczba - wartość cechy badanej X (np. wzrost chłopców, temperatura prętów, itp.) Gdybyśmy znali tę liczbę dla każdego elementu populacji, to moglibyśmy określić F (x) 86 .............. Zatem n-elementową próbę można traktować jak wektor losowy (X1 , X2,...,Xn ), którego poszczególne składowe mają rozkład zmiennej X, będącej modelem populacji. Na ogół zakładamy, że próby są proste, tzn. zmienne losowe są niezależne o jednakowym rozkładzie. W rozważanym wcześniej przykładzie liczba sztuk wadliwych w próbie jest sumą X1 + X2 + X3 . Jest to więc pewna funkcja elementów próby losowej. • Estymator to dowolna statystyka służąca do oszacowania nieznanej wartości parametru Θ populacji generalnej lub nieznanego rozkładu populacji. Jeżeli Z jest funkcją liniową, to mówimy, że estymator jest liniowy. Takie są np. suma czy średnia arytmetyczna. • Hipoteza statystyczna jest to dowolne przypuszczenie dotyczące populacji generalnej. • Test statystyczny to reguła postępowania, która na podstawie wyników próby ma doprowadzić do decyzji przyjęcia lub odrzucenia danej hipotezy. .... W dalszych rozważaniach zakładamy zawsze, że populacja generalna jest dostatecznie liczna, tak, że po pobraniu próbki nie zmienia się rozkład badanej cechy w populacji. Jeżeli przez X oznaczymy interesującą nacechę elementów populacji generalnej, FX nazywamy dystrybuantą teoretyczną, a momenty zmiennej X nazywamy momentami teoretycznymi i oznaczmy mk . Dla n-elementowej próby prostej X1 , X2 , . . . , Xn określamy: • dystrybuantę empiryczną Fn (x) = n1 card{i : xi < x}, Pn • k-ty moment empiryczny Mk = n1 i=1 Xik , Pn • k-ty moment empiryczny centralny Ck = n1 i=1 (Xi − Mi )k , W statystyce, w odróżnieniu od rachunku prawdopodobieństwa nie znamy wszystkich parametrów rozkładu zmiennej losowej, która reprezentuje konkretną cechę populacji generalnej. Na podstawie wyników badania próby losowej staramy się wyciągnąc wnioski dotyczące badanej cechy w całej populacji. Znajdowanie parametrów rozkładu statystyk jest jednym z podstawowych problemów statystyki matematycznej i jest to na ogół zagadnienie trudne. Czasem jednak parametry statystyk zależą wyłącznie od odpowiednich parametrów populacji ogólnej i wówczas stosunkowo nietrudno je oszacować. Policzmy trochę: Przykłady Zad.1. Przy przepływie prądu przez przewodnik o oporze R następuje zmiana energii elektrycznej na cieplną. Zamiana zmiana energii elektrycznej na cieplną A odbywa 87 2 się zgodnie z zależnością: A = uRt , gdzie u oznacza przyłożone napięcie, a t -czas. Jeżeli opór jest stały i ustalimy czas t, energia jest funkcją napięcia A = cu2 , c = t r . Przypuśćmy, że napięcie u jest zmienną losową o rozkładzie określonym przez funkcję 88 6.2 6.2.1 Estymacja Podstawowe pojęcia. Estymacja jest to szacowanie, ocenianie nieznanych parametrów rozkładu charakeryzujących populację na podstawie pewnych funkcji określonych na próbie. Co można estymować? - X ∼ B(n, p) - X ∼ Pλ - X ∼ N (n, σ) Dla danego parametru Θ można utworzyć wiele różnych estymatorów, jest jednak oczywiste, że oczekujemy, by spełniały one pewne pożądane warunki: - wraz ze wzrostem liczności próby powinna wzrastać dokładność oszacowania parametru, co prowadzi do warunku ∀ε>0 cn − Θ| < ε) = 1. lim P (|Θ n→∞ Taki estymator nazywamy estymatorem zgodnym parametru Θ. - naturalne jest oczekiwać, że wartość oczekiwana estymatora równa jest samemu estymatorowi, czyli cn ) = Θ. E(Θ Taki estymator nazywamy estymatorem nieobciążonym parametru Θ. Estymator spełniający warunek cn ) − Θ = 0 lim E(Θ n→∞ nazywamy estymatorem asymptotycznie nieobciążonym Zauważmy, że: 1. Średnia arytmetyczna jest estymatorem nieobciążonym wartości oczekiwanej, mamy bowiem E X̄ = EX. Z prawa wielkich liczb wynika, że E X̄ jest też estymatorem zgodnym wartości oczekiwanej. 2. Statystyka S 2 jest estymatorem obciążonym wariancji, ponieważ n S2 = n n 1X 1X 1X (Xi −X̄)2 = [(Xi −EX)−(EX−X̄)2 = (Xi −EX)2 X̄)2 n i=1 n i=1 n i=1 n VarX̄ = E(X̄ − E X̄)2 = E( = n 1X 1X (Xi − EX)2 ) = E( (Xi − EX))2 n i=1 n i=1 n n 1 1 X 1 X 1 2 (X − EX) = V arXi = 2 nVarXi = VarX i n2 i=1 n2 i=1 n n 89 przy czym pisząc przedostatnią równość skorzystaliśmy z niezależności zmiennych Xi . Stąd odchylenie standardowe σ¯X̄ = √σn . 3. Ponieważ S2 = n n 1 X 1 X (Xi − X̄)2 = ) (Xi − EX)2 − (X̄ − EX)2 , ) n i=1 n i=1 więc ES 2 = n 1 X 1 1 n−1 E(Xi −EX)2 −E(X̄−EX)2 = dotnV arX−X̄ = V arX− V arX = ) V arX, n i=1 n n n czyli S 2 = n−1 2 n V arX., = f racnn − 1S . n = n−1 n · n−1 V arX = V arX, co oznacza, że S 2 jest estymatorem Zatem ES wariancji a S jest nieobciążonym estymatorem wariancji. 6.2.2 Estymacja punktowa Metoda momentów Jeżeli nieznany parametr Θ rozkładu jest określony przez k pierwszych momentów b tego pacechy wzorem Θ = f (m1 , m2 , . . . , mk ), to przyjmujemy, że estymator Θ rametru określony jest za pomocą tej samej funkcji f zmiennych m̄1 , m̄2 , . . . , m̄k , czyli - momentów empirycznych. Przykłady. 1. Powiedzmy, że badana cecha ma rozkład jednostajny na odcinku [0, b], gdzie b nie jest znane. Jak pamiętamy, dla rozkładu jednostajnego m = EX = a+b (b − a)2 , V arX = . 2 12 EX = Zatem b , skąd b = 2EX. 2 bb = 2X̄. 2. Jeżeli badana cecha ma rozkład jednostajny na odcinku [a, b], gdzie a, b nie są znane, to m = EX = (b − a)2 a+b , VarX = . 2 12 90 Zatem a+b (b − a)2 = = 2X̄ 12V arX = 12 Stąd b = 2X̄ − a. Metoda największej wiarogodności Metoda ta polega na oszacowaniu nieznanych parametrów tak, by dane empiryczne były przy tym najbardziej prawdopodobne. Niech (X1 , X2 , . . . , Xn ) będzie próbą prostą, a (x1 , x2 , . . . , xn ) - konkretną wartością tej próby (tzn. konkretne wyniki). Niech Θ1 , Θ2 , . . . , Θk będą nieznanymi parametrami rozkładu. Konstruujemy tzw. funkcję wiarogodności. ( f (x1 , Θ1 , Θ2 , . . . , Θk ) · . . . · f (xn , Θ1 , Θ2 , . . . , Θk ) L(Θ1 , . . . , Θk , x1 , . . . , xn ) = P (x1 , Θ1 , Θ2 , . . . , Θk ) · . . . · P (xn , Θ1 , Θ2 , . . . , Θk ) Estymator dla parametrów Θ1 , Θ2 , . . . , Θk znaleziony metodą największej wiaroc1 , Θ c2 , . . . , Θ ck , dla których godności (MLE) to te wartości Θ c1 , . . . , Θ ck , x1 , . . . , xn ) = max{L(Θ1 , . . . , Θk , x1 , . . . , xn ) : Θ1 , . . . , Θk }. L(Θ To jest logiczne, bo skoro przypadkiem otrzymano właśnie takie wyniki, to muszą one być najbardziej prawdopodobne. Przykłady. 1. Cecha X elementów populacji ma rozkład dwupunktowy B(1, p), gdzie p jest nieznanym parametrem. Metodą największej wiarogodności znaleźć estymator parametru p, jeżeli w 10-elementowej próbie zaobserwowaliśmy 7 razy wartość 1 i trzy razy wartość 0. R o z w i ą z a n i e. W tym przykładzie L(p, x1 , x2 , . . . , x10 ) = p7 (1 − p)3 . Wyznaczając największą wartość tej funkcji na [0,1] otrzymujemy p = Zauważmy, że pb = P (X=1) 10 (częstość występowania 1. 7 10 . dla zmiennych z gęstością dla zmiennych dyskretnych. 91 2. Cecha X elementów populacji ma rozkład Poissona z nieznanym λ, czyli λk −λ e . k! Zaobserwowaliśmy następujące wartości zmiennej X: 0, 1, 2, 5, 1, 0, 3, 4, 5, 6. Funkcja wiarogodności ma postać P (X = k) = L(λ) = e−λ λk1 −λ λk2 λk10 λk1 +k2 +...+k10 ·e · . . . · e−λ = e−10λ . k1 ! k2 ! k10 ! k1 ! · k2 ! · . . . · k10 ! Ponieważ L przyjmuje wartość największą w tym samym punkcie, w którym największą wartość przyjmuje funkcja h(λ) = ln L(λ) = −nλ + ln λ Obliczając 10 X i=1 ki − 10 X ln ki . i=1 10 h′ (λ) = −10 + otrzymujemy 1 X ki = 0, 10 i=1 10 λ= 1 X ki . 10 i=1 3. Cecha X elementów populacji ma rozkład N (m, σ) z nieznanymi parametrami m, σ. Mamy próbę (x1 , x2 , . . . , xn ). Konstruujemy funkcję wiarogodności L(m, σ, x1 , x2 , . . . , xn ) = = √1 e− σ 2π (x1 −m)2 2σ 2 · √1 e− σ 2π (x2 −m)2 2σ 2 · ... · √1 e− σ 2π (xn −m)2 2σ 2 2 2 1 √1 e− 2σ2 [(x1 −m) +...+(xn −m) ] . (σ 2π)n Szukamy największej wartości tej funkcji. Funkcja L(m, σ, x1 , x2 , . . . , xn ) przyjmuje największą wartość w tym samym punkcie, w którym największą wartość przyjmuje funkcja n (xk −m)2 P − 1 2 2σ ln σ√2π + ln e h(λ) = ln L(m, σ, x1 , x2 , . . . , xn ) = k=1 n √ P −m)2 − ln 2π − ln σ − (xk2σ = 2 k=1 Policzmy ( 0 = ∂h ∂m ∂h ∂σ = 0 = Rozwiązując ten układ równań otrzymujemy n m= 1X xk , n k=1 n σ2 = 1X (xk − x̄)2 = Sn2 . n k=1 92 Estymatory uzyskane metodą największej wiarogodności mają rozkłady asymptotycznie normalne i asymptotycznie najefektywniejsze. 6.2.3 Estymacja przedziałowa Estymacja punktowa polega na podaniu jednej liczby możliwie najmniej różniącej się od nieznanej wartości parametru. To na ogół nie wystarcza, gdy powinno się znać stopień dokładności oszacowania. Zróbmy jakiś konkretny przykład. Powiedzmy, że w wyniku pomiaru jakiejś wielkości otrzymaliśmy próbę 9-elementową: (4,9; 4,8; 5,1; 5,2; 4,7; 5,2; 5,1; 5,1; 4,9). Wówczas x̄ = 5 - estymator punktowy daje konkretną wartość. Załóżmy, że X ≈ N (m, σ) . Wówczas, jak wiemy X̄ ≈ N (m, √σn ) . bo na mocy tw. LL n X √ Xi ≈ N (nm, σ n) i=1 skąd E( n n n 1X σ2 1X 1 1 X 1 Xi ) = · n · m = m, V ar( Xi ) = 2 V arXi = 2 · n · σ 2 = n i=1 n n i=1 n i=1 n n Zatem X̄ − m √ · n ≈ N (0, 1) σ Z tablic rozkładu normalnego wyznaczamy takie uα , że X̄ − m √ · n| ¬ uα = 1 − α P | σ U= np. dla α = 0, 05 mamy 1 − α = 0, 95, uα = 1, 96. Stąd | σ σ σ X̄ − m √ · n| ¬ uα ⇐⇒ |X̄ − m| ¬ uα · √ ⇐⇒ X̄ − uα · √ ¬ m ¬ X̄ + uα · √ . σ n n n czyli σ σ X̄ − uα · √ ¬ m ¬ X̄ + uα · √ = 1 − α. n n Wyznaczyliśmy przedział o końcach losowych X̄ − uα · √σn ¬ m ¬ X̄ + uα · √σn , do którego z prawdopodobieństwem 1 − α wpada wartość oczekiwana m. Np. w ostatnim przykładzie dla σ = 1 otrzymujemy przedział [4, 35; 5, 65]. Mówimy, że przedziałem ufności dla wartości oczekiwanej na poziomie ufności 0,95 jest [4, 35; 5, 65]. Przy znanej wariancji długość tego przedziału jest stała. Fakt, że dany przedział liczbowy przedziałem ufności dla wartości oczekiwanej na P 93 poziomie ufności 0,95 oznacza, że średnio w 95 próbach na 100 wyznaczony przedział zawiera m. Estymacja punktowa polega na podaniu jednej liczby, możliwie najmniej różniącej się od nieznanej wartości parametru. To czasem nie wystarcza, gdyż powinno się znać stopień dokładności takiego oszacowania. W tzw. estymacji przedziałowej nie podajemy jednej liczby, która ma stanowić domniemaną wartość estymowanego parametru, lecz cały przedział, w którym znajduje się estymowany oarametr ze z góry zadanym (zadowalającym nas) prawdopodobieństwem. Jest to przedział o losowych końcach (Z1 , Z2 ), zależących od próby (X1 , X2 , . . . , Xn ), czyli Z1 = u1 (X1 , X2 , . . . , Xn ), Z2 = u2 (X1 , X2 , . . . , Xn ). Mówimy, że przedział (Z1 , Z2 ) jest przedziałem ufności dla parametru Θ na poziomie ufności (1 − α), jeżeli P (Z1 ¬ Θ ¬ Z2 ) = 1 − α. Przykłady. 1. Wiadomo, że rozkład wyników pomiarów pewnej wielkości X jest N (m, 5). Ile pomiarów należy wykonać, aby wyznaczyć przedział ufności dla m o długości ¬ 4 na poziomie ufności 1 − α = 0, 95 ? *** Szukamy n takiego, by X̄ + uα · √σn − X̄ − uα · √σn ¬ 4 94 6.3 Testowanie hipotez Hipotezą statystyczną nazywamy dowolne przypuszczenie dotyczące nieznanego rozkładu zmiennej lub zmiennych losowych. Niech Ω będzie zbiorem wartości obserwowanej zmiennej losowej X a F = B — σ-ciałem podzbiorów zbioru Ω. Rozkład prawdopodobieństwa P nie jest w pełni określony. Wiemy tylko, że należy do pewnej rodziny rozkładów P. Gdy dla określenia rodziny rozkładów P wystarczy parametr θ ∈ Θ ⊂ IRn (np. rodzinę rozkładów normalnych określa parametr θ = (m, σ), Θ = IR × IR+ ; rodzinę rozkładów Poissona określa parametr θ = λ, Θ = IR+ ), to przypuszczenie o rozkładzie prawdopodobieństwa jest w pełni opisane przez przypuszczenie o parametrze θ i mówimy wtedy o tzw. hipotezach parametrycznych. Gdy przypuszczenia o rozkładzie prawdopodobieństwa nie można opisać za pomocą zbioru Θ ⊂ IRn , to mówimy o tzw. hipotezach nieparametrycznych. Rozpatrzmy przypuszczenie dotyczące nieznanego parametru θ. Rodzinę P można podzielić na dwa rozłączne zbiory: zbiór H, zawierający rozkłady opisane przez θ ∈ Θ1 , dla których hipoteza jest prawdziwa i zbiór K = P \ H, zawierający rozkłady (opisane przez θ ∈ Θ \ Θ1 , dla których hipoteza jest fałszywa. H nazywamy hipotezą zerową, K — hipotezą alternatywną, a stawiany problem zapisujemy krótko H : θ ∈ Θ1 K : θ ∈ Θ2 , θ ∈ Θ2 = Przy weryfikacji hipotezy możemy popełnić następujące błędy: — odrzucić H, jeżeli jest ona prawdziwa (tzw. błąd I rodzaju) — nie odrzucić H, jeżeli jest ona fałszywa (tzw. błąd II rodzaju) Obu rodzajów błędów kontrolować jednocześnie najczęściej nie można. Dlatego przy pewnym ograniczeniu z góry na przwdopodobieństwo błędu I rodzju minimalizujemy prawdopodobieństwo błędu II rodzaju. W celu weryfikacji hipotezy H przeciwko K, w zbiorze wartości próby losowej X = (X1 , . . . , Xn ) wyróżnia się zbiór C zwany obszarem krytycznym, dla którego hipoteza H jest odrzucona. Ograniczenia na błędy są wtedy następujące: — Przy zadanej wartości α, zwanej poziomem istotności, zachodzi _ Pθ (X ∈ C) = P rawdopodobiestwobduIrodzaju ¬ α, θ ∈ Θ1 — Przy powyższym warunku minimalizujemy _ PΘ (X ∈6 C) = P rawdopodobiestwobduIIrodzaju. θ ∈ Θ2 95 Chcemy, aby prawdopodobieństwo odrzucenia H, gdy jest ona prawdziwa, było małe, czyli poziomowi istotności α nadajemy wartości małe (najczęsćiej jedną z liczb: 0,05, 0,025, 0,01, 0,005) Obszar krytyczny C wygodnie jest konstruować w oparciu o funkcję na próbie losowej (X1 , . . . , Xn ) zwaną statystyką testową. Funkcją mocy nazywamy funkcję M (θ) określoną dla każdego θ ∈ Θ następująco M (θ) = Pθ (X ∈ C). Zauważmy, że dla θ ∈ Θ2 jest M (θ) = 1 − P rawdopodobiestwobduIIrodzaju. W zagadnieniach testowania hipotez, szczególnie z wykorzystaniem pakietów statystycznych, występuje pojęcie p-wartości. p-wartością przeprowadzonego testu nazywamy najmniejszy poziom istotności, przy którym zaobserwowana wartość statystyki testowej prowadzi do odrzucenia hipotezy zerowej. Hipoteza zerowa H oraz alternatywna K odgrywają różne role. Za H stawiamy przypuszczenie, w którego prawdziwość wątpimy i szukamy podstaw, przy których można H odrzucić. • Przykład 6.1 Aby sprawdzić symetryczność monety, rzucono nią 12 razy i 8 razy wypadł orzeł. Na poziomie istotności α = 0, 1 zwryfikować hipotezę o symetryczności monety. Wyznaczyć funkcję mocy, podać jej wartość dla p = 0.1, p = 0.8, p = 0.9. R o z w i ą z a n i e. Jednokrotny rzut monetą opisuje zmienna losowa X o rozkładzie dwumianowym B(1, p), gdzie sukcesem jest wypadnięcie orła, p ∈ (0, 1) jest nieznanym parametrem. Symetryczność monety oznacza, że p = 12 , zatem stawiamy hipotezę zerową H : p = 12 , a alternatywną określamy, jako K : p 6= 21 , W celu zweryfikowania hipotezy H powtórzono 12 razy doświadczenie ze zmienną losową X otrzymując wektor losowy (X1 , . . . , X12 ), gdzie Xk , k = 1, 2, . . . , 12 są niezależne i każda z nich ma rozkład taki jak X. Podano też zaobserwowa12 P Xk równą 8. Wiemy, że zmienna losowa Y ną wartość zmiennej losowej Y = k=1 ma rozkład dwumianowy B(12, p). Obszar krytyczny C to zbiór ”nietypowych” 96 wartości statystyki Y , które przy prawdziwości H(p = 21 ) zachodzą z prawdopodobieństwem α. Małe albo duże wartości zmiennej losowej Y przeczą hipotezie H (tak podpowiada zdrowy rozsądek a uzasadnia lemat Neymana-Pearsona), czyli zbiór C jest postaci 12 12 X X xk 12 − k0 . xk ¬ k0 lub C = (x1 , . . . , x12 ) : k=1 k=1 Ponadto dla poziomu istotności α = 0.1 przy prawdziwości H ma zachodzić równość P 21 (C) = P 21 (Y ¬ k0 lub Y 12 − k0 ) = 0.1. Z warunku na poziom istotności wyznaczymy k0 . Ponieważ rozkład B(12, 21 ) jest symetryczny, więc P 21 (Y ¬ k0 lub Y 12 − k0 ) = 2 · P 21 (Y ¬ k0 ) i stąd P 12 (Y ¬ k0 ) = α = 0.05. 2 Wykorzystjąc tablice rozkładu dwumianowego B(12, 12 ) otrzymujemy k0 = 2 i zbiór C ma postać C = {0, 1, 2, 10, 11, 12}. Zatem zaobserwowana liczba orłów 8 ∈6 C i na poziomie istotności α = 0.05 nie ma podstaw do odrzucenia hipotezy o symetryczności monety. Funkcja mocy tego testu ma postać M (p) = 2 X 12 k=0 k 12−k k p (1 − p) 12 X 12 k p (1 − p)12−k . + k k=10 Jej wartości: dla p = 0.1 mamy M (0.1) = 0.88913, dla p = 0.8 mamy M (0.8) = 0.55835, dla p = 0.9 mamy M (0.9) = 0.88913, Rozważmy teraz problem weryfikacji hipotezy H : p = 21 , przeciw alternatywie K1 : p > 21 , 97 Do takiego sformułowania K1 skłania nas zaobserwowana liczba orłów. Przy takiej alternatywie tylko dwie wartości zmiennej losowej Y przeczą hipotezie H, zatem zbiór krytyczny C1 będzie postaci C1 = {12 − k1 , . . . , 11, 12}. Liczbę k1 wyznaczamy z warunku na poziom istotności. Przy prawdziwości H P 21 (C1 ) = 0.1. Wykorzystjąc tablice rozkładu dwumianowego B(12, 12 ) otrzymujemy k1 = 3. Zatem zbiór C1 ma postać C1 = {9, 10, 11, 12}. Zaobserwowana liczba orłów 8 ∈6 C1 i w problemie H przeciwko K1 nie ma podstaw do odrzucenia hipotezy o symetryczności monety. Funkcja mocy określona dla p 1 2 ma postać 12 X 12 k p (1 − p)12−k M1 (p) = k k=9 i jej wartości to: dla p = 0.8 mamy M1 (0.8) = 0.79457, dla p = 0.9 mamy M1 (0.9) = 0.97436, czyli dla p 12 funkcja mocy M1 (p) testu opartego na zbiorze krytycznym C1 ma większe wartości niż funkcja mocy M (p) testu opartego na zbiorze krytycznym C. • Przykład 6.2 Producent twierdzi, że liczba godzin pracy (w setkach godzin) produkowanych przez niego baterii ma rozkład N (30, 4). Na podstawie n = 25 obserwacji próby prostej obliczono x = 29. a) Na poziomie istotności α = 0.05 zweryfikować hipotezę, że oczekiwany czas pracy baterii jest nadal taki sam. b) Wyznaczyć funkcję mocy testu i odczytać jej wartość dla: m = 29, m = 28, m = 27. c) Rozważyć postawione w a) i b) pytania, gdy n = 64. d) Porównać funkcje mocy testów dla n = 25 i n = 64. R o z w i ą z a n i e. Zmienna losowa X (czas pracy baterii) ma rozkład N (m, 4). Wątpimy w podaną wartość m. Stawiamy hipotezę H : m = 30 98 przeciwko K : m < 30. Z obserwacji próby prostej (X1 , . . . , X25 ), gdzie Xk (k=1,2,. . . ,25) jest czasem pracy k-tej baterii i ma rozkład taki, jak X obliczono x = 29. Wiadomo, że statystyka X ma rozkład N m, √σn dla σ = 4, m = 25. Oznacza to, że X ma roz- kład N (m, 0.8). Przy prawdziwości hipotezy H X ma w pełni określony rozkład N (30, 0.8). Wykorzystamy to do wyznaczenia obszaru krytycznego. Zbiorów, które spełniają warunek na poziomie istotności P (X α = 0.05 jest nieskończenie wiele, np. zbiór C1 , C2 , . . . . ∈C : m = 30) = (z rysunku widać, że pole między zbiorem a wykresem gęstości N (30, 0.8) ma wynosić α). Wśród nich szukamy takiego, dla którego funkcja mocy, dla wszystkich alternatyw (czyli m < 30) jest największa (wtedy prawdopodobieństwo błędu drugiego rodzaju jest najmniejsze). Te warunki spełnia jedynie zbiór C postaci C = (−∞, c0 ). Aby obliczyć c0 wykorzystamy fakt, że X przy prawdziwości hipotezy H ma rozkład N (30, 0.8). Zatem c0 −30 c0 −30 0.05 = P (X ∈ (−∞, c0 )) = P (X < c0 ) = P X−30 < = Φ . 0.8 0.8 0.8 Z tablic wartości dystrybuanty Φ(t) otrzymujemy −30 = 0.95 = Φ(1.64). Φ c00.8 Stąd, dzięki różnowartościowości funkcji Φ(t) mamy c0 −30 0.8 = 1.64, więc c0 = 28, 69. Zaobserwowana wartość x = 29 ∈6 (−∞, 28, 69), więc nie ma podstaw do odrzucenia hipotezy H na poziomie istotności α = 0.05. b) Wartości funkcji mocy dla parametru m to prawdopodobieństwo odrzucenia H (czyli zajścia zdarzenia C), gdy X ma rozkład N (m, 0.8). Zatem c0 −m < = Φ(1.25(28.69 − m)). M (m) = Pm (X < c0 ) = P X−m 0.8 0.8 Niektóre wartości M (m) to M (29) = 0.3483, M (28) = 0.8051, M (27) = 0.9821. 99 Moc testu rośnie wraz ze wzrostem odległości między alternatywą m a wartością parametru (30) określoną w hipotezie zerowej. c) Dla n = 64 zmienna losowa X ma rozkład N (m, 0.5). Obszar krytyczny C1 wyznaczony analogicznie, jak w punkcie a) ma postać C1 = (−∞, 29.18). Funkcja mocy M1 (m) jest postaci M1 (m) = Pm (X < 29.18) = Φ(2(29.18 − m)). Jej niektóre wartości M1 (m) to M1 (29) = 0.6443, M (28) = 0.9909, M (27) = 1. I ogólnie: M (30) = M1 (30) = α, natomiast dla każdego m < 30 (z własności Φ(t)) mamy M (m) < M1 (m). Na tym samym poziomie istotności test oparty na próbie o większej długości ma większą moc. • Przykład 6.3 Grubość płytki produkowanej przez automat jest zmienną losową o rozkładzie normalnym N (m, σ) i znanej dyspersji σ = 4. Zmierzone (w milimetrach) grubości 9 płytek wyniosły: 56, 52, 48, 49, 50, 47, 51, 48, 54. Przetestować hipotezę H : m = 50 przeciwko K : m 6= 50. R o z w i ą z a n i e. Podane grubości płytek to obserwacje próby prostej (X1 , . . . , X9 ), gdzie Xk (k=1,2,. . . ,9) jest zmienną losową o rozkładzie N (m, 4). Statystyka X przy prawdziwości hipotezy H ma rozkład N (50, 4). Obszar krytyczny przy takiej alternatywie wyznacz0ny (U ma rozkład N (0, 1)) w oparciu o standaryzację X, czyli statystykę U = X−50 4 jest postaci C = (−∞, −c) ∪ (c, ∞) Dla podanych obserwacji mamy x = 50.6, więc u = 0.139. Przy zaobserwowanej wartości u odrzucamy hipotezę H, gdy u ∈ C, czyli gdy 1.39 > c. Najmniejszy poziom istotności ma zbiór krytyczny (−∞, −1.39) ∪ (1.39, ∞) i wynosi on 100 2 · Φ(−1.39) = 0.1646. Zatem p-wartość dla przeprowadzonego testu równa jest 0.1646. Obliczanie p-wartości umożliwia w pewnym sensie uniknięcie określania poziomu istotności α przed testowaniem. Jeżeli przyjęta wartość α jest mniejsza niż p-wartość, to nie ma podstaw do odrzucenia H, przy α większej niż p-wartość odrzucamy H. Pamiętajmy jednak, że p-wartość, jako funkcja obliczana do zaobserwowanych wartości próby losowej, jest zmienną losową i nie powinniśmy jej mylić z poziomem istotności, który jest ustaloną liczbą. 6.3.1 Testy istotności W testach istotności podejmuje się jedynie decyzję odrzucenia sprawdzanej hipotezy H z określonym małym błędem, albo stwierdza brak podstaw do jej odrzucenia. Przeprowadzenie testu istotności można opisać następującymi krokami: 1. Stawiamy hipotezę zerową H określającą nieznany rozkład prawdopodobieństwa P0 obserwowanej zmiennej losowej (w hipotezach parametrycznych określamy wartości parametrów); 2. Konstruujemy statystykę testową T (T jest funkcją próby losowej X1 , X2 , . . . , Xn ), której rozkład prawdopodobieństwa przy założeniu prawdziwości H jest całkowicie znany; 3. Wyznaczamy obszar krytyczny C (w oparciu o statystykę T ) tak, żeby przy prawdziwości H zachodziła nierówność P0 (x1 , . . . , xn ) : T (x1 , . . . , xn ) ∈ C ¬ α W większości problemów obszar krytyczny ma jedną z postaci: (−∞, c), (d, ∞), (−∞, c) ∪ (d, ∞). 4. Podejmujemy decyzję: jeżeli dla zaobserwowanej wartości (x1 , . . . , xn ) próby losowej wartość T (x1 , . . . , xn ) ∈ C, to odrzucamy H na poziomie istotności α, w przeciwnym przypadku nie ma podstaw do odrzucenia H. 6.3.2 Testy parametryczne. Poniżej przedstawimy najczęściej wykorzystywane testy parametryczne, α oznacza poziom istotności. 1) Test dla średniej przy znanej wariancji. (X1 , X2 , . . . , Xn ) — próba prosta z populacji, której cecha ma rozkład N (m, σ), przy czym wariancja σ 2 jest znana. H : m = m0 K : m 6= m0 Statystyka testowa U = X−m0 √ n σ Obszar krytyczny ma postać ma przy prawdziwości H rozkład N (0, 1). 101 C = (−∞, u0 ) ∪ (u0 , ∞), gdzie Φ(u0 ) = 1 − α 2 (u jest kwantylem rzędu 1 − rozkładu N (0, 1)). α 2 Dla problemu z alternatywą K : m > m0 mamy C = (u0 , ∞), Φ(u0 ) = 1 − α. Dla problemu z alternatywą K : m < m0 mamy C = (−∞, −u0 ), Φ(u0 ) = 1 − α. Dla dużych wartości n statystyka U ma rozkład asymptotycznie normalny dla dowolnych (nie tylko normalnych) rozkładów cechy, o ile tylko istnieje ich wariancja. 2) Test dla średniej przy nieznanej wariancji. (X1 , X2 , . . . , Xn ) — próba prosta z populacji, której cecha ma rozkład N (m, σ), przy czym wariancja σ 2 nie jest znana. H : m = m0 K : m 6= m0 √ 0 n−1 Statystyka testowa T = X−m s Studenta z (n − 1) stopniami swobody. ma przy prawdziwości H rozkład t- Obszar krytyczny ma postać C = (−∞, t0 ) ∪ (t0 , ∞), gdzie t0 jest kwantylem rzędu 1 − α 2 rozkładu tn−1 ). Dla problemu z alternatywą K : m > m0 mamy C = (t0 , ∞), a dla problemu z alternatywą K : m < m0 mamy C = (−∞, −t0 ), gdzie t0 jest kwantylem rzędu 1 − α rozkładu tn−1 ). Kiedy rozmiar próby n jest duży, rozkład graniczny tn−1 , przy prawdziwości H, jest normalny N (0, 1) dla dowolnych (nie tylko normalnych) rozkładów cechy, o ile tylko istnieje ich wariancja. 3) Test dla dwu średnich przy znanych wariancjach. Niech (X1 , X2 , . . . , Xn ), (Y1 , Y2 , . . . , Ym ) będą dwiema niezależnymi próbami prostymi z dwu populacji o rozkładach odpowiednio N (m1 , σ1 ) oraz N (m2 , σ2 ), przy czym wariancje σ12 , σ22 są znane. H : m1 = m2 K : m1 6= m2 Statystyka testowa X −Y U=q 2 σ22 σ1 n + m ma, przy prawdziwości H, rozkład N (0, 1). Obszar krytyczny ma postać C = (−∞, u) ∪ (u, ∞), gdzie Φ(u) = 1 − α 2 (u jest kwantylem rzędu 1 − α 2 rozkładu N (0, 1)). 102 Dla problemu z alternatywą K : m1 > m2 mamy C = (u, ∞), Φ(u) = 1 − α. Dla problemu z alternatywą K : m1 < m2 mamy C = (−∞, −u), Φ(u) = 1 − α. Dla dużych wartości n statystyka U ma rozkład asymptotycznie normalny dla dowolnych (nie tylko normalnych) rozkładów cechy, o ile tylko istnieje ich wariancja. 4) Test dla dwu średnich przy nieznanych wariancjach. Niech (X1 , X2 , . . . , Xn ), (Y1 , Y2 , . . . , Yn ) będą dwiema niezależnymi próbami prostymi z dwu populacji o rozkładach odpowiednio N (m1 , σ1 ) oraz N (m2 , σ2 ), przy czym wariancje σ12 , σ22 są nieznane ale równe (σ1 = σ2 ). H : m1 = m2 K : m1 6= m2 Statystyka testowa U=p X −Y ns2X + ms2Y r nm(n + m − 2) n+m ma, przy prawdziwości H, rozkład t-Studenta z (n + m − 2) stopniami swobody.. Obszar krytyczny ma postać C = (−∞, u) ∪ (u, ∞), gdzie Φ(u) = 1 − α 2 (u jest kwantylem rzędu 1 − α 2 rozkładu tn+m−2 ). Dla problemu z alternatywą K : m1 > m2 mamy C = (t0 , ∞) a dla problemu z alternatywą K : m1 < m2 — C = (−∞, −t0 ), gdzie t0 jest kwantylem rzędu 1 − α rozkładu tn+m−2 ). Założenie o równości wariancji sprawdza się np. opisanym dalej testem F. Gdy Xi , Yj mają rozkłady o skończonych nieznanych wariancjach, ale rozmiary prób n i m są duże, to do testowania używamy statystyki U=q X −Y s2X n−1 + s2Y m−1 , która przy prawdziwości H ma rozkład N (0, 1). 5) Test dla wskaźnika struktury (X1 , X2 , . . . , Xn ) — próba prosta z populacji, której cecha ma rozkład B(1, p), p ∈ (0, 1). H : p = p0 K : p 6= p0 Statystyka testowa B(n, p0 ). T = n P i=1 Obszar krytyczny ma postać ma przy prawdziwości H rozkład Bernoulli’ego 103 C = {0, 1, . . . , k0 , l0 , . . . , n} gdzie Pp0 (T ¬ k0 ) = α1 , Pp0 (T l0 ) = α2 , , α1 + α2 = α. Zwykle przyjmuje się, że α1 = α2 = α2 . Jednak, gdy p0 leży bliżej 0, należy wybrać α1 większe od α2 , a gdy p0 leży bliżej 1, wybieramy α1 mniejsze niż α2 . Dla problemu z alternatywą K : p < p0 obszar krytyczny jest postaci C = {0, 1, . . . , k0 } i Pp0 (T ¬ k0 ) = α, a dla problemu z alternatywą K : p > p0 obszar krytyczny jest postaci C = {l0 , . . . , n} i Pp0 (T l0 ) = α. W przypadku n 20 i 10 ¬ np0 ¬ n − 10 można wykorzystać statystykę n P Xi − np0 i=1 , U=p np0 (1 − p0 ) której rozkład jest asymptotycznie normalny N (0, 1). 5) Test dla χ-kwadrat dla wariancji. Niech (X1 , X2 , . . . , Xn ) będzie próbą prostą z populacji, której cecha ma rozkład N (m, σ). H : σ 2 = σ02 K : σ 2 6= σ02 Statystyka testowa χ2 = stopniami swobody. ns2 σ02 ma przy prawdziwości H rozkład χ-kwadrat z (n−1) Obszar krytyczny ma postać C = (0, c1 ) ∪ (c2 , ∞), gdzie c1 jest kwantylem rzędu α2 , zaś c2 jest kwantylem rzędu 1 − kwadrat z (n − 1) stopniami swobody. α 2 rozkładu χ- W zastosowaniach K ma najczęściej postać K : σ 2 > σ02 i wtedy C = (c2 , ∞), gdzie c2 jest kwantylem rzędu 1 − α rozkładu χ-kwadrat z (n − 1) stopniami swobody. q 2 √ Dla n wielkich zmienna losowa 2ns ma przy prawdziwości H rozkład N ( 2n − 3, 1). σ2 0 7) Test F równości dwu wariancji. Niech (X1 , X2 , . . . , Xn ), (Y1 , Y2 , . . . , Ym ) będą dwiema niezależnymi próbami prostymi z dwu populacji o rozkładach odpowiednio N (m1 , σ1 ) oraz N (m2 , σ2 ). H : σ12 = σ22 K : σ12 6= σ22 104 Statystyka testowa F = 1 n−1 1 m−1 n P i=1 m P (Xi − X)2 i=1 (Yi − Y )2 ma przy prawdziwości H rozkład F-Snedecora z (n−1), (m−1) stopniami swobody 2 2 (krótko Fn−1,m−1 ). Zakładamy, że licznik S X i mianownik S Y zmiennej F są nieobciążonymi estymatorami odpowiednio σ12 i σ22 Obszar krytyczny ma postać C = (0, c1 ) ∪ (c2 , ∞), gdzie c1 jest kwantylem rzędu Fn−1,m−1 . α 2, zaś c2 jest kwantylem rzędu 1 − Zauważmy, że jeżeli F ma rozkład Fn−1,m−1 , to 1 F α 2 rozkładu ma rozkład Fm−1,n−1 . Obli2 2 czając wartość statystyki F należy w liczniku wziąć większą z wartości S X , S Y , dokonując ewentualnie zmiany nazwy zmiennej X na Y . Korzystanie z tablic rozkładu F-Snedecora ułatwi uwaga, że jeżeli c jest kwantylem rzędu α rozkładu Fn,m , to 1c jest kwantylem rzędu (1 − α) rozkładu Fm,n . 5) Test Bartleta (dla porównania kilku wariancji. Test ten wykorzystywany jest do weryfikowania hipotezy o równości kilku wariancji σi2 dla k populacji o rozkładach normalnych. Niech Xi = (Xi1 , Xi2 , . . . , Xini ), i = 1, 2, . . . , k będą niezależnymi próbami prostymi z rozkładów N (mi , σi ). H : σ12 = σ22 = . . . = σk2 = σ02 K : σi2 6= σ02 przynajmniej dla jednego i. Statystyka testowa T = 1 d gdzie N= n P (N − k) ln S 2 − ni , d=1+ i=1 oraz Si2 = 1 ni −1) ni P i=1 Xij − X i 2 (ni − 1) ln Si2 , k P i=1 1 3(k−1) P n i=1 1 (ni −1) oraz S 2 = 1 N −k − k P 1 N −k i=1 (ni − 1)Si2 . ma przy prawdziwości H asymptotyczny (przy ni → ∞) rozkład χ-kwadrat z (k − 1) stopniami swobody (χ2k−1 ). Obszar krytyczny ma postać C = (c, ∞), 105 gdzie c jest kwantylem rzędu 1 − α rozkładu χ2k−1 . Zauważmy ścisły związek między testami parametrycznymi a przedziałami ufności dla parametrów. Konstrukcja zbioru krytycznego i budowa przedziału ufności opierają się na równoważnych równaniach. • Przykład 6.4 Dwa automaty nanoszą na układy elektryczne warstwę krzemu. Wiadomo, że grubość powłoki nanoszonej przez automaty jest zmienną losową o rozkładzie normalnym. Na poziomie ufności α = 0.05 zweryfikować hipotezę, że automaty nanoszą powłokę o takiej samej grubości, jeżeli pomiary grubości wyniosły (w ...m): - dla pierwszego automatu: 17, 12, 20, 18, 19, 13, 14, 16, - dla drugiego automatu: 15, 12, 11, 18, 14, 16, 13. R o z w i ą z a n i e. Oznaczmy przez X i Y grubość powłoki nanoszonej odpowiednio przez pierwszy i drugi automat. Wiemy, że X ma rozkład N (m1 , σ1 ) a Y ma rozkład N (m2 , σ2 ). Chcemy zweryfikować hipotezę H : m1 = m2 K : m1 6= m2 na poziomie ufności α = 0.05. Aby można było zastosować test o równości dwu średnich (test 4), należy sprawdzić, czy obie zmienne mają równe wariancje. Najpierw zatem zweryfikujemy testem F hipotezę H1 o równości wariancji. H1 : σ12 = σ22 K1 : σ12 6= σ22 Niech poziom ufności tez ma wartość α = 0.05, n = 8, m = 7. Dla naszych obserwacji mamy: x= oraz 1 8 8 P i=1 8 P i=1 xi = 129 8 y= = 16.1, 7 P (xi − x)2 = 58.9, i=1 czyli statystyka testowa F = 6· 7· n P i=1 m P 1 7 7 P i=1 99 7 = 14.1 (yi − y)2 = 34.9, (Xi − X)2 i=1 yi = (Yi − Y )2 106 przyjmuje wartość f = 6·58,9 7·34,9 = 1, 45. Wiemy, że przy prawdziwości H1 statystyka F ma rozkład F-Snedecora z (n − 1), (m − 1) stopniami, czyli rozkład F7,6 . Obszar krytyczny jest postaci C = (0, c1 ) ∪ (c2 , ∞), gdzie c1 jest kwantylem rzędu α2 = 0, 975 rozkładu F7,6 i jego wartość odczytana z tablicy wynosi 5, 1186. Wartość c1 jest odwrotnością kwantyla rzędu 0,975 rozkładu 1 F7,6 i wynosi c1 = 5,6955 = 0, 1756. Wartość statystyki F równa 1,45 nie należy do zbioru krytycznego C = (0, 0.1756) ∪ (5.1186, +∞), więc nie ma podstaw do odrzucenia hipotezy H1 o równości wariancji. Zwróćmy uwagę, że brak podstaw do odrzucenia H1 nie jest tożsame z jej przyjęciem. W zastosowaniach praktycznych tak jednak najczęściej postępujemy. Do weryfikacji hipotezy H o równości grubości powłok wykorzystamy zatem statystykę testową r X −Y nm(n + m − 2) , tn+m−2 = p 2 n+m nsX + ms2Y która dla danych obserwacji przyjmuje wartość r 7 · 8 · 13 16.1 − 14.1 = 1.439. t= √ 15 58.9 + 34.9 Statystyka testowa t13 ma przy prawdziwości H rozkład t-Studenta z 13 stopniami swobody i z tablic tego rozkładu odczytujemy, że kwantyl rzędu α2 = 0, 975 wynosi t0 = 2.1604. Obszarem krytycznym jest zbiór C = (−∞, −2.1604) ∪ (2.1604, ∞). Ponieważ t = 1.439 ∈6 C, więc na poziomie ufności α = 0, 05 nie ma podstaw do odrzucenia hipotezy o równości grubości powłok nanoszonych przez dwa automaty. 6.3.3 Testy nieparametryczne. Testy zgodności to testy, w których przypuszczenie o rozkładzie postaci: dystrybuanta F (x) badanej cechy X populacji jest konkretną dystrybuantą F0 (x). H : F (x) = F0 (x) dla każdego x ∈ IR, K : F (x) 6= F0 (x) przynajmniej dla jednego x ∈ IR. Wnioskowanie opieramy o obserwację próby prostej (X1 , X2 , . . . , Xn ), gdzie dla k = 1, 2, . . . , n dystrybuantą Xk jest F (x). • Test zgodności χ-kwadrat Pearsona. Obserwacje próby prostej (x1 , x2 , . . . , xn ) rozdzielamy na r klas niekoniecznie równej długości, przy czym w każdej klasie powinno być co najmniej 8 elementów oraz r P ni = n, gdzie ni oznacza liczebność i-tej klasy. i=1 klasa (i) liczebność klasy (ni ) [a0 , a1 ) n1 [a1 , a2 ) n2 ... ... [ar−1 , ar ) Niech pi = F0 (ai ) − nr 107 F0 (ai−1 ). Zauważmy, że pi jest prawdopodobieństwem przyjmowania przez zmienną losową o dystrybuancie F0 wartości w przedziale [ai−1 , ai ). Statystyka testowa r P (ni −npi )2 ma, przy prawdziwości H i dla n → ∞ rozkład chi-kwadrat z χ2 = npi i=1 (r −l −1) stopniami swobody, gdzie l określa liczbę parametrów, które estymujemy metodą największej wiarogodności, aby w pełni opisać dystrybuantę F0 (x). Dla F0 (x) w pełni określonej mamy l = 0. Obszar krytyczny C jest postaci C = (c, ∞), gdzie c jest kwantylem rzędu (1 − α) rozkładu chi-kwadrat z (r − l − 1) stopniami swobody. • Przykład 6.5 Aby sprawdzić symetryczność kostki do gry rzucono nią 120 razy i otrzymano 2 3 4 5 6 liczba oczek (i) 1 następujące wyniki Na poziomie liczebność (ni ) 18 24 16 23 22 17. istotności α = 0.1 zweryfikować hipotezę o symetryczności kostki. R o z w i ą z a n i e. Symetryczność kostki oznacza, że prawdopodobieństwo pi otrzymania ścianki o i-oczkach wynosi 61 dla i = 1, 2, . . . , 6. H : P (1) = . . . = P (6) = 16 , K : P (i) 6= 61 dla pewnego i. Dla dyskretnych zmiennych losowych klasę mogą stanowić wartości zmiennej losowej, mamy więc 6 klas (r=6), każda o liczebności większej niż 8. Rozkład opisany w H jest w pełni określony, więc l = 0. r P (ni −npi )2 Wartość statystyki χ2 = dla naszych danych wynosi χ2 = 2.9. npi i=1 Obszar krytyczny C jest postaci C = (c, ∞), gdzie c jest odczytane z tabeli rozkładu chi-kwadrat z 5 stopniami swobody (jako kwantyl rzędu 0.9) równe jest c = 9.24. Ponieważ 2.9 ∈6 (9.24, ∞), więc nie ma przyczyn do odrzucenia hipotezy o symetryczności kostki. Przy założeniu, że nieznana postać dystrybuanty badanej cechy populacji jest funkcją ciągłą, stosowany jest często test Kołmogorowa. • Test zgodności Kołmogorowa H : F (x) = F0 (x) dla każdego x ∈ IR, F0 (x) jest funkcją ciągłą na IR K : F (x) 6= F0 (x) dla pewnego x ∈ IR. Jako statystykę testową Kołmogorow wprowadził Dn = supx ∈ IR |F0 (x) − Fn (x)|, gdzie Fn jest dystrybuantą empiryczną z próby (X1 , X2 , . . . , Xn ). Rozkład Dn zależy od n a nie zależy od F0 . Obszar krytyczny jest postaci C = (c, 1], gdzie c 108 jest kwantylem rzędu 1 − α rozkładu Dn (wartości √ c odczytujemy z tablic kwantyli Dn ). Gdy n → ∞, ciąg dystrybuant Kn (x) = P ( nDn < x), x > 0 jest zbieżny do dystrybuanty tzw. rozkładu Kołmogorowa i wówczas obszar krytyczny jest postaci C = √cn , 1 , gdzie c jest kwantylem rzędu 1 − α rozkładu Kołmogorowa. • Przykład 6.6 Testem Kołmogorowa na poziomie istotności α = 0.05 zweryfikować hipotezę, że próba: 0.24, 0.51, 0.89, 1.56, 4.6 pochodzi z rozkładu wykładniczego z parametrem λ = 1. R o z w i ą z a n i e. Stawiamy hipotezę: 0 dla x ¬ 0, H : F (x) = F0 (x), gdzie F0 (x) = = 1 − e−x dla x > 0 przeciwko K : F (x) 6= F0 (x). Ponieważ F0 (x), jako dystrybuanta, jest funkcją niemalejącą a Fn (x) jest funkcją przedziałami stałą, to wartością statystyki Dn jest największa z liczb postaci |F0 (xi ) − Fn (xi )|, |F0 (xi ) − Fn (x+ i )|, gdzie xi dla i = 1, 2, . . . , n są uporządkowanymi rosnąco wartościami próby. Zbierzmy obliczenia w tabeli, zauważając, że dla dystrybuanty empirycznej + i F5 (x) mamy: F5 (xi ) = i−1 5 , F5 (xi ) = 5 . F0 (xi ) − F5 (xi ) F0 (xi ) − F5 (x+ i ) 0.2134 0.034 0.1995 −0.0005 0.1893 −0.0107 0.1898 −0.0102 0.1899 −0.0101 = 0.2134 Stąd d5 = max F0 (xi ) − F5 (xi ), F0 (xi ) − F5 (x+ i ) i 1 2 3 4 5 xi 0.24 0.51 0.89 1.56 4.6 F0 (xi ) 0.2134 0.3995 0.5893 0.7899 0.9899 Kwantyl rzędu 1 − α = 0.95 odczytany z tablicy rozkładu D5 określa obszar krytyczny jako C = (0.563, 1]. Ponieważ d5 ∈6 C, więc nie ma podstaw do odrzucenia hipotezy, że próbka pochodzi z rozkładu wykładniczego z parametrem λ = 1. Do sprawdzenia hipotezy o normalności rozkładu (bez określenia parametrów m, σ) wykorzystamy test Shapiro-Wilka. 109 6.3.4 Testy niezależności. Przy badaniu populacji jednocześnie ze względu na dwie cechy często interesuje nas pytanie o ich niezależność. Niexh (X, Y ) oznacza dwuwymiarowy wektor losowy dyskretny przyjmujący wartości (xi , yj ), i = 1, 2, . . . , r, j = 1, 2, . . . , s z prawdopodobieństwami pij = P (X = xi , Y = yj ). Zmienne losowe X, Y są niezależne wtedy i tylko wtedy, s P pij = P (X = xi ) jest rozkładem brzegowym X gdy pij = pi· · p·j , gdzie pi· = j=1 oraz p·j = r P pij = P (Y = yj ) jest rozkładem brzegowym Y . i=1 Niech (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) będzie próbą z rozkładu wektora (X, Y ). • Test χ-kwadrat niezależności H : pij = pi· · p·j dla wszystkich i = 1, 2, . . . , r, j = 1, 2, . . . , s pij 6= pi· · p·j przynajmniej dla jednej pary (i, j). Statystyka testowa postaci ni· n′ 2 r s P n′ij − n ·j P 2 χ =n , ni· n·j j=1 i=1 gdzie: n′ij jest liczbą obserwacji w próbie długości n, s P nij jest liczbą par obserwacji, które na pierwszym miejscu mają xi , ni· = n·j = oraz j=1 r P n′ij i=1 r s P P j=1 i=1 jest liczbą par obserwacji, które na drugim miejscu mają yj nij = n ma przy prawdziwości H asymptotyczny (dla n → ∞) roz- kład χ-kwadrat o (r − 1)(s − 1) stopniach swobody. Wygodnie jest przedstawiać liczebności nij w postaci tzw. tablic wielodzielXY y1 y2 . . . ys ni· x1 n11 n12 . . . n1s n1· x2 n21 n22 . . . n2s n2· czych .. .. .. .. .. .. Dla tablicy wymiaru 2 × 2 statystyka . . . . . . xr nr1 nr2 . . . nrs nr· n·j n·1 n·2 . . . n·s n χ-kwadrat ma postać χ22 = n • Przykład 6.7 (n11 n22 − n12 n21 )2 . n1· n2· n·1 n·2 110 Dyskietki produkowane są trzema różnymi metodami. Wysunięto przypuszczenie, że wadliwość dyskietki nie zależy od metody produkcji. Sprawdzono jakość 270 XY I II III ni· 1 40 80 60 180 losowo wybranych dyskietek otrzymując Na pozio2 10 60 20 90 n·j 50 40 80 mie istotności α = 0.05 zwaryfikować hipotezę o niezależności jakości dyskietki od metody wytwarzania. R o z w i ą z a n i e. W podanej tabeli zmienna losowa X określa jakość dyskietki (x1 = 0 oznacza wadliwą, x2 = 1 — dobrą). Wartości zmiennej losowej Y to metody produkcji, czyli y1 = I, y2 = II, y3 = III. Wpisane w tabelę liczby ?????????? W pewnych zastosowaniach spotykamy często cechy o charakterze jakościowym, które trudno wyrazić ilością jednostek w obiektywnym układzie pomiarowym. Rozpatrzy dla przykładu postępy z algebry studentów pewnej grupy. Zamiast ”zmierzyć” (jak?) postępy w nauce ustawiamy wszystkich studentów w kolejności od studenta, który ma najmniejsze postępy do studenta, który ma największe postępy w nauce algebry. Numer miejsca studenta w takim uporządkowaniu to ranga cechy ”postępy w nauce algebry”. Następne cechy, które przedstawimy, oparte są na pojęciu ”rangi”. • Definicja 6.2 Rangą ri = r(xi ) współrzędnej xi wektora (x1 , x2 , . . . , xn ) nazywamy numer miejsca, które zajmuje xi w uporządkowanym rosnąco ciągu utworzonego ze wszystkich wyrazów xi . Dla cechy typu ciągłego prawdopodobieństwo, że wartości obserwacji powtórzą się wynosi 0. Jeżeli wartości obserwacji są różne, to rangi są im przypisane jednoznacznie. A co zrobić, jeżeli wartości obserwacji powtarzają się? Wtedy rangę każdej z nich określamy jako średnią arytmetyczną numerów miejsc, jakie zajmują te wartości w uporządkowaniu. • Przykład 6.8 Określić rangi dla następujących obserwacji: a) 5, 3.1, 6, 2, 4 b) 9, 5, 4, 6, 5, 8, 5, 5 R o z w i ą z a n i e. a) Obserwacje x1 = 5, x2 = 3.1, x3 = 6, x4 = 2, x5 = 4 uporządkujmy rosnąco: 2 < 3.1 < 4 < 5 < 6, czyli x4 < x2 < x5 < x1 < x3 Ich rangi to numer miejsca w tak uporządkowanym ciągu, czyli r(x4 ) = 1, r(x2 ) = 2, r(x5 ) = 3, r(x1 ) = 4, r(x3 ) = 5. 111 Krótko — rangi 5, 3.1, 6, 2, 4, to 4, 2, 5, 1, 3. b) Obserwacje x1 = 9, x2 = 5, x3 = 4, x4 = 6, x5 = 5, x6 = 8, x7 = 5, x8 = 5 uporządkujmy rosnąco: 4 < 5 ¬ 5 ¬ 5 ¬ 5 < 6 < 8 < 9, czyli x3 < x2 < x5 < x1 < x3 ????? Ponieważ wartość 5 występuje na drugim, trzecim, czwartym i piątym miejscu, więc rangą 5 jest 14 (2 + 3 + 4 + 5) = 3.5 Zatem rangi obserwacji są następujące 8, 3.5, 1, 6, 3.5, 7, 3.5, 3.5 6.3.5 Testy jednorodności. Testy jednorodności służą do sprawdzenia hipotezy, czy dwie niezależne próby losowe mają taki sam rozkład. Opiszemy test wykorzystujący rangi. • Test Wilcoxona - Manna - Whitneya. Niech (X1 , X2 , . . . , Xn ), (Y1 , Y2 , . . . , Ym ) będą dwiema niezależnymi próbami losowymi o ciągłych dystrybuantach F (x), G(x). Stawiamy hipotezę H : F (x) = G(x) dla każdego x ∈ IR. Hipoteza alternatywna może mieć jedną z postaci K : F (x) 6= G(x) dla pewnego x ∈ IR albo...... Statystyka testowa jest postaci U = R1 − n(n + 1) , 2 gdzie R1 jest sumą rang przydzielonych wartościom (X1 , X2 , . . . , Xn ) w łącznym ciągu obserwacji (X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Ym ). Rozkład prawdopodobieństwa zmiennej R1 to rozkład Wilcoxona z parametrami n, m. Obszar krytyczny ma postać C = [0, w) ∪ (n · m − w, nm] dla hipotezy K C1 = (n · m − w1 , nm] dla hipotezy K1 C2 = [0, w2 ) dla hipotezy K gdzie P (|U | > w) = P (U > w1 ) = P (U < w2 ) = α. Gdy długości prób są duże, to rozkład statystyki R1 − Z= q n(m+n+1) 2 nm(m+n+1) 12 112 jest, przy prawdziwości H, asymptotycznie normalny N (0, 1) (gdy n → ∞, m → ∞). W praktyce rozkład zmiennej Z przybliżamy rozkładem N (0, 1) dla n 4, m 4 i n + m 20. Obszar krytyczny dla K jest postaci C = −∞, −uα ∪ (uα , ∞), gdzie Φ(uα ) = 1 − α2 . • Przykład 6.9 Czasy wykonywania (ws) takich samych elementów przez dwa automaty są następujące: 3, 7.2, 4, 10, 2, 6, 8.1, 5.3, 9, 9.2 — dla pierwszego automatu, 8.4, 3.3, 6.1, 5.5, 8.8, 7, 5, 6.7, 8, 3.8 — dla drugiego automatu, Na poziomie istotności α = 0, 05 zweryfikować hipotezę, że czasy wykonywania elementów przez te dwa automaty są zmiennymi losowymi o tym samym rozkładzie. R o z w i ą z a n i e. Czasy wykonywania elementów przez pierwszy automat oznaczmy przez xi , i = 1, 2, . . . , 11. Łączny ciąg obserwacji ustawiamy niemalejąco 2¡3¡3.3¡3.8¡4¡5¡5.3¡5.5¡6¡6.2¡6.4¡6.7¡7¡7.2¡8¡8.1¡8.4¡8.8¡9¡9.2¡10 Rangi xi w łącznym ciągu obserwacji to 2, 14, 5, 21, 1, 9, 16, 7, 19, 20, 10. Ich suma R1 wynosi 124. Mamy: n = 11, m = 10, n + M = 21. Wartość statystyki testowej R1 − Z= q n(m+n+1) 2 nm(m+n+1) 12 = 0.153 Obszar krytyczny dwustronny na poziomie istotności α = 0.05 ma postać C = −∞, −1.96 ∪ (1.96, ∞). Ponieważ 0.153 ∈6 C, więc nie ma podstaw do odrzucenia hipotezy, że czasy wykonywania elementów przez te dwa automaty są jednakowe. • Test znakowanych rang Wilcoxona. Jest to test jednorodności do porównywania rozkładów dla par obserwacji, gdy składowe w parze są zależne. Obserwowane pary obserwacji to na przykład wartości porównywanej cechy przed i po zastosowaniu pewnego zabiegu, terapii, metody. Niech (X, Y ) będzie wektorem losowym, którego współrzędne X, Y są typu ciągłego. Oznaczmy dystrybuantę zmiennej losowej D = Y − X przez D(t). Jeżeli rozkłady zmiennych losowych X, Y są jednakowe, to zmienne losowe Y − X oraz X −Y mają też taki sam rozkład, a skoro D i −D mają taki sam rozkład, więc rozkład D jest symetryczny względem 0. Hipotezę H o równości rozkładów zmiennych 113 X, Y zastępujemy hipotezą ogólniejszą, że dystrybuanta D(t) zmiennej losowej D jest symetryczna względem 0. H : D(t) = 1 − D(−t) dla każdego t ∈ IR, D(t) ciągła przeciwko K : D(t) 6= 1 − D(−t) i istnieje t0 takie, że D(t0 ) > 1 − D(t0 ). Niech (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) będzie ciągiem niezależnych par obserwacji o takim samym rozkładzie dwuwymiarowym (zmienne w parze mogą być zależne). Statystyka testowa W + zdefiniowana jako suma rang wartości bezwzględnych różnic di = xi − yi odpowiadających dodatnim różnicom di ma, przy założeniu prawdziwości H rozkład niezależny od D(t), ponadto EW + = n(n+1) 4 oraz varw+ = n(n+1)(2n+1) . 24 Obszar krytyczny C = [0, w) ∪ gdzie w jest kwantylem rzędu 1 − α 2 n(n+1) 2 , − w, n(n+1) 2 rozkładu W + . Dla n 25 zaleca się już przybliżanie rozkładu zmiennej W + − EW + √ VarW + rozkładem normalnym N (0, 1). W oparciu o wstępne rozważania w ostatnim teście o porównywaniu par obserwacji łatwo można skonstruować nieparametryczny test dla porównania mediany dwu zmiennych losowych. • Test dla porównania mediany (test znaków). Zakładamy, że zmienne losowe X i Y mają ciągłe dystrybuanty. H : medianaX = medianaY , K : medianaX 6= medianaY . K1 : medianaX > medianaY . Przy założeniu prawdziwości H zachodzi P (Di < 0) = D(0) = 12 . Wtedy zmienna losowa Bn równa liczbie dodatnich Di wśród n obserwacji D1 , D2 , . . . , Dn ma rozkład Bernoulli’ego B n, 12 . Obszar krytyczny dla hipotezy alternatywnej K jest postaci C = [0, k0 ] ∪ [n − k0 , n], gdzie P (Bn ¬ k0 ) = P (Bn n − k0 ) = natywnej K1 jest postaci α 2. Obszar krytyczny dla hipotezy alter- 114 C = [0, k0 ], gdzie P (Bn ¬ k0 ) = α. • Test dla mediany (test znaków). Zakładamy, że zmienna losowa X ma ciągłą dystrybuantę. H : medianaX = m0 , K : medianaX 6= m0 . K1 : medianaX > m0 . Statystyką testową jest liczba obserwacji X1 , X2 , . . . , Xn większych od m0 . Przy założeniu prawdziwości H ma ona rozkład Bernoulli’ego B n, 21 . Obszar krytyczny dla hipotezy alternatywnej K jest postaci C = [0, k0 ] ∪ [n − k0 , n], gdzie Sn ¬ k0 ) = P (Sn n − k0 ) = tywnej K1 jest postaci α 2. Obszar krytyczny dla hipotezy alterna- C = [0, k0 ], gdzie Sn ¬ k0 ) = α 2. 115 7 Funkcje charakterystyczne. W teorii prawdopodobieństwa wykorzystuje się intensywnie zaawansowane metody analizy matematycznej wśród których podstawową rolę odgrywa pojęcie transformaty Fouriera miary. Nie będziemy oczywiście podawać tu żadnych ogólnych definicji, ale postaramy się przybliżyć czytelnikowi krótko pojęcie funkcji charakterystycznej rozkładu zmiennej losowej, które pozwalają przetłumaczyć bardzo wiele własności rozkładów prawdopodobieństw zmiennych losowych na język ”zwyczajnych” (choć zespolonych) funkcji zmiennej rzeczywistej. Najpierw jednak kilka słów o funkcjach zespolonych zmiennej rzeczywistej. Jeżeli u(t) i v(t) są dwiema funkcjami zmiennej rzeczywistej o wartościach rzeczywistych, to wzór z(t) = u(t) + iv(t) określa funkcję zmiennej rzeczywistej o wartościach zespolonych. Granicę w punkcie, ciągłość, różniczkowalność i całkowalność takich funkcji określa się podobnie, jak w przypadku funkcji zmiennej rzeczywistej o wartościach rzeczywistych, przy czym, co łatwo udowodnić, prawdziwe są następujące równości: ′ ′ ′ z (t) = u (t) + iv (t) oraz Zb z(t)dt = Zb u(t)dt + i a a Zb v(t)dt. a Niech X będzie zmienną losową określoną na przestrzeni Ω. Wówczas z(t) = eitX = cos tX + i sin tX jest zmienną losową na Ω przyjmującą wartości zespolone. Jej wartość oczekiwaną (która jest oczywiście na ogół liczbą zespoloną) nazywamy funkcją charakterystyczną rozkładu zmiennej losowej X, czyli • Definicja 7.1 Funkcja֒ charakterystyczna֒ rozkadu zmiennej losowej X nazywamy funkcję φX : IR −→ CC określoną wzorem φX (t) = EeitX . Jak pamiętamy, dla zmiennej dyskretnej o rozkładzie (xk , pk ) oznacza to, że X φX (t) = pk eitxk , k a dla zmiennej typu ciągłego o gęstości f (x) mamy φX (t) = Z∞ −∞ eitx f (x)dx. 116 Powinniśmy w tym miejscu podkreślić, że dla każdej zmiennej losowej X funkcja charakterystyczna φX (t) jest określoną funkcją na całym IR, ponieważ poprawnie dla każdego ω ∈ Ω mamy eitX(ω) = 1. Jeżeli g jest funkcją przedziałami ciągłą, to funkcja charakterystyczna rozkładu zmiennej losowej y = g(X) jest postaci X φY (t) = pk eitg(xk ) , k dla zmiennej dyskretnej o rozkładzie (xk , pk ) oraz φY (t) = Z∞ eitg(x) f (x)dx. −∞ dla zmiennej X typu ciągłego o gęstości f (x). Łatwe do udowodnienia są następujące własności funkcji charakterystycznych. • Fakt 7.2 Jeżeli φX jest funkcją charakterystyczną zmiennej losowej X, to 1) φX (0) = 1. 2) φX (t) ¬ 1 dla każdego t ∈ IR. 3) φX (t) = φX (−t). 4) φX jest jednostajnie ciągła na IR. 5) Funkcja charakterystyczna rozkładu zmiennej losowej X przyjmuje jedynie wartości rzeczywiste wtedy i tylko wtedy, gdy rozkład ten jest symetryczny. Pojęcie funkcji charakterystycznej nie miałoby większego znaczenia gdyby nie fakt, że funkcja charakterystyczna jednoznacznie wyznacza rozkład zmiennej losowej. Mianowicie prawdziwe jest następujące twierdzenie. • Twierdzenie 7.1 Jeżeli dla zmiennych losowych X i Y w każdym punkcie t ∈ IR zachodzi równość φX (t) = φY (t), to P (X = Y ) = 1. Przy pewnych dodatkowych założeniach można dokładnie ”odtworzyć” rozkład zmiennej losowej, znając jego funkcję charakterystyczną. Najważniejsze przypadki są następujące. • Fakt 7.3 Jeżeli funkcja charakterystyczna φ rozkładu pewnej zmiennej losowej X jest okresowa o okresie 2π, to przyjmuje ona tylko wartości całkowite, a zmienne losowa X ma rozkład (k, pk ), gdzie 1 pk = P (X = k) = 2π Zπ −π dla k = 0, −1, 1, −2, 2, −3, 3, . . . . eitk φ(t)dt 117 • Fakt 7.4 Jeżeli funkcja charakterystyczna φ rozkładu pewnej zmiennej losowej X R∞ jest bezwzględnie całkowalna na IR (tzn. |φ(t)|dt < ∞), to X jest zmienną −∞ losową typu ciągłego o ciągłej gęstości zadanej wzorem 1 f (x) = 2π Z∞ −∞ e−itx φ(t)dt.