Wykład 12: Elementy wnioskowania statystycznego
Transkrypt
Wykład 12: Elementy wnioskowania statystycznego
Wykład 12: Elementy wnioskowania statystycznego dr Mariusz Grzadziel ˛ 12 stycznia 2009 Przykład Chcemy zweryfikować hipotez˛e: „Średnia temperatura zdrowego człowieka jest równa 98,6 stopni w skali Fahrenheita” w oparciu o zbiór danych NT (zaprezentowany podczas poprzedniego wykładu); Średnia próbkowa dla temperatury— dla 130 pomiarów w zbiorze NT: 98,25 stopni w skali Fahrenheita. Naiwne rozwiazanie: ˛ odrzucić hipotez˛e zerowa˛ H0 mówiac ˛ a,˛ że „prawdziwa” średnia jest równa 98,6 w przypadku, gdy moduł różnicy |x̄ − 98,6| jest duży, wi˛ekszy niż pewna wartość graniczna. Przykład— c.d. Wada tego podejścia: |x̄ − 98,6| zależy od przyj˛etej jednostki pomiaru. Modyfikacja naszego podejścia: odrzucić H0 , gdy lub |x̄ − 98,6| s (1) |x̄ − 98,6| √ s/ n (2) jest duże (n oznacza liczb˛e obserwacji; dla danych NT n = 130). Problem: w jaki sposób wyznaczyć sensownie „wartość graniczna” ˛ dla wyrażeń (1) lub (2)? Przykład— c.d. Rozwiazanie: ˛ możliwe przy założeniu, że obserwacje sa˛ wygenerowane przez pewien mechanizm losowy (model probabilistyczny); dokładniej: należy załozyć, że: obserwacje sa˛ realizacja˛ n-elementowej próby losowej pochodzacej ˛ rozkładu normalnego. Stad ˛ potrzeba prezentacji podstawowych poj˛eć teorii prawdopodobieństwa takich jak zmienna losowa itd. 1 Zmienna losowa-wyniki eksperymentu losowego Definicja 1. Doświadczenie nazywamy losowym, jeżeli może być powtarzane w tych samych warunkach, jego wynik nie może być przewidziany w sposób pewny oraz zbiór wszystkich możliwych wyników jest znany i może być opisany przed przeprowadzeniem doświadczenia. Przykład doświadczenia losowego: pomiar wzrostu losowo wybranego, dorosłego m˛eżczyzny mieszkajacego ˛ w Polsce. Nieformalna˛ definicj˛e zmiennej losowej odpowiadajacej ˛ cesze ilościowej: Zmienna˛ losowa˛ bedziemy nazywać liczbowy wynik doświadczenia losowego. Poj˛ecie zmiennej losowej- c.d. Precyzjne określenie zmiennej losowej wymaga znajomości poj˛eć teorii prawdopodobieństwa. Zmienne losowe b˛edziemy oznaczać dużymi literami X, Y, Z, a wartości tych zmiennych, odpowiednio, literami małymi. Zapis X = x oznacza zdarzenie, w którym zmienna losowa X przyjmuje wartość x, a zapis a < X < b oznacza zdarzenie, w którym zmienna losowa X przyjmuje wartość należac ˛ a˛ do przedziału (a, b). Każdej zmiennej losowej odpowiada tzw. rozkład prawdopodobieństwa. Jest to funkcja opisujaca ˛ to, w jaki sposób jedność prawdopodobieństwa jest rozdzielona wzgl˛edem różnych wartości tej zmiennej, w szczególności pozwala obliczać prawdopodobieństwo, że dana zmienna losowa przyjmuje wartości z dowolnie zadanego przedziału (a, b). Rzut dwoma kostkami— przykład Rzucamy dwoma kostkami; suma oczek jest zmienna˛ losowa; ˛ jest funkcja˛ określona˛ na przestrzeni zdarzeń losowych Ω: (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6) 1 . Mamy P ((1, 1)) = P ((1, 2)) = . . . = P ((6, 6)) = 36 Suma oczek- odpowiada zmiennej losowej X, funkcji określonej na Ω, której rozkład przedstawia tabelka: k 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 5 4 3 2 1 P (X = k) 36 36 36 36 36 36 36 36 36 36 36 Klasy zmiennych losowych Zmienne losowe • dyskretne: zbiór ich wartości można ustawić w ciag; ˛ zmienna X — liczba oczek w dwukrotnym rzucie moneta˛ jest zmienna˛ losowa˛ dyskretna; ˛ 2 • typu ciagłego: ˛ prawdopodobieństwo, że wartość zmiennej losowej należy do danego przedziału [a, b] jest równe pewnej całce z tzw. funkcji g˛estości • zmienne losowe innych typów— np. pewne sumy zmiennych losowych dyskretnych i typu ciagłego ˛ Zmienne losowe typu ciagłego Definicja 2. Mówimy, że zmienna losowa X jest typu ciagłego, ˛ jeśli istnieje nieujemna funkcja g, Dg = R taka, że dla każdych a < b Z b g(x)dx. P (a < X < b) = a Rozkłady typu ciagłego-przykłady ˛ Przykładami zmiennych losowych typu ciagłego sa˛ zmienne losowe o funkcjach g˛estości równych: • histogramowi probabilistycznemu, rozumianemu jako funkcja, • funkcja u dana wzorem ( 1, jeśli 0 ¬ x ¬ 1, u(x) = 0 jeśli x < 0 lub x > 1. Zmienne losowe typu ciagłego— ˛ obliczanie prawdopodobieństw Dla zmiennej losowej X o rozkładzie typu ciagłego ˛ mamy: P (a < X < b) = P (a ¬ X < b) = P (a < X ¬ b) = P (a ¬ X ¬ b). Równość ta wynika z własności całki oznaczonej. Rozkład normalny N (µ, σ) Szczególnie ważnym w zastosowaniach jest rozkład normalny. Definicja 3. Mówimy, że zmienna losowa X ma rozkład normalny z parametrami µ i σ, gdzie µ ∈ R i σ > 0, jeżeli g˛estość jej rozkładu jest określona wzorem: φµ,σ (x) = √ (x−µ)2 1 e− 2σ2 . 2πσ Skrótowy zapis: X ma rozkład N (µ, σ). Rozkład normalny N (µ, σ)— c.d. Niezależność zmiennych losowych Nieformalna definicja Definicja 4. Niezależne zmienne losowe oznaczaja˛ realizacje liczbowe niezależnych eksperymentów losowych. Ścisła definicja: Definicja 5. Zmienne losowe X i Y sa˛ niezależne, jeżeli dla dowolnych przedziałów [a, b] i [c, d] zachodzi: P (X ∈ [a, b] ∧ Y ∈ [c, d]) = P (X ∈ [a, b])P (Y ∈ [c, d]). 3 0.4 0.3 0.2 0.1 0.0 −4 −2 0 2 4 Rysunek 1: Wykresy g˛estości rozkładów normalnych: N (0, 1) (linia ciagła), ˛ N (0, 2) (linia „kropkowana”), N (2, 1) (linia „kreskowana”). Poj˛ecie próby losowej Definicja 6. n-elementowa losowa próba to ciag ˛ n niezależnych zmiennych losowych o jednakowych rozkładach prawdopodobieństwa. Uwaga. Niektórzy autorzy utożsamiaja˛ prób˛e losowa˛ X1 , X2 , . . . , Xn z jej realizacja˛ x1 , x2 , . . . , xn Generatory liczb pseudolosowych W arkuszach kalkulacyjnych i pakietach statystycznych dost˛epne sa˛ funkcje generuja˛ ce liczby pseudolosowe. Wektory liczb wygenerowane przez te funkcje można uważać, w zasadzie, za realizacje n-elementowych prób losowych pochodzacych ˛ z danych rozkładów. Np. do wygenerowania realizacji n-elementowej próby losowej pochodzacej ˛ z rozkładu normalnego N (µ, σ) można użyć funkcji rnorm(n,mu,sigma), gdzie n oznacza liczb˛e obserwacji, które należy wygenerować, mu oznacza parametr µ a sigma parametr σ. Liczby pseudolosowe— przykłady > rnorm(5,176,8) [1] 171.0904 189.6512 165.6910 180.8540 174.2689 > rnorm(5,176,8) [1] 178.4315 182.7326 170.6587 178.3017 173.7952 Można przyjać, ˛ że dwa wektory 5-wymiarowe otrzymane w wyniku działania funkcji rnorm sa˛ realizacjami 5-elementowej próby prostej pochodzacej ˛ z rozkładu normalnego N (176, 8). Zastosowanie do problemu weryfikacji hipotezy dotyczacej ˛ średniej 4 0.00 0.01 0.02 Density 0.03 0.04 0.05 Histogram of v1 150 160 170 180 190 200 v1 Rysunek 2: Histogram dla danych składajacych ˛ si˛e z 50 liczb wygenerowanych przez generator liczb pseudolosowych o rozkładzie N(176,8) 0.03 0.00 0.01 0.02 Density 0.04 0.05 Histogram of v1 150 160 170 180 190 200 v1 Rysunek 3: Histogram dla danych składajacych ˛ si˛e z 200 liczb wygenerowanych przez generator liczb pseudolosowych o rozkładzie N(176,8) Zakładamy, że próba x1 , x2 , . . . , xn jest realizacja˛ próby losowej X1 , X2 , . . . , Xn pochodzacej ˛ z rozkładu normalnego N (µ, σ) dla pewnych nieznanych parametrów µ ∈ R oraz σ > 0. Parametr µ jest wartościa˛ średnia˛ zmiennej losowej o rozkładzie N (µ, σ). Jesteśmy zainteresowani weryfikacja˛ hipotezy: H0 : µ = µ0 przeciwko hipotezie H1 : µ 6= µ0 . W naszym przykładzie:µ = 98,6 stopni w skali Fahrenheita. Statystyka testowa i jej rozkład Procedur˛e testowa˛ chcemy oprzeć na wartościach zmiennej losowej (tzw. statystyki testowej) X̄ − µ0 X̄ − µ0 √ √ = Tn−1 = n, ŝ ŝ/ n 5 0.03 0.00 0.01 0.02 Density 0.04 0.05 Histogram of v1 150 160 170 180 190 200 210 v1 Rysunek 4: Histogram dla danych składajacych ˛ si˛e z 2000 liczb wygenerowanych przez generator liczb pseudolosowych o rozkładzie N(176,8) gdzie i v u n u 1 X X1 + . . . + Xn i ŝ = t (Xi − X̄)2 . X̄ = n n − 1 i=1 Zwróćmy uwag˛e na to, że X̄ i ŝ sa˛ zmiennymi losowymi— sa˛ funkcjami zmiennych losowych X1 , . . . , Xn . Zakładamy, że sa˛ one niezależne oraz że każda z nich ma rozkład N (µ, σ). Można pokazać, że Tn−1 ma rozkład t-Studenta z n − 1 stopniami swobody. Zagadnienie estymacji parametrów rozkładu N (µ, σ) X̄ i ŝ sa˛ optymalnymi estymatorami parametrów µ i σ ze wzgl˛edu na powszechnie przyj˛ete kryteria. Ich realizacje (dla danych wartości liczbowych x1 , . . . , xn — realizacji próby X1 , . . . , Xn ) sa˛ sensownymi oszacowaniami µ i σ. 0.2 0.0 0.1 y 0.3 0.4 Rozkład t-Studenta −3 −2 −1 0 1 2 3 x Rysunek 5: Wykresy g˛estości rozkładów normalnych: normalnego N (0, 1) (linia cia˛ gła), t-Studenta z dwoma 4 st. swobody (linia „kropkowana”), t-Studenta z 12 st. swobody (linia „kreskowana”). 6 Obszar krytyczny testu Niech t1−α/2,n−1 b˛edzie liczba˛ wyznaczona˛ przez warunek P r(Tn−1 < t1−α/2,n−1 ) = 1 − α/2. Test dla weryfikacji H0 przeciw H1 określamy: przyjmij H0 gdy |Tn−1 | ¬ t1−α/2,n−1 ; odrzuć H0 gdy |Tn−1 | > t1−α/2,n−1 ; α jest równe prawdopodobieństwu, że H0 zostanie odrzucona w wyniku przeprowadzenia powyższej procedury testowej mimo tego, że jest ona prawdziwa α— współczynnik istotności testowania hipotezy H0 przeciw hipotezie H1 . W zasadzie α może być dowolna˛ liczba˛ z przedziału (0, 1). Zazwyczaj przyjmujemy α = 0,05; rzadziej α = 0,01 lub α = 0,001. Weryfikacja hipotezy dotyczacej ˛ średniej temperatury zdrowego człowieka— obliczenia n = 130 Wartość statystyki testowej (przez t oznaczamy realizacj˛e statystyki testowej Tn−1 ) 98,25 − 98,6 √ 130 ≈ −5,44. t= 0,733 Mamy: |t| = 5,44 > t0,975,129 = 1,978524; wartość t0,975,129 odczytujemy z odpowiednich tablic. A wi˛ec sa˛ podstawy do odrzucenia hipotezy H0 (przy przyj˛etym poziomie istotnosci α = 0,05). 7