Testowanie hipotez statystycznych. Wprowadzenie
Transkrypt
Testowanie hipotez statystycznych. Wprowadzenie
Wrocław University of Technology Testowanie hipotez statystycznych. Wprowadzenie Jakub Tomczak Politechnika Wrocławska [email protected] 10.04.2014 Pojęcia wstępne Populacja (statystyczna) – zbiór, którego elementem są wszelkiego rodzaju obiekty i zjawiska materialne. Jednostka statystyczna – element populacji. Próba (statystyczna) – część populacji statystycznej. Założenie: rozkład wartości własności w próbie jest zbliżony do rozkładu wartości własności w populacji. Estymator – wielkość wyznaczona na podstawie próby, za pomocą której szacuje się wartości nieznanych parametrów populacji. Twierdzenia Gliwienki, Kołmogorowa i Smirnowa: dla dostatecznie dużych prób rozkład empiryczny mało różni się od rozkładu rzeczywistego (teoretycznego). Inaczej: im liczniejsza próba, tym dokładniejsze oszacowania (estymatory). 2/19 Przedział ufności Zakładamy, że pewna wielkość populacji opisana zmienną losową x ma rozkład o parametrze θ. Posiadając próbę D = {x1 , x2 , . . . , xN } chcemy wyznaczyć przedział, w którym może zawierać się wartość nieznanego parametru θ, dla którego prawdopodobieństwo (w sensie częstościowym) wynosi 1 − α, gdzie α ∈ [0, 1]. Formalnie: p l(D) ¬ θ ¬ u(D) = 1 − α gdzie l(D) i u(D) to, odpowiednio, dolny i górny kraniec przedziału wyznaczony na podstawie danych D. Przedział l(D), u(D) nazywamy przedziałem ufności . Wartość 1 − α jest nazywany współczynnikiem (poziomem) ufności. 3/19 Przedział ufności Przykład 1 W fabryce wyrobów mlecznych maszyna wstrzykuje jogurt do pojemnika o wadze 250 g. Corocznie maszyna przechodzi przegląd, tj. dopuszczalne jest, aby różnica we wstrzykiwanym jogurcie wynosiła ±2.5 g (odchylenie standardowe), przy założeniu, że ilość wstrzykniętego jogurtu jest zadana z rozkładu normalnego. Do przeglądu wytypowano losowo N = 25 pojemników, czyli próba: D = {x1 , . . . , x25 }. 25 1 X xn = 250.2. Estymator wartości średniej: x̄ = 25 n=1 Interesuje nas znalezienie przedziału ufności, dla którego poziom ufności wynosi 0.95. W tym celu policzymy odchylenie standardowe: √σ N = √2.5 = 0.5 i dokonamy standaryzacji dla oszacowanej wartości 25 średniej: 250.2 − µ x̄ − µ √ = z̄ = 0.5 σ/ N 4/19 Przedział ufności Przykład 1 c.d. Wówczas mamy: p(−z ¬ z̄ ¬ z) = 1 − α = 0.95 Licząc dystrybuantę rozkładu normalnego dla zmiennej ustandaryzowanej: α Φ(z) = p(z̄ ¬ z) = 1 − = 0.975 2 z = Φ−1 (0.975) = 1.96 Czyli otrzymujemy: x̄ − µ √ ¬ 1.96) σ/ N σ σ = p(x̄ − 1.96 √ ¬ µ ¬ x̄ + 1.96 √ ) N N = p(249.22 ¬ µ ¬ 251.18) = 0.95 p(−z ¬ z̄ ¬ z) = p(−1.96 ¬ Czyli otrzymana wartość mieści się w przedziale ufności x̄ = 250.2 ∈ [249.22, 251.18] i maszyna działa poprawnie. 5/19 Przedział ufności Przykład 2 Transfer danych (w GB) w ciągu jednego dnia z serwera modelowany jest za pomocą zmiennej losowej x o rozkładzie normalnym N (x|µ, σ 2 ). Wiemy, że średni transfer wynosi 30 GB, dotychczasowe wartości wahały się od 28 do 34, natomiast odchylenie standardowe σ 2 = 2. Interesuje nas znalezienie poziomu ufności średniego dziennego transferu, który zawierałby się we wskazanym przedziale. W tym celu należy policzyć: p(28 ¬ x̄ ¬ 34) = √ 1 2π2 Z 34 28 1 exp − (x̄ − 30)2 8 6/19 Przedział ufności Przykład 2 c.d. W celu policzenia całki wprowadzimy zmienną standaryzowaną: x̄ − 30 2 Wówczas nowe krańce przedziału ufności: z̄ = 28 − 30 = −1 2 34 − 30 zu = =2 2 zl = Wówczas: Z 2 1 1 p(28 ¬ x̄ ¬ 34) = √ exp − z̄ 2 2 2π −1 = Φ(2) − Φ(−1) = Φ(2) + Φ(1) = 0.4773 + 0.3413 = 0.8186 7/19 Testowanie hipotez statystycznych Pojęcia Hipoteza statystyczna – każdy sąd o populacji statystycznej bez przeprowadzenia badania. Hipoteza parametryczna – hipoteza statystyczna dot. parametrów populacji. Hipoteza nieparametryczna – hipoteza statystyczna dot. rozkładu populacji. Test statystyczny – sposób weryfikacji hipotezy statystycznej. Testy mogą być parametryczne i nieparametryczne, w zależności od testowanej hipotezy statystycznej. Hipoteza zerowa, H0 – hipoteza o populacji, która wyraża pogląd o populacji (przeciwna do tego, co chcemy udowodnić). Hipoteza alternatywna, H1 – hipoteza, która wyraża nasz pogląd o populacji, przeciwna do hipotezy zerowej. Statystyka – wielkość (funkcja mierzalna) zdefiniowana na próbie, która w pewien sposób podsumowuje próbę. 8/19 Testowanie hipotez statystycznych Cel Celem testowania statystycznego jest weryfikacja pewnej hipotezy dotyczącej rozpatrywanej populacji. Wynik jest istotny statystycznie, jeżeli jest mało prawdopodobne, że pojawił się on przez przypadek. W celu weryfikacji hipotezy stosuje się odpowiednie statystyki, np. statystyka z, statystyka t-Studenta. UWAGA: zawsze hipotezę zerową H0 formułujemy jako przeciwne stwierdzenie do hipotezy, którą stawiamy odnośnie populacji. 9/19 Testowanie hipotez statystycznych Stosowanie Testy statystyczne stosowane są w sytuacjach, gdy nie możemy uzyskać dostatecznie dużej próby. W przeciwnym razie można opierać się na Prawie Wielkich Liczb lub twierdzeniach Gliwienki, Kołmogorowa lub Smirnowa. Przykłady zastosowania: czy zastosowanie lekarstwa ma istotny wpływ na leczenie choroby; czy dodanie nowej substancji istotnie zwiększa wytrzymałość materiału; czy stosowanie metody X do rozpoznawania twarzy daje istotnie lepsze rezultaty niż metoda Y; czy transfer danych na węźle sieci można uznać za prawidłowy (inaczej: czy węzeł nie jest zainfekowany). 10/19 Błąd pierwszego i drugiego rodzaju Decyzja \ Sytuacja H0 prawdziwa H0 fałszywa (H1 fałszywa) (H1 prawdziwa) H0 przyjąć decyzja słuszna decyzja niesłuszna (β) H0 odrzucić decyzja niesłuszna (α) decyzja słuszna Błąd pierwszego rodzaju α – odrzucamy hipotezę zerową H0 , chociaż jest ona prawdziwa. Błąd drugiego rodzaju β – przyjmujemy hipotezę zerową H0 , chociaż jest ona fałszywa. Zwróćmy uwagę, że możemy sterować jedynie błędem pierwszego rodzaju α, ponieważ chcemy mieć jak największą ufność, że przyjmując hipotezę alternatywną H1 w (1 − α) · 100% przypadków nie pomylimy się. 11/19 Procedura testowania statystycznego Krok 1: Ustal hipotezę H0 i H1 . Krok 2: Wyznacz odpowiednią statystykę. Krok 3: Wyznacz obszar krytyczny. Krok 4: Sprawdź, czy wartość statystyki zawiera się w obszarze krytycznym. Jeżeli tak, to hipoteza H0 może być odrzucona. W przeciwnym przypadku – nie jesteśmy w stanie przyjąć ani odrzucić hipotezy H0 (czyli nic nie wiemy). 12/19 Przykłady Firma ubezpieczeniowa Firma ubezpieczeniowa przeprowadza audyt wewnętrzny. Na podstawie dotychczasowych ustaleń średni poziom wypłacanych roszczeń powinien wynosić 1800 zł. Jednak podczas przeprowadzenia audytu i rozmowie z pracownikami stwierdzono, że poziom ten może być przekroczony. Wybrano losowo 40 roszczeń i okazało się, że średnia wartość wynosi x̄ = 1950 zł. Odchylenie standardowe roszczeń wynosi σ = 500 zł. Zakładamy poziom ufności równy α = 0.05. Pytanie: Czy firma powinna być zaniepokojona prowadzoną polityką? 13/19 Przykłady Firma ubezpieczeniowa c.d. Krok 1: H0 : µ ¬ 1800 i H1 : µ > 1800. Krok 2: Liczymy tzw. z-score: z̄ = 1950 − 1800 x̄ − µ √ √ = = 1.897 σ/ n 500/ 40 Krok 3: Obszar krytyczny dla α = 0.05: R = {z : z > 1.96}. Krok 4: Widzimy, że otrzymany wynik 1.897 < 1.96, czyli z̄ 6∈ R. Niestety, nie możemy stwierdzić, czy hipoteza zerowa H0 powinna być odrzucona, czy przyjęta. Możemy jedynie polecić, aby firma sprawdziwa więcej roszczeń (zebrała większą próbkę). 14/19 Przykłady Komunikacja miejska Władze Wrocławia w celu przekonania mieszkańców do korzystania z komunikacji miejskiej twierdzą, że średni czas dojazdu komunikacją miejską do Rynku wynosi 30 minut. Osobiście nie zgadzam się z tym stwierdzeniem. Zanotowałem czasy moich ostatnich 5 podróżny z różnych punktów w mieście, z których średnia wyniosła x̄ = 20 minut. Odchylenie standardowe dojazdów wynosi 6 minut. Zakładamy poziom ufności równy α = 0.1. Pytanie: Czy mam rację, że czas dojazdu autem jest krótszy niż komunikacją miejską? 15/19 Przykłady Komunikacja miejska c.d. Krok 1: H0 : µ 30 i H1 : µ < 30. Krok 2: Liczymy tzw. z-score: z̄ = 20 − 30 x̄ − µ √ = −3.727 √ = σ/ n 6/ 5 Krok 3: Obszar krytyczny dla α = 0.1: R = {z : z < −1.28}. Krok 4: Widzimy, że otrzymany wynik −3.727 < −1.28, czyli z̄ ∈ R. Możemy odrzucić hipotezę zerową H0 i stwierdzić, że hipoteza alternatywna H1 jest prawdziwa. Ostatecznie możemy stwierdzić, że przemieszczanie się autem po mieście zajmuje mniej czasu niż komunikacją miejską. 16/19 Przykłady Węzeł sieci komputerowej Obserwujemy pewien węzeł sieci komputerowej i rejestrujemy średni transfer danych w ciągu dnia. Dla 40 dni zanotowano średnią x̄ = 137 GB i odchylenie standardowe równe σ = 30.2 GB. Zakładamy poziom ufności równy α = 0.1. Pytanie: Czy wiedząc, że podobne węzły przesyłają średnio 150 GB możemy stwierdzić, że ten węzeł należy uznać za inny? 17/19 Przykłady Węzeł sieci komputerowej c.d. Krok 1: H0 : µ = 150 i H1 : µ 6= 150. Krok 2: Liczymy tzw. z-score: z̄ = 137 − 150 x̄ − µ √ = √ = −2.722 σ/ n 30.2/ 40 Krok 3: Obszar krytyczny dla α = 0.1 (uwaga: zauważmy, że mamy nierówność, więc musimy dać po równo α2 na obu końcach rozkładu): R = {z : |z| > 2.58}. Krok 4: Widzimy, że otrzymany wynik −2.722 < −2.58, czyli z̄ ∈ R. Możemy odrzucić hipotezę zerową H0 i stwierdzić, że hipoteza alternatywna H1 jest prawdziwa. Ostatecznie możemy stwierdzić, że węzeł ten jest podobny do pozostałych węzłów, które przesyłają średnio 150 GB. 18/19 Przykłady UWAGA Uwaga odnosząca się do dotychczas poruszanych przykładów: Zakładaliśmy, że rozkład populacji jest normalny! 19/19