Wyk³ad 11 - Testowanie hipotez cz. I
Transkrypt
Wyk³ad 11 - Testowanie hipotez cz. I
Wykład 11 Testowanie hipotez cz. I TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipoteza statystyczna jest to przypuszczenie dotyczące nieznanej własności rozkładu prawdopodobieństwa badanej cechy populacji. W zadaniach testowania hipotez występują hipotezy dwu typów: Hipoteza zerowa H0 – hipoteza testowana celem ewentualnego odrzucenia Hipoteza alternatywna H1 – hipoteza, którą skłonni jesteśmy przyjąć, jeśli odrzucimy hipotezę zerową H0. Hipotezy H0 i H1. wykluczają się: nie mogą być jednocześnie prawdziwe. Hipotezy statystyczne moŜna podzielić na: parametryczne - hipoteza dotyczy wartości parametru rozkładu nieparametryczne - hipoteza dotyczy postaci funkcyjnej rozkładu Podział według innego kryterium: proste - hipoteza jednoznacznie określa jeden rozkład danej populacji, czyli odpowiadający jej podzbiór zbioru parametrów Ω zawiera jeden element (np. µ = 0.5) 0.5 złoŜone - hipoteza określa całą grupę rozkładów, zaś odpowiadający jej podzbiór zbioru parametrów Ω zawiera więcej niŜ jeden element (np. µ < 0.5) TESTOWANIE HIPOTEZ STATYSTYCZNYCH (cont.) Przykład: Hipotezy (parametryczne) dotyczące wariancji σ2 w rozkładzie normalnym N(µ,σ). Hipoteza prosta (np. σ2 = 1.0) Hipoteza złoŜona (np. σ2 ∈ [2.0. 3.0]) T(x) = T(x1, x2,........, xn) - statystyka testowa (Tn(x) ∈ R1) obliczona na podstawie próbki n –elementowej (x1, x2,........, xn) K - obszar krytyczny A - obszar akceptacji JeŜeli T(x) ∈ K, to hipotezę zerową H0 odrzucamy. JeŜeli T(x) ∈ A, to nie ma podstaw do odrzucenia hipotezy zerowej H0 . Wybór testu dla hipotezy H0 sprowadza się do wyboru statystyki T(x) oraz wyboru obszaru krytycznego K. TESTOWANIE HIPOTEZ STATYSTYCZNYCH (cont.) α= P{T(x) ∈ K / H0} - poziom istotności testu lub błąd pierwszego odzaju β = P{T(x) ∈ A / H1} - błąd drugiego rodzaju 1 - β = P{T(x) ∈ K / H1} - moc testu (prawdopodobieństwo odrzucenia hipotezy zerowej H0 w sytuacji, gdy jest ona fałszywa) Błąd pierwszego rodzaju (błąd pierwszego typu, alfa-błąd) - błąd polegający na odrzuceniu hipotezy zerowej H0, która w rzeczywistości jest prawdziwa. Błąd drugiego rodzaju (błąd drugiego typu, błąd przyjęcia, beta-błąd ) pojęcie z zakresu weryfikacji hipotez statystycznych polegające na nieodrzuceniu hipotezy zerowej H0, która jest w rzeczywistości fałszywa. TESTOWANIE HIPOTEZ STATYSTYCZNYCH (cont.) Decyzja statystyczna Nie odrzucać H0 Odrzucić H0 Aktualna sytuacja H0 prawdziwa H0 fałszywa 1-α β α 1-β Ogólny schemat testowania hipotez: 1. Postać hipotez: zerowej i alternatywnej (H0, H1) 2. Wybrany poziom istotności α 3. Postać statystyki testowej T(x) 4. Rozkład statystyki testowej przy prawdziwości hipotezy zerowej (H0 ) 5. Postać obszaru (zbioru) krytycznego K 6. Uzyskana w próbie realizacja statystyki testowej T(x) 7. Sprawdzenie, czy ta realizacja znajduje się w obszarze krytycznym K, czy nie 8. Konkluzja testu (Decyzja o przyjęciu lub odrzuceniu hipotezy zerowej H0) Test najmocniejszy - test, który minimalizuje prawdopodobieństwo błędu drugiego rodzaju β, przy ustalonym prawdopodobieństwie błędu pierwszego rodzaju α. Rodzaje zbiorów (obszarów) krytycznych K Lewostronny Prawostronny H0: θ = θ0, H1: θ < θ0 H0: θ = θ0, H1: θ > θ0 Dwustronny H0: θ = θ0, H1: θ ≠ θ0 TESTY PARAMETRYCZNE Testowanie hipotez o wartości oczekiwanej µ rozkładu normalnego N(µ, σ), gdy znana jest wariancja σ2 Model 1: H0: µ = µ0, H1: µ < µ0 Model 2: H0: µ = µ0, H1: µ > µ0 Model 3: H0: µ = µ0, H1: µ ≠ µ0 Mamy do dyspozycji n-elementową próbę X1, X2,........, Xn, której elementy Xi wygenerowane zostały zgodnie z rozkładem wy normalnym N(µ, σ) (Xi ∼ N(µ,σ)) o znanej wariancji σ2. Statystyka testowa U oparta na wartości średniej X : U= X − µ0 σ/ n ∼ N(0,1) (JeŜeli prawdziwa jest hipoteza H0) Obszary krytyczne Ki: K1 = (- ∞, -uα] (Model 1) ( K2 = [uα, +∞) (Model 2) ( K3 = (- ∞, -uα/2] ∪ [uα/2, +∞) (Model 3) ( TESTY PARAMETRYCZNE Testowanie hipotez o wartości oczekiwanej µ rozkładu normalnego N(µ, σ), gdy wariancja σ2 nie jest znana Model 1: H0: µ = µ0, H1: µ < µ0 Model 2: H0: µ = µ0, H1: µ > µ0 Model 3: H0: µ = µ0, H1: µ ≠ µ0 Mamy do dyspozycji n-elementową próbę X1, X2,........, Xn, której elementy Xi wygenerowane zostały zgodnie z rozkładem wy normalnym N(µ, σ) (Xi ∼ N(µ,σ)) o nieznanej wariancji σ2. Statystyka testowa T : X −µ T = 0 S/ n JeŜeli prawdziwa jest hipoteza H0, to statystyka T ma rozkład t-Studenta z liczbą stopni swobody n – 1. Obszary krytyczne Ki: K1 = (- ∞, -tn-1; α ] (Model 1) ( K2 = [tn-1; α , +∞) (Model 2) ( K3 = (- ∞, - tn-1; α/2] ∪ [tn-1;α/2, +∞) (Model 3) ( Weryfikacja hipotez o równości wartości oczekiwanych µ1 i µ2 w dwu populacjach opisanych rozkładami normalnymi N(µ1,σ1) i N(µ2,σ2). H0: µ1 = µ2, H1: µ1 ≠ µ2 (lub µ1 < µ2, lub µ1 > µ2) X1,........, Xn1 (Xi ∼ N(µ1, σ12 )), Xn1 = Σ Xi / n1 i = 1,...,n Y1,........, Yn2 (Yi ∼ N(µ2, σ22)), Yn2 = Σi =Y1,...,n i / n2 JeŜeli prawdziwa jest hipoteza H0, to róŜnica średnich ma rozkład normalny: ( X n1 - Yn2 ) ∼ N(0, (σ ( 12/n1 + σ22/n2))1/2)) Statystyka testowa T(x) moŜe mieć wtedy postać: T(x) = ( Xn1 - Yn2) / (σ ( 12/n1 + σ22/n2)1/2) ∼ N(0, 1) JeŜeli wariancje σ1 i σ2 nie są znane, to uŜywamy estymatora wariancji Sp2 Sp2 = ((n1 - 1) S12 + (n2 - 1) S22 ) / (n1 + n2 - 2) oraz zmiennej t -Studenta o liczbie stopni swobody n1 + n2 - 2. Tn1 + n2 - 2 = ( X n1 - Y n2) / (S ( p (1/n1 + 1/n 1/ 2))1/2)) Obszar krytyczny hipotezy H0: K = (- ∞, - tn1 + n2 -2; α/2] ∪ [tn1 + n2 -2; α/2, +∞) Testowanie hipotez o frakcjach (proporcjach) W W = k/n gdzie k jest liczbą sukcesów w próbie n-elementowej Schemat Bernouliego z prawdopodobieństwem sukcesu p. Dla n >100 przyjmujemy, Ŝe W ∼ N(p, (p (1- p) / n)1/2). H0: p = p0, H1: p ≠ p0 JeŜeli prawdziwa jest hipoteza H0, to: Z = (k / n - p0) / (p0(1- p0) / n)1/2 ∼ N(0, 1) stąd moŜemy wyznaczyć wartość krytyczną zα/2: P{-zα/2 ≤ (k / n - p0) / (p0 (1- p0) / n)1/2 ≤ zα/2} = 1 - α Na tej podstawie moŜemy wyznaczyć przybliŜony obszar krytyczny hipotezy H0 przy wykorzystaniu statystyki Z: K = (- ∞, - zα/2 ] ∪ [zα/2 , +∞) Przykład: Dla rzutu monetą p0 = 0.5. Testowanie hipotez dotyczących wariancji σ2 rozkładu normalnego N(µ, σ) o znanej wartości oczekiwanej µ H0: σ2 = σ02, H1: σ2 ≠ σ02 Mamy do dyspozycji n-elementową próbę X1, X2,........, Xn, której elementy Xi wygenerowane zostały zgodnie z rozkładem normalnym N(µ, σ) wy (Xi ∼ N(µ,σ)) o znanej wartości oczekiwanej µ. JeŜeli prawdziwa jest hipoteza H0, to : Zi = (Xi - µ) /σ / 0 ∼ N(0, 1), oraz λn2 = Σ Zk2 jest zmienną o rozkładzie λn2 z n stopniami swobody. i = 1,...,n 20 15 1- α 10 α/2 1-α 5 α/2 0 0 2 4 6 8 10 12 14 P{λn;1-α/2 2 ≤ Σ (Xk - µ)2 / σ02 ≤ λn;α/22 } = 1- α i = 1,...,n Testowanie hipotez dotyczących wariancji σ2 rozkładu normalnego N(µ, σ) o nieznanej wartości oczekiwanej µ H0: σ2 = σ02, H1: σ2 ≠ σ02 Mamy do dyspozycji n-elementową próbę X1, X2,........, Xn, której elementy Xi wygenerowane zostały zgodnie z rozkładem normalnym N(µ, σ) wy (Xi ∼ N(µ,σ)) o nieznanej wartości oczekiwanej µ. nie JeŜeli prawdziwa jest hipoteza H0, to statystyka λn-12 = Σ (Xi - mn)2 / σ0 2 i = 1,...,n ma rozkład λn-12 z n - 1 stopniami swobody. 20 15 1- α α/2 10 α/2 5 1-α 0 0 2 4 6 8 10 12 14 P{λn;1-α/2 2 ≤ Σ (Xk - µ)2 / σ02 ≤ λn;α/22 } = 1- α i = 1,...,n Testowanie hipotezy dotyczącej równości wariancji σ12 i σ22 (dwie populacje) H0: σ12 = σ22; H1: σ12 ≠ σ22 (lub σ12 < σ22, lub σ12 > σ22) X1,........, Xn1 (Xi ∼ N(µ1, σ12 )) Y1,........, Yn2 (Yi ∼ N(µ2, σ22)) Statystyka testowa: F(x) = S12 / S22 = (Σ (Xi - X n)2 / (n1 -1)) / ( Σ (Yi - Y n)2 / (n2 -1)) i = 1,...,n1 i = 1,...,n2 JeŜeli prawdziwa jest hipoteza H0, to statystyka F(x) ma rozkład 1- α F- Snedecora o (n1 - 1, n2 - 1) stopniach swobody. Obszar krytyczny K: K = {(x1,...,xn1, y1,...,yn2): / Sn12 / Sn22 < F1, lub Sn12 / Sn22 > F2} gdzie P(F < F1) = P(F > F2) = α / 2 W praktyce posługujemy się zmienną: F(x) = max {S12 / S22, S22 / S12} Test ilorazowy f(x;θ) – gęstość rozkładu prawdopodobieństwa zaleŜna od nieznanego parametru θ. H0: θ = θ0 H1: θ = θ1 Próba n-elementowa: x = (x1,........, xn) n L0 = ∏ f(xi; θ0) - funkcja wiarogodności dla próby (x1,...., xn), gdy θ = θ0 i =1 n L1 = ∏ f(xi; θ1) - funkcja wiarogodności dla próby (x1,...., xn), gdy θ = θ1 i =1 L0 / L1 - powinno być małe dla x ∈ K (test ilorazowy) K = {(x1,........, xn): L0 / L1 < k } - obszar krytyczny testu ilorazowego W przypadku zmiennej dyskretnej test ilorazowy budujemy podobnie uŜywając rozkładów prawdopodobieństwa P(xi;θ) zamiast funkcji gęstości f(x;θ) Lemat Neymana - Pearsona H0: θ = θ0 H1: θ = θ1 Lemat: JeŜeli K jest obszarem krytycznym o rozmiarze α (α = P{T(x) ∈ K / H0}) a k jest stałą taką, Ŝe L0 / L1 ≤ k; wewnątrz K ( T(x) ∈ K) L0 / L1 > k; na zewnątrz K (T(x) ∉ K) wtedy K jest obszarem krytycznym testu najmocniejszego dla weryfikacji H0 na poziomie istotności α. Lemat Neymana – Pearsona (cont.) Inne sformułowanie opisujące test najmocniejszy: f(t; θ0) - gęstość rozkładu statystyki testowej, gdy θ = θ0 f(t; θ1) - gęstość rozkładu statystyki testowej, gdy θ = θ1 K = {t ∈ R: f(t; θ0) / f(t; θ1) < k} gdzie k jest tak dobraną liczbą, Ŝe ∫ f(t; θ0) dt = α K Teza: K jest obszarem krytycznym testu najmocniejszego. Z Lematu Neymana - Pearsona moŜna uzyskać oszacowanie górnej granicy mocy testu: +∞ 1-β = P{T(x)∈K/H1}= ∫f(t;θ1)dt ≤ α + (1/2) ∫|f(t;θ1)- f(t;θ0)|dt K -∞ Wartość t5 jest przy prawdziwości hipotezy zerowej H0 bardzo mało prawdopodobna – w rozkładzie przy prawdziwości H0 (niebieskim) taka realizacja zdarza się rzadziej niŜ raz na 100. Wobec tego wniskujemy, Ŝe t5 jest realizacją z innego rozkładu, mogącego wyglądać np. tak jak ten czerwony. Nie znamy jego postaci, ale waŜne jest to, Ŝe to NIE jest rozkład niebieski. Więc uznajemy, Ŝe H0 nie jest prawdziwa – odrzucamy ją. Realizacja t3 ilustruje ciekawy przypadek. MoŜe być tak, Ŝe prawdopodobieństwo uzyskania takiej wartości wynosi np. 8% . Co wtedy? Czy to duŜo, czy mało? Tutaj wiele osób moŜe mieć inne zdanie – co jedna osoba uzna za mało prawdopodobne i odrzuci H0 to inna moŜe uznać za „całkiem prawdopodobne” i nie odrzucić H0. Wartości t1 i t2 zwracają uwagę na problem, który jest zasadniczy dla wyciągania wniosków z testów omawianego typu. Obydwie te wartości MOGĄ pochodzić z rozkładu niebieskiego – więc NIE PRZECZĄ hipotezie zerowej. Obserwując t1 lub t2 nie moŜemy jednak konkludować, Ŝe H0 jest prawdziwa: np. wartość t2 moŜe równie dobrze pochodzić z rozkładu niebieskiego i czerwonego. Czyli H0 moŜe być prawdziwa. WARTOŚĆ p (ang. p - value)_ Empiryczny (zaobserwowany) poziom istotności p - value = P{T > T^(x) / H0} gdzie T^(x) jest wartością statystyki testowej zaobserwowaną na aktualnej próbie (wartość empiryczna). Hipotezę H0,odrzucamy na poziomie istotności α, jeŜeli p-value < α. Małe p-value – przeciwko H0, duŜe p-value – nie odrzucamy H0 Definicja. Najmniejszy poziom istotności, przy którym zaobserwowana wartość statystyki testowej prowadzi do odrzucenia hipotezy zerowej H0 nazywamy p-wartością przeprowadzonego testu. WARTOŚĆ p (ang. p - value)_ 1-α Zwiększając poziom istotności α przesuwamy się z wartością krytyczną tkr coraz bliŜej zera. Postępując tak w końcu miniemy rzeczywiście uzyskaną wartość statystyki testowej T^(x). Wielkość α przy której W wartość krytyczna tkr mija uzyskaną (zaobserwowaną) realizację T^(x) jest to właśnie p-value.