przetestować

Transkrypt

przetestować
TESTOWANIE HIPOTEZ
STATYSTYCZNYCH
Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
Hipotezy dzielimy na parametryczne i nieparametryczne.
Zajmiemy się hipotezami parametrycznymi. Są to hipotezy dotyczące nieznanego parametru θ (rozważmy
tylko przypadek, gdy θ jest nieznaną średnią wartością
pewnej cechy X).
Na podstawie próbki (x1, . . . , xn) mamy zdecydować,
czy należy odrzucić daną hipotezę o parametrze θ, czy
jej nie odrzucać.
Testem statystycznym będziemy nazywać sposób postępowania, który prowadzi do podjęcia decyzji.
Przykład 1. Organizacja ochrony konsumentów podejrzewa, że mleko pochodzące od pewnego producenta
ma niższą procentową zawartość tłuszczu niż nominalna
3,2%. Zbadane zostały 10 kartonów z mlekiem i uzyskane następujące wyniki:
3,26; 3,12; 3,24; 3,16; 3,08; 3,14; 3,23; 3,11; 3,09; 3,24.
Czy to podejrzenie jest słuszne czy też nie?
1
Ogólny schemat postępowania.
1. Formułujemy dwie wzajemnie wykluczające się hipotezy: H0 (zerowa) i H1 (alternatywna).
2. Określamy poziom istotności testu α ∈ (0, 1) (standardowo α = 0,05). Jest to prawdopodobieństwo popełnienia błędu I rodzaju.
Błąd I rodzaju - prawdziwa jest H0, a my ją odrzucamy.
Błąd II rodzaju - prawdziwa jest H1, a my decydujemy
na rzecz H0.
stan rzeczy/decyzja przyjąć H0
przyjąć H1
H0 prawdziwa
OK
błąd I rodzaju
H1 prawdziwa
błąd II rodzaju
OK
Pożądane jest, by prawdopodobieństwa popełnienia błędów obu rodzajów były jak najmniejsze. Okazuje się,
że tego nie da się zrobić jednocześnie. Wobec tego, postępujemy tak: przede wszystkim kontrolujemy prawdopodobieństwo popełnienia błędu I rodzaju. Właśnie dlatego, przy już sformułowanych hipotezach, oznaczamy
je tak, by popełnienie błędu I rodzaju miało gorsze
skutki.
3. Wybieramy statystykę (nazywamy ją statystyką testową), której rozkład potrafimy określić (nie może on
zależeć od nieznanych parametrów) przy założeniu prawdziwości hipotezy H0. Zgodnie z tym rozkładem oraz
2
przyjętą wartością α określamy tzw.zbiór krytyczny K.
Jest to podzbiór R taki, że prawdopodobieństwo wpadnięcia do K zmiennej losowej o określonym wyżej rozkładzie wynosi właśnie α (czyli jest bardzo małe).
4. Jeśli obliczona na podstawie próbki wartość statystyki testowej wpada do K, to hipotezę H0 odrzucamy
(bo zaszło zdarzenie, które nie powinno zachodzić, jeśli
H0 jest prawdziwa). Jeśli obliczona wartość statystyki
testowej nie wpada do K, to nie mamy podstaw do odrzucenia H0.
Uwaga. Decyzje brzmią różnie!
Testy dotyczące wartości oczekiwanej.
1. H0 : θ = θ0
H1 : θ =
̸ θ0 lub θ < θ0 lub θ > θ0.
2. Określamy α ∈ (0, 1).
3. Rozważamy trzy sytuacje:
3a. cecha ma rozkład normalny, wariancja σ 2 jest znana;
3b. cecha ma rozkład normalny, wariancja σ 2 nie jest
znana;
3c. cecha ma rozkład dowolny, ale n jest duże.
3
3a. Jeśli H0 jest prawdziwa, to {xi} - niezależne zmienne
losowe o rozkładzie N (θ0, σ 2) =⇒ x̄ ma rozkład
√ x̄−θ0
σ2
ma rozkład N (0, 1). Zatem
N (θ0, n ) =⇒
n
√ x̄−θ0 σ
możemy wziąć n σ jako statystykę testową.
Postać zbioru krytycznego K zależy od postaci hipotezy alternatywnej H1. Pod tym względem rozróżniamy:
dwustronny obszar krytyczny
K = (−∞, −z1−α/2)∪(z1−α/2, +∞) (gdy H1 : θ ̸= θ0);
lewostronny obszar krytyczny
K = (−∞, −z1−α) (gdy H1 : θ < θ0);
prawostronny obszar krytyczny
K = (z1−α, +∞) (gdy H1 : θ > θ0).
√ x̄−θ0
3b. Statystyka testowa ma postać n s ; przy prawdziwości hipotezy H0 ma ona rozkład Studenta o (n−1)
stopniach swobody.
Obszary krytyczne:
K = (−∞, −t1−α/2,n−1) ∪ (t1−α/2,n−1, +∞) lub
K = (−∞, −t1−α,n−1) lub K = (t1−α,n−1, +∞).
√ x̄−θ0
3c. Statystyka testowa ma postać n s ; przy prawdziwości hipotezy H0 ma ona, w przybliżeniu, rozkład
N (0, 1).
4
Obszary krytyczne:
K = (−∞, −z1−α/2) ∪ (z1−α/2, +∞) lub
K = (−∞, −z1−α) lub K = (z1−α, +∞).
4. Podejmujemy decyzje.
Tak, w Przykładzie 1 testujemy na poziomie istotności, powiedzmy, α = 0,05 hipotezę H0 : θ = 3,2
(producent jest uczciwy) przeciw H1 : θ < 3,2 (producent oszukuje). Przy założeniu, że cecha ma rozkład
normalny i np. σ = 0,05, mamy do czynienia z sytuacją
opisaną w 3a. Otrzymujemy z tablic z0,95 = 1,6449, zatem K = (−∞, −1,6449). Wartość statystyki testowej
wynosi
√ 3,1667 − 3,2
≈ −2,1061, czyli wpada ona do K.
10
0,05
Należy więc odrzucić hipotezę H0 i przyznać, że producent mleka oszukuje.
Jeśli nie ma wiedzy o σ, to mamy do czynienia z sytuacją opisaną w 3b. Otrzymujemy z tablic t0,95,9 =
1,8331, zatem K = (−∞, −1,8331). Wartość statystyki testowej wynosi
√ 3,1667 − 3,2
≈ −1,520, czyli nie wpada ona do K.
10 √
0,0048
Nie mamy więc podstaw do odrzucenia hipotezy H0,
5
czyli nie mamy podstaw do orzeczenia, że producent
mleka oszukuje.
Przykład 2. W celu wyznaczenia zużycia benzyny w
czasie jazdy miejskiej przez nowy rodzaj silnika 8 samochodów fabrycznych przejechało 1000 km. Zużycie
benzyny przez poszczególne samochody (w l/100 km)
okazało się następujące:
8,8; 9,2; 9,4; 8,9; 9,0; 9,1; 9,1; 8,9.
Wiadomo, że rozkład zużycia benzyny jest normalny.
Przyjmując α = 0,05 przetestować hipotezę, że średnie
zużycie benzyny wynosi 9 l/100 km przeciw hipotezie,
że średnie zużycie benzyny jest inne.
Mamy H0 : θ = 9 przeciw H1 : θ ̸= 9. Jeśli nie ma
wiedzy o σ, to mamy do czynienia z sytuacją opisaną
w 3b. Otrzymujemy z tablic t0,975,7 = 2,365, zatem
K = (−∞, −2,365) ∪ (2,365, +∞). Wartość statystyki
testowej wynosi
√ 9,05 − 9
8 √
≈ 0,71, czyli nie wpada ona do K.
0,04
Nie mamy więc podstaw do odrzucenia hipotezy H0.
Przykład 3. Przeprowadzono badanie na temat tego,
ile czasu spędzają dzienne przed telewizorem dorośli
Polacy. Na podstawie badania 1050 osób uzyskano wy6
niki x1, . . . , x1050, z których po obliczeniu okazało się,
że x̄ = 187 min, a s2 = 7160. Na podstawie tych danych, na poziomie istotności α = 0,05 przetestować
hipotezę, że dorośli Polacy oglądają dziennie telewizję
średnio 3 godziny przeciw hipotezie, że czas oglądania
jest inny.
Test dotyczący nieznanej proporcji.
Niech jednostki statystyczne albo posiadają pewną własność (1), albo nie (0). Cel: przetestować hipotezy dotyczące nieznanej proporcji p jednostek posiadających
tą własność.
H0 : p = p0, H1 : p ̸= p0 lub p < p0 lub p > p0.
√
Statystyka testowa ma postać n √ pb−p0 ; przy prawp0 (1−p0 )
dziwości hipotezy H0 ma ona, w przybliżeniu, rozkład
N (0, 1).
Obszary krytyczne:
K = (−∞, −z1−α/2) ∪ (z1−α/2, +∞) lub
K = (−∞, −z1−α) lub K = (z1−α, +∞).
Przykład 4. Badania przeprowadzone wśród uczniów
klas pierwszych wykazały, że na 1400 losowo wybranych dzieci 840 ma próchnicę zębów. Na podstawie
tych badań, na poziomie istotności α = 0,05 przetestować hipotezę, że 55% pierwszoklasistów ma próchnicę
7
zębów przeciw hipotezie, że odsetek jest większy.
Mamy H0 : p = 0,55 przeciw H1 : p > 0,55. Otrzymujemy z tablic z0,95 = 1,6449, zatem K = (1,6449, +∞).
Wartość statystyki testowej wynosi
√
0,60 − 0,55
√
1400
≈ 3,76, czyli wpada ona do K.
0,55 · 0,45
Więc hipotezę H0 należy odrzucić i uznać, że odsetek
pierwszoklasistów mających próchnicę zębów jest większy niż 55%.
Przykład 5. Z partii butelek dostarczonych do mleczarni sprawdzono losowo 900 butelek i znaleziono wśród
nich 18 butelek wybrakowanych. Na poziomie istotności α = 0,05 przetestować hipotezę, że procent butelek
wybrakowanych wynosi 2,5% przeciw hipotezie, że jest
on inny.
8