Wykład 8. Przedziały ufności i testowanie hipotez A gdy nie znamy

Transkrypt

Wykład 8. Przedziały ufności i testowanie hipotez A gdy nie znamy
Wykład 8. Przedziały ufności i testowanie hipotez
A gdy nie znamy wariancji σ 2 ?
Załóżmy, że X ma rozkład normalny, ale nie znamy wartości ani m ani σ 2 . Jak wtedy szacować wartość
średnią m?
Przypomnijmy, że
n
1 X
(Xi − X)2
Ŝ =
n − 1 i=1
2
Wtedy statystyka
X − m√
n
Ŝ
ma rozkład t-Studenta o n − 1 stopniach swobody.
Używać S czy Ŝ?
Określiliśmy dwie, bardzo podobne statystyki:
v
u n
X
1 u
t (Xi − X)2 ,
√
S=
n
Ŝ = √
i=1
1
n−1
v
u n
uX
t (Xi − X)2 .
i=1
X − m√
n − 1 też ma rozkład t-Studenta
S
o n − 1 stopniach swobody.
Statystyka
Uwaga: Oczywiście
√
nS =
√
n − 1 Ŝ, więc
X − m√
X − m√
n=
n − 1.
S
Ŝ
Kim był Student?
Praca na temat tego rozkładu została opublikowana w czasopiśmie Biometrika w 1908 roku.
• Dlaczego praca podpisana była pseudonimem?
• Londyn — najważniejszy ośrodek statystyki na świecie.
• Karl Pearson (1857 - 1936) wprowadził np. termin odchylenie standardowe, test χ2 -Pearsona itp.
• Egon Pearson (1895-1980) współpracował z Jerzym Spławą-Neymanem, był synem Karla Pearsona.
• William Gosset „Student”.
Rozkład t-Studenta
Rozkład Studenta jest (na pierwszy rzut oka) podobny do rozkładu normalnego, ma jednak „ciężkie ogony”.
Tablice: np. w internecie (Student t-distribution).
• Kształt jego gęstości zależy od liczby stopni swobody.
• Dla n = 1 ma nieskończoną wartość oczekiwaną.
• Gdy n → ∞, to rozkład Studenta zbliża się do rozkładu normalnego tak, że
• dla n > 30 różnica pomiedzy tymi rozkładami jest niewielka.
• Tablice rozkładu Studenta podają zwykle tylko wartości dla n ¬ 30 stopni swobody.
1
Zadanie
Znajdź dwie symetryczne wartości −tα i tα takie, że między nimi zawiera się 0,95 masy rozkładu Studenta
z 11 stopniami swobody.
• Rozwiązanie.
• Niech Tk oznacza zmienną o rozkładzie studenta z k stopniami swobody.
• Szukamy takiego t, dla którego
• P (T11 < t) = 0, 975.
• Z tablic t = 2, 2010.
• Odpowiedź: −tα = −2, 2010, tα = 2, 2010.
Zadanie
Wytrzymałość pewnego materiału budowlanego ma rozkład normalny N (m, σ 2 ).
Pięcioelementowa próba wylosowanych sztuk tego materiału dała wyniki: x̄ = 20, 8 N/cm2 , ŝ = 2, 8N/cm2 .
Na poziomie ufności 0,99 zbuduj przedział ufności dla średniej m.
Rozwiązanie
Nie znamy wartości parametru σ, a próba ma liczebność n < 30, więc musimy użyć rozkładu t-Studenta.
• Wiemy, że
X − m√
n−1
Ŝ
• ma rozkład Studenta o 4 stopniach swobody.
• Dla poziomu ufności 0,99 i 4 stopni swobody odczytujemy z tablic t = 4, 6041
• Zatem
P
X − m√
−4, 6041 <
n − 1 < 4, 6041
Ŝ
!
= 0, 99,
• co daje przedział (14, 36; 27, 24).
A jeśli przedział jest zbyt szeroki?
Zwiększając liczbę pomiarów w próbie, możemy zmniejszyć długość przedziału ufności.
Gdy stosujemy rozkład t-Studenta powinniśmy zwracać baczną uwagę na:
• liczbę stopni swobody,
• rodzaj statystyki, jaką stosujemy: S czy też Ŝ.
• Jeśli jest więcej niż 30 obserwacji w próbie, to korzystamy z tablic rozkładu normalnego.
•
Przedziały ufności dla frakcji w populacji
Przypuśćmy, że chcemy oszacować prawdopodobieństwo wystąpienia pewnego zdarzenia. Dla przykładu
rozważmy niesymetryczną monetę (lub kostkę). Jakie jest prawdopodobieństwo p uzyskania orła w jednym
rzucie?
• Szukamy tutaj prawdopodobieństwa p sukcesu w próbach Bernoulliego.
• Moglibyśmy skorzystać z rozkładu Bernoulliego, ale wymagałoby to uciążliwych rachunków.
• Korzystamy z przybliżenia rozkładu Bernoulliego rozkładem normalnym:
2
• gdy Y ma rozkład Bernoulliego B(n, p) i n jest duże, wtedy Y ma w przybliżeniu rozkład
• normalny N (np, ( np(1 − p))2 ).
p
Zmienna
Y
= częstość wystąpienia zdarzenia w n próbach
n
• ma w przybliżeniu rozkład normalny N p,
q
p(1−p)
n
2 !
.
• Musimy ja unormować, odejmując średnią p i dzieląc przez odchylenie standardowe
•
Y
qn
q
p(1−p)
n .
Statystyka
−p
p(1−p)
n
ma w przybliżeniu rozkład N (0, 1) (dla dostatecznie dużej liczby obserwacji n).
Przykład
Spośród stałych mieszkańców pewnego miasta wylosowano próbę prostą złożoną z 400 osób i okazało się, że
wśród nich jest 320 osób, które się w tym mieście urodziły.
Zbuduj przedział ufności na poziomie 0,95 dla nieznanego wskaźnika struktury p̂ osób, mieszkajacych w tym
mieście i tam urodzonych.
Rozwiązanie
Niech Y będzie liczbą tych osób w próbie, które urodziły się w tym mieście. Ponieważ n = 400 jest dostatecznie duże (rzędu kilkuset), więc zmienna
Y
qn
−p
p(1−p)
n
• ma z całkiem dobrym przybliżeniem rozkład N (0, 1).
• Szukamy takiego zα , aby P (−zα < Z < zα ) = 0, 95.
• Z tablic rozkładu normalnego odczytujemy zα = 1, 96.
Rozwiązanie - c.d.
Zatem

P −1, 96 <
320
400 − p
q
p(1−p)
400

< 1, 96 = 0, 95,
• skąd, po przekształceniach — długich, ale niezbyt trudnych, bo to równanie kwadratowe,
• otrzymujemy szukany przedział ufności
• (0, 754; 0, 836).
Wzory przybliżone na granice przedziału ufności
Gdy n jest duże, to przedział ufności dla p ma granice (przybliżone!)
Y
± zα
n
v u
uY 1− Y
tn
n
n
.
Rozkład χ2
Niech X1 , X2 , ..., Xn będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym N (0, 1).
Wtedy zmienna
Un = X12 + X22 + ... + Xn2
ma rozkład χ2n (czyt.: chi-kwadrat) o n stopniach swobody.
3
• Rozkład ten jest stabelaryzowany.
√
• Gdy n → ∞, to zmienna Un ma rozkład asymptotycznie normalny N (k, ( 2k)2 ).
• Tabele zawierają zwykle dane dla liczby stopni swobody od 1 do 30.
Rozkład wariancji z próby
Niech X1 , X2 , ..., Xn będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie N (m, σ 2 ).
Zwykle nie znamy ani m, ani σ, dlatego zamiast σ 2 użyjemy statystyki S 2 =
1
n
Pn
i=1 (Xi
− X̄)2 .
Wówczas zmienna losowa
nS 2
σ2
ma rozkład χ2n−1 o (n − 1) stopniach swobody.
Zadanie (abstrakcyjne)
Zbudować przedział ufności dla nieznanej wariancji rozkładu normalnego na poziomie ufności 1 − α.
Budowa przedziału ufności dla wariancji
Załóżmy, że pobierzemy próbę liczebności n, niech X1 , X2 , ..., Xn będą wynikami tej próby.
Wiemy, że zmienna losowa
nS 2
ma rozkład χ2n−1 o (n − 1) stopniach swobody.
σ2
• Dla zadanego poziomu ufności szukamy w tablicach takich dwóch liczb u1 oraz u2 , aby
•
P
nS 2
u1 ¬ 2 ¬ u2
σ
!
= 1 − α.
• Takich par liczb jest nieskończenie wiele, zwykle wybieramy je tak, aby
P (0 < U < u1 ) =
α
2
P (u2 < U < ∞) =
oraz
α
.
2
Mamy więc
P
nS 2
u1 ¬ 2 ¬ u2
σ
!
= 1 − α,
skąd
P
nS 2
nS 2
¬ σ2 ¬
u2
u1
!
= 1 − α.
• Szukanym przedziałem ufności jest więc przedział
•
nS 2 nS 2
;
u2
u1
!
.
Konkretny przykład
Z populacji o rozkładzie normalnym pobrano próbę prostą i otrzymano wyniki:
3,2
3,7
4,1
3,5
3,0.
Na poziomie ufności 0,9 zbuduj przedział ufności dla nieznanej wariancji tego rozkładu.
Rozwiązanie
Obliczamy:
4
• X̄ =
3,2+3,7+4,1+3,5+3,0
5
= 17, 5/5 = 3, 5
• S 2 = 51 ((3, 2 − 3, 5)2 + (3, 7 − 3, 5)2 + (4, 1 − 3, 5)2 +
+ (3, 5 − 3, 5)2 + (3 − 3, 5)2 ) = 0, 74/5 = 0, 148.
• Z tablic rozkładu χ24 z czterema stopniami swobody odczytujemy, że P (0, 711 < χ24 < 9, 488) = 0, 9.
• Stąd przedziałem ufności dla σ 2 jest
5 · 0, 148
5 · 0, 148
¬ σ2 ¬
czyli
9, 488
0, 711
0, 28 ¬ σ ¬ 1, 02.
Testowanie hipotez
Idea:
• Chcemy odpowiedzieć na pytanie dotyczące pewnej (lub pewnych) populacji.
• Decyzję podejmujemy w oparciu o próbę - dysponujemy informacją fragmentaryczną.
• W rezultacie możemy popełnić błąd przy podejmowaniu decyzji.
• Chcemy zminimalizować prawdopodobieństwo błędu.
Typowe pytania
Pytania o wartości parametrów w rozkładzie.
• Dla populacji o rozkładzie Bernoulliego: Czy prawdopodobieństwo sukcesu wynosi 1/2? („Czy moneta
jest symetryczna?”)
• Dla rozkładu normalnego: Czy średnia w populacji wynosi 0? Czy średnia w populacji wynosi m?
Typowe pytania
Pytania o postać rozkładu.
• Czy ten rozkład jest rozkładem normalnym?
• A może jest rozkładem wykładniczym?
• A może to jest rozkład Bernoulliego?
Pytanie o niezależność
Czy dane dwie cechy są niezależne?
• Na przykład waga i wzrost.
• Albo wzrost i oceny w szkole.
• Albo ...
Sposób formułowania odpowiedzi
Na większość z powyższych pytań są dwie możliwe odpowiedzi – tak albo nie (prawda albo fałsz).
Pytania dotyczą całej populacji, do której na ogół nie mamy dostępu. Nasza decyzja, którą podejmujemy w
oparciu o próbę, jest zagrożona błędem.
• Zamiast: „Prawda” mówimy: „W oparciu o tę próbę nie możemy wykluczyć postawionej hipotezy”.
• Przykład: „Przeprowadzone badania nie potwierdzają, że badane populacje mają różny średni poziom
badanej cechy.” (Ale nie można wykluczyć, że nie ma różnicy).
5
Sposób formułowania odpowiedzi
Zamiast: „Nieprawda” należałoby mówić: „Jest to mało prawdopodobne” albo: „Gdyby postawiona hipoteza
była prawdziwa, to uzyskany wynik (z próby) byłby bardzo mało prawdopodobny. Dlatego odrzucamy tę
hipotezę.” (Ale możemy się mylić).
Przykład: „Przeprowadzone badanie potwierdza tezę, że badane populacje różnią się średnią wartością badanej cechy.” (Odrzucamy hipotezę o równości średnich).
Analogia — czujnik dymu
Instalujemy czujniki dymu, aby ostrzegły nas przed pożarem. Nie są to idealne wykrywacze pożarów. Reagują
na cząstki dymu w powietrzu.
Czujniki mogą być w dwu możliwych stanach – CICHO albo GŁOŚNO (ostrzegają przed pożarem sygnałem
dźwiękowym).
Nasz dom może być w dwu możliwych stanach – nie ma pożaru albo jest pożar.
Decyzja
Możemy podjąć dwie decyzje: zostać albo uciekać.
System ostrzegania może popełnić dwa błędy:
• Jest GŁOŚNO choć nie ma pożaru (na przykład przypaliliśmy grzankę).
• Jest CICHO choć wybuchł pożar (zła lokalizacja czujnika, zużyta bateria, ...)
• Decyzję uzależniamy od stanu wykrywaczy dymu (CICHO – zostajemy, GŁOŚNO – uciekamy).
Błędy w podejmowaniu decyzji
• Na ogół nie ma pożaru i wykrywacz jest CICHO, więc nie reagujemy (dobra decyzja).
• Czasami nie ma pożaru a wykrywacz jest GŁOŚNO, więc uciekamy (zła decyzja = strata czasu) –
błąd I-go rodzaju.
• Czasami jest pożar a wykrywacz jest CICHO więc zostajemy (zła decyzja = niebezpieczeństwo) —
błąd II-go rodzaju.
• Czasami jest pożar i wykrywacz jest GŁOŚNO więc uciekamy (dobra decyzja).
Notacja - hipotezy statystyczne
• Stan wyjściowy, „nie ma pożaru”, nazywamy hipotezą zerową.
• Drugi możliwy stan, „pożar”, nazywamy hipotezą alternatywną.
• H0 to skrót dla hipotezy zerowej.
• HA to skrót dla hipotezy alternatywnej.
Decyzje
• Decyzja „uciekamy” odpowiada odrzuceniu H0 , tzn. odrzucamy stanowisko, że nie ma pożaru.
• Decyzja „zostajemy” odpowiada nieodrzuceniu H0 .
• Decyzję podejmujemy w oparciu o zachowanie czujnika dymu, którego rolę w dalszym ciągu przejmie
statystyka testowa, czyli pewna wielkość obliczona z próby.
• Gdy wykrywacz jest GŁOŚNO to mówimy, że wynik testu jest „istotny”. Definicja: Istotny wynik
powoduje odrzucenie H0 .
6
• Gdy wykrywacz jest CICHO to wynik testu jest „nieistotny” i nie odrzucamy H0 .
Podsumowanie analogii
• Hipotezy: H0 = nie ma pożaru, HA = pożar.
• Statystyka testowa: nieistotna=CICHO, istotna=GŁOŚNO.
• Decyzja: nie odrzucamy H0 = zostajemy, odrzucamy H0 = uciekamy.
• Błąd I rodzaju: odrzucamy H0 , choć jest prawdziwa = uciekamy, choć nie ma pożaru.
• Błąd II rodzaju: nie odrzucamy H0 , choć prawdziwa jest HA = zostajemy, choć jest pożar.
• Zauważmy, że H0 jest bardziej precyzyjna niż HA : np. gdy HA jest prawdziwa, to pożar może być
dowolnej wielkości.
• Wykrywacze dymu mają pewną ustaloną czułość – reagują na określoną ilość dymu w powietrzu.
• Jeżeli wykrywacz jest zbyt czuły, to będzie często powodował fałszywe alarmy – błędy I rodzaju.
• Jeżeli nie jest dość czuły, to nie będzie się włączał, kiedy potrzeba — błędy II rodzaju.
Zwiększając czułość zmniejszamy prawdopodobieństwo błędu II rodzaju, ale zwiększamy prawdopodobieństwo błędu I rodzaju.
Dobór czułości testu powinien zależeć od konsekwencji błędów!
Jak opisać czułość testu?
• Poziom istotności to prawdopodobieństwo popełnienia błędu I rodzaju.
• Poziom istotności powinno się ustalić jeszcze przed przeprowadzeniem eksperymentu.
• Moc testu to dopełnienie do jedności prawdopodobieństwa popełnienia błędu II rodzaju.
• Moc testu zwykle dużo trudniej obliczyć niż poziom istotności.
m
Hipoteza zerowa H0
• Zwykle prosta, to znaczy taka, która jednoznacznie określa dystrybuantę (rozkład) zmiennej losowej.
• Często parametryczna tzn. dotycząca wielkości jakiegoś parametru zmiennej, na przykład średniej
albo wariancji.
• Będziemy ją odrzucali albo nie.
• Aby kontrolować błąd I rodzaju należy znać rozkład statystyki testowej przy założeniu hipotezy H0 .
Hipoteza alternatywna HA
• W jakimś sensie przeciwna do H0 .
• Na ogół bardziej ogólna niż H0 (np. nieznany rozmiar pożaru)
• „Odrzucenie H0 ” oznacza, że wierzymy w HA .
• „Nie odrzucenie H0 ” oznacza, że nie mamy dość silnych dowodów przemawiających za HA . Nie jest to
to samo co udowodnienie prawdziwości H0 (tego na ogół nie potrafimy zrobić za pomocą statystyki).
7
Przykład
Załóżmy, że mamy próbę z populacji o rozkładzie normalnym. Niech m (nieznane) oznacza jego średnią.
Chcemy przetestować hipotezę
H0 : m = 5
przeciw alternatywie
HA : m 6= 5.
Jak testować taka hipotezę?
Możemy skonstruować przedział ufności dla m w oparciu o dane. Taki przedział ufności powinien zawierać
m. Zatem jeżeli przedział ufności nie zawiera 5, to odrzucimy H0 na korzyść HA .
Jeżeli przedział ufności zawiera 5, to oznacza, że nie możemy odrzucić H0 . Ponieważ jednak przedział ufności
zawiera także wiele innych wartości niż 5, zatem nie mamy wystarczających podstaw, aby twierdzić, że H0
jest prawdziwa.
Testowanie hipotezy
Przedział ufności na poziomie (1 − α) jest dany wzorem (gdy nie znamy σ, to korzystamy z rozkładu
t-Studenta):
S
S
; X̄ + tα/2 √
X̄ − tα/2 √
n−1
n−1
Sprawdzamy, czy zawiera on liczbę 5.
Równoważnie, wystarczy wyznaczyć statystykę testową
X̄ − m √
n−1
S
i sprawdzić, czy zawiera się ona w przedziale (–tα/2 ; tα/2 ).
• Jeżeli tak, to statystyka jest nieistotna i nie odrzucamy H0 .
• Jeżeli nie, to statystyka jest istotna i odrzucamy H0 .
• Zbiór (−∞, –tα/2 ) ∪ (tα/2 , ∞) nazywamy obszarem krytycznym (obszarem odrzuceń).
• Jeżeli wartość statystyki testowej znajdzie się w obszarze krytycznym, to odrzucamy H0 .
Różne postacie hipotezy alternatywnej
• W naszym przykładzie zbiorem krytycznym jest suma (−∞, –tα/2 ) ∪ (tα/2 , ∞). Postępujemy tak,
ponieważ HA : m 6= 5, jest symetryczna (niekierunkowa).
• Jesteśmy zainteresowani zarówno alternatywami dla których m < 5 jak i m > 5.
• Czasami rozważamy alternatywy kierunkowe, takie jak
HA : m > 5. W tym przypadku obszar krytyczny ma postać (tα , ∞).
• W przypadku alternatywy kierunkowej HA : m < 5 obszar krytyczny ma postać (−∞, –tα ).
Przykład
Czy średnia prędkość aut na ulicy Legnickiej jest równa 50 km/h?
Decyzja o rodzaju hipotezy alternatywnej (kierunkowa lub nie) powinna być podjęta zanim spojrzymy na
dane liczbowe zebrane dla jej weryfikacji.
Może być natomiast podjęta na podstawie innych, np. historycznych danych lub na podstawie profilu zainteresowań, ogólnych oczekiwań itp.
8
• H0 : m = 50 km/h.
• HA : m > 50 km/h.
Dane liczbowe
Dane fikcyjne: przypuśćmy, że zmierzono średnią prędkość 10 samochodów i otrzymano X̄ = 61 km/h oraz
S = 5, 5.
Czy na poziomie istotności 0,95 te dane przeczą hipotezie H0 ?
A gdyby te wyniki pochodziły tylko z 5 prób, a poziom istotności wynosił 0,995?
Rozwiązanie
Ponieważ używamy S 2 , bo nie znamy σ 2 , więc korzystamy z rozkładu Studenta: statystyka
X̄ − m √
n−1
S
ma rozkład t-Studenta o n − 1 stopniach swobody.
t=
W naszym zadaniu:
• Przy założeniu prawdziwości hipotezy H0 mamy m = 50, więc statystyka przyjmuje wartość
• t=
61 − 50 √
9 = 6.
5, 5
• Obszar krytyczny jest jednostronny, więc dla 9 stopni swobody odczytujemy z tablic tα =1,8331.
• Wartość statystyki wpada w obszar krytyczny (1, 8331; ∞), więc H0 odrzucamy.
Rozwiązanie
Gdyby było tylko 5 prób, to
• t=
61 − 50 √
4 = 4.
5, 5
• Dla 4 stopni swobody i poziomu 0,995 odczytujemy z tablic tα =4,6041, więc
• nie ma podstaw do odrzucenia hipotezy H0 .
• Skąd ta różnica: poprzednio odrzucamy, a teraz nie ma podstaw do odrzucenia?
9