Hipotezy

Transkrypt

Hipotezy
Wykład 7
Dwie niezależne próby
• Często porównujemy wartości pewnej
zmiennej w dwóch populacjach.
• Przykłady:
– Grupa zabiegowa i kontrolna
– Lekarstwo a placebo
– Pacjenci biorący dwa podobne lekarstwa
– Mężczyźni a kobiety
– Dwie różne linie genetyczne
• Podstawowe pytanie: Jaka jest różnica
między średnimi w populacjach: 1-2?
• Idea: znaleźć PU dla 1 - 2
• y1  y 2 jest estymatorem 1- 2 i będzie
środkiem przedziału ufności.
• Należy jeszcze wyznaczyć SE.
Niech rozkład cechy Y w populacji 1 będzie
N(1, 1). Bierzemy próbę o rozmiarze n1,
y1 , s1 , SE1 
Niech rozkład cechy Y w populacji 2 będzie
N(2, 2). Bierzemy próbę o rozmiarze n2,
y2 , s2 , SE2 
• Liczymy SE1 =
SE2 =
s2
n2
n1
• Jak policzyć SE dla y1  y 2?
• Istnieją dwa sposoby: uśredniony (łączony) i
nieuśredniony (niełączony) (ang. pooled,
unpooled).
• W obu przypadkach SE liczone jest przy pomocy
s1, s2, oraz n1, n2.
• Na ogół będziemy używać niełączonego SE.
• Metodę łączonego SE zastosujemy, gdy będzie
można założyć, że 1=2 (albo gdy o to poprosi
wykładowca
• Gdy n1 = n2, to obie metody dają te same wyniki.
Metoda łączona
• Znajdujemy sumę kwadratów odchyleń dla obu
prób:
SS1  (yi,1  y1)2 , SS2  (yi,2  y2)2
,
uśrednioną wariancję:

i
osobno w obu próbach.
sc2 =
• Obliczamy nieuśrednione SE:
2
( N ) SE  SE1  SE2
s2
n2
Standardowy błąd dla różnicy
dwóch średnich
Metoda zwykła (niełączona)
s1
s1
n1

SS1  SS2
n1  n2  2
,
a następnie uśrednione (łączone) SE:
2
(U)SE=
1 1
1 1
sc2     sc

.
n1 n2
 n1 n2 
1
Przykład:
• próba 1: n1 = 15, y1 = 75, SS1 = 600
• próba 2: n2 = 10, y2 = 55, SS2 = 300
• Wyniki z obu metod nie są takie same, ale
są dość podobne.
• Zauważmy, że mieliśmy tu s1 = 6.55 i s2 =
5.77. (Gdy s1=s2, to oba rachunki dają to
samo SE i PU.)
Przedział ufności dla 1 – 2
• Skonstruujemy przedział ufności dla 1 – 2
• Przypomnienie: PU dla  : y  t/2 SEy =
(estymator)  (kwantyl)(SE)
• Estymator dla 1 - 2 : y1-y2
• Potrzebujemy t/2 : Ile użyć stopni swobody?
(Wzoru nie trzeba pamiętać, będzie podawany.)
•
df=
 SE
2
1
 SE22 
2
• Tak wyliczona liczba stopni swobody jest nie
większa niż n1 + n2 – 2; w przybliżonych
obliczeniach często stosujemy df = n1 + n2 – 2.
• Jest tez nie mniejsza niż minimum z wartości
n1–1 i n2–1.
• Jeżeli możemy założyć, że wariancje w obu
grupach są równe, to stosujemy uśredniony
estymator wariancji i df = n1 + n2 – 2.
SE14
SE24

 n1  1  n2  1
Przykład (cd)
• Stosujemy ``nieuśredniony’’ SE, o ile w
zadaniu nie będzie specjalnie wymagane
użycie (U)SE.
•
•
•
•
Skonstruuj 95% PU dla 1 - 2
y1 –y2 = 75 – 55 = 20
SE1 = 1.690 ; SE2 = 1.826
df=
• PU na poziomie ufności (1-) dla 1 - 2:
(y1-y2)  t(df)/2 SE(y1-y2)
2
Przykład 2 - 95% PU dla 1 - 2
• Oblicz przedział ufności jeszcze raz
wykorzystując „uśredniony’’ SE.
• Rośliny hodowane w różnych warunkach
oświetleniowych.
Ciemno
Jasno
n
22
21
y
1.76
2.46
SE
0.5
0.7
Przedziały ufności: Interpretacja
• “1” – populacja/próba hodowana przy
słabym oświetleniu
• “2” – populacja/próba hodowana przy
mocnym oświetleniu
• Oblicz 95% PU dla 1 - 2.
• Nasz PU zawiera wartości zarówno
dodatnie jak i ujemne? Co to znaczy?
Testowanie hipotez
Idea:
• Chcemy odpowiedzieć na pytanie
naukowe dotyczące populacji
• Decyzję podejmujemy w oparciu o próbę dysponujemy informacją fragmentaryczną
• W rezultacie możemy popełnić błąd przy
podejmowaniu decyzji
• Chcemy zminimalizować p-stwo błędu
Typowe pytania:
• Pytania o wartości parametrów
• Dla populacji o rozkładzie Bernoulliego.
Czy p-stwo sukcesu wynosi ½?
(„Czy moneta jest symetryczna/uczciwa?”)
• Czy p-stwo sukcesu wynosi p0?
(p0 – pewna konkretna, interesująca nas
wartość)
3
• Pytania dla 1-go rozkładu normalnego:
Czy średnia w populacji wynosi 0?
Czy średnia w populacji wynosi 93?
Czy średnia w populacji wynosi 0?
• Dla dwóch populacji normalnych:
Czy średnie wartości cechy w obu populacjach
są równe?
Czy różnica między średnimi w populacjach
wynosi 0?
Czy różnica między średnimi wynosi 0?
• Zamiast: „Nieprawda” należałoby mówić: „Jest
to mało prawdopodobne” albo: „Gdyby
postawiona hipoteza była prawdziwa, to
uzyskany wynik (z próby) byłby bardzo mało
prawdopodobny. Dlatego odrzucamy tę
hipotezę.” (Ale możemy się mylić).
• Przykład:”Przeprowadzone badanie potwierdza
tezę, że badane populacje różnią się średnią
wartością badanej cechy.” (Odrzucamy
hipotezę o równości średnich).
• Wprowadzimy później ilościowy sposób
motywowania takich decyzji (p-wartość).
• Możemy podjąć decyzje: zostać albo uciekać
• Decyzję uzależniamy od stanu wykrywaczy
dymu (CICHO – zostajemy, GŁOŚNO –
uciekamy).
• System ostrzegania może popełnić dwa błędy:
GŁOŚNO choć nie ma pożaru (na przykład
przypaliliśmy grzankę)
CICHO choć jest pożar (zła lokalizacja, zużyta
bateria,…)
• Na te pytania są możliwe odpowiedzi „tak” albo
„nie” (prawda albo fałsz).
• Pytania dotyczą całej populacji, do której na
ogół nie mamy dostępu. Nasza decyzja, którą
podejmujemy w oparciu o próbę, jest zagrożona
błędem.
Sposób formułowania odpowiedzi:
• Zamiast: „Prawda” mówimy: „W oparciu o tę
próbę nie możemy wykluczyć postawionej
hipotezy”.
• Przykład: „Przeprowadzone badania nie
potwierdzają, że badane populacje mają różny
średni poziom badanej cechy.” (Ale nie można
wykluczyć, że jest różnica).
Analogia: czujnik dymu
• Instalujemy czujniki dymu, aby ostrzegały
przed pożarem.
• Czujniki reagują na cząstki dymu w
powietrzu.
• Mogą być w dwu możliwych stanach –
CICHO i GŁOŚNO
• Dom może być w dwu możliwych stanach
– nie ma pożaru albo jest pożar
• Na ogół nie ma pożaru i wykrywacz jest
CICHO, więc nie reagujemy (dobra decyzja).
• Czasami nie ma pożaru, a wykrywacz jest
GŁOŚNO, więc uciekamy (błędna decyzja –
strata czasu) – błąd I-go rodzaju.
• Czasami jest pożar, a wykrywacz jest CICHO
więc zostajemy (zła decyzja –
niebezpieczeństwo) – błąd II-go rodzaju.
• Czasami jest pożar i wykrywacz jest GŁOŚNO
więc uciekamy (dobra decyzja).
4
Notacja: Hipotezy
• Stan wyjściowy, „nie ma pożaru’’, nazywamy
hipotezą zerową.
• Drugi możliwy stan, „pożar’’, nazywamy
hipotezą alternatywną.
• H0 to skrót dla hipotezy zerowej.
• HA to skrót dla hipotezy alternatywnej.
• Gdy wykrywacz jest GŁOŚNO to mówimy, że
wynik testu jest ``istotny’’. Definicja: Istotny
wynik powoduje odrzucenie H0.
• Gdy wykrywacz jest CICHO to wynik testu jest
``nieistotny’’ i nie odrzucamy H0.
• Zauważmy, że H0 jest bardziej precyzyjna niż
HA: np. gdy HA jest prawdziwa, to nie znana
jest jeszcze skala pożaru.
• Wykrywacze dymu mają pewną ustaloną
czułość – reagują na określoną ilość dymu w
powietrzu.
• Jeżeli wykrywacz jest zbyt czuły, to będzie
często powodował fałszywe alarmy (błędy I
rodzaju).
• Jeżeli nie jest dość czuły, to nie będzie się
włączał, kiedy potrzeba (błędy II rodzaju).
Decyzje
• Nasze decyzje wyrażamy w odniesieniu do
hipotezy zerowej H0:
– Decyzja „uciekamy” odpowiada odrzuceniu H0,
tzn. odrzucamy stanowisko, że nie ma pożaru.
– Decyzja „zostajemy” odpowiada nieodrzuceniu H0.
• Decyzję podejmujemy w oparciu o zachowanie
czujnika dymu, którego rolę w dalszym ciągu
przejmie statystyka testowa, czyli pewna
wielkość obliczona z próby.
Podsumowanie analogii
• Hipotezy: H0 = nie ma pożaru, HA = pożar
• Statystyka testowa:
nieistotna=CICHO,
istotna=GŁOŚNO
• Decyzja: nie odrzucamy H0 = zostajemy,
odrzucamy H0 = uciekamy
• Błąd I rodzaju: odrzucamy H0, choć jest
prawdziwa=uciekamy, choć nie ma pożaru
• Błąd II rodzaju: nie odrzucamy H0, choć
prawdziwa jest HA = zostajemy, choć jest pożar
• Zwiększając czułość zmniejszamy p-stwo błędu
II rodzaju, ale zwiększamy p-stwo błędu I
rodzaju.
• Dobór czułości testu powinien zależeć od
konsekwencji błędów!
• Jak opisać czułość testu?
• „Poziom istotności” (α) to p-stwo błędu I
rodzaju. Poziom istotności powinno się ustalić
jeszcze przed przeprowadzeniem
eksperymentu.
• β – p-stwo błędu II rodzaju (zależy np. od
wielkości pożaru)
5
Hipoteza zerowa H0
• Zwykle jest prosta i specyficzna.
• To właśnie ją będziemy odrzucali albo nie.
• Przykłady:
•
•
•
•
•
•
=0
 = 0 (-0 = 0)
1 = 2 (1–2 = 0)
1 - 2 = 0
p = p0
Uwaga: Aby kontrolować błąd I rodzaju należy
znać rozkład statystyki testowej przy H0.
• Przykłady HA:
  0
 > 0
 < 0
1  2 (1 - 2  0)
1 > 2 (1 - 2 > 0)
1 < 2 (1 - 2 < 0)
• Rozkład statystyki testowej przy HA powinien
być inny niż przy H0 (wykrywacz powinien być
GŁOŚNO, a nie CICHO, gdy mamy pożar).
• Możemy skonstruować przedział ufności dla 
w oparciu o dane. Taki przedział ufności
powinien zawierać .
• Zatem jeżeli przedział ufności nie zawiera 5, to
odrzucimy H0 na korzyść HA.
• Jeżeli przedział ufności zawiera 5, to oznacza,
że nie możemy odrzucić H0. Ponieważ jednak
PU zawiera także wiele innych wartości niż 5,
zatem nie mamy wystarczających podstaw, aby
twierdzić, że H0 jest prawdziwa.
Hipoteza alternatywna HA
• W jakimś sensie przeciwna do H0
• Na ogół HA jest bardziej ogólna niż H0 (np.
nieznany jest rozmiar pożaru)
• „odrzucenie H0" oznacza, że wierzymy w HA
• „nie odrzucenie H0" oznacza, że nie mamy dość
silnych dowodów przemawiających za HA. Nie
jest to to samo, co udowodnienie prawdziwości
H0 (tego na ogół nie potrafimy zrobić przy
pomocy próby).
Przykład ilustracyjny
• Załóżmy, że mamy próbę z populacji o
rozkładzie normalnym. Niech  (nieznane)
oznacza jego średnią. Chcemy
przetestować
• H0:  = 5
przeciw alternatywie
• HA:   5
• PU na poziomie (1-) jest dany wzorem
y  t/2 SE. Sprawdzimy, czy zawiera on 5.
6
• Równoważnie wystarczy wyznaczyć statystykę
testową (y – 5)/SE i sprawdzić, czy zawiera
się ona w przedziale –t/2 and +t/2
• Jeżeli tak, to statystyka jest nieistotna i nie
odrzucamy H0.
• Jeżeli nie to statystyka jest istotna i odrzucamy
H0. Zbiór (-∞ , –t/2) U (+t/2 , ∞) nazywamy
obszarem krytycznym (obszarem odrzuceń).
Jeżeli statystyka testowa znajdzie się w
obszarze krytycznym, to odrzucamy H0.
• Zauważmy, że postać statystyki testowej zależy
od H0 (stąd pochodzi 5).
• Zwykle statystykę testową wybieramy tak,
abyśmy umieli podać jej rozkład przy H0.
• Co się stanie, jeżeli prawdziwa jest HA?:
• Wtedy  ≠ 5 i rozkład statystyki (y-5) będzie
skoncentrowany w okolicach (-5) zamiast w
okolicach 0.
• α wybieramy przed przystąpieniem do
testowania. Typowe wartości α to 0.05,
0.01 lub 0.1. Możemy jednak stosować
inne wartości. Wybór α powinien zależeć
od konsekwencji błędów I-go i II-go
rodzaju.
• Wartość krytyczna – wartość leżąca na
granicy obszaru krytycznego.
• Statystyka testowa
y 

przy H0 ma rozkład ......................
n
• Zwykle nie znamy σ i zastępujemy je przez s.
• Przy H0 (y-)/SE ma rozkład Studenta z n-1
stopniami swobody.
• Stąd, jeżeli H0 jest prawdziwa, to  = 5
i (y-5)/SE ma rozkład ......................
Poziom istotności
• Poziom istotności -  = P-stwo błędu I-go
rodzaju (odrzucenie H0, gdy jest prawdziwa;
fałszywy dodatni wynik testu).
• Załóżmy, że H0 jest prawdziwa. Jakie jest pstwo, że statystyka testowa znajdzie się w
zbiorze krytycznym (-∞ , –t/2) U (+t/2 ,∞)?
• Rozbiliśmy tu zbiór krytyczny na
(-∞ , –t/2) i (+t/2 ,∞). Postępujemy tak, bo HA: 
≠ 5 , jest symetryczna (niekierunkowa).
Jesteśmy zainteresowani zarówno
alternatywami dla których  < 5 jak i  > 5.
• Często rozważamy też alternatywy
kierunkowe, np. HA:  > 5. W tym przypadku
obszar krytyczny ma postać: (+t ,∞).
• Dla HA:  < 5, obszar krytyczny to (-∞ , –t).
7