Wykład 11: Dane jakościowe Rozkład χ2

Transkrypt

Wykład 11: Dane jakościowe Rozkład χ2
Wykład 11: Dane jakościowe
• Obserwacje klasyfikujemy do klas
• Zliczamy liczbę obserwacji w każdej klasie
• Jeżeli są tylko dwie klasy, to jedną z nich
możemy nazwać „sukcesem”, a drugą
„porażką”.
• Generalnie, liczba obserwacji w ustalonej
klasie ma rozkład:....
• Przypomnienie:
p (nieznane) prawdopodobieństwo sukcesu –
np. bycia w klasie 1
n liczba obserwacji.
Obserwujemy y = # obserwacji w klasie 1.
p̂ = ...
y ma rozkład...
,
Jeżeli np i n(1-p) są dość duże, to rozkład ten
możemy aproksymować rozkładem ....
Test zgodności chi-kwadrat
• Rozważymy przypadek danych jakościowych
• Mamy próbę składającą się z n niezależnych
obserwacji
• Będziemy testowali hipotezy o wartości prawdopodobieństw należenia do poszczególnych klas
• Do obliczania wartości krytycznych skorzystamy
z przybliżenia rozkładem (normalnym i) chikwadrat, które działa dla dużych rozmiarów
prób.
• Jeżeli mamy więcej niż dwie klasy, to
możemy się skoncentrować na jednej
klasie
albo rozważać wszystkie klasy na raz
Rozkład χ2
• Definicja: Niech Y1, … Yk będą
niezależnymi zmiennymi losowymi o
rozkładzie N(0,1). Suma kwadratów tych
zmiennych ma rozkład χ2k (rozkład chikwadrat z k stopniami swobody).
• Zakładamy wartości pi (prawdopodobieństwo ``bycia’’ w i-tej klasie)
• Liczymy oczekiwaną liczbę obserwacji w
każdej klasie: n×pi
• Porównujemy z zaobserwowanymi (zob.
dalej)
• Uwagi:
– Test stosujemy, gdy oczekiwana liczba
obserwacji (npi) w każdej z klas nie jest
mniejsza od 5.
– Test jest w założeniu podobny do testu
znaków, ale nie wykorzystuje rozkładu
dwumianowego.
1
Prosty przypadek: dwie klasy
• Np. samiec/samica, tak/nie, sukces/porażka,
poprawa/pogorszenie, itd.
• Badamy model genetyczny dziedziczenia
pewnej cechy. Mamy dwie linie
homozygotyczne muszki Drosophilae, jedną
z czerwonymi oczami i jedną z fioletowymi
oczami. Sugeruje się, że za kolor oczu
odpowiedzialny jest tylko jeden gen i że allel
oczu czerwonych dominuje nad allelem
oczu fioletowych.
• Klasy:
Czerwone oczy; hipotetyczne
prawdopodobieństwo p =...
Oczekiwana liczba czerwonych: E1 =...
Fioletowe oczy; hipotetyczne p’ =...
• Jeżeli założona hipoteza jest prawdziwa to
w krzyżówce F2 stosunek liczby muszek
z czerwonymi oczami do liczby muszek z
fioletowymi oczami powinien być w
przybliżeniu równy: .....
• Aby zweryfikować tę hipotezę
wyhodowano 43 muszki z populacji F2
(wykorzystując kilku rodziców z linii
homozygotycznych). 29 z tych muszek
miało czerwone oczy, a 14 fioletowe oczy.
• Czy allel czerwonych oczu dominuje nad
allelem fioletowych oczu?
• Niech p będzie p-stwem, że muszka w
populacji F2 ma czerwone oczy
• H0: p = ...
;
• HA: ....
Oczekiwana liczba: E2 =...
•
•
•
•
•
Użyjemy testu zgodności chi-kwadrat
Χ2s = Σ(O-E)2/E przy H0 ma w
przybliżeniu rozkład chi-kwadrat z
df = #klas - 1 = ...
.
Testujemy na poziomie α = 0.05
Wartość krytyczna = ...
p̂ =
Tablica wartości krytycznych z książki
``Introduction to the Practice of Statistics’’,
D.S. Moore, G. P. McCabe
2
• Χ2s = Σ(O-E)2/E
= Σ (zaobserwowana - oczekiwana)2/oczekiwana
• tutaj =....
• Możemy także testować przeciwko alternatywie
kierunkowej np. HA : p < 0.75. W tym przypadku
odrzucamy H0 gdy oba poniższe warunki są
spełnione:
X2s > χ21(2α), tzn. ...
p̂ < 0.75
tzn. estymator odchyla się od hipotetycznej
wartości w tym samym kierunku co HA
• Wniosek:
Więcej niż 2 klasy
• U słodkiego groszku allel fioletowego koloru kwiatów (F) jest
dominujący nad allelem czerwonego koloru (C) a allel
wydłużonych ziaren pyłku (d) jest dominujący nad allelem
okrągłych ziaren (o). Mamy rodziców homozygotycznych P1
z allelami dominującymi (FFdd) i rodziców
homozygotycznych P2 z allelami recesywnymi (CCoo). W
generacji F1 wszystkie groszki mają genotypy (...........) i
mają fenotypy .....
Groszki z populacji F1 krzyżujemy i dostajemy populację
F2. Przypuszcza się, że geny kontrolujące obie cechy są
odległe o 20 cM. Jeżeli jest to prawdą to w populacji F2
poszczególne fenotypy powinny występować w proporcjach
• 67.44 : 7.56 : 7.56 : 17.44
• Czy geny są w odległości 20 cM ?
• Niech p1, p2, p3, p4 będą p-stwami odpowiednio
fioletowe/wydłużone, fioletowe/okragłe,
czerwone/wydłużone, czerwone/okrągłe w
populacji F2.
H0: p1 =0.6744, p2 = 0.0756, p3 =0.0756, p4
=0.1744 ; p-stwa poszczególnych klas
odpowiadają odległości 20 cM.
HA: p-stwa klas nie odpowiadają odległości 20
cM.
• 67.44% fioletowe/wydłużone
FFdd albo FCdd albo FFdo albo FCdo,
• 7.56% fioletowe/okrągłe : FFoo albo FCoo,
• 7.56% czerwone/wydłużone = CCdd albo CCLdo,
• 17.44% czerwone/okrągłe = CCoo
• Wśród 381 osobników z populacji F2 zaobserwowano
284 fioletowe/wydłużone
21 fioletowe/okrągłe
21 czerwone/wydłużone
55 czerwone/okrągłe
• Użyjemy testu chi-kwadrat, df = #klas - 1 =....
•
•
•
•
Χ2s = Σ(O-E)2/E ma przy H0 rozkład .....
Testujemy na poziomie α = 0.05;
Wartość krytyczna = .....
Wartości oczekiwane liczby obserwacji w
każdej klasie przy H0 (n pi):
3
• Χ2s = ...
• Wniosek: ....
Podsumowanie testu zgodności
chi-kwadrat
• Definiujemy pi dla każdej klasy i
formułujemy hipotezę.
• Jeżeli są tylko dwie klasy, to alternatywę
można łatwo opisać za pomocą wzoru,
może ona też być kierunkowa.
•
•
•
•
Jeżeli mamy więcej niż dwie klasy, to
alternatywę należy opisać słowami.
Dla każdej klasy liczymy Ei = npi .
Sprawdzamy, czy wszystkie Ei są nie
mniejsze niż 5. (Aby można było stosować
test chi-kwadrat)
Liczymy Χ2s = Σ(O-E)2/E sumując po
wszystkich klasach.
Porównujemy z wartością krytyczną z
rozkładu χ2k-1; odrzucamy H0 , gdy statystyka
jest większa od wartości krytycznej.
• Przykład sytuacji 1
Próby to „lekarstwo” i „placebo” (lub dowolne
dwa zabiegi); obserwowana zmienna to
„poprawa” lub „brak poprawy”.
próby „samce" i „samice" (dowolne dwie grupy,
które chcemy porównać); obserwowana
zmienna – np. kolor oczu, ``fioletowe’’ i
„czerwone”.
• Przykład sytuacji 2
• obserwujemy „kolor oczu" (czerwone/fioletowe)
i „kształt skrzydła" (normalny/mniejszy)
• Oberwujemy, czy ludzie palą i czy ćwiczą
Tablice wielodzielcze
• Najpierw tablice”2x2”: dwa rzędy i dwie kolumny
• Dane jakościowe z czterema klasami, które
można połączyć w pary.
• Dwie typowe sytuacje:
Dwie niezależne próby; w każdej obserwujemy
jedną cechę o dwu wartościach
Jedna próba; obserwujemy dwie różne cechy, z
których każda może przyjmować dwie wartości.
4 klasy; obserwacje w tabeli 2x2
Kolor oczu
:
Kszatłt
skrzydła
czerwone
fioletowe
normalne
39
11
mniejsze
18
32
Testujemy niezależność zmiennych definiujących rzędy i kolumny. W tym
przypadku będzie to odpowiadać testowaniu hipotezy, czy oba geny leżą
na innych chromosomach.
4
Przykład (wstępny):
zabieg
Obserwowane
Wynik
Suma
• p1 = p-stwo, że nastąpi poprawa,
jeżeli pacjent bierze lekarstwo
• p2 = p-stwo, że nastąpi poprawa,
jeżeli pacjent bierze placebo
• H0: p1 = p2
• HA: p1 ≠ p2 ( or p1 > p2)
• Niech poziom istotności α =0.01
Suma
Lekarstwo Placebo
Poprawa
15
4
19
Brak
poprawy
11
17
28
26
21
47
• W przeciwieństwie do testu zgodności, nie
mamy hipotetycznych wartości na p. Zamiast
tego, H0 mówi, że oba p-stwa są takie same.
Można to wyrazić w terminach niezależności.
• HA mówi, że p-stwa są różne, co oznacza,
że zmienne ``zabieg’’ i „wynik” nie są
niezależne.
• Podobnie liczba pacjentów, u których
nastąpiła poprawa mimo, że brali placebo
powinna być bliska....
• Ponadto oczekujemy, że nie nastąpiła
poprawa u ..... osób biorących
lekarstwo i u ..... osób biorących placebo.
• Te oczekiwane wartości umieszczamy w
podobnej tabeli.
•
p̂1
=
•
p̂2
=
• Jakich wartości oczekiwalibyśmy, gdyby H0
była prawdziwa ?
• Poprawa nastąpiła u 19 pacjentów. Jest to
19/47 = 40.4% wszystkich badanych. 26
pacjentów brało lekarstwo. Jeżeli H0 jest
prawdziwa, to u około 40.4% z nich powinna
nastąpić poprawa.
Oczekiwane
zabieg
Suma
Lekarstwo Placebo
Wynik
Poprawa 10.5
8.5
19
12.5
28
Suma
Brak
15.5
poprawy
26
21
47
5
Łączymy obie tabele:
Oberwowane (Oczekiwane)
• Ogólnie:
zabieg
Suma
Lekarstwo Placebo
E = (suma w rzędzie)(suma w
kolumnie)/(całkowita suma )
Dla każdej z czterech klas.
Aby stosować test chi-kwadrat, w każdej
klasie E powinno być nie mniejsze niż 5.
Wynik
Poprawa
15 (10.5)
4 (8.5)
19
Brak
poprawy
11 (15.5)
17 (12.5)
28
26
21
47
Suma
• Czy u pacjentów biorących lekarstwo poprawa
występuje częściej niż u pacjentów biorących
placebo ?
• p1 = p-stwo poprawy u pacjentów biorących
lekarstwo
• p2 = p-stwo poprawy u pacjentów biorących
placebo
• H0: p1 = p2 ; p-stwo poprawy jest takie samo w
obu grupach (albo: wynik i zabieg są
niezależne).
• HA: p1 > p2 ; p-stwo poprawy jest większe u
pacjentów biorących lekarstwo
• Stosujemy test χ2 dla niezależności
• X2s = Σ (O-E)2/E przy H0 ma rozkład χ21.
• Testujemy na poziomie istotności α = 0.01;
odrzucamy H0 gdy X2s > ...... [używamy
kolumny 0.02 bo alternatywa jest kierunkowa]
• [Ponieważ alternatywa jest kierunkowa musimy
wykonać kolejny krok]
• Χ2s =.....
• Stopnie swobody
• df = 1 dla tabeli 2x2.
• Ogólnie (#rzędów-1)(#kolumn-1)
• Wniosek:.....
p̂1
p̂2
•
pˆ1
.......
•
pˆ 2
.......
• Wartości krytyczne:
Gdy HA jest niekierunkowa szukamy w kolumnie
α, gdy jest kierunkowa w kolumnie 2α.
6
• Co oznacza odrzucenie H0? Czasami trzeba być
ostrożnym przy formułowaniu wniosków. Gdy
odrzucamy H0 , to mamy przesłanki, aby
przypuszczać, że zmienne nie są niezależne.
• To jednak nie zawsze odpowiada związkowi
przyczynowemu!
• Nasze badanie wskazuje, że stan pacjentów biorących
lekarstwo częściej się poprawia, niż stan pacjentów
biorących placebo.
• Tutaj kontrolowaliśmy zabieg, więc możemy
przypuszczać, że istnieje związek przyczynowy.
Gdybyśmy jednak testowali niezależność koloru oczu i
kształtu skrzydeł u muszek owocówek nie moglibyśmy
stwierdzić związku przyczynowego (np. „Kolor oczu
wpływa na kształt skrzydeł”??). Możemy tylko
powiedzieć, że oba fenotypy są zmiennymi zależnymi.
7

Podobne dokumenty