Wykład 14 Test chi-kwadrat zgodności

Transkrypt

Wykład 14 Test chi-kwadrat zgodności
1/27/2015
Wykład 14
Test chi-kwadrat zgodności
• Obserwacje klasyfikujemy do
jakościowych klas
• Zliczamy liczbę obserwacji w każdej klasie
• Jeżeli są tylko dwie klasy, to liczba
obserwacji w pierszej klasie ma rozkład
• Przypomnienie:
p (nieznane) p-stwo sukcesu – np. bycia w
klasie 1
n liczba obserwacji.
Obserwujemy y = # obserwacji w klasie 1.
p̂ =

y ma rozkład
,
Jeżeli np i n(1-p) są dość duże to rozkład ten
możemy aproksymować rozkładem
• Jeżeli mamy więcej niż dwie klasy,
Możemy się skoncentrować na jednej
klasie - rozkład
Albo możemy rozważać wszystkie klasy
na raz
• Rozkład 2
• Niech y1, … yk będą niezależnymi zmiennymi
losowymi o rozkładzie N(0,1). Suma kwadratów
tych zmiennych ma rozkład 2k (rozkład chikwadrat z k stopniami swobody).
1
1/27/2015
Test zgodności chi-kwadrat
• Rozważymy przypadek danych
jakościowych
• Mamy próbę składającą się z n
niezależnych obserwacji
• Będziemy testowali hipotezę o p-stwach
należenia do poszczególnych klas
• Do obliczania wartości krytycznych
skorzystamy z przybliżenia, które działa
dla dużych rozmiarów prób.
Prosty przypadek: dwie klasy
• Np. samiec/samica, tak/nie, sukces/porażka,
poprawa/pogorszenie, itd.
• Badamy model genetyczny dziedziczenia
pewnej cechy. Mamy dwie linie
homozygotyczne muszki Drosophila, jedną z
czerwonymi oczami i jedną z fioletowymi
oczami. Sugeruje się, że za kolor oczu
odpowiedzialny jest tylko jeden gen i że allel
oczu czerwonych dominuje nad allelem
oczu fioletowych.
• Liczymy oczekiwaną liczbę obserwacji w
każdej klasie: npi (pi – założone p-stwo
``bycia’’ w i-tej klasie)
• Test możemy stosować gdy oczekiwana
liczba obserwacji w każdej z klas jest
niemniejsza niż 5.
• Test jest w założeniu podobny do testu
znaków ale nie wykorzystuje rozkładu
dwumianowego.
• Jeżeli założona hipoteza jest prawdziwa to
w krzyżówce F2 stosunek liczby muszek
z czerwonymi oczami do liczby muszek z
fioletowymi oczami powinien być w
przybliżeniu równy
• Aby zweryfikować tę hipotezę
wyhodowano 43 muszki z populacji F2
(wykorzystując kilku rodziców z linii
homozygotycznych). 29 z tych muszek
miało czerwone oczy a 14 fioletowe oczy.
2
1/27/2015
• Klasy:
Czerwone oczy; hipotetyczne p-stwo p =
 oczekiwana liczba: E1 =
Fioletowe oczy; hipotetyczne p-stwo p =
Oczekiwana liczba: E2 =
• Czy allel czerwonych oczu dominuje nad
allelem fioletowych oczu ?
• Niech p będzie p-stwem, że muszka w
populacji F2 ma czerwone oczy
• H0: p =
;
• HA :
• Użyjemy testu zgodności chi-kwadrat
• 2s = (O-E)2/E przy H0 ma w
przybliżeniu rozkład chi-kwadrat z df =
#klas - 1 =
.
• Testujemy na poziomie  = 0.05 ;
• Wartość krytyczna=
•
p̂ =
p
3
1/27/2015
• 2s =  (zaobserwowana - oczekiwana)2 /
oczekiwana = (O-E)2/E
• =
• Możemy także testować przeciwko alternatywie
kierunkowej np. p < 0.75. W tym przypadku
odrzucamy H0 gdy OBA poniższe warunki sa
spełnione:
X2s > 21(2), tzn.

• Wniosek:
Więcej niż 2 klasy
• U słodkiego groszku allel fioletowego koloru kwiatów (F) jest
dominujący nad allelem czerwonego koloru (C) a allel
wydłużonych ziaren pyłku (d) jest dominujący nad allelem
okrągłych ziaren (o). Mamy P1 rodziców homozygotycznych
z allelami dominującymi (FFdd) i P2 rodziców
homozygotycznych z allelami recesywnymi (CCoo). W
generacji F1 wszystkie groszki mają genotypy (
) i
mają
Groszki z populacji F1 krzyżujemy i dostajemy populację
F2. Przypuszcza się, że geny kontrolujące obie cechy są
odległe o 20 cM. Jeżeli jest to prawdą to w populacji F2
poszczególne fenotypy powinny występować w proporcjach
• 67.44:7.56:7.56:17.44
p̂ < 0.75 (tzn estymator odchyla się od
hipotetycznej wartości w tym samym kierunku
co HA)
• 67.44% fioletowe/wydłużone
FFdd albo FCdd albo FFdo albo FCdo,
[(2 -2+3)/4]
• 7.56% fioletowe/okrągłe : FFoo albo FCoo, [(2-2)/4]
• 7.56% czerwone/wydłużone = CCdd albo CCLdo,
[(2-2)/4]
• 17.44% czerwone/okrągłe = CCoo,
[(1-)2/4],
• Gdzie =0.1648 (p-stwo rekombinacji).
• Wyhodowano 381 osobników z populacji F2 i
zaobserwowano
 284 fioletowe/wydłużone
 21 fioletowe/okrągłe
 21 czerwone/wydłużone
 55 czerwone/okrągłe
4
1/27/2015
• Czy geny są w odległości 20 cM ?
• Niech p1, p2, p3, p4 będą p-stwami odpowiednio
fioletowe/wydłużone, fioletowe/okragłe,
czerwone/wydłużone, czerwone/okrągłe w
populacji F2.
H0: p1 =0.6744, p2 = 0.0756, p3 =0.0756, p4
=0.1744 ; p-stwa poszczególnych klas
odpowiadają odległości 20 cM.
HA: p-stwa klas nie odpowiadają odległości 20
cM.
• 2s =
• Użyjemy testu chi-kwadrat, df = #klas - 1 =
•
•
•
•
2s = (O-E)2/E ma przy H0 rozkład
Testujemy na poziomie  = 0.05;
Wartość krytyczna =
Wartości oczekiwane liczby obserwacji w
każdej klasie przy H0 (n pi):

Podsumowanie testu chi-kwadrat
zgodności
• Wniosek:
• Definiujemy pi dla każdej klasy i
formułujemy hipotezę.
• Jeżeli są tylko dwie klasy to alternatywę
można łatwo opisać za pomocą wzoru,
może ona też być kierunkowa.
5
1/27/2015
•
•
•
•
Jeżeli mamy więcej niż dwie klasy alternatywę
należy opisać słowami.
Dla każdej klasy liczymy Ei = npi .
Sprawdzamy czy wszystkie Ei są nie
mniejsze niż 5. (Jeżeli nie to nie można
stosować testu chi-kwadrat)
Liczymy 2s = (O-E)2/E sumując po
wszystkich klasach.
Porównujemy z wartością krytyczną z
rozkładu 2k-1; odrzucamy H0 gdy statystyka
jest większa od wartości krytycznej.
6