Wykład 14 Test chi-kwadrat zgodności
Transkrypt
Wykład 14 Test chi-kwadrat zgodności
1/27/2015 Wykład 14 Test chi-kwadrat zgodności • Obserwacje klasyfikujemy do jakościowych klas • Zliczamy liczbę obserwacji w każdej klasie • Jeżeli są tylko dwie klasy, to liczba obserwacji w pierszej klasie ma rozkład • Przypomnienie: p (nieznane) p-stwo sukcesu – np. bycia w klasie 1 n liczba obserwacji. Obserwujemy y = # obserwacji w klasie 1. p̂ = y ma rozkład , Jeżeli np i n(1-p) są dość duże to rozkład ten możemy aproksymować rozkładem • Jeżeli mamy więcej niż dwie klasy, Możemy się skoncentrować na jednej klasie - rozkład Albo możemy rozważać wszystkie klasy na raz • Rozkład 2 • Niech y1, … yk będą niezależnymi zmiennymi losowymi o rozkładzie N(0,1). Suma kwadratów tych zmiennych ma rozkład 2k (rozkład chikwadrat z k stopniami swobody). 1 1/27/2015 Test zgodności chi-kwadrat • Rozważymy przypadek danych jakościowych • Mamy próbę składającą się z n niezależnych obserwacji • Będziemy testowali hipotezę o p-stwach należenia do poszczególnych klas • Do obliczania wartości krytycznych skorzystamy z przybliżenia, które działa dla dużych rozmiarów prób. Prosty przypadek: dwie klasy • Np. samiec/samica, tak/nie, sukces/porażka, poprawa/pogorszenie, itd. • Badamy model genetyczny dziedziczenia pewnej cechy. Mamy dwie linie homozygotyczne muszki Drosophila, jedną z czerwonymi oczami i jedną z fioletowymi oczami. Sugeruje się, że za kolor oczu odpowiedzialny jest tylko jeden gen i że allel oczu czerwonych dominuje nad allelem oczu fioletowych. • Liczymy oczekiwaną liczbę obserwacji w każdej klasie: npi (pi – założone p-stwo ``bycia’’ w i-tej klasie) • Test możemy stosować gdy oczekiwana liczba obserwacji w każdej z klas jest niemniejsza niż 5. • Test jest w założeniu podobny do testu znaków ale nie wykorzystuje rozkładu dwumianowego. • Jeżeli założona hipoteza jest prawdziwa to w krzyżówce F2 stosunek liczby muszek z czerwonymi oczami do liczby muszek z fioletowymi oczami powinien być w przybliżeniu równy • Aby zweryfikować tę hipotezę wyhodowano 43 muszki z populacji F2 (wykorzystując kilku rodziców z linii homozygotycznych). 29 z tych muszek miało czerwone oczy a 14 fioletowe oczy. 2 1/27/2015 • Klasy: Czerwone oczy; hipotetyczne p-stwo p = oczekiwana liczba: E1 = Fioletowe oczy; hipotetyczne p-stwo p = Oczekiwana liczba: E2 = • Czy allel czerwonych oczu dominuje nad allelem fioletowych oczu ? • Niech p będzie p-stwem, że muszka w populacji F2 ma czerwone oczy • H0: p = ; • HA : • Użyjemy testu zgodności chi-kwadrat • 2s = (O-E)2/E przy H0 ma w przybliżeniu rozkład chi-kwadrat z df = #klas - 1 = . • Testujemy na poziomie = 0.05 ; • Wartość krytyczna= • p̂ = p 3 1/27/2015 • 2s = (zaobserwowana - oczekiwana)2 / oczekiwana = (O-E)2/E • = • Możemy także testować przeciwko alternatywie kierunkowej np. p < 0.75. W tym przypadku odrzucamy H0 gdy OBA poniższe warunki sa spełnione: X2s > 21(2), tzn. • Wniosek: Więcej niż 2 klasy • U słodkiego groszku allel fioletowego koloru kwiatów (F) jest dominujący nad allelem czerwonego koloru (C) a allel wydłużonych ziaren pyłku (d) jest dominujący nad allelem okrągłych ziaren (o). Mamy P1 rodziców homozygotycznych z allelami dominującymi (FFdd) i P2 rodziców homozygotycznych z allelami recesywnymi (CCoo). W generacji F1 wszystkie groszki mają genotypy ( ) i mają Groszki z populacji F1 krzyżujemy i dostajemy populację F2. Przypuszcza się, że geny kontrolujące obie cechy są odległe o 20 cM. Jeżeli jest to prawdą to w populacji F2 poszczególne fenotypy powinny występować w proporcjach • 67.44:7.56:7.56:17.44 p̂ < 0.75 (tzn estymator odchyla się od hipotetycznej wartości w tym samym kierunku co HA) • 67.44% fioletowe/wydłużone FFdd albo FCdd albo FFdo albo FCdo, [(2 -2+3)/4] • 7.56% fioletowe/okrągłe : FFoo albo FCoo, [(2-2)/4] • 7.56% czerwone/wydłużone = CCdd albo CCLdo, [(2-2)/4] • 17.44% czerwone/okrągłe = CCoo, [(1-)2/4], • Gdzie =0.1648 (p-stwo rekombinacji). • Wyhodowano 381 osobników z populacji F2 i zaobserwowano 284 fioletowe/wydłużone 21 fioletowe/okrągłe 21 czerwone/wydłużone 55 czerwone/okrągłe 4 1/27/2015 • Czy geny są w odległości 20 cM ? • Niech p1, p2, p3, p4 będą p-stwami odpowiednio fioletowe/wydłużone, fioletowe/okragłe, czerwone/wydłużone, czerwone/okrągłe w populacji F2. H0: p1 =0.6744, p2 = 0.0756, p3 =0.0756, p4 =0.1744 ; p-stwa poszczególnych klas odpowiadają odległości 20 cM. HA: p-stwa klas nie odpowiadają odległości 20 cM. • 2s = • Użyjemy testu chi-kwadrat, df = #klas - 1 = • • • • 2s = (O-E)2/E ma przy H0 rozkład Testujemy na poziomie = 0.05; Wartość krytyczna = Wartości oczekiwane liczby obserwacji w każdej klasie przy H0 (n pi): Podsumowanie testu chi-kwadrat zgodności • Wniosek: • Definiujemy pi dla każdej klasy i formułujemy hipotezę. • Jeżeli są tylko dwie klasy to alternatywę można łatwo opisać za pomocą wzoru, może ona też być kierunkowa. 5 1/27/2015 • • • • Jeżeli mamy więcej niż dwie klasy alternatywę należy opisać słowami. Dla każdej klasy liczymy Ei = npi . Sprawdzamy czy wszystkie Ei są nie mniejsze niż 5. (Jeżeli nie to nie można stosować testu chi-kwadrat) Liczymy 2s = (O-E)2/E sumując po wszystkich klasach. Porównujemy z wartością krytyczną z rozkładu 2k-1; odrzucamy H0 gdy statystyka jest większa od wartości krytycznej. 6