Wykład 11: Dane jakościowe Rozkład χ2
Transkrypt
Wykład 11: Dane jakościowe Rozkład χ2
Wykład 11: Dane jakościowe • Obserwacje klasyfikujemy do klas • Zliczamy liczbę obserwacji w każdej klasie • Jeżeli są tylko dwie klasy, to jedną z nich możemy nazwać „sukcesem”, a drugą „porażką”. • Generalnie, liczba obserwacji w ustalonej klasie ma rozkład:.... • Przypomnienie: p (nieznane) prawdopodobieństwo sukcesu – np. bycia w klasie 1 n liczba obserwacji. Obserwujemy y = # obserwacji w klasie 1. p̂ = ... y ma rozkład... , Jeżeli np i n(1-p) są dość duże, to rozkład ten możemy aproksymować rozkładem .... Test zgodności chi-kwadrat • Rozważymy przypadek danych jakościowych • Mamy próbę składającą się z n niezależnych obserwacji • Będziemy testowali hipotezy o wartości prawdopodobieństw należenia do poszczególnych klas • Do obliczania wartości krytycznych skorzystamy z przybliżenia rozkładem (normalnym i) chikwadrat, które działa dla dużych rozmiarów prób. • Jeżeli mamy więcej niż dwie klasy, to możemy się skoncentrować na jednej klasie albo rozważać wszystkie klasy na raz Rozkład χ2 • Definicja: Niech Y1, … Yk będą niezależnymi zmiennymi losowymi o rozkładzie N(0,1). Suma kwadratów tych zmiennych ma rozkład χ2k (rozkład chikwadrat z k stopniami swobody). • Zakładamy wartości pi (prawdopodobieństwo ``bycia’’ w i-tej klasie) • Liczymy oczekiwaną liczbę obserwacji w każdej klasie: n×pi • Porównujemy z zaobserwowanymi (zob. dalej) • Uwagi: – Test stosujemy, gdy oczekiwana liczba obserwacji (npi) w każdej z klas nie jest mniejsza od 5. – Test jest w założeniu podobny do testu znaków, ale nie wykorzystuje rozkładu dwumianowego. 1 Prosty przypadek: dwie klasy • Np. samiec/samica, tak/nie, sukces/porażka, poprawa/pogorszenie, itd. • Badamy model genetyczny dziedziczenia pewnej cechy. Mamy dwie linie homozygotyczne muszki Drosophilae, jedną z czerwonymi oczami i jedną z fioletowymi oczami. Sugeruje się, że za kolor oczu odpowiedzialny jest tylko jeden gen i że allel oczu czerwonych dominuje nad allelem oczu fioletowych. • Klasy: Czerwone oczy; hipotetyczne prawdopodobieństwo p =... Oczekiwana liczba czerwonych: E1 =... Fioletowe oczy; hipotetyczne p’ =... • Jeżeli założona hipoteza jest prawdziwa to w krzyżówce F2 stosunek liczby muszek z czerwonymi oczami do liczby muszek z fioletowymi oczami powinien być w przybliżeniu równy: ..... • Aby zweryfikować tę hipotezę wyhodowano 43 muszki z populacji F2 (wykorzystując kilku rodziców z linii homozygotycznych). 29 z tych muszek miało czerwone oczy, a 14 fioletowe oczy. • Czy allel czerwonych oczu dominuje nad allelem fioletowych oczu? • Niech p będzie p-stwem, że muszka w populacji F2 ma czerwone oczy • H0: p = ... ; • HA: .... Oczekiwana liczba: E2 =... • • • • • Użyjemy testu zgodności chi-kwadrat Χ2s = Σ(O-E)2/E przy H0 ma w przybliżeniu rozkład chi-kwadrat z df = #klas - 1 = ... . Testujemy na poziomie α = 0.05 Wartość krytyczna = ... p̂ = Tablica wartości krytycznych z książki ``Introduction to the Practice of Statistics’’, D.S. Moore, G. P. McCabe 2 • Χ2s = Σ(O-E)2/E = Σ (zaobserwowana - oczekiwana)2/oczekiwana • tutaj =.... • Możemy także testować przeciwko alternatywie kierunkowej np. HA : p < 0.75. W tym przypadku odrzucamy H0 gdy oba poniższe warunki są spełnione: X2s > χ21(2α), tzn. ... p̂ < 0.75 tzn. estymator odchyla się od hipotetycznej wartości w tym samym kierunku co HA • Wniosek: Więcej niż 2 klasy • U słodkiego groszku allel fioletowego koloru kwiatów (F) jest dominujący nad allelem czerwonego koloru (C) a allel wydłużonych ziaren pyłku (d) jest dominujący nad allelem okrągłych ziaren (o). Mamy rodziców homozygotycznych P1 z allelami dominującymi (FFdd) i rodziców homozygotycznych P2 z allelami recesywnymi (CCoo). W generacji F1 wszystkie groszki mają genotypy (...........) i mają fenotypy ..... Groszki z populacji F1 krzyżujemy i dostajemy populację F2. Przypuszcza się, że geny kontrolujące obie cechy są odległe o 20 cM. Jeżeli jest to prawdą to w populacji F2 poszczególne fenotypy powinny występować w proporcjach • 67.44 : 7.56 : 7.56 : 17.44 • Czy geny są w odległości 20 cM ? • Niech p1, p2, p3, p4 będą p-stwami odpowiednio fioletowe/wydłużone, fioletowe/okragłe, czerwone/wydłużone, czerwone/okrągłe w populacji F2. H0: p1 =0.6744, p2 = 0.0756, p3 =0.0756, p4 =0.1744 ; p-stwa poszczególnych klas odpowiadają odległości 20 cM. HA: p-stwa klas nie odpowiadają odległości 20 cM. • 67.44% fioletowe/wydłużone FFdd albo FCdd albo FFdo albo FCdo, • 7.56% fioletowe/okrągłe : FFoo albo FCoo, • 7.56% czerwone/wydłużone = CCdd albo CCLdo, • 17.44% czerwone/okrągłe = CCoo • Wśród 381 osobników z populacji F2 zaobserwowano 284 fioletowe/wydłużone 21 fioletowe/okrągłe 21 czerwone/wydłużone 55 czerwone/okrągłe • Użyjemy testu chi-kwadrat, df = #klas - 1 =.... • • • • Χ2s = Σ(O-E)2/E ma przy H0 rozkład ..... Testujemy na poziomie α = 0.05; Wartość krytyczna = ..... Wartości oczekiwane liczby obserwacji w każdej klasie przy H0 (n pi): 3 • Χ2s = ... • Wniosek: .... Podsumowanie testu zgodności chi-kwadrat • Definiujemy pi dla każdej klasy i formułujemy hipotezę. • Jeżeli są tylko dwie klasy, to alternatywę można łatwo opisać za pomocą wzoru, może ona też być kierunkowa. • • • • Jeżeli mamy więcej niż dwie klasy, to alternatywę należy opisać słowami. Dla każdej klasy liczymy Ei = npi . Sprawdzamy, czy wszystkie Ei są nie mniejsze niż 5. (Aby można było stosować test chi-kwadrat) Liczymy Χ2s = Σ(O-E)2/E sumując po wszystkich klasach. Porównujemy z wartością krytyczną z rozkładu χ2k-1; odrzucamy H0 , gdy statystyka jest większa od wartości krytycznej. • Przykład sytuacji 1 Próby to „lekarstwo” i „placebo” (lub dowolne dwa zabiegi); obserwowana zmienna to „poprawa” lub „brak poprawy”. próby „samce" i „samice" (dowolne dwie grupy, które chcemy porównać); obserwowana zmienna – np. kolor oczu, ``fioletowe’’ i „czerwone”. • Przykład sytuacji 2 • obserwujemy „kolor oczu" (czerwone/fioletowe) i „kształt skrzydła" (normalny/mniejszy) • Oberwujemy, czy ludzie palą i czy ćwiczą Tablice wielodzielcze • Najpierw tablice”2x2”: dwa rzędy i dwie kolumny • Dane jakościowe z czterema klasami, które można połączyć w pary. • Dwie typowe sytuacje: Dwie niezależne próby; w każdej obserwujemy jedną cechę o dwu wartościach Jedna próba; obserwujemy dwie różne cechy, z których każda może przyjmować dwie wartości. 4 klasy; obserwacje w tabeli 2x2 Kolor oczu : Kszatłt skrzydła czerwone fioletowe normalne 39 11 mniejsze 18 32 Testujemy niezależność zmiennych definiujących rzędy i kolumny. W tym przypadku będzie to odpowiadać testowaniu hipotezy, czy oba geny leżą na innych chromosomach. 4 Przykład (wstępny): zabieg Obserwowane Wynik Suma • p1 = p-stwo, że nastąpi poprawa, jeżeli pacjent bierze lekarstwo • p2 = p-stwo, że nastąpi poprawa, jeżeli pacjent bierze placebo • H0: p1 = p2 • HA: p1 ≠ p2 ( or p1 > p2) • Niech poziom istotności α =0.01 Suma Lekarstwo Placebo Poprawa 15 4 19 Brak poprawy 11 17 28 26 21 47 • W przeciwieństwie do testu zgodności, nie mamy hipotetycznych wartości na p. Zamiast tego, H0 mówi, że oba p-stwa są takie same. Można to wyrazić w terminach niezależności. • HA mówi, że p-stwa są różne, co oznacza, że zmienne ``zabieg’’ i „wynik” nie są niezależne. • Podobnie liczba pacjentów, u których nastąpiła poprawa mimo, że brali placebo powinna być bliska.... • Ponadto oczekujemy, że nie nastąpiła poprawa u ..... osób biorących lekarstwo i u ..... osób biorących placebo. • Te oczekiwane wartości umieszczamy w podobnej tabeli. • p̂1 = • p̂2 = • Jakich wartości oczekiwalibyśmy, gdyby H0 była prawdziwa ? • Poprawa nastąpiła u 19 pacjentów. Jest to 19/47 = 40.4% wszystkich badanych. 26 pacjentów brało lekarstwo. Jeżeli H0 jest prawdziwa, to u około 40.4% z nich powinna nastąpić poprawa. Oczekiwane zabieg Suma Lekarstwo Placebo Wynik Poprawa 10.5 8.5 19 12.5 28 Suma Brak 15.5 poprawy 26 21 47 5 Łączymy obie tabele: Oberwowane (Oczekiwane) • Ogólnie: zabieg Suma Lekarstwo Placebo E = (suma w rzędzie)(suma w kolumnie)/(całkowita suma ) Dla każdej z czterech klas. Aby stosować test chi-kwadrat, w każdej klasie E powinno być nie mniejsze niż 5. Wynik Poprawa 15 (10.5) 4 (8.5) 19 Brak poprawy 11 (15.5) 17 (12.5) 28 26 21 47 Suma • Czy u pacjentów biorących lekarstwo poprawa występuje częściej niż u pacjentów biorących placebo ? • p1 = p-stwo poprawy u pacjentów biorących lekarstwo • p2 = p-stwo poprawy u pacjentów biorących placebo • H0: p1 = p2 ; p-stwo poprawy jest takie samo w obu grupach (albo: wynik i zabieg są niezależne). • HA: p1 > p2 ; p-stwo poprawy jest większe u pacjentów biorących lekarstwo • Stosujemy test χ2 dla niezależności • X2s = Σ (O-E)2/E przy H0 ma rozkład χ21. • Testujemy na poziomie istotności α = 0.01; odrzucamy H0 gdy X2s > ...... [używamy kolumny 0.02 bo alternatywa jest kierunkowa] • [Ponieważ alternatywa jest kierunkowa musimy wykonać kolejny krok] • Χ2s =..... • Stopnie swobody • df = 1 dla tabeli 2x2. • Ogólnie (#rzędów-1)(#kolumn-1) • Wniosek:..... p̂1 p̂2 • pˆ1 ....... • pˆ 2 ....... • Wartości krytyczne: Gdy HA jest niekierunkowa szukamy w kolumnie α, gdy jest kierunkowa w kolumnie 2α. 6 • Co oznacza odrzucenie H0? Czasami trzeba być ostrożnym przy formułowaniu wniosków. Gdy odrzucamy H0 , to mamy przesłanki, aby przypuszczać, że zmienne nie są niezależne. • To jednak nie zawsze odpowiada związkowi przyczynowemu! • Nasze badanie wskazuje, że stan pacjentów biorących lekarstwo częściej się poprawia, niż stan pacjentów biorących placebo. • Tutaj kontrolowaliśmy zabieg, więc możemy przypuszczać, że istnieje związek przyczynowy. Gdybyśmy jednak testowali niezależność koloru oczu i kształtu skrzydeł u muszek owocówek nie moglibyśmy stwierdzić związku przyczynowego (np. „Kolor oczu wpływa na kształt skrzydeł”??). Możemy tylko powiedzieć, że oba fenotypy są zmiennymi zależnymi. 7