Rozkłady dwuwymiarowe Tablice dwudzielcze Przykład (wstępny):

Transkrypt

Rozkłady dwuwymiarowe Tablice dwudzielcze Przykład (wstępny):
Rozkłady dwuwymiarowe
Tablice dwudzielcze
• Najprostsze tablice”2x2”: dwa rzędy i dwie
kolumny
• Dane jakościowe z czterema klasami, które
można połączyć w pary.
• Dwie typowe sytuacje:
Dwie niezależne próby; w każdej obserwujemy
jedną cechę o dwu wartościach
Jedna próba; obserwujemy dwie różne cechy, z
których każda może przyjmować dwie wartości.
Rozkłady brzegowe
Rozkłady warunkowe
Niezależność
Kowariancja
Współczynnik korelacji
(Przykłady na tablicy)
• Przykład sytuacji 1
Próby to „lekarstwo” i „placebo” (lub dowolne
dwa zabiegi); obserwowana zmienna to
„poprawa” lub „brak poprawy”.
próby „samce" i „samice" (dowolne dwie grupy,
które chcemy porównać); obserwowana
zmienna – np. kolor oczu, ``fioletowe’’ i
„czerwone”.
• Przykład sytuacji 2
• obserwujemy „kolor oczu" (czerwone/fioletowe)
i „kształt skrzydła" (normalny/mniejszy)
• Oberwujemy, czy ludzie palą i czy ćwiczą
4 klasy; obserwacje w tabeli 2x2
Kolor oczu
:
Kszatłt
skrzydła
czerwone
fioletowe
normalne
39
11
mniejsze
18
32
Testujemy niezależność zmiennych definiujących rzędy i kolumny. W tym
przypadku będzie to odpowiadać testowaniu hipotezy, czy oba geny leżą
na innych chromosomach.
Przykład (wstępny):
zabieg
Obserwowane
Wynik
Suma
Suma
Lekarstwo Placebo
Poprawa
15
4
19
Brak
poprawy
11
17
28
26
21
47
• p1 = P(P|L)-p-stwo, że nastąpi
poprawa, jeżeli pacjent bierze
lekarstwo
• p2 = P(P|Pl)-p-stwo, że nastąpi
poprawa, jeżeli pacjent bierze
placebo
• H0: p1 = p2
• HA: p1 ≠ p2 ( lub p1 > p2)
• Poziom istotności α =0.01
1
• W przeciwieństwie do testu zgodności, nie
mamy hipotetycznych wartości dla p.
Zamiast tego H0 mówi, że oba p-stwa
warunkowe są takie same, i.e. ‘’wynik’’ i
``zabieg’’ to zmienne niezależne
• HA mówi, że p-stwa warunkowe są różne, co
oznacza, że zmienne ``zabieg’’ i „wynik” są
zależne.
• Podobnie liczba pacjentów, u których
nastąpiła poprawa mimo, że brali placebo
powinna być bliska....
• Ponadto oczekujemy, że nie nastąpiła
poprawa u ..... osób biorących
lekarstwo i u ..... osób biorących placebo.
• Te oczekiwane wartości umieszczamy w
podobnej tabeli.
•
p̂1
=
•
p̂2
=
• Jakich wartości oczekiwalibyśmy, gdyby H0
była prawdziwa ?
• Poprawa nastąpiła u 19 pacjentów. Jest to
19/47 = 40.4% wszystkich badanych. 26
pacjentów brało lekarstwo. Jeżeli H0 jest
prawdziwa, to u około 40.4% z nich powinna
nastąpić poprawa.
Oczekiwane
zabieg
Suma
Lekarstwo Placebo
Wynik
Poprawa 10.5
8.5
19
12.5
28
Suma
15.5
Brak
poprawy
26
21
47
Łączymy obie tabele:
Oberwowane (Oczekiwane)
• Ogólnie:
E = (suma w rzędzie)(suma w
kolumnie)/(całkowita suma )
Dla każdej z czterech klas.
Aby stosować test chi-kwadrat, w każdej
klasie E powinno być nie mniejsze niż 5.
zabieg
Suma
Lekarstwo Placebo
Wynik
Suma
Poprawa
15 (10.5)
4 (8.5)
19
Brak
poprawy
11 (15.5)
17 (12.5)
28
26
21
47
2
• Czy u pacjentów biorących lekarstwo poprawa
występuje częściej niż u pacjentów biorących
placebo ?
• p1 = p-stwo poprawy u pacjentów biorących
lekarstwo
• p2 = p-stwo poprawy u pacjentów biorących
placebo
• H0: p1 = p2 ; p-stwo poprawy jest takie samo w
obu grupach (albo: wynik i zabieg są
niezależne).
• HA: p1 > p2 ; p-stwo poprawy jest większe u
pacjentów biorących lekarstwo
• Χ2s =.....
• Wniosek:.....
p̂1
p̂2
• Stosujemy test χ2 dla niezależności
• X2s = Σ (O-E)2/E przy H0 ma rozkład χ21.
• Testujemy na poziomie istotności α = 0.01;
odrzucamy H0 gdy X2s > ...... [używamy
kolumny 0.02 bo alternatywa jest kierunkowa]
• [Ponieważ alternatywa jest kierunkowa musimy
wykonać kolejny krok]
•
pˆ1
.......
•
pˆ 2
.......
• Stopnie swobody
• df = 1 dla tabeli 2x2.
• Ogólnie (#rzędów-1)(#kolumn-1)
• Wartości krytyczne:
Gdy HA jest niekierunkowa szukamy w kolumnie
α, gdy jest kierunkowa w kolumnie 2α.
• Co oznacza odrzucenie H0? Czasami trzeba być
ostrożnym przy formułowaniu wniosków. Gdy
odrzucamy H0 , to mamy przesłanki, aby
przypuszczać, że zmienne nie są niezależne.
• To jednak nie zawsze odpowiada związkowi
przyczynowemu!
• Nasze badanie wskazuje, że stan pacjentów biorących
lekarstwo częściej się poprawia, niż stan pacjentów
biorących placebo.
• Tutaj kontrolowaliśmy zabieg, więc możemy
przypuszczać, że istnieje związek przyczynowy.
Gdybyśmy jednak testowali niezależność koloru oczu i
kształtu skrzydeł u muszek owocówek nie moglibyśmy
stwierdzić związku przyczynowego (np. „Kolor oczu
wpływa na kształt skrzydeł”??). Możemy tylko
powiedzieć, że oba fenotypy są zmiennymi zależnymi.
3
Przykład z muszkami (krzyżówka
wsteczna CcNn z ccnn)
• Uzupełniamy tabelkę wartościami
oczekiwanymi przy Ho
Kolor oczu
Kolor oczu
Rozmiar
skrzydła
normalne
mniejsze
czerwone
czerwone
fioletowe
39
11
18
32
• Czy w badanej populacji muszek kolor oczu i
kształt skrzydła są zmiennymi niezależnymi ?
• p1 = Pr(czerwone oczy | normalne skrzydła),
• p2 = Pr(czerwone oczy | mniejsze skrzydła),
H0: p1 = p2 ; kolor oczu i rozmiar skrzydła są
niezależne
• HA: p1 ≠ p2 ; kolor oczu i rozmiar skrzydła są
zmiennymi zależnymi
• Można obliczyć, że:
Suma
fioletowe
Kształt normalne
skrzydła
mniejsze
39 (
)
11 (
)
50
18 (
)
32 (
)
50
Suma
57
43
100
• Zastosujemy test chi-kwadrat dla niezależności
• Χ2s = Σ (O-E)2/E ma przy H0 rozkład χ21 .
• Testujemy na poziomie α = 0.05; odrzucamy
gdy Χ2s > 3.84 = Χ2krytyczne
• X2 =...
• Wniosek:...
p̂1
p̂2
• Nie możemy jednak powiedzieć, że czerwone
oczy powodują, że muszka ma normalne
skrzydła. Prawidłowy wniosek to obserwacja,
że kolor oczu i kształt skrzydła są zmiennymi
zależnymi, albo że u muszek z normalnymi
skrzydłami częściej występują czerwone oczy
niż u muszek z mniejszymi skrzydłami.
• Nie możemy formułować wniosku
przyczynowego, ponieważ nie kontrolujemy
analizowanych zmiennych, a jedynie je
obserwujemy. [W tym wypadku zależność
wynika z faktu, że geny determinujące kształt
oczu i rozmiar skrzydła leżą na jednym
chromosomie.]
Tablice wielodzielcze: r×k
• r rzędów, k kolumn: r×k
• Analiza analogiczna do tablic 2×2.
• Przykład: 3×4 (r = 3 ; k = 4 )
4
Kolor włosów
Kolor Brązooczu
we
Suma
Brązowe Czarne Jasne
Rude
438
(331.7)
16
857
(14.6)
288
115
(154.1) (356.5)
Szare/ 1387
746
946
53
3132
Zielone (1212.3) (563.3) (1303.0) (53.4)
Niebies 807
189
1768
47
2811
kie
(1088.0) (505.6) (1169.5) (48.0)
Suma
2632
1223
2829
116
6800
• Testujemy na poziomie α = .0005. Wartość
krytyczna χ26 = ...
• Χ2s =...
• Wniosek...
• Testowanie niezależności odpowiada
testowaniu, że odpowiednie p-stwa warunkowe
są te same w każdej klasie.
• Gdy testujemy niezależność w dużych tabelach,
to na ogół nie zapisujemy H0 za pomocą
prawdopodobieństw warunkowych.
• Przypomnienie założeń:
Próby losowe
Obserwacje niezależne
"E" w każdej komórce musi być ≥ 5
• Czy kolor oczu i włosów są zmiennymi
zależnymi?
• H0: Kolor włosów i kolor oczu to zmienne
niezależne
• HA: Kolor oczu i kolor włosów to zmienne
zależne
• Wykonujemy test niezależności chi-kwadrat
• Χ2 = Σ(O-E)2/E ma przy H0 rozkład χ26.
• df = (r-1)(k-1) = (2)(3) = 6
• Estymator dla Pr(Oczy niebieskie) =...
• Estymator dla Pr(Oczy niebieskie| włosy
brązowe) =...
• Estymator dla Pr(Oczy niebieskie | czarne
włosy) =...
• Estymator dla Pr(Oczy niebieskie | jasne
włosy) =...
• Estymator dla Pr(Oczy niebieskie | rude
włosy) =...
Dokładny test Fishera
• Stosujemy dla małych rozmiarów prób
• Przykład : ECMO
• ECMO to ``nowa’’ procedura służąca
ratowaniu noworodków cierpiących na
poważne zaburzenia pracy układu
oddechowego.
• CMT – konwencjonalna terapia
5
Zabieg
Wynik
CMT
ECMO
Suma
Zgon
4
1
5
Życie
6
28
34
Suma
10
29
39
– Na ile sposobów dokładnie 4 dzieci spośród 5 z tych
które „miały” umrzeć mogło przypadkowo zostać
przyporządkowanych do grupy CMT:...
– Na ile sposobów dokładnie 6 dzieci spośród 34 z tych
które „miały’’ przeżyć mogło przypadkowo zostać
przyporządkowanych do grupy CMT:...
– Na ile sposobów 10 dzieci spośród 39 mogło
przypadkowo zostać przyporządkowanych do grupy
CMT:...
• H0: wynik nie zależy od zabiegu
• Znajdziemy warunkowe prawdopodobieństwo
zaobserwowanych wyników przy ustalonych
``sumach’’ w rzędach i kolumnach (przy H0 ).
• Przypomnijmy symbol Newtona -  n 
k 
 
• Na tyle sposobów można wybrać zbiór k
elementowy ze zbioru n elementowego
• HA: ECMO jest lepsza niż CMT
• Przypadki bardziej ekstremalne w kierunku
alternatywy
# liczba śmierci = CMT:4, ECMO:1 → CMT:5,
ECMO:0
• P-wartość =...
• Wniosek:...
6