Statystyka matematyczna Test 2
Transkrypt
Statystyka matematyczna Test 2
Statystyka matematyczna Test χ2 Wrocław, 18.03.2016r Zakres stosowalności Testowanie zgodności Testowanie niezależności Test McNemara Test ilorazu szans ZAKRES STOSOWALNOŚCI TESTÓW Testowanie zależności pomiędzy kategoriami 1. Dane w formie częstości – ilość obserwacji w danej kategorii (%, średnia, prawdopodobieństwo, ) 2. Dane podzielone na kategorie – nominalne, porządkowe, (ciągłe ) 3. Nie należy stosować testów gdy: • Oczekiwana częstotliwość dla pewnych kategorii jest mała ( < 5 ) Copyright ©2014, Joanna Szyda Test χ2 zgodności Test Chi-kwadrat zgodności Niech X = (X1 , X2 , . . . , Xn ) będzie próbą o dystrybuancie F . Testujemy hipotezę: H0 : H1 : F = F0 F 6= F0 Statystyka testowa jest postaci: χ2 = k X (Ni − npi )2 i=1 npi , gdzie: n - liczba wszystkich obserwacji, k - liczba klas, Ni - liczba obserwacji w i - tej klasie, pi - teoretyczne prawdopodobieństwo przy prawdziwej H0 . Odrzucamy hipotezę zerową, gdy χ2 > χ21−α (k − 1) Przykład 7.1 TEST 2 KLASYFIKACJA JEDNOCZYNNIKOWA KOLOR Biały CZĘSTOŚĆ PRÓBA DANYCH Żółty Żółty 8 Żółty Czerwony Czerwony 5 Żółty Biały Żółty 4 1. Klasyfikacja danych wg pojedynczego kryterium 2. Kolor kwiatów krokusa Żółty Żółty SUMA Czerwony 17 Biały Czerwony Żółty Czerwony Czerwony Biały Żółty Biały Copyright ©2010, Joanna Szyda Przykład 7.1 - c.d. Testujemy hipotezę: H0 : wszystkie kolory występują jednakowo często H1 : kolory występują z różną częstością W tym przypadku jest to równoważne: H0 : p 1 = p 2 = p 3 H1 : pi 6= pj , i, j = 1, 2, 3 Przykład 7.1 - c.d. Ni pi żółty czerwony biały 8 5 4 1/3 1/3 1/3 Wyznaczamy wartość statystyki testowej: χ2 = 3 X (Ni − npi )2 i=1 npi = (8 − 17/3)2 (5 − 17/3)2 (4 − 17/3)2 + + = 17/3 17/3 17/3 = 1.53 Przykład 7.1 - c.d. Statystyka testowa χ2 = 1.53 Ustalmy poziom istotności α = 0.05 kwantyl rozkładu Chi kwadrat rzędu 0.95 z 3 − 1 = 2 stopniami swobody jest równy: χ20.95 (2) = 5.99 stąd zbiór krytyczny jest postaci: C : (5.99, ∞). Zatem nie ma podstaw do odrzucenia hipotezy zerowej, kwiaty różnych kolorów występują z jednakową częstością. Test χ2 niezależności Test χ2 niezależności Testujemy hipotezę H0 : cechy są niezależne H1 : cechy są zależne Formalnie problem wygląda następująco Niech ((X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn )) oznacza próbę niezależnych par zmiennych losowych, dla których dla każdej pary oznaczamy przez pij = P(X = xi , Y = yj ), i = 1, 2, . . . , l, j = 1, 2, . . . , k, natomiast rozkłady brzegowe przez P P pi· = P(X = xi ) = lj=1 pij oraz p·j = P(Y = yi ) = li=1 pij . Testujemy hipotezę: H0 : pij = pi· · p·j , dla wszystkich i = 1, 2, . . . l, j = 1, 2, . . . , k H1 : pij = 6 pi· · p·j , dla co najmniej jednej pary (i, j) Test χ2 niezależności Statystyka testowa jest postaci: χ2 = 2 N ·N l X k Nij − i.n .j X i=1 j=1 Ni. ·N.j n , gdzie l - liczba klas dla cechy pierwszej, k - liczba klas dla cechy drugiej, n - liczba wszystkich obserwacji, Nij liczba występowania P P obserwacji (xi , xj ), Ni. = kj=1 Nij , N.j = li=1 Nij . Przy H0 statystyka χ2 ma rozkład chi kwadrat z (k-1)(l-1) stopniami swobody. Zbiór krytyczny postaci: C = [χ2 (1 − α, (k − 1)(l − 1)), ∞) Tablice kontyngencji Y X A1 A2 .. . Al B1 B2 ... Bk N11 N12 N21 N22 .. .. . . Nl1 Nl2 N·1 N·2 ... ... N1k N2k .. . N1· N2· .. . ... ... Nlk N·k Nl· n Przykład 7.2 TEST 2 KLASYFIKACJA DWUCZYNNIKOWA PRÓBA DANYCH 1. Klasyfikacja danych wg dwu kryteriów 2. Liczebność słoni w Parku Narodowym Mikumi, Tanzania kategoria samotny samiec Pora grupa samców grupa rodzinna grupa rodzinna + samiec sucha 43 4 196 7 deszczowa 92 17 195 8 Copyright ©2010, Joanna Szyda Przykład 7.2 - c.d Częstości obserwowane kat pora sucha deszczowa suma B1 B2 B3 B4 suma 43 4 196 7 250 92 17 195 8 135 21 391 15 312 562 Częstości oczekiwane kat pora sucha B1 250·135 562 deszczowa 135 B2 B3 B4 250 312 21 391 15 562 Przykład 7.2 -c.d Częstości obserwowane kat pora sucha deszczowa suma B1 B2 B3 B4 suma 43 4 196 7 250 92 17 195 8 135 21 391 15 312 562 Częstości oczekiwane kat pora sucha B1 B2 B3 60.5 250 312·391 562 deszczowa 135 B4 21 391 312 15 562 Przykład 7.2 -c.d Częstości obserwowane kat B1 B2 B3 B4 pora sucha 43 4 196 7 deszczowa 92 17 195 8 Częstości oczekiwane kat pora sucha deszczowa B1 B2 60.5 9.34 B3 B4 173.93 6.67 74.95 11.66 217.07 8.33 Przykład 7.2 - c.d. Testujemy hipotezę: H0 : pora roku i liczebność słoni różnych kategoriach są niezależne Przy alternatywie: H1 : zależność liczebości słoni w różnych kategoriach od pory roku Statystyka testowa jest postaci: χ2 = 2 N ·N 2 X 4 Nij − i.n .j X i=1 j=1 + Ni. ·N.j n = (43 − 60.5)2 (92 − 74.95)2 + + 60.5 74.95 (4 − 9.34)2 (17 − 11.66)2 (196 − 173.93)2 (195 − 217.07)2 + + + + 9.34 11.66 173.93 217.07 (7 − 6.67)2 (8 − 8.33)2 + + = 19.30 6.67 8.33 Przykład 7.2 - c.d. Wartość statystyki testowej to: χ2 = 19.30 obszar krytyczny jest postaci: C : [χ20.95 ((2 − 1) · (4 − 1)), ∞) = [7.81, ∞) . Zatem odrzucamy hipotezę zerową, stąd liczebność słoni w poszczególnych grupach jest zależna od pory roku. Test McNemar Test McNemar Test jednorodności rozkładów dla prób powiązanych Stosowany dla zmiennych dychotomicznych Mamy daną tablicę kontyngencji A A0 B B0 n11 n12 n21 n22 Test McNemar Statystyka testowa postaci χ2 = (n12 − n21 )2 n12 + n21 ma rozkład chi kwadrat z jednym stopniem swobody rzędu 1 − α Obszar odrzucenia hipotezy zerowej jest postaci C : [χ21−α (1), ∞) Przykład 7.3 TEST McNEMARA PRÓBA DANYCH 1. Wzrost bakterii Mycobacterium tuberculosis na pożywkach (A / B) 2. Próbki pobrane od 50 chorych 3. Dane sparowane (ten sam pacjent) B wzrost A brak wz. wzrost 17 12 brak wz. 5 16 Copyright ©2011, Joanna Szyda Przykład 7.3 - c.d. Testujemy hipotezę: H0 : rodzaj pożywki nie wpływa na wzrost bakterii Przy alternatywie: H1 : rodzaj pożywki wpływa na wzrost bakterii Statystyka testowa jest równa : χ2 = (n12 − n21 )2 (12 − 5)2 = = 2.88 n12 + n21 12 + 5 Obszar krytyczny jest postaci C : [3.84, ∞) Test ilorazu szans TEST ILORAZU SZANS PRÓBA DANYCH 1. Związek występowania raka przełyku ze spożywaniem alkoholu 2. Zbadano 975 osób • Wystąpienie raka przełyku • Spożycie alkoholu w ilości powyżej 80 g/dzień Rak przełyku tak Spożycie alkoholu nie >80 g/24h 96 109 ≤80 g/24h 104 666 Copyright ©2014, Joanna Szyda TEST ILORAZU SZANS 1. Określenie hipotez H0 i H1 H0: prawdopodobieństwo wystąpienie raka przełyku nie zależy od ilości spożywanego alkoholu H1: prawdopodobieństwo wystąpienie raka przełyku zależy od ilości spożywanego alkoholu H0: P(r)alk = P(r)n_alk H1: P(r)alk P(r)n_alk 2. Ustalenie poziomu istotności MAX = 0.05 Copyright ©2015, Joanna Szyda TEST ILORAZU SZANS 3. Wybór i obliczenie wartości testu statystycznego Rak przełyku Tak Spożycie alkoholu nie Szansa P(r) >80 g/24h 96 109 90/109 ≤80 g/24h 104 666 104/666 Copyright ©2015, Joanna Szyda TEST ILORAZU SZANS 4. Określenie rozkładu testu: 5. Obliczenie wartości t: 6. Decyzja: t < max H0 H1 prawdopodobieństwo wystąpienie raka przełyku zależy od ilości spożywanego alkoholu Excel: przykład Copyright ©2015, Joanna Szyda 2 Copyright ©2011 Joanna Szyda QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ? • Gavin et al. (1994) J. Ped. Psy. 24: 355-365 • Badanie obejmuje osoby hospitalizowane z powodu astmy • Badano 60 hospitalizowanych osób - etap 1 • Po roku na ponowne badania zgłosiło się 30 (z 60) osób – etap 2 • Porównywano liczebności 30 osób, które zgłosiły się na ponowne badania z 30 osobami, które się nie zgłosiły, w zależności od płci, wieku, rasy, itd. Copyright ©2010, Joanna Szyda QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ? QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ? 1. Klasyfikacja pojedyncza 2. Klasyfikacja podwójna 3. Test McNemara QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ? • Spencer et al. (1998) Am. J. Psychiatry 155: 693-695 • Czy lek tomoxetina wpływa na ADHD • Badano 21 osób w wieku 19-60 lat • Etap 1: → Dzień 0: rejestracja symptomów ADHD → podawanie placebo przez 3 tygodnie → Dzień 21 rejestracja symptomów ADHD → >30% zmniejszenie nasilenia ADHD = poprawa • Etap 2: → podawanie tomoxetiny przez 3 tygodnie → Dzień 21 rejestracja symptomów ADHD → >30% zmniejszenie nasilenia ADHD = poprawa Copyright ©2010, Joanna Szyda QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ? QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ? 1. Klasyfikacja pojedyncza 2. Klasyfikacja podwójna 3. Test McNemara QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ? • Junca et al. (2014) Plos One DOI:10.1371/journal.pone.0097333 • Analiza wpływu wybranych czynników środowiskowych na zachowanie pszczół • Eksperyment obejmował 40 osobników • Cecha: SER = sting extension response (wysunięcie żądła) po stymulacji cieplnej Copyright ©2015, Joanna Szyda QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ? test QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ? 1. Klasyfikacja pojedyncza 2. Klasyfikacja podwójna 3. Test McNemara QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ? • Uemura et al. (2001) NEJM 345: 784-789 • Powiązanie chorób układu pokarmowego z zakażeniem Helicobacter pylori • Badano 1525 pacjentów Copyright ©2010, Joanna Szyda QUIZ – KTÓREJ WERSJI TESTU 2 UŻYĆ ?