ˆ( ˆ
Transkrypt
ˆ( ˆ
„Bioinformatyka - rozwój oferty edukacyjnej Uniwersytetu Przyrodniczego we Wrocławiu” projekt realizowany w ramach Programu Operacyjnego Kapitał Ludzki współfinansowanego ze środków Europejskiego Funduszu Społecznego Proporcja Wykład 3 • Wnioskowanie o proporcjach: test istotności dla pojedynczej proporcji test chi-kwadrat zgodności test chi-kwadrat niezależności • p - p-stwo sukcesu w pojedynczej próbie (proporcja osobników o ustalonej charakterystyce w całej populacji). • Pobieramy próbę rozmiaru n. • X - liczba sukcesów w próbie. • Jeżeli n jest małe w stosunku do rozmiaru populacji, to X ma w przybliżeniu rozkład dwumianowy z parametrami µ = np Wnioskowanie o proporcjach ˆ = X / n jako estymatora proporcji w całej Używamy próbkowej proporcji p populacji. • p̂ jest nieobciążonym estymatorem p, o średniej i SD: p • and p (1 − p ) n Gdy n jest duże, p̂ ma w przybliżeniu rozkład normalny. Tak więc z= pˆ − p p(1 − p) / n ma w przybliżeniu standardowy rozkład normalny. σ = np(1 − p) and Klasyczne przedziały ufności • Standardowy błąd p̂ wynosi SE ( pˆ ) = pˆ (1 − pˆ ) n • Przybliżony przedział ufności na poziomie ufności C : pˆ ± z*SE( pˆ ) = pˆ ± z* gdzie P(Z ≥ z*) = (1 – C)/2. pˆ (1− pˆ ) n Przykład: Program telewizyjny ogłosił ankietę na temat proponowanego zakazu posiadania broni palnej. Do programu zadzwoniło 2372 ludzi. Spośród nich, 1921 było przeciwko zakazowi. Skonstruuj 95% przedział ufności opisujący preferencje całej populacji. Czy to badanie jest wiarygodne ? • • • • • • • • • • • data fraction; input ban $ count; cards; yes 451 no 1921 ; run; proc freq order=freq; weight count; tables ban/ binomial alpha=0.01; run; The FREQ Procedure • • • • • • SAS ban Frequency no yes 1921 451 Cumulative Cumulative Percent Frequency Percent 80.99 19.01 1921 2372 80.99 100.00 • • • • • • Binomial Proportion for ban = no • • • Exact Conf Limits 99% Lower Conf Limit 99% Upper Conf Limit Proportion 0.8099 ASE 0.0081 99% Lower Conf Limit 0.7891 99% Upper Conf Limit 0.8306 0.7883 0.8302 Testowanie • Hipoteza zerowa – H0: p = p0 • Statystyka testowa pˆ − p0 z= p0 (1 − p0 ) / n Alternatywa P-wartość Ha: p > p0 P(Z ≥ z) Ha: p < p0 P(Z ≤ z) Ha: p ≠ p0 2P(Z ≥ | z |) Testowanie • Gdy n jest duże, p̂ ma w przybliżeniu rozkład normalny, więc pˆ − p z= p(1 − p ) / n ma w przybliżeniu standardowy rozkład normalny. Możemy testować H0: p = p0 przeciwko alternatywom: – Ha: p > p0 – Ha: p < p0 – Ha: p ≠ p0 Testowanie w dużych próbach • Jak duża musi być próba aby korzystać z przybliżenia rozkładem normalnym ? • Praktyczne wskazanie np0 ≥ 10, n(1 − p0 ) ≥ 10 Przykład: SAS • Władze uczelni twierdzą, że tylko 34% studentów pracuje. Przeprowadzono eksperyment aby obalić tę tezę (powszechnie się sądzi, że więcej studentów pracuje.) Przepytano 100 losowo wybranych studentów i okazało się, że 47 z nich pracuje. • Czy na poziomie istotności α = 0.05 mamy wystarczające przesłanki aby twierdzić, że ponad 34% studentów pracuje. • • • • • • • • • • • Binomial Proportion for work = yes • • • • • • • Proportion 0.4700 ASE 0.0499 95% Lower Conf Limit 0.3722 95% Upper Conf Limit 0.5678 • • • Exact Conf Limits 95% Lower Conf Limit 95% Upper Conf Limit • Test of H0: Proportion = 0.34 • • • • ASE under H0 0.0474 Z 2.7443 One-sided Pr > Z 0.0030 Two-sided Pr > |Z| 0.0061 data work; input work $ count; cards; yes 47 no 53 ; run; proc freq; weight count; tables work/ binomial (p=0.34 level='yes'); run; Test równoważności 0.3694 0.5724 ods graphics on; proc freq; weight count; tables work/ binomial (equiv p=.34 margin=.05); • run; • • • • SAS • Czy frakcja ludzi z wyższym wykształceniem (magister lub wyżej) w amerykańskiej populacji przekracza 10 % ? • data idividuals; • infile 'c:/users/mbogdan/ECMI/data/individuals. dat'; • input id age edu gen income class; • proc freq; • tables edu/ binomial (p=0.10 level=6); • run; • • • • • • Binomial Proportion for edu = 6 • • • Exact Conf Limits 95% Lower Conf Limit 95% Upper Conf Limit Proportion 0.1002 ASE 0.0013 95% Lower Conf Limit 0.0977 95% Upper Conf Limit 0.1027 0.0977 0.1027 • Test of H0: Proportion = 0.1 • • • • ASE under H0 0.0013 Z 0.1565 One-sided Pr > Z 0.4378 Two-sided Pr > |Z| 0.8756 Najprostszy przykład- dwie klasy • Przykład: • Mamy dwie linie homozygotyczne muszki owocówki: jedna ma czerwone oczy, a druga fioletowe. Chcemy przetestować hipotezę, że allel czerwonych oczu jest dominujący. W tym celu wychodowaliśmy 43 muszki z populacji F2 : 29 ma oczy czerwone a 14 fioletowe. Test zgodności chi-kwadrat • Dane jakościowe; próba losowa rozmiaru n. • Dysponujemy hipotetycznymi wartościami proporcji π w każdej z klas. Klasy: • Oczy czerwone; hipotetyczne p-stwo π = 3/(3+1) = 0.75 • „oczekiwana’’ liczba: E1 = (43)(0.75) = 32.25 • Oczy fioletowe; hipotetyczne p-stwo 1 – π = 1/(3+1) = 0.25 • „oczekiwana" liczba: E2 = (43)(0.25) = 10.75 • Czy allel oczu czerwonych jest dominujący? Test zgodności chi-kwadrat • π - p-stwo, że muszka z populacji F2 ma czerwone oczy • H0: π = 0.75; • HA: π ≠ 0.75; • Χ2 = Σ(obserwowana - oczekiwana)2 / oczekiwana = Σ(O-E)2/E • Jeżeli zachodzi HO to Χ2 ma w przybliżeniu rozkład chi-kwadrat z df = #klas - 1 = 1. • Test na poziomie α = 0.05 ; Wartość krytyczna = 3.84 Rozkład chi-kwadrat z df=2 i 4: P( χ ≥ X ) • P-wartość: • Zawsze po prawej stronie rozkładu. 2 • SAS • • • • • • • • • • • • data flies; input eyes $ count; cards; purple 14 red 29 ; run; proc freq; weight count; tables eyes/ chisq testp=(0.25 0.75); exact chisq; run; eyes • • • Frequency purple red 14 29 2 Cumulative Cumulative Percent Percent Frequency 32.56 67.44 25.00 75.00 14 43 Percent 32.56 100.00 • • • • • • • • Chi-Square Test for Specified Proportions --------------------------------------Chi-Square 1.3101 DF 1 Asymptotic Pr > ChiSq 0.2524 Exact Pr >= ChiSq 0.2894 • Sample Size = 43 • • • • • proc freq; weight count; tables eyes/ binomial (p=0.25); run; • Test of H0: Proportion = 0.25 • • • • ASE under H0 0.0660 Z 1.1446 One-sided Pr > Z 0.1262 Two-sided Pr > |Z| 0.2524 Więcej niż dwie kategorie • • Przykład: U groszków, allel odpowiedzialny za fioletowy kolor kwiatów (F) dominuje na allelem koloru czerwonego (f), a allel wydłużonych ziaren pyłku (D) dominuje nad allelem okrągłych ziaren (d). Dysponujemy dwiema homozygotycznymi populacjam: P1, gdzie oba allele są dominujące (FFDD) i P2, gdzie oba allele są recesywne. W populacji F1 wszystkie osobniki mają genotypy FfDd i mają fioletowe kwiaty i wydłużone ziarna pyłku. Te osobniki następnie się krzyżuje aby uzyskać populację F2. Spodziewamy się, że geny kontrolujące obie cechy leżą na jednym chromosomie w odległości 20 cM. Jeżeli tak rzeczywiście jest to cechy fenotypowe osobników w populacji F2 powinny dzielić się w proporcjach 66:9:9:16 • 66% fioletowe/wydłużone : FFDD lub FfDD lub FFDd lub FfDd, • 9% fioletowe/okrągłe : FFdd lub Ffdd, • 9% czerwone/wydłużone : ffDD lub ffDd, • 16% czerwone/okrągłe : ffldd • Wyhodowano 381 osobników z populacji F2 i zaobserwowano • 284 fioletowe/wydłużone • 21 fioletowe/okrągłe • 21 czerwone/wydłużone • 55 czerwone/okrągłe • Czy dane są zgodne z założonym modelem genetycznym? • • • • • • • • • data peas; input colour $ shape $ count; cards; purple long 284 purple round 21 red long 21 red round 55 ; run; • • • • • • • • • • • • data peas; set peas; if ((colour eq 'purple')*(shape eq 'long')) then cs='pl'; if ((colour eq 'purple')*(shape eq 'round')) then cs='pr'; if ((colour eq 'red')*(shape eq 'long')) then cs='rl'; if ((colour eq 'red')*(shape eq 'round')) then cs='rr'; run; odds graphics on; proc freq data=peas; weight count; tables cs/ chisq testp=(0.66 0.09 0.09 0.16); exact chisq; run; Test niezależności Przykład: • • Czy kobiety i mężczyźni ćwiczą z tych samych powodów? Przepytano 67 kobiet i mężczyzn 67 . Wyniki: • • • • • • • • HSC-HM kobiety 14 HSC-HM mężczyźni 31 HSC-LM kobiety 7 HSC-LM mężczyźni 18 LSC-HM kobiety 21 LSC-HM mężczyźni 5 LSC-LM kobiety 25 LSC-LM mężczyźni 13 Opis: HSC (LSC)-high (low) social comparison ; HM (LM)-high (low) mastery • π1, π2, π3, π4 – p-stwa odpowiednio fioletowe/wydłużone, fioletowe/okrągłe, czerwone/wydłużone, czerwone/okrągłe. • H0: π1=0.66, π2 = 0.09, π3=0.09, π4=0.16 ; p-stwa wyliczone w oparciu o założony model genetyczny • HA: specyfikacja p-stw w H0 nie odpowiada rzeczywistości • Stosujemy test chi-kwadrat z • df = #klas - 1 = 4 - 1 = 3 • Χ2 = Σ(O-E)2/E ma w przybliżeniu rozkład χ23 przy H0. • • • • • • • • • • • • • • • • The FREQ Procedure cs Frequency Percent pl pr rl rr 74.54 5.51 5.51 14.44 284 21 21 55 Test Cumulative Cumulative Percent Frequency Percent 66.00 9.00 9.00 16.00 284 305 326 381 74.54 80.05 85.56 100.00 Chi-Square Test for Specified Proportions --------------------------------------Chi-Square 15.0953 DF 3 Asymptotic Pr > ChiSq 0.0017 Exact Pr >= ChiSq 0.0019 Sample Size = 381 • Warunkowe rozkłady dla kobiet i mężczyzn. Testowanie w tabelach dwu-dzielczych • H0: nie ma związku między zmienną opisującą wiersze a zmienną opisującą kolumny (zmienne te są niezależne) • Ha: zmienne opisujące wiersze i kolumny są zależne. oczekiwana liczba w komórce (i,j) = (liczba obserwacji w i tym rzędzie) x (liczba obserwacji w j tej kolumnie)/n • Aby przetestować hipotezę zerową, porównujemy zaobserwowane liczby w komórkach tabeli z ich wartościami oczekiwanymi, wyliczonymi przy założeniu,że hipoteza zerowa jest prawdziwa. Tutaj n = całkowita liczba obserwacji Rozkład chi-kwadrat Statystyka testowa X =∑ 2 ( observed count - expected count ) expected count 2 • Statystyka X2 ma w przybliżeniu rozkład chikwadrat. • df=(r-1)(c-1)=(#rzędów-1)(#kolumn-1). • W naszym przykładzie (4-1)(2-1)=3 df. proc freq see SAS file: 9-1.sas The FREQ Procedure (output): Statistics for Table of goal by sex proc freq data=sport; tables goal*sex/expected chisq; weight count; exact chisq fisher; run; Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 3 24.8978 <.0001 Likelihood Ratio Chi-Square 3 26.0362 <.0001 Mantel-Haenszel Chi-Square 1 16.2249 <.0001 Phi Coefficient 0.4311 Contingency Coefficient 0.3958 Cramer's V 0.4311 Sample Size = 134 Fisher's Exact Test ---------------------------------Table Probability (P) 1.907E-08 Pr <= P 1.288E-05 Sample Size = 134 Paradoks Simpsona: • Reguła, która zachodzi w każdej z kilku klas • może zmienić się na przeciwną jeżeli dane zgrupujemy. Przykład : • Liczby punktualnych i spóźnionych lotów dla dwóch linii lotniczych i 5 lotnisk. Zwykle w podsumowaniach pojawiają się zbiorcze wyniki dla każdej z linii. Nasz przykład pokaże, że takie podsumowania mogą być zwodnicze/niesprawiedliwe. L.A. Phoenix San Diego San Francisco Seattle Total Procent spóźnień Lotnisko Alaska Airlines America West L.A. 11% 14.4% Phoenix 5% 7.9% San Diego 8.6% 14.5% San Francisco 17% 28.8% Seattle 14.2% 23.2% Łącznie 13.3% 10.9% Kiedy można stosować rozkład chi-kwadrat: • Rozkład chi-kwadrat tym lepiej przybliża rozkład statystyki testowej im więcej jest obserwacji w poszczególnych komórkach i im więcej jest komórek. Dla tabel większych niż 2x2: można stosować przybliżenie rozkładem chikwadrat jeżeli: średnia z oczekiwanej liczby obserwacji w pojedynczych komórkach jest nie mniejsza niż 5 najmniejsza oczekiwana licza obserwacji w pojedynczej komórce jest nie mniejsza niż 1 <20% komórek ma oczekiwaną liczbę obserwacji mniejszą niż 5. • • Dla tabel 2x2: można stosować przybliżenie rozkładem chi-kwadrat jeżeli oczekiwana liczba obserwacji w każdej z czterech komórek jest nie mniejsza od 5. Alaska Airlines Punk. Spóź. 497 62 221 12 212 20 503 102 1841 305 501 Suma 559 233 232 605 2146 3775 America West Punk. Spóź. 694 117 4840 415 383 65 320 129 201 61 787 Suma 811 5255 448 449 262 7225 Niebezpieczeństwo uproszczeń • W tym przykładzie występowały trzy zmienne: linia lotnicza, punktualność i lotnisko. • Takie dane często reprezentuje się w postaci kilku tabel dwu-dzielczych. • Takie uproszczenia ignorujące trzecią zmienną (tutaj lotnisko) mogą prowadzić do błędnych wniosków. Przykład: • 356 ochotników sklasyfikowano pod względem statusu socio-ekonomicznego (SES) i nawyku palenia. • Czy palenie ma związek z SES? smoking SES Frequency‚ Percent ‚ Row Pct ‚ Col Pct ‚high ‚low ‚middle ‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ current ‚ 51 ‚ 43 ‚ 22 ‚ 116 ‚ 14.33 ‚ 12.08 ‚ 6.18 ‚ 32.58 ‚ 43.97 ‚ 37.07 ‚ 18.97 ‚ ‚ 24.17 ‚ 46.24 ‚ 42.31 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ former ‚ 92 ‚ 28 ‚ 21 ‚ 141 ‚ 25.84 ‚ 7.87 ‚ 5.90 ‚ 39.61 ‚ 65.25 ‚ 19.86 ‚ 14.89 ‚ ‚ 43.60 ‚ 30.11 ‚ 40.38 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ never ‚ 68 ‚ 22 ‚ 9 ‚ 99 ‚ 19.10 ‚ 6.18 ‚ 2.53 ‚ 27.81 ‚ 68.69 ‚ 22.22 ‚ 9.09 ‚ ‚ 32.23 ‚ 23.66 ‚ 17.31 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 211 93 52 356 59.27 26.12 14.61 100.00 Palenie ma związek z SES: smoking Statistics for Table of smoking by SES SES Frequency‚ Expected ‚ Percent ‚ Row Pct ‚ Col Pct ‚high ‚low ‚middle ‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ current ‚ 51 ‚ 43 ‚ 22 ‚ 116 ‚ 68.753 ‚ 30.303 ‚ 16.944 ‚ ‚ 14.33 ‚ 12.08 ‚ 6.18 ‚ 32.58 ‚ 43.97 ‚ 37.07 ‚ 18.97 ‚ ‚ 24.17 ‚ 46.24 ‚ 42.31 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ former ‚ 92 ‚ 28 ‚ 21 ‚ 141 ‚ 83.57 ‚ 36.834 ‚ 20.596 ‚ ‚ 25.84 ‚ 7.87 ‚ 5.90 ‚ 39.61 ‚ 65.25 ‚ 19.86 ‚ 14.89 ‚ ‚ 43.60 ‚ 30.11 ‚ 40.38 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ never ‚ 68 ‚ 22 ‚ 9 ‚ 99 ‚ 58.677 ‚ 25.862 ‚ 14.461 ‚ ‚ 19.10 ‚ 6.18 ‚ 2.53 ‚ 27.81 ‚ 68.69 ‚ 22.22 ‚ 9.09 ‚ ‚ 32.23 ‚ 23.66 ‚ 17.31 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 211 93 52 356 59.27 26.12 14.61 100.00 fate Przykład (Wpływ aspiryny): • 21,996 amerykańskich lekarzy (mężczyzn). • Połowa z nich brała regularnie aspirynę. • Po 3 latach, 139 z tych którzy brali aspirynę i 239 z tych którzy brali placebo mieli atak serca. • Ustal czy jest związek między braniem aspiryny a ryzykiem ataku serca. Statistics for Table of fate by treatment Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 1 26.9176 <.0001 Likelihood Ratio Chi-Square 1 27.2352 <.0001 Continuity Adj. Chi-Square 1 26.3819 <.0001 Mantel-Haenszel Chi-Square 1 26.9164 <.0001 Phi Coefficient -0.0350 Contingency Coefficient 0.0350 Cramer's V -0.0350 Fisher's Exact Test ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Cell (1,1) Frequency (F) 139 Left-sided Pr <= F 1.203E-07 Right-sided Pr >= F 1.0000 Table Probability (P) Two-sided Pr <= P 5.228E-08 2.407E-07 Sample Size = 21996 Conclusion: Aspirin reduces chance of heart attack (P<.0001). Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 4 18.5097 0.0010 Likelihood Ratio Chi-Square 4 18.6635 0.0009 Mantel-Haenszel Chi-Square 1 12.2003 0.0005 Phi Coefficient 0.2280 Contingency Coefficient 0.2223 Cramer's V 0.1612 Sample Size = 356 treatment Frequency‚ Expected ‚ Percent ‚ Row Pct ‚ Col Pct ‚aspirin ‚placebo ‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ heart_at ‚ 139 ‚ 239 ‚ 378 ‚ 189 ‚ 189 ‚ ‚ 0.63 ‚ 1.09 ‚ 1.72 ‚ 36.77 ‚ 63.23 ‚ ‚ 1.26 ‚ 2.17 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ no_heart ‚ 10859 ‚ 10759 ‚ 21618 ‚ 10809 ‚ 10809 ‚ ‚ 49.37 ‚ 48.91 ‚ 98.28 ‚ 50.23 ‚ 49.77 ‚ ‚ 98.74 ‚ 97.83 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 10998 10998 21996 50.00 50.00 100.00