sex oleju
Transkrypt
sex oleju
„Bioinformatyka - rozwój oferty edukacyjnej Uniwersytetu Przyrodniczego we Wrocławiu” projekt realizowany w ramach Programu Operacyjnego Kapitał Ludzki współfinansowanego ze środków Europejskiego Funduszu Społecznego Wykład 2 Porównanie dwóch populacji – testy Studenta i testy nieparametryczne • Test Studenta dla par • Test znaków i znakowany test Wilcoxona • Test Studenta dla niezależnych prób i test Wilcoxona-Manna-Whitneya Rozkład normalny, nieznane odchylenie standardowe • Ochylenie standardowe X estymujemy za pomocą SE X = s n • Jest to standardowy błąd średniej. Rozkład normalny, nieznane odchylenie standardowe • Załóżmy, że próba prosta X1, …, Xn jest pobrana z populacji o rozkładzie normalnym o średniej µ i odchyleniu standardowym σ. • Załóżmy, że µ i σ są nieznane. X ~ N µ ,σ n ( ) • σ estymujemy za pomocą próbkowego ochylenia standardowego s. Statystyka Studenta • Załóżmy, że próba prosta rozmiaru n została wylosowana z populacji normalnej N(µ, σ). Statystyka Studenta dla jednej próby: t= x−µ s n ma rozkład Studenta z n – 1 stopniami swobody. Rozkład Studenta • Im więcej stopni swobody tym mniejszy rozrzut. d.f. = n2 d.f. = n1 n1 < n2 0 • W miarę wzrostu liczby stopni swobody rozkład Studenta zbliża się do standardowego rozkładu normalnego. Przedziały ufności dla średniej w populacji • Załóżmy, że próba prosta rozmiaru n jest wylosowana z rozkładu o nieznanej wartości oczekiwanej µ. Przedział ufności na poziomie istotności C dla µ wynosi x ± t* s , n or s * s , x + t* x − t n n t* - kwantyl rzędu 1-C/2 z rozkładu Studenta z n-1 stopniami swobody. • Przedziały ufności są dokładne jeżeli obserwacje pochodzą z rozkładu normalnego i w przybliżeniu dokładne w innych przypadkach, jeżeli tylko rozmiar próby jest odpowiednio duży. Test Studenta dla jednej próby • T - zmienna o rozkładzie t(n – 1), • P-wartość dla testu • H0: µ = µ0 przeciwko… Ha: µ > µ0 to P(T ≥ t) Ha: µ < µ0 to P(T ≤ t) Ha: µ ≠ µ0 to 2P(T ≥ | t |) Test Studenta dla jednej próby • Załóżmy, że próba prosta rozmiaru n została wylosowana z populacji o nieznanej średniej µ. • Statystyka testu Studenta dla hipotezy H0: µ = µ0 ma postać t= x − µ0 s n P-wartości P-wartości są dokładne jeżeli obserwacje pochodzą z rozkładu normalnego i w przybliżeniu dokładne w większości innych przypadków, o ile rozmiar próby jest odpowiednio duży. Przykład • • • • SAS • • • • • • • • • • • • • Pobieramy próbkę aby ocenić zawartość witaminy C w oleju sojowym. Uzyskane wyniki: 26 31 23 22 11 22 14 31. Znajdź 90% przedział ufności dla średniej zawartości witaminy C w tej produkcji. Przetestuj hipotezę, H0: µ = 40 vs. Ha: µ≠40 data nowy; input vitC @@ ; datalines ; 26 31 23 22 11 22 14 31; run; proc univariate data=nowy normal; qqplot; run; ods graphics on; proc ttest h0=40 alpha=0.1; var vitC; run; ods graphics off; Testy normalności qqplot 35 Proc Univariate Tests for Normality • • 30 • Test --Statistic--- -----p Value-----25 • Shapiro-Wilk W 0.918579 Pr < W 0.4184 Kolmogorov-Smirnov D 0.222284 Pr > D >0.1500 Cramer-von Mises W-Sq 0.051067 Pr > W-Sq >0.2500 Anderson-Darling A-Sq 0.322074 Pr > A-Sq >0.2500 v i t C 20 15 10 -1.5 -1 -0.5 0 Normal Quantiles Test Studenta • The TTEST Procedure • Statistics • Lower Upper Lower CL Upper CL Var N Mean Mean Mean Std Dev Std Dev Std Dev Std Err vitC 8 17.683 22.5 27.317 5.0728 7.1913 12.924 2.5425 • T-Tests • Variable DF t Value Pr > |t| • vitC 7 -6.88 0.0002 0.5 1 1.5 Przykład (kontynuacja): Przetestuj czy zawartość witaminy C jest niższa niż w specyfikacji. H0: µ = 40 vs. Ha: µ <40 • ods graphics on; • proc ttest h0=40 alpha=0.1 sides=L; • var vitC; • run; • ods graphics off; Test Studenta dla par Test Studenta dla par • W teście Studenta dla par obiekty są powiązane w pary. Wartości obserwowanej cechy są porównywane w każdej parze -> Wynik = różnica. • Typowa sytuacja – porównujemy wyniki przed i po zabiegu. Test Studenta dla par można stosować np. gdy mamy dwa pomiary na tym samym obiekcie i badamy różnicę między nimi. Typowa sytuacja – przed i po zabiegu. Przykład SAS • Utrata witaminy C w przechowywaniu i transporcie • Dane – zawartość witaminy C w 18 workach mieszanki sojowej • a) w fabryce • b) po 5 miesiącach i transporcie na Haiti – Dla każdego osobnika odejmujemy wartość “przed” od wartości “po” zabiegu. – Badamy różnicę używając testu Studenta dla jednej próby (z H0: µ=0). • • • • • • • • • • • • • data soy; infile 'c:/users/mbogdan/ECMI/data/ex07_039.txt' DLM='09'x; input id factory Haiti; run; data soy1; set soy; diff=factory-Haiti; run; proc univariate data=soy1 normal mu0=0; var diff; qqplot; histogram; run; Histogram P e r c e n t QQplot 50 15 40 10 5 30 d i f f 20 0 10 -5 -10 0 -7.5 -2.5 2.5 7.5 12.5 -2 -1 0 diff Test Studenta i testy nieparametryczne Testy normalności Tests for Normality • • Test --Statistic--- • Shapiro-Wilk W 0.952279 Kolmogorov-Smirnov D 0.146454 Cramer-von Mises W-Sq 0.082695 Anderson-Darling A-Sq 0.482679 Tests for Location: Mu0=0 • -----p Value------ Pr < W 0.2434 Pr > D 0.1404 Pr > W-Sq 0.1898 Pr > A-Sq 0.2197 • Test -Statistic- • Student's t t • Sign M Signed Rank S odds graphics on; proc ttest data=soy; paired factory*Haiti; run; odds graphics off; -----p Value------ 4.958945 Pr > |t| <.0001 8.5 Pr >= |M| 0.0015 152 Pr >= |S| <.0001 Proc ttest • • • • • 1 Normal Quantiles Wyniki • The TTEST Procedure • • • Statistics Difference Lower CL Upper CL Lower CL Upper CL N Mean Mean Mean Std Dev Std Dev Std Dev Std Err factory - Haiti 27 3.1226 5.3333 7.5441 • 4.401 5.5884 7.6586 1.0755 T-Tests • Difference DF t Value Pr > |t| • factory - Haiti 26 4.96 <.0001 2 Odporność testów Studenta Test równoważności - TOST • • • • • H0: μdiff < −10 or μdiff > 10 H1: −10<= μdiff<= 10 proc ttest data=soy tost(-10,10); paired factory*Haiti; run; • Procedura statystyczna jest odporna jeżeli jej wyniki nie są wrażliwe na odstępstwa od założeń. • W rzeczywistości rozkład badanej cechy prawie nigdy nie jest normalny. • Test Studenta w dużych próbach (n>=30) jest odporny na odstępstwa od rozkładu normalnego. Trzeba jednak bardzo uważać na obserwacje odstające. Odporność testu Studenta • Praktyczne sugestie dla testu Studenta dla jednej próby: – Rozmiar próby < 15: Stosujemy test Studenta jeżeli rozkład cechy jest w przybliżeniu normalny. W innym przypadku stosujemy testy nieparametryczne. – Rozmiar próby ≥ 15: Stosujemy test Studenta, chyba że rozkład badanej cechy jest mocno skośny lub występują obserwacje odstające. – Duże próby (n ≥ 40): Można stosować test Studenta nawet dla rozkładów mocno skośnych (ale trzeba uważać na obserwacje odstające). Testy nieparametryczne • • • • • • • Test znaków N+- liczba obserwacji dla których zm1 - zm2 > 0 N– liczba obserwacji dla których zm1 - zm2 < 0 Statystyka testowa M=(N+- N-)/2 Założenie, że dysponujemy prostą próbą losową (obserwacje są niezależne)– zawsze ważne. Test znakowany Wilcoxona • Mocniejszy od testu znaków • Metoda – Wyznaczamy różnice zm1-zm2 w parach – Przyznajemy rangi wartościom bezwzględnym tych różnic (1 dla najmniejszej, N dla największej) – Przyporządkowujemy znak każdej randze (+ kiedy zm1>zm2, - kiedy zm1<zm2) • W+ : suma rang dodatnich • S= W+ - N(N+1)/4 , • Gdzie N – liczba obserwacji dla których zm1 ≠ zm2 Obs Y1 Y2 d |d| 1 33 25 8 8 2 39 38 1 1 3 25 27 -2 2 4 29 20 9 9 5 50 54 -4 4 6 45 40 5 5 7 36 30 6 6 Ranga Znakowana ranga • Test Wilcoxona ma większą moc niż test znaków. • Test znaków można stosować gdy dane nie są liczbowe, a zapisane są w terminach preferencji (np. lepiej/gorzej, tak/nie, mniejszy/większy) Problem dwóch prób Test Studenta dla dwóch prób • Test Studenta dla dwóch prób: – Test istotności – Przedział ufności • Odporność • Małe próby • Eksperyment – dwa poziomy czynnika. • Badania obserwacyjne – porównanie prób z dwóch populacji. • Nie ma par – próby mogą być różnych rozmiarów. Notacja Notacja • Z pierwszej populacji pobieramy próbę rozmiaru n1, a z drugiej populacji próbę rozmiaru n2. Populacja 1 2 Średnia w populacji µ1 µ2 Odchylenie standardowe w populacji σ1 σ2 Populacja 1 2 Rozmiar próby n1 n2 Średnia z próby x1 x2 Próbkowe odchylenie standardowe s1 s2 Przykład (porównanie szybkości metabolizmu o kobiet i mężczyzn) Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Gender M M F F F F M F F M F F M F F F F M M Mass 62 62.9 36.1 54.6 48.5 42 47.4 50.6 42 48.7 40.3 33.1 51.9 42.4 34.5 51.1 41.2 51.9 46.9 Rate • • • • • • • • • • 1792 1666 995 1425 1396 1418 1362 1502 1256 1614 1189 913 1460 1124 1052 1347 1204 1867 1439 Rozkład statystyki testowej Statystyka testowa • Naturalnym estymatorem dla µ1 – µ2 jest różnica średnich próbkowych. • D= x1 − x2 • Statystyka z= (population) mean of differences: µ1 − µ 2 (population) SD of differences of sample standard deviations: data metabolism; infile 'c:/users/mbogdan/ECMI/data/metabolism.txt'; input id gender $ mass rate; run; proc sort data=metabolism out=met2; by gender; run; PROC BOXPLOT data=met2 ; PLOT rate*gender; run; σ 2 1 n1 + σ 2 2 n2 (x1 − x2 ) − (µ1 − µ2 ) σ12 σ22 n1 + n2 ma standardowy rozkład normalny N(0, 1). • Jeżeli rozkład badanej cechy w obu populacjach jest rozkładem normalnym, to również D ma rozkład normalny. Wnioskowanie – dwie populacje, znane odchylenia standardowe w populacjach • Przedział ufności na poziomie ufności C dla µ1 – µ2 wynosi x1 − x2 ± z * σ 12 n1 + σ 22 n2 Testowanie • Testujemy H0: µ1 = µ2 przeciwko jednej z alternatyw: – Ha: µ1 > µ2 – Ha: µ1 < µ2 – Ha: µ1 ≠ µ2 • Statystyka testowa: z= gdzie P(-z*≤Z≤z*) = C. x1 − x2 σ 12 n1 + σ 22 n2 Nieznane odchylenia standardowe w populacjach Testowanie Alternatywa P-wartość Ha: µ1 > µ2 P(Z>z) Ha: µ1 < µ2 P(Z<z) Ha: µ1≠µ2 2*P(Z>| z |) • µ1, µ2, σ1 i σ2 są nieznane. • Statystyka testu Studenta: t= ( x1 − x2 ) − ( µ1 − µ 2 ) s12 s22 + n1 n2 • Ma w przybliżeniu rozkład Studenta – liczba stopni swobody jest wyliczana przez program. P-wartości Przedział ufności • Przedział ufności dla µ1 – µ2 na poziomie ufności C ( x1 − x2 ) ± tdf* gdzie 2 1 2 2 s s + n1 n2 P(tdf* ≤ t ≤ tdf* ) = C SAS • • • • proc ttest data=metabolism ci=equal; class gender; var rate; run; Alternatywa P-wartość Ha: µ1 > µ2 P(T ≥ t) Ha: µ1 < µ2 P(T ≤ t) Ha: µ1 ≠ µ2 2*P(T ≥ | t |) Odporność • Test Studenta dla dwóch prób jest nawet bardziej odporny na odstępstwa od normalności niż test dla jednej próby, w szczególności gdy rozkłady analizowanych cech są symetryczne i próby są równoliczne. • Obserwacje odstające stanowią duży problem. Skośność generalnie nie jest problemem, o ile tylko rozmiar prób nie jest zbyt mały (n>15). Przykład Test Wilcoxona-Manna-Whitneya • Stosujemy gdy rozkład istotnie różni się od normalnego (obserwacje odstające, duża skośność) • Metoda: • Zbieramy dane z obu prób. • Przypisujemy im rangi. • Wyliczamy sumę rang w obu grupach. • Statystyka testowa W=min(R1, R2) • Liczba ziaren produkowanych przez dwie odmiany tej samej rośliny. • Dane: • Odmiana 1: 19, 23, 25, 28, 28, 34 (n1 = 6) • Odmiana 2: 14, 18, 19, 20, 25 (n2 = 5) 35 • • • • • • • • proc boxplot data=seeds; plot seeds*var/ boxstyle=schematic; run; proc npar1way data=seeds wilcoxon; class var; var seeds; exact wilcoxon; run; 30 s e e d s 25 20 15 10 1 2 var • • Wilcoxon Scores (Rank Sums) for Variable seeds Classified by Variable var • • • var N Sum of Scores • • 1 2 6 5 47.0 19.0 • Exact Test Expected Std Dev Mean Under H0 Under H0 Score 36.0 30.0 5.439753 5.439753 7.833333 3.800000 • • One-Sided Pr <= S 0.0238 Two-Sided Pr >= |S - Mean| 0.0498