Analiza zmienności złożona. Testy wielokrotnych porównań.
Transkrypt
Analiza zmienności złożona. Testy wielokrotnych porównań.
Autor: Dariusz Piwczyński 1 2006-03-28 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań Analizę wariancji możemy wykonać w SAS za pomocą procedury ANOVA oraz GLM. ANOVA – Analysis of variance (Analiza wariancji) General Linear Models (Ogólne modele liniowe) Model analizy wariancji (ANOVA): Yij=µ + αi + εij µ - średnia dla całej, objętej badaniami populacji αi – efekt i-tego poziomu czynnika, to inaczej różnica między średnią dla i-tej grupy oraz średnią dla całej grupy (µ). εij - błąd losowy Przykład procedury pozwalającej przeprowadzić jednoczynnikową analizę wariancji. proc anova data=krowy.mleko; class lakt; model mlkg = lakt; means lakt/ tukey; run; Objaśnienia: class - nazwy czynników doświadczalnych/ model - tworzymy model analizy, zmienne zależne = zmienne niezależne (czynniki) means - wskazujemy dla jakich grup mają być wyliczone średnie i jakie testy użyte do weryfikacji różnic proc anova data=OWCE.jag; class gen; model bialko--pr_tloszac = gen; means gen /duncan alpha=0.01; run; Sprawdzamy założenia analizy wariancji: a) Równość wariancji (Homogeniczność wariancji). TEST LEVENE Hipoteza zerowa w przypadku tego testu brzmi: wszystkie wariancje są równe. Test Levene jest dostępny w procedurze GLM! means lakt/hovtest; proc glm data=krowy.mleko; class lakt; model mlkg = lakt; means lakt/hovtest; run; b) Sprawdzamy czy reszty mają rozkład normalny. Wykonujemy testy oddzielnie dla każdej grupy, ale również można dla całości proc glm data=krowy.mleko; class lakt; model mlkg = lakt; output out=spr r=reszty p=pred; run; Metody statystyczne w naukach biologicznych Autor: Dariusz Piwczyński 2 2006-03-28 Polecenie “output” pozwala zapisywać wyniki obliczeń w nowych zbiorach czy samą tabelę (tak, jak w tym wypadku) z danymi w zbiorze wynikowym o nazwie “spr”. Zawiera on dodatkowo kolumny: „reszty” (umieszczone są w niej błędy losowe) oraz kolumnę „pred” (przewidywane wartości cechy u poszczególnych obiektów). proc univariate data=spr normal; class lakt; var reszty; run; “reszty” to kolumna w tabeli spr, która zawiera błędy losowe dla każdej jednostki doświadczalnej. Poniżej znajduje się fragment tabeli spr Obs 1 2 3 4 5 14 15 16 17 18 19 27 28 29 30 31 32 33 krowa 409634790 409634662 409633917 509090241 509013003 409633917 409634662 409634790 509083260 509127404 509011344 509127404 409634662 509013003 409634790 509090217 509133667 409633917 mlkg 3075.9 3355.3 3658 3821.2 4474.4 3312 3549.8 3593.9 3743.6 3765.4 4246.1 2610 3721 4115.6 5110.4 5290.4 5426.2 5675.7 reszty -1463.26 -1183.86 -881.16 -717.96 -64.76 -1105.28 -867.48 -823.38 -673.68 -651.88 -171.18 -3039.76 -1928.76 -1534.16 -539.36 -359.36 -223.56 25.94 pred 4539.16 4539.16 4539.16 4539.16 4539.16 4417.28 4417.28 4417.28 4417.28 4417.28 4417.28 5649.76 5649.76 5649.76 5649.76 5649.76 5649.76 5649.76 W sytuacji, gdy wyniki analizy wariancji dają podstawę do odrzucenia hipotezy zerowej, wykonujemy tzw. testy niezaplanowane, zwane inaczej testami a posteriori. Niedopuszczalne jest stosowanie testu t-Studenta w przypadku większej liczby porównywanych średnich (więcej niż 2), gdyż drastycznie rośnie błąd I rodzaju dla całego doświadczenia. Przy jednej parze błąd ten wynosić może 0,05, ale przy 4 średnich (6 możliwych porównań) prawdopodobieństwo, że się pomylimy wynosi: 1-0,956, czyli aż 0.26. PRZYKŁAD 1: Sprawdź metodą analizy wariancji czy genotyp jagniąt wpływa statystycznie na ich cechy użytkowości rzeźnej. Zweryfikuj wcześniej założenia analizy wariancji, tj. homogeniczność wariancji, zgodność reszt z rozkładem normalnym. Skoroszyt do obliczeń znajduje się w S:\USM_STAT\BAZY_XLS\JAG.XLS a) Testujemy zgodność wariancji oraz reszty /*Homogenicznosc wariancji*/ proc glm data=OWCE.jag; class gen; model pr_tloszac = gen; means gen /hovtest; output out=spr r=reszty p=pred; run; quit; Metody statystyczne w naukach biologicznych Autor: Dariusz Piwczyński 3 2006-03-28 proc univariate data=spr normal; /* class gen;*/ var reszty; run; ======================================================================== System SAS 17:24 Monday, April 19, 2004 The GLM Procedure Class Level Information Class gen Values R2 R3 mp su Number of observations System SAS The GLM Procedure Dependent Variable: pr_tloszac Źródło Model Error Corrected Total Levels 4 Suma kwadratów 241.0486920 644.8991354 885.9478274 DF 3 58 61 R-Square 0.272080 Coeff Var 18.36983 54 62 17:24 Monday, April 19, 2004 Wartość średnia kwadratów 80.3495640 11.1189506 Root MSE 3.334509 F 55 Pr > F 0.0003 7.23 pr_tloszac Mean 18.15210 Warto¶ć Źródło gen DF 3 Type I SS 241.0486920 rednia kwadratów 80.3495640 Źródło gen DF 3 Type III SS 241.0486920 rednia kwadratów 80.3495640 F Pr > F 0.0003 7.23 Wartość F Pr > F 0.0003 7.23 System SAS 17:24 Monday, April 19, 2004 The GLM Procedure ============================================================================================== Levene's Test for Homogeneity of pr_tloszac Variance ANOVA of Squared Deviations from Group Means Źródło Suma kwadratów DF gen Error 3 58 Wartość średnia kwadratów 293.0 12039.4 97.6813 207.6 F 0.47 Pr > F 0.7040 Przeprowadzony test Levene, a w zasadzie prawdopodobieństwo związane z tym testem (0.7040), dowodzi, iż nie mamy podstaw do odrzucenia hipotezy zerowej o równości wariancji. Należy zatem założyć, iż zmienność w porównywanych populacjach próbnych jest podobna. Jedno z założeń analizy zostało pozytywnie przetesttowane. System SAS 17:24 Monday, April 19, 2004 The GLM Procedure Level of gen R2 R3 mp su ----------pr_tloszac--------Mean Std Dev N 15 21 8 18 17.3540000 18.8676190 13.6675000 19.9755556 3.55733207 2.80400411 3.46764947 3.64863911 Krótka charakterystyka statystyczna powyżej pozwala wstępnie porównać ze sobą grupy rasowe jagniąt biorąc pod uwagę przeciętny poziom cechy oraz jej zmienność. Procedura UNIVARIATE Zmienna: reszty Momenty N Średnia Odch. standardowe Skośność SS nieskorygowane Wariancja współczynnika 62 0 3.2514792 0.23387574 644.899135 . Metody statystyczne w naukach biologicznych Suma wag Suma obserwacji Wariancja Płaskość SS skorygowane Stand. błąd średniej 62 0 10.572117 -0.0719579 644.899135 0.41293827 57 Autor: Dariusz Piwczyński 4 2006-03-28 Podstawowe miary statystyczne Położenie Średnia Mediana Wartość modalna Zmienno¶ć 0.000000 0.091000 . Odch. standardowe Wariancja Przedział Przedział międzykwartylowy 3.25148 10.57212 15.65844 4.44794 Testy dla normalności Test ----Statystyka---- ------P-warto¶ć------- Shapiro-Wilk Kolmogorov-Smirnov Cramer-von Mises Anderson-Darling W D W-Kwadr. A-Kwadr. Pr Pr Pr Pr 0.987163 0.091336 0.046285 0.270366 < > > > System SAS W D W-Kwadr. A-Kwadr. 0.7643 >0.1500 >0.2500 >0.2500 17:24 Monday, April 19, 2004 63 Przeprowadzone testy normalności, Shapiro-Wilka (0.7643), Kolmogorov-Smirnova (0.15) nie dają podstaw do odrzucenia hipotezy zerowej, która zakłada zgodność rozkładu reszt z rozkładem normalnym. b) Po sprawdzeniu założeń wykonujemy jednoczynnikową analizę wariancji za pomocą procedury ANOVA /*Wykonujemy analize wariancji lacznie z testem wielokrotnych porownan*/ proc anova data=OWCE.jag; class gen; model pr_tloszac = gen; means gen /tukey cldiff lines alpha=0.01; run; ALPHA=p – poziom istotności, przy którym testujemy istotność różnic. CLDIFF – opcja towarzysząca następującym testom: BON, GABRIEL, SCHEFFE, SIDAK, SMM, GT2, T, LSD, i TUKEY. LINES – opcja towarzysząca testom: BON, DUNCAN, GABRIEL, REGWQ, SCHEFFE, SIDAK, SMM, GT2, SNK, T, LSD, TUKEY, i WALLER. The ANOVA Procedure Class Level Information Class gen Levels 4 Values R2 R3 mp su Number of observations The ANOVA Procedure Dependent Variable: pr_tloszac Źródło Model Error Corrected Total DF 3 58 61 R-Square 0.272080 Źródło gen 62 Suma kwadratów 241.0486920 644.8991354 885.9478274 Coeff Var 18.36983 DF 3 Wartość F 7.23 pr_tloszac Mean 18.15210 Wartość Średnia kwadratów F 80.3495640 7.23 Pr > F 0.0003 Root MSE 3.334509 Anova SS 241.0486920 Metody statystyczne w naukach biologicznych Średnia kwadratów 80.3495640 11.1189506 Pr > F 0.0003 Autor: Dariusz Piwczyński 5 2006-03-28 Obliczony poziom istotności (0,0003) , związany z testem Fishera-Snedecora pozwala stwierdzić, iż mamy podstawę do odrzucenia hipotezy zerowej o równości średnich. Istnieje zatem co najmniej jedna para średnich, które różnią się ze sobą statystycznie. Odrzucenie H0 pozwala również wnioskować, iż przynależność rasowa jagniąt wysoko istotnie statystycznie oddziałuje na udział wyrębów wartościowych w półtuszy. Konieczne jest przeprowadzenie testu wielokrotnych porównań, który pozwoli ustalić jakie grupy różnią się między sobą pod względem ocenianej cechy. F – wartość F (ŚKM/ŚKW) R-Square (R2) =SKM/SKO; Wskaźnik determinacji informuje, w jakim stopniu zmienne niezależne (czynniki) objaśniają zmienność cechy zależnej. Jeżeli wartość jest zbliżona do 0, tzn. że czynniki w żaden sposób nie wyjaśniają zmienności cechy ilościowej. Coeff Var – wskaźnik zmienności Pearsona Mean średnia arytmetyczna dla całej populacji, tj. 62 jagniąt. Root MSE System SAS The ANOVA Procedure 17:24 Monday, April 19, 2004 65 Test zakresu studentyzowanego Tukeya (HSD) dla pr_tloszac UWAGA: Ten test sprawdza wartość błędu rodzaju I eksperymentalnie. Alpha 0.01 Niepoprawne stopnie swobody 58 Kwadrat błędu średniej 11.11895 Wartość krytyczna zakresu studentyzowanego 4.60093 Porównania znaczące na poziomie 0.01 są wskazywane przez '***'. Poniżej znajduje się efekt działania opcji „CLDIFF”. Porównywane grupy dobrane są parami, przy każdej różnicy średnich znajduje się jej przedział ufności oraz informacja czy różnica jest istotna statystycznie. Jak dowodzą rezultaty testu Tukey, jagnięta rasy merynos polski różnią się wysoko istotnie z pozostałymi grupami genotypowymi. Nie stwierdzono różnic istotnych statystycznie między grupami jagniąt z udziałem rasy suffolk, stanowią one grupę jednordną. gen Comparison su su su R3 R3 R3 R2 R2 R2 mp mp mp - R3 R2 mp su R2 mp su R3 mp su R3 R2 Difference Between Means 1.108 2.622 6.308 -1.108 1.514 5.200 -2.622 -1.514 3.686 -6.308 -5.200 -3.686 Jednoczesny 99% Confidence Limits -2.377 -1.171 1.698 -4.593 -2.154 0.693 -6.414 -5.181 -1.063 -10.918 -9.707 -8.436 4.593 6.414 10.918 2.377 5.181 9.707 1.171 2.154 8.436 -1.698 -0.693 1.063 *** *** *** *** The ANOVA Procedure Test zakresu studentyzowanego Tukeya (HSD) dla pr_tloszac UWAGA: Ten test sprawdza wartość błędu rodzaju I eksperymentalnie, lecz ma wyższą wartość błędu rodzaju II niż REGWQ. Metody statystyczne w naukach biologicznych Autor: Dariusz Piwczyński 6 2006-03-28 Alpha 0.01 Niepoprawne stopnie swobody 58 Kwadrat błędu średniej 11.11895 Wartość krytyczna zakresu studentyzowanego 4.60093 Różnica minimalnie znacząca 4.1653 Średnia harmoniczna rozmiarów komórek 13.56662 UWAGA: Rozmiary komórek nie są równe. Means with the same letter are not significantly different. Poniżej znajduje się efekt działania opcji „LINES”. Porównywane grupy uporządkowane są malejąco. Średnie, przy których znajduje się ta sama litera stanowią, tzw. grupę średnich jednorodnych, tzn. które nie różnią się ze sobą. Porównaj z wynikami istotności różnic powyżej. Bezwzględnie należy zwrócić uwagę, iż wzrost w genotypie jagniąt udziału rasy suffolk korzystnie wpływa na procentowy udział wyrębów wartościowych w tuszy zwierząt. Tukey Grouping Mean N gen A A A A A 19.976 18 su 18.868 21 R3 17.354 15 R2 13.668 8 mp B B B Zadanie 1: Sprawdź metodą analizy wariancji czy laktacja oraz stado wpływają statystycznie na cechy mleczności krów. Zweryfikuj wcześniej założenia analizy wariancji, tj. homogeniczność wariancji, zgodność reszt z rozkładem normalnym. Obliczenia wykonaj za pomocą procedury GLM (tabela krowy). proc glm data=krowy.mleko; class lakt stado; model mlkg = lakt stado lakt*stado; means stado /tukey; means lakt /tukey; run; Zadanie 2: Posługując się metodą dwuczynnikowej analizy wariancji sprawdź czy rodzaj zakładu przemysłowego oraz strefa, w jakiej pobierane były próby mają statystyczny wpływ na liczbę gatunków mechowców oraz liczebności osobników z rodzaju Mechowców i Roztoczy. W razie potrzeby zastosuj testy wielokrotnych porównań. Metody statystyczne w naukach biologicznych