Analiza zmienności złożona. Testy wielokrotnych porównań.

Transkrypt

Analiza zmienności złożona. Testy wielokrotnych porównań.
Autor: Dariusz Piwczyński
1
2006-03-28
Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań
Analizę wariancji możemy wykonać w SAS za pomocą procedury ANOVA oraz GLM.
ANOVA – Analysis of variance (Analiza wariancji)
General Linear Models (Ogólne modele liniowe)
Model analizy wariancji (ANOVA): Yij=µ + αi + εij
µ - średnia dla całej, objętej badaniami populacji
αi – efekt i-tego poziomu czynnika, to inaczej różnica między średnią dla i-tej grupy oraz
średnią dla całej grupy (µ).
εij - błąd losowy
Przykład procedury pozwalającej przeprowadzić jednoczynnikową analizę wariancji.
proc anova data=krowy.mleko;
class lakt;
model mlkg = lakt;
means lakt/ tukey;
run;
Objaśnienia:
class - nazwy czynników doświadczalnych/
model - tworzymy model analizy, zmienne zależne = zmienne niezależne
(czynniki)
means - wskazujemy dla jakich grup mają być wyliczone średnie i jakie testy
użyte do weryfikacji różnic
proc anova data=OWCE.jag;
class gen;
model bialko--pr_tloszac = gen;
means gen /duncan alpha=0.01;
run;
Sprawdzamy założenia analizy wariancji:
a) Równość wariancji (Homogeniczność wariancji). TEST LEVENE
Hipoteza zerowa w przypadku tego testu brzmi: wszystkie wariancje są równe. Test Levene
jest dostępny w procedurze GLM!
means lakt/hovtest;
proc glm data=krowy.mleko;
class lakt;
model mlkg = lakt;
means lakt/hovtest;
run;
b) Sprawdzamy czy reszty mają rozkład normalny. Wykonujemy testy oddzielnie dla każdej
grupy, ale również można dla całości
proc glm data=krowy.mleko;
class lakt;
model mlkg = lakt;
output out=spr r=reszty p=pred;
run;
Metody statystyczne w naukach biologicznych
Autor: Dariusz Piwczyński
2
2006-03-28
Polecenie “output” pozwala zapisywać wyniki obliczeń w nowych zbiorach czy samą tabelę
(tak, jak w tym wypadku) z danymi w zbiorze wynikowym o nazwie “spr”. Zawiera on
dodatkowo kolumny: „reszty” (umieszczone są w niej błędy losowe) oraz kolumnę „pred”
(przewidywane wartości cechy u poszczególnych obiektów).
proc univariate data=spr normal;
class lakt;
var reszty;
run;
“reszty” to kolumna w tabeli spr, która zawiera błędy losowe dla każdej jednostki
doświadczalnej.
Poniżej znajduje się fragment tabeli spr
Obs
1
2
3
4
5
14
15
16
17
18
19
27
28
29
30
31
32
33
krowa
409634790
409634662
409633917
509090241
509013003
409633917
409634662
409634790
509083260
509127404
509011344
509127404
409634662
509013003
409634790
509090217
509133667
409633917
mlkg
3075.9
3355.3
3658
3821.2
4474.4
3312
3549.8
3593.9
3743.6
3765.4
4246.1
2610
3721
4115.6
5110.4
5290.4
5426.2
5675.7
reszty
-1463.26
-1183.86
-881.16
-717.96
-64.76
-1105.28
-867.48
-823.38
-673.68
-651.88
-171.18
-3039.76
-1928.76
-1534.16
-539.36
-359.36
-223.56
25.94
pred
4539.16
4539.16
4539.16
4539.16
4539.16
4417.28
4417.28
4417.28
4417.28
4417.28
4417.28
5649.76
5649.76
5649.76
5649.76
5649.76
5649.76
5649.76
W sytuacji, gdy wyniki analizy wariancji dają podstawę do odrzucenia hipotezy zerowej,
wykonujemy tzw. testy niezaplanowane, zwane inaczej testami a posteriori.
Niedopuszczalne jest stosowanie testu t-Studenta w przypadku większej liczby
porównywanych średnich (więcej niż 2), gdyż drastycznie rośnie błąd I rodzaju dla całego
doświadczenia. Przy jednej parze błąd ten wynosić może 0,05, ale przy 4 średnich (6
możliwych porównań) prawdopodobieństwo, że się pomylimy wynosi: 1-0,956, czyli aż
0.26.
PRZYKŁAD 1:
Sprawdź metodą analizy wariancji czy genotyp jagniąt wpływa statystycznie na ich cechy
użytkowości rzeźnej. Zweryfikuj wcześniej założenia analizy wariancji, tj. homogeniczność
wariancji, zgodność reszt z rozkładem normalnym. Skoroszyt do obliczeń znajduje się w
S:\USM_STAT\BAZY_XLS\JAG.XLS
a) Testujemy zgodność wariancji oraz reszty
/*Homogenicznosc wariancji*/
proc glm data=OWCE.jag;
class gen;
model pr_tloszac = gen;
means gen /hovtest;
output out=spr r=reszty p=pred;
run;
quit;
Metody statystyczne w naukach biologicznych
Autor: Dariusz Piwczyński
3
2006-03-28
proc univariate data=spr normal;
/* class gen;*/
var reszty;
run;
========================================================================
System SAS
17:24 Monday, April 19, 2004
The GLM Procedure
Class Level Information
Class
gen
Values
R2 R3 mp su
Number of observations
System SAS
The GLM Procedure
Dependent Variable: pr_tloszac
Źródło
Model
Error
Corrected Total
Levels
4
Suma
kwadratów
241.0486920
644.8991354
885.9478274
DF
3
58
61
R-Square
0.272080
Coeff Var
18.36983
54
62
17:24 Monday, April 19, 2004
Wartość
średnia kwadratów
80.3495640
11.1189506
Root MSE
3.334509
F
55
Pr > F
0.0003
7.23
pr_tloszac Mean
18.15210
Warto¶ć
Źródło
gen
DF
3
Type I SS
241.0486920
rednia kwadratów
80.3495640
Źródło
gen
DF
3
Type III SS
241.0486920
rednia kwadratów
80.3495640
F
Pr > F
0.0003
7.23
Wartość
F
Pr > F
0.0003
7.23
System SAS
17:24 Monday, April 19, 2004
The GLM Procedure
==============================================================================================
Levene's Test for Homogeneity of pr_tloszac Variance
ANOVA of Squared Deviations from Group Means
Źródło
Suma
kwadratów
DF
gen
Error
3
58
Wartość
średnia kwadratów
293.0
12039.4
97.6813
207.6
F
0.47
Pr > F
0.7040
Przeprowadzony test Levene, a w zasadzie prawdopodobieństwo związane z tym testem
(0.7040), dowodzi, iż nie mamy podstaw do odrzucenia hipotezy zerowej o równości
wariancji. Należy zatem założyć, iż zmienność w porównywanych populacjach próbnych jest
podobna. Jedno z założeń analizy zostało pozytywnie przetesttowane.
System SAS
17:24 Monday, April 19, 2004
The GLM Procedure
Level of
gen
R2
R3
mp
su
----------pr_tloszac--------Mean
Std Dev
N
15
21
8
18
17.3540000
18.8676190
13.6675000
19.9755556
3.55733207
2.80400411
3.46764947
3.64863911
Krótka charakterystyka statystyczna powyżej pozwala wstępnie porównać ze sobą grupy
rasowe jagniąt biorąc pod uwagę przeciętny poziom cechy oraz jej zmienność.
Procedura UNIVARIATE
Zmienna: reszty
Momenty
N
Średnia
Odch. standardowe
Skośność
SS nieskorygowane
Wariancja współczynnika
62
0
3.2514792
0.23387574
644.899135
.
Metody statystyczne w naukach biologicznych
Suma wag
Suma obserwacji
Wariancja
Płaskość
SS skorygowane
Stand. błąd średniej
62
0
10.572117
-0.0719579
644.899135
0.41293827
57
Autor: Dariusz Piwczyński
4
2006-03-28
Podstawowe miary statystyczne
Położenie
Średnia
Mediana
Wartość modalna
Zmienno¶ć
0.000000
0.091000
.
Odch. standardowe
Wariancja
Przedział
Przedział międzykwartylowy
3.25148
10.57212
15.65844
4.44794
Testy dla normalności
Test
----Statystyka----
------P-warto¶ć-------
Shapiro-Wilk
Kolmogorov-Smirnov
Cramer-von Mises
Anderson-Darling
W
D
W-Kwadr.
A-Kwadr.
Pr
Pr
Pr
Pr
0.987163
0.091336
0.046285
0.270366
<
>
>
>
System SAS
W
D
W-Kwadr.
A-Kwadr.
0.7643
>0.1500
>0.2500
>0.2500
17:24 Monday, April 19, 2004
63
Przeprowadzone testy normalności, Shapiro-Wilka (0.7643), Kolmogorov-Smirnova (0.15)
nie dają podstaw do odrzucenia hipotezy zerowej, która zakłada zgodność rozkładu reszt
z rozkładem normalnym.
b) Po sprawdzeniu założeń wykonujemy jednoczynnikową analizę wariancji za pomocą
procedury ANOVA
/*Wykonujemy analize wariancji lacznie z testem wielokrotnych porownan*/
proc anova data=OWCE.jag;
class gen;
model pr_tloszac = gen;
means gen /tukey cldiff lines alpha=0.01;
run;
ALPHA=p – poziom istotności, przy którym testujemy istotność różnic.
CLDIFF – opcja towarzysząca następującym testom: BON, GABRIEL, SCHEFFE, SIDAK,
SMM, GT2, T, LSD, i TUKEY.
LINES – opcja towarzysząca testom: BON, DUNCAN, GABRIEL, REGWQ, SCHEFFE,
SIDAK, SMM, GT2, SNK, T, LSD, TUKEY, i WALLER.
The ANOVA Procedure
Class Level Information
Class
gen
Levels
4
Values
R2 R3 mp su
Number of observations
The ANOVA Procedure
Dependent Variable: pr_tloszac
Źródło
Model
Error
Corrected Total
DF
3
58
61
R-Square
0.272080
Źródło
gen
62
Suma
kwadratów
241.0486920
644.8991354
885.9478274
Coeff Var
18.36983
DF
3
Wartość
F
7.23
pr_tloszac Mean
18.15210
Wartość
Średnia kwadratów
F
80.3495640
7.23
Pr > F
0.0003
Root MSE
3.334509
Anova SS
241.0486920
Metody statystyczne w naukach biologicznych
Średnia kwadratów
80.3495640
11.1189506
Pr > F
0.0003
Autor: Dariusz Piwczyński
5
2006-03-28
Obliczony poziom istotności (0,0003) , związany z testem Fishera-Snedecora pozwala
stwierdzić, iż mamy podstawę do odrzucenia hipotezy zerowej o równości średnich.
Istnieje zatem co najmniej jedna para średnich, które różnią się ze sobą statystycznie.
Odrzucenie H0 pozwala również wnioskować, iż przynależność rasowa jagniąt wysoko
istotnie statystycznie oddziałuje na udział wyrębów wartościowych w półtuszy. Konieczne
jest przeprowadzenie testu wielokrotnych porównań, który pozwoli ustalić jakie grupy
różnią się między sobą pod względem ocenianej cechy.
F – wartość F (ŚKM/ŚKW)
R-Square (R2) =SKM/SKO; Wskaźnik determinacji informuje, w jakim stopniu zmienne
niezależne (czynniki) objaśniają zmienność cechy zależnej. Jeżeli wartość jest zbliżona do 0,
tzn. że czynniki w żaden sposób nie wyjaśniają zmienności cechy ilościowej.
Coeff Var – wskaźnik zmienności Pearsona
Mean średnia arytmetyczna dla całej populacji, tj. 62 jagniąt.
Root MSE
System SAS
The ANOVA Procedure
17:24 Monday, April 19, 2004
65
Test zakresu studentyzowanego Tukeya (HSD) dla pr_tloszac
UWAGA: Ten test sprawdza wartość błędu rodzaju I eksperymentalnie.
Alpha
0.01
Niepoprawne stopnie swobody
58
Kwadrat błędu średniej
11.11895
Wartość krytyczna zakresu studentyzowanego 4.60093
Porównania znaczące na poziomie 0.01 są wskazywane przez '***'.
Poniżej znajduje się efekt działania opcji „CLDIFF”. Porównywane grupy dobrane są
parami, przy każdej różnicy średnich znajduje się jej przedział ufności oraz informacja czy
różnica jest istotna statystycznie. Jak dowodzą rezultaty testu Tukey, jagnięta rasy merynos
polski różnią się wysoko istotnie z pozostałymi grupami genotypowymi. Nie stwierdzono
różnic istotnych statystycznie między grupami jagniąt z udziałem rasy suffolk, stanowią one
grupę jednordną.
gen
Comparison
su
su
su
R3
R3
R3
R2
R2
R2
mp
mp
mp
-
R3
R2
mp
su
R2
mp
su
R3
mp
su
R3
R2
Difference
Between
Means
1.108
2.622
6.308
-1.108
1.514
5.200
-2.622
-1.514
3.686
-6.308
-5.200
-3.686
Jednoczesny
99% Confidence
Limits
-2.377
-1.171
1.698
-4.593
-2.154
0.693
-6.414
-5.181
-1.063
-10.918
-9.707
-8.436
4.593
6.414
10.918
2.377
5.181
9.707
1.171
2.154
8.436
-1.698
-0.693
1.063
***
***
***
***
The ANOVA Procedure
Test zakresu studentyzowanego Tukeya (HSD) dla pr_tloszac
UWAGA: Ten test sprawdza wartość błędu rodzaju I eksperymentalnie, lecz ma wyższą wartość
błędu rodzaju II niż REGWQ.
Metody statystyczne w naukach biologicznych
Autor: Dariusz Piwczyński
6
2006-03-28
Alpha
0.01
Niepoprawne stopnie swobody
58
Kwadrat błędu średniej
11.11895
Wartość krytyczna zakresu studentyzowanego 4.60093
Różnica minimalnie znacząca
4.1653
Średnia harmoniczna rozmiarów komórek
13.56662
UWAGA: Rozmiary komórek nie są równe.
Means with the same letter are not significantly different.
Poniżej znajduje się efekt działania opcji „LINES”. Porównywane grupy uporządkowane są
malejąco. Średnie, przy których znajduje się ta sama litera stanowią, tzw. grupę średnich
jednorodnych, tzn. które nie różnią się ze sobą. Porównaj z wynikami istotności różnic
powyżej. Bezwzględnie należy zwrócić uwagę, iż wzrost w genotypie jagniąt udziału rasy
suffolk korzystnie wpływa na procentowy udział wyrębów wartościowych w tuszy zwierząt.
Tukey Grouping
Mean
N
gen
A
A
A
A
A
19.976
18
su
18.868
21
R3
17.354
15
R2
13.668
8
mp
B
B
B
Zadanie 1:
Sprawdź metodą analizy wariancji czy laktacja oraz stado wpływają statystycznie na cechy
mleczności krów. Zweryfikuj wcześniej założenia analizy wariancji, tj. homogeniczność
wariancji, zgodność reszt z rozkładem normalnym. Obliczenia wykonaj za pomocą procedury
GLM (tabela krowy).
proc glm data=krowy.mleko;
class lakt stado;
model mlkg = lakt stado lakt*stado;
means stado /tukey;
means lakt /tukey;
run;
Zadanie 2:
Posługując się metodą dwuczynnikowej analizy wariancji sprawdź czy rodzaj zakładu
przemysłowego oraz strefa, w jakiej pobierane były próby mają statystyczny wpływ na liczbę
gatunków mechowców oraz liczebności osobników z rodzaju Mechowców i Roztoczy. W
razie potrzeby zastosuj testy wielokrotnych porównań.
Metody statystyczne w naukach biologicznych

Podobne dokumenty