Za pomoca analizy wariancji dwuczynnikowej można analizować

Transkrypt

Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami
Krótki kurs obsługi komputera
Za pomocą analizy wariancji dwuczynnikowej można analizować wyniki eksperymentów, w
których stosuje się niezależnie dwa różne czynniki.
Rozpatrywany będzie następujący przykład: liczby jaj składanych przez samicę trojczyków
ulców w ciągu 5 dni, na pożywce różnej wielkości i jakości (Można też tą analizę zastosować do
analizy danych rozpuszczalności czy ZWW dla różnych rodzajów skrobi w różnych
temperaturach).
Tutaj różne wielkości i jakości, czyli poszczególne elementy jednej skali nominalnej(jednego
czynnika), nazywamy poziomem tego czynnika. Stosując 3 różne rodzaje pożywki i 4 różne ilości
tej pożywki, po dwa powtórzenia w każdym, otrzymujemy 12 grup różniących się albo jakości
pożywki, jej ilością, albo tymi dwoma czynnikami równocześnie. Mamy tu zatem do czynienia z
dwoma skalami nominalnymi. Można założyć, że mamy jedna skalę nominalna i przeprowadzić
analizę wariancji w klasyfikacji prostej z 12 grupami, ale wówczas nie możemy oddzielić
wpływu jakości od wpływu ilości pożywki. Aby to zrobić, trzeba przeprowadzić analizę
wariancji w klasyfikacji dwukierunkowej.
Termin „z powtórzeniami” oznacza, że w każdej grupie (na każdym przecięciu wiersza i
kolumn) dysponujemy kilkoma pomiarami. Jeżeli dysponujemy tylko jednym pomiarem
mówimy o wariancji dwukierunkowej bez powtórzeń
Dane, zebrane w tabeli, to liczba jaj składanych przez samicę trojczyka w ciągu 5 dni na trzech
rodzajach pożywki: maki pszennej bez dodatku drożdży (M0), mące z dodatkiem 5% drożdży
(M5) i mące z dodatkiem 10% drożdży (M10), przy różnej ilości pożywki. Dane te są w dwóch
powtórzeniach dla każdej z 12 kombinacji tych czynników
Ilość pożywki w gramach
M0
sumy
średnia
M5
sumy
średnia
M10
sumy
średnia
0,5
1
2
4
20
11
31
23
18
41
29
38
67
35
42
77
15,5
20,5
33,5
38,5
26
24
50
37
31
68
38
22
60
42
38
80
25
34
30
40
27
56
83
37
32
69
65
66
131
62
100
162
41,5
34,5
65,5
81
164
178
258
319
Suma
wierszy
216
258
445
919
W tabeli jest łącznie 432=24 pomiary, zgrupowane w 4 kolumny i 3 wiersze po 2 pomiary w
każdym przecięciu kolumny i wiersza. Analiza wariancji w klasyfikacji dwukierunkowej
wymaga, aby na w każdym przecięciu kolumny i wiersza była taka sama liczba pomiarów.
Aby uniknąć pomyłek wprowadzono konwencje opisująca każdy pomiar symbolem Xijk, w
którym i jest numerem pomiaru w grupie, j numerem wiersza, a k numerem kolumny. W
naszym przykładzie X214=42. W każdej kolumnie jest a wierszy, a w każdym wierszu b kolumn.
Wszystkich grup jest ab.
1/10
Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego
Podobnie jak w analizie wariancji klasyfikacja prosta (jednoczynnikowa), najpierw obliczamy
ogólną (całkowitą) sumę kwadratów odchyleń:
 b a N jk



X
  ijk 
b
a N jk
k
j
i

X ijk2  

N
k
j
i
2
(1)
Pierwszy składnik wzoru (1) obliczamy podnosząc do kwadratu każdy z 24 pomiarów, a
następnie sumując je:
b
a
N jk
 X
k
j
2
ijk
 (20) 2  (11) 2  ...  (100) 2  44049
i
Drugi składnik tego wzoru (tzw. wyraz poprawkowy) otrzymujemy podnosząc sumę
wszystkich pomiarów do kwadratu i dzieląc przez liczbę pomiarów N.
2
 b a N jk

  X ijk 


 k j i
  (20  11  ...  100) 2 / 24  9192 / 24  35190,04
N
Zgodnie z wzorem (1) całkowita suma kwadratów odchyleń wynosi:
44049  35190,04  8858,96
Międzygrupową sumę kwadratów odchyleń obliczamy zgodnie ze wzorem:
2
 N jk
  b a N jk

  X ijk    X ijk 
 

b
a 
 i
  k j i


N jk
N
k
j
2
(2)
Pierwszy składnik tego wzoru obliczamy podnosząc sumę pomiarów w każdej grupie do
kwadratu, dzieląc ją przez wielkość grupy i sumując kwadraty dla wszystkich grup, drugi został
już obliczony wcześniej (to tzw. wyraz poprawkowy)
(31) 2 / 2  (41) 2 / 2  ...  (162) 2 / 2  35190,04  42619,5  35190,04  7429,46
W podobny sposób obliczamy sumę kwadratów odchyleń miedzy kolumnami i wierszami.
Suma kwadratów odchyleń między kolumnami:
2
 a N jk
  b a N jk

  X ijk    X ijk 
 

b 
 j i
  k j i

k
Nk
N
2
(3)
I znów drugi składnik tego wzoru to znany już nam wyraz poprawkowy. Składnik pierwszy jest
obliczany w następujący sposób: najpierw dodajemy wszystkie Nk=6pomiarów osobno z każdej
b=4 kolumn, podnosimy je do kwadratu i dzielimy przez Nk. Dopiero tak otrzymane wartości
2/10
sumujemy dla wszystkich kolumn. W rozważanym przez nas przykładzie suma kwadratów
odchyleń miedzy kolumnami wynosi:
(164) 2 / 6  (178) 2 / 6  (258) 2 / 6  (319) 2 / 6  35190,04
37817,5  35190,04  2627,46
Suma kwadratów odchyleń między wierszami określona jest wzorem:
2
 b N jk
  b a N jk

  X ijk    X ijk 
 

a 
 k i
  k j i

j
Nj
N
2
(4)
W tym przypadku sumujemy najpierw po Nj=8 pomiarów z każdego a=3 wierszy i podobnie jak
poprzednio podnosimy te sumy do kwadratu, dzielimy je przez Nj, sumujemy, a następnie od tej
sumy odejmujemy wyraz poprawkowy.
W naszym przykładzie suma odchyleń między wierszami wynosi:
(216) 2 / 8  (258) 2 / 8  (445) 2 / 8  35190,04  38905,53  35190,04  3715,59
Wewnątrzgrupowa sumę kwadratów odchyleń (składnik błędu) obliczamy następująco:
Wewnątrzgrupowa SK=ogólna SK – międzygrupowa SK
(5)
Co w naszym przypadku:
SK  8858,96 - 7429,46  1429,508
W analizie wariancji klasyfikacji podwójnej obliczamy tez interakcyjną sumę kwadratów,
która obliczamy następująco:
Interakcyjna SK=międzygrupowa SK – SK między kolumnami – SK miedzy wierszami (6)
W naszym przykładzie:
SK  7429,46  2627,46  3715,59  1086,41
Wszystkie SK muszą być nieujemne, jeżeli wynik jest ujemny to znaczy, że w obliczeniach
jest błąd.
Liczbę stopni swobody df odpowiadające wymienionym powyżej sumom kwadratów odchyleń
oblicza się następująco:
ogólna (całkowita)
międzygrupowa
df=N-1
df=ab-1
b
wewnątrzgrupowa (błędu) df=
 ( N
k
międzykolumnowa
międzywierszowa
interakcyjna
a
jk
 1)  N  ab
j
df=b-1
df=a-1
df=(a-1)(b-1)
Warte zauważenia jest, że stopnie swobody df dodają się w ten sam sposób jak sumy
kwadratów odchyleń SK. Jeżeli tak nie jest to oznacza to, że w obliczenia wkradł się błąd.
3/10
Liczba stopni swobody dla naszego przykładu wynosi:
ogólna (całkowita)
międzygrupowa
wewnątrzgrupowa (błędu)
międzykolumnowa
międzywierszowa
interakcyjna
df=N-1=24-1=23
df=ab-1=34-1=12-1=11
df=N-ab=24-12=12
df=b-1=4-1=3
df=a-1=3-1=2
df=(a-1)(b-1)=(3-1)(4-1)= 23=6
Następnie wszystkie obliczone SK oraz df zbieramy w tabeli
Źródła
zmienności
SK
df
Wariancja
F
P
Całkowita
8858,96
23
grupy
7429,46
11
wiersze (rodzaj)
3715,59
2
1857,80
15,596
P<0,001
kolumny (ilość)
2627,46
3
875,82
7,352
0,001<P<0,01
interakcja
1086,41
6
181,07
1,520
P 0,05
błąd
1429,50
12
119,12
Mówiąc o źródłach zmienności, w tabeli podano ogólnie wiersze i kolumny. W zasadzie
powinno się podać rzeczywiste źródła zmienności. Dla naszego przykładu będzie to jakość
pokarmu oraz jego ilość.
Następnym krokiem jest oszacowanie wariancji, które otrzymujemy dzieląc sumy kwadratów
odchyleń SK przez odpowiadające nim stopnie swobody df (np. 3715,59/2=1857,80). Wariancji
ogólnej i wariancji miedzy grupami nie szacujemy, ponieważ interesuje nas tylko wpływ
rodzaju pokarmu (wiersze), jego ilości (kolumny) i interakcja tych dwóch czynników. Ocenę
zmienności losowej otrzymujemy przez oszacowanie wariancji wewnątrz grup, czyli
składnika błędu.
Opisany przykład analizy wariancji należy do I modelu, ponieważ zarówno jakość pożywki, jak
i jej ilość są czynnikami powtarzalnymi, określonymi przez eksperymentatora. Aby ocenić,
które z czynników są istotne, dzielimy oszacowania wariancji dla każdego z tych
czynników przez oszacowanie wariancji błędu (np. 1857,80/119,12=15,596). W ten sposób
otrzymujemy stosunki F dla wierszy, kolumn i interakcji. Jeżeli mamy do czynienia z modelem
II (losowym) lub mieszanym (jeden czynnik losowy, drugi ustalony), to istotność interakcji,
podobnie jak w modelu I, ustalamy obliczając stosunek F dla wariancji interakcja/błąd. W
modelu II istotność wpływu czynnika wyrażonego w kolumnach i wierszach badamy
stosunkiem F oszacowań wariancji: kolumny/ interakcja i wiersze/interakcja. W modelu
mieszanym inaczej postępujemy z czynnikiem losowym (z modelu II), a inaczej z czynnikiem
ustalonym (z modelu I). Istotność czynnika losowego określamy stosunkiem (oszacowanie
wariancji tego czynnika)/błąd, zaś czynnika ustalonego – (oszacowanie wariancji tego
czynnika)/interakcja.
W modelu I po obliczeniu stosunków F oszacowań wariancji: (jakość pożywki)/błąd, (ilość
pożywki)/błąd i (interakcja: ilośćjakość)/błąd sprawdzamy, które z tych stosunków są większe
od wartości krytycznych podanych w tabeli G. Jeśli którakolwiek z otrzymanych wartości F jest
mniejsza od jedności, to znaczy, że dla odpowiadającego jej czynnika należy przyjąć hipotezę
4/10
zerową. Wartości krytyczne F znajdujemy posługując się stopniami swobody dla większych
wariancji (w liczniku), wymienionych w główce tabeli i stopniami swobody dla mniejszej
wariancji (w mianowniku), wymienionych w pierwszej kolumnie tabeli. Dla wpływu jakości
pokarmu (wiersze) otrzymany stosunek F jest nie tylko większy od F0,05;2;12=3,88, ale także od
F0,001;2;12=12,97. Wynika z tego, że hipotezę zerową, iż jakość pokarmu (wiersze) nie ma
wpływu na ilość składanych jaj, trzeba odrzucić, ryzykując przy tym popełnienie błędu I
rodzaju, z bardzo małym prawdopodobieństwem P<0,001. W podobny sposób odrzucamy
hipotezę zerową dla kolumn (df=3 i 12), że ilość pokarmu nie wpływa na liczbę złożonych jaj
(0,001<P<0,010, przyjmujemy natomiast hipotezę zerową (P>0,05), że nie ma współdziałania
(interakcji) między tymi dwoma czynnikami.
Interakcja występuje, gdy efekt uzyskany przy danym poziomie jednego czynnika zależy od
poziomu drugiego; nie miałby miejsca bez połączenia dwóch czynników na danym poziomie.
Jeżeli interakcja nie zachodzi, to czynniki są addytywne.
Kilka słów o tym jak można zaoszczędzić trochę czasu i zapoznać się z dobrodziejstwami
cywilizacji
Przedstawione powyżej obliczenia można wykonać korzystając narzędzi zainstalowanych w
programie Microsoft Excell. Ponieważ to narzędzie nie jest standardowo zainstalowane należy
to zrobić samemu. W tym celu po uruchomieniu programu należy wejść w opcje Narzędzia, a
następnie wybrać Dodatki. W okienku, które się pojawi należy zaznaczyć pierwsze trzy
pozycje: Aktualizowanie łączy dodatków, Analysis ToolPak, oraz Analysis ToolPak-VBA.
Wybór należy potwierdzić poprzez naciśnięcie przycisku OK.
Teraz można przystąpić do wprowadzenia danych. Dane mogą być wprowadzane w postaci
wierszy lub kolumn. W naszym przykładzie dane są podane w wierszach.
M0
M0
M5
M5
M10
M10
0,5g
20
11
26
24
27
56
1g
23
18
37
31
37
32
2g
29
38
38
22
65
66
4g
35
42
42
38
62
100
Po wprowadzeniu danych ponownie rozwija się menu Narzędzia, a z niego wybiera się opcje
Analiza Danych. W okienku, które się pojawia wybiera się Analiza wariancji:
dwuczynnikowa z powtórzeniami. Następnie pojawia się kolejne okno dialogowe. Jako
Zakres wejściowy podaje się całość naszych danych (włącznie z nazwami), następnie należy
podać liczbę wierszy w próbie (w naszym przykładzie 2). Ponieważ zaznaczyliśmy w zakresie
wejściowym kolumnę z nazwami to w oknie dialogowym też to należy to zaznaczyć.
Poziom istotności wybieramy, w zależności od potrzeb (zwykle 0,05 lub 0,01). Następnie
potwierdzamy wybór przez przyciśnięcie przycisku OK. Ponieważ nic nie zmienialiśmy w
opcjach wyjścia to wyniki pojawia się na nowym arkuszu w formie tabeli, która przedstawiono
na następnej stronie. Zawiera ona trochę więcej danych.
Proszę zwrócić uwagę, że w kolumnie zatytułowanej test F podana jest aktualna wartość F dla
wybranego poziomu istotności (w przykładzie wybrano 0,05). Dzięki temu można
zrezygnować z korzystania z Tabeli G.
Należy pamiętać, by zaznaczyć cały obszar pokazany powyżej. Jeżeli się o tym zapomni mogą
wystąpić problemy, a tych należy się wystrzegać.
5/10
Analiza wariancji: dwuczynnikowa z powtórzeniami
PODSUMOWANIE
0,5g
1g
2g
4g
Razem
M0
Licznik
Suma
Średnia
Wariancja
2
31
15,5
40,5
2
41
20,5
12,5
2
67
33,5
40,5
2
8
77
216
38,5
27
24,5 116,5714
2
50
25
2
2
68
34
18
2
60
30
128
2
8
80
258
40
32,25
8 56,78571
2
83
41,5
420,5
2
69
34,5
12,5
2
131
65,5
0,5
2
8
162
445
81
55,625
722 561,4107
M5
Licznik
Suma
Średnia
Wariancja
M10
Licznik
Suma
Średnia
Wariancja
Razem
Licznik
Suma
Średnia
Wariancja
6
6
164
178
27,33333 29,66667
231,0667 59,06667
ANALIZA WARIANCJI
Źródło wariancji
SS
Próbka
3715,583
Kolumny
2627,458
Interakcja
1086,417
W obrębie
1429,5
Razem
8858,958
df
6
6
258
319
43 53,16667
340 616,1667
MS
F
Wartość-p Test F
2 1857,792 15,59531 0,00046 3,88529
3 875,8194 7,352104 0,004687
3,4903
6 181,0694 1,519995 0,252567 2,996117
12 119,125
23
Dla porównania niżej zamieszczano tabelę, którą sami sporządziliśmy:
Źródła
zmienności
SK
df
Wariancja
F
P
Całkowita
8858,96
23
grupy
7429,46
11
wiersze (rodzaj)
3715,59
2
1857,80
15,596
P<0,001
kolumny (ilość)
2627,46
3
875,82
7,352
0,001<P<0,01
interakcja
1086,41
6
181,07
1,520
P 0,05
błąd
1429,50
12
119,12
6/10
Wielkość Wartość-p można obliczyć korzystając z funkcji Rozkład F wpisując: X to wartość,
dla której ta funkcja ma być obliczona czyli odpowiedni F (próbki/kolumny/interakcji),
Stopnie_swobody1 to licznik
stopni
swobody (df próbki/kolumny/interakcji),
Stopnie_swobody2 to mianownik stopni swobody (df w obrębie). W naszym przypadku X to
odpowiednio 15,59531305; 7,352104465 i 1,519995336, 3 i 16, Stopnie_swobody1 to
odpowiednio 2, 3 i 6, a Stopnie_swobody2 to 12.
Z kolei wielkość Test F można obliczyć też używając funkcji Rozkład F odwrócony wpisując:
Prawdopodobieństwo to prawdopodobieństwo związane ze skumulowanym rozkładem FSnedecora czyli poziom istotności, Stopnie_swobody1 to licznik stopni swobody (df
próbki/kolumny/interakcji), Stopnie_swobody2 to mianownik stopni swobody (df w obrębie).
W naszym przypadku będzie to odpowiednio 0,05 oraz df (czyli 2, 3 i 6 oraz 12).
A tak na marginesie to zachęcam do przeczytania książki na którą się powołuje. Jest ona
naprawdę bardzo przystępnie napisana.
7/10
Ponieważ od pewnego czasu mamy możliwość korzystania z programu STATISTICA kilka
uwag jak podobne działania wykonać przy jego pomocy. Po pierwsze program ten wymaga
odmiennego niż Excel uszeregowania danych:
Ilosc
0,5g
0,5g
0,5g
0,5g
0,5g
0,5g
1g
1g
1g
1g
1g
1g
2g
2g
2g
2g
2g
2g
4g
4g
4g
4g
4g
4g
Rodzaj
M0
M0
M5
M5
M10
M10
M0
M0
M5
M5
M10
M10
M0
M0
M5
M5
M10
M10
M0
M0
M5
M5
M10
M10
Zmn3
20
11
26
24
27
56
23
18
37
31
37
32
29
38
38
22
65
66
35
42
42
38
62
100
Jak widać wyniki umieszczone są w trzeciej kolumnie, natomiast w pierwszej i trzeciej zostały
podane czynniki czyli ilość i rodzaj pożywki.
By przeprowadzić analizę wariancji na listwie górnej programu wybiera się kolejno: Statystyka
 ANOVA  ANOVA dla układów czynnikowych. W pojawiającym okienku wybiera się
Zmienne: jako czynniki jakościowe wybieramy kolumny 1 i 2 (ilość i rodzaj), jako zmienne
zależne kolumnę 3 (Zmn 3). Wybór potwierdza się poprzez dwukrotne przyciśnięcie OK.
Pojawia się okienko, gdzie można wcisnąć Wszystkie efekty. Pojawi się okno, które wydaje się
wyglądać znajomo.
Jak można zauważyć program na czerwono istotne efekty.
8/10
Efekt
Wyraz wolny
Jednowymiarowe testy istotności dla Zmn3 (Arkusz17) Parametryzacja z sigma-ograniczeniami Dekompozycja efektywnych hipotez
Stopnie
SS
MS
F
p
swobody
26502,02
1
26502,02
221,4962
0,000000
Ilosc
2317,38
2
1158,69
9,6840
0,001993
Rodzaj
2534,43
2
1267,22
10,5910
0,001355
Ilosc*Rodzaj
1031,25
4
257,81
2,1547
0,124093
Błąd
1794,75
15
119,65
Dla porównania dane otrzymane z Excel-a
ANALIZA WARIANCJI
Źródło wariancji
SS
df
Próbka
3715,583 2
Kolumny
2627,458 3
Interakcja
1086,417 6
W obrębie
1429,5 12
Razem
MS
1857,792
875,8194
181,0694
119,125
F
Wartość-p
15,59531
0,00046
7,352104
0,004687
1,519995
0,252567
Test F
3,88529
3,4903
2,996117
8858,958 23
Jak można zauważyć liczby wyglądają dość zbieżnie, natomiast poszczególne nazwy trochę się różnią.
9/10
Można pójść jeszcze dalej, i zamiast Wszystkie efekty wybrać Więcej wyników  Post hoc.
Teraz kolei wybrać interesujący nas test (np. Tukey’a HSD) przy danym poziomie istotności
(np. 0,05) pokaz jednorodne grupy. W wyniku otrzymamy:
Test HSD Tukeya; zmienna Zmn3 (Arkusz17) Grupy jednorodne, alfa = ,05000 Błąd: MS
międzygrupowe = 119,12, df = 12,000
Zmn3
Nr
Ilosc
Rodzaj
1
2
Średnie
podkl.
1
0,5g
M0
15,50000
****
3
4
1g
M0
20,50000
****
2
0,5g
M5
25,00000
****
****
8
2g
M5
30,00000
****
****
7
2g
M0
33,50000
****
****
5
1g
M5
34,00000
****
****
6
1g
M10
34,50000
****
****
10
4g
M0
38,50000
****
****
****
11
4g
M5
40,00000
****
****
****
3
0,5g
M10
41,50000
****
****
****
9
2g
M10
65,50000
****
****
12
4g
M10
81,00000
****
Jak można zauważyć dane są uszeregowane wg wzrastającej średniej. W trzech ostatnich
kolumnach znajdują się gwiazdki. Średnie przy których znajdują się gwiazdki w jednej
kolumnie nie różnią się statystycznie istotnie przy założonym poziomie istności. Czyli
wszystkie dane można podzielić na trzy grupy (np. a, b i c)
Po kilku zabiegach możemy otrzymać następującą tabelkę:
Ilość jaj składanych przez samice trojczyka na różnych pożywkach
Ilość
pożywki
0,5
1
2
4
Rodzaj pożywki
M0
M5
M10
a
ab
15,5
25
41,5abc
a
ab
20,5
34
34,5ab
33,5ab
30ab
65,5bc
abc
abc
38,5
40
81c
Wartości średnie w tabeli oznaczone tą sama litera nie różnią się istotnie (α=0,05)
10/10

Za pomoca analizy wariancji dwuczynnikowej można analizować

Transkrypt

Podobne dokumenty

Test t-Studenta dla grup niezależnych – uzupełnienie :)

STATYSTYKA MATEMATYCZNA II

Zadanie dodatkowe 9 - Wydział Biologii UW

ANALIZA WARIANCJI

Instrukcja montażu

Instrukcja montażu

Wykorzystanie systemu GPS do monitorowania scyntylacji

Zestaw œlizgaczy KAWASAKI ZX 10 r Rok produkcji: `08

Analiza wariancji