Za pomoca analizy wariancji dwuczynnikowej można analizować
Transkrypt
Za pomoca analizy wariancji dwuczynnikowej można analizować
Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami Krótki kurs obsługi komputera Za pomocą analizy wariancji dwuczynnikowej można analizować wyniki eksperymentów, w których stosuje się niezależnie dwa różne czynniki. Rozpatrywany będzie następujący przykład: liczby jaj składanych przez samicę trojczyków ulców w ciągu 5 dni, na pożywce różnej wielkości i jakości (Można też tą analizę zastosować do analizy danych rozpuszczalności czy ZWW dla różnych rodzajów skrobi w różnych temperaturach). Tutaj różne wielkości i jakości, czyli poszczególne elementy jednej skali nominalnej(jednego czynnika), nazywamy poziomem tego czynnika. Stosując 3 różne rodzaje pożywki i 4 różne ilości tej pożywki, po dwa powtórzenia w każdym, otrzymujemy 12 grup różniących się albo jakości pożywki, jej ilością, albo tymi dwoma czynnikami równocześnie. Mamy tu zatem do czynienia z dwoma skalami nominalnymi. Można założyć, że mamy jedna skalę nominalna i przeprowadzić analizę wariancji w klasyfikacji prostej z 12 grupami, ale wówczas nie możemy oddzielić wpływu jakości od wpływu ilości pożywki. Aby to zrobić, trzeba przeprowadzić analizę wariancji w klasyfikacji dwukierunkowej. Termin „z powtórzeniami” oznacza, że w każdej grupie (na każdym przecięciu wiersza i kolumn) dysponujemy kilkoma pomiarami. Jeżeli dysponujemy tylko jednym pomiarem mówimy o wariancji dwukierunkowej bez powtórzeń Dane, zebrane w tabeli, to liczba jaj składanych przez samicę trojczyka w ciągu 5 dni na trzech rodzajach pożywki: maki pszennej bez dodatku drożdży (M0), mące z dodatkiem 5% drożdży (M5) i mące z dodatkiem 10% drożdży (M10), przy różnej ilości pożywki. Dane te są w dwóch powtórzeniach dla każdej z 12 kombinacji tych czynników Ilość pożywki w gramach M0 sumy średnia M5 sumy średnia M10 sumy średnia 0,5 1 2 4 20 11 31 23 18 41 29 38 67 35 42 77 15,5 20,5 33,5 38,5 26 24 50 37 31 68 38 22 60 42 38 80 25 34 30 40 27 56 83 37 32 69 65 66 131 62 100 162 41,5 34,5 65,5 81 164 178 258 319 Suma wierszy 216 258 445 919 W tabeli jest łącznie 432=24 pomiary, zgrupowane w 4 kolumny i 3 wiersze po 2 pomiary w każdym przecięciu kolumny i wiersza. Analiza wariancji w klasyfikacji dwukierunkowej wymaga, aby na w każdym przecięciu kolumny i wiersza była taka sama liczba pomiarów. Aby uniknąć pomyłek wprowadzono konwencje opisująca każdy pomiar symbolem Xijk, w którym i jest numerem pomiaru w grupie, j numerem wiersza, a k numerem kolumny. W naszym przykładzie X214=42. W każdej kolumnie jest a wierszy, a w każdym wierszu b kolumn. Wszystkich grup jest ab. 1/10 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami Krótki kurs obsługi komputera Podobnie jak w analizie wariancji klasyfikacja prosta (jednoczynnikowa), najpierw obliczamy ogólną (całkowitą) sumę kwadratów odchyleń: b a N jk X ijk b a N jk k j i X ijk2 N k j i 2 (1) Pierwszy składnik wzoru (1) obliczamy podnosząc do kwadratu każdy z 24 pomiarów, a następnie sumując je: b a N jk X k j 2 ijk (20) 2 (11) 2 ... (100) 2 44049 i Drugi składnik tego wzoru (tzw. wyraz poprawkowy) otrzymujemy podnosząc sumę wszystkich pomiarów do kwadratu i dzieląc przez liczbę pomiarów N. 2 b a N jk X ijk k j i (20 11 ... 100) 2 / 24 9192 / 24 35190,04 N Zgodnie z wzorem (1) całkowita suma kwadratów odchyleń wynosi: 44049 35190,04 8858,96 Międzygrupową sumę kwadratów odchyleń obliczamy zgodnie ze wzorem: 2 N jk b a N jk X ijk X ijk b a i k j i N jk N k j 2 (2) Pierwszy składnik tego wzoru obliczamy podnosząc sumę pomiarów w każdej grupie do kwadratu, dzieląc ją przez wielkość grupy i sumując kwadraty dla wszystkich grup, drugi został już obliczony wcześniej (to tzw. wyraz poprawkowy) (31) 2 / 2 (41) 2 / 2 ... (162) 2 / 2 35190,04 42619,5 35190,04 7429,46 W podobny sposób obliczamy sumę kwadratów odchyleń miedzy kolumnami i wierszami. Suma kwadratów odchyleń między kolumnami: 2 a N jk b a N jk X ijk X ijk b j i k j i k Nk N 2 (3) I znów drugi składnik tego wzoru to znany już nam wyraz poprawkowy. Składnik pierwszy jest obliczany w następujący sposób: najpierw dodajemy wszystkie Nk=6pomiarów osobno z każdej b=4 kolumn, podnosimy je do kwadratu i dzielimy przez Nk. Dopiero tak otrzymane wartości 2/10 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami Krótki kurs obsługi komputera sumujemy dla wszystkich kolumn. W rozważanym przez nas przykładzie suma kwadratów odchyleń miedzy kolumnami wynosi: (164) 2 / 6 (178) 2 / 6 (258) 2 / 6 (319) 2 / 6 35190,04 37817,5 35190,04 2627,46 Suma kwadratów odchyleń między wierszami określona jest wzorem: 2 b N jk b a N jk X ijk X ijk a k i k j i j Nj N 2 (4) W tym przypadku sumujemy najpierw po Nj=8 pomiarów z każdego a=3 wierszy i podobnie jak poprzednio podnosimy te sumy do kwadratu, dzielimy je przez Nj, sumujemy, a następnie od tej sumy odejmujemy wyraz poprawkowy. W naszym przykładzie suma odchyleń między wierszami wynosi: (216) 2 / 8 (258) 2 / 8 (445) 2 / 8 35190,04 38905,53 35190,04 3715,59 Wewnątrzgrupowa sumę kwadratów odchyleń (składnik błędu) obliczamy następująco: Wewnątrzgrupowa SK=ogólna SK – międzygrupowa SK (5) Co w naszym przypadku: SK 8858,96 - 7429,46 1429,508 W analizie wariancji klasyfikacji podwójnej obliczamy tez interakcyjną sumę kwadratów, która obliczamy następująco: Interakcyjna SK=międzygrupowa SK – SK między kolumnami – SK miedzy wierszami (6) W naszym przykładzie: SK 7429,46 2627,46 3715,59 1086,41 Wszystkie SK muszą być nieujemne, jeżeli wynik jest ujemny to znaczy, że w obliczeniach jest błąd. Liczbę stopni swobody df odpowiadające wymienionym powyżej sumom kwadratów odchyleń oblicza się następująco: ogólna (całkowita) międzygrupowa df=N-1 df=ab-1 b wewnątrzgrupowa (błędu) df= ( N k międzykolumnowa międzywierszowa interakcyjna a jk 1) N ab j df=b-1 df=a-1 df=(a-1)(b-1) Warte zauważenia jest, że stopnie swobody df dodają się w ten sam sposób jak sumy kwadratów odchyleń SK. Jeżeli tak nie jest to oznacza to, że w obliczenia wkradł się błąd. 3/10 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami Krótki kurs obsługi komputera Liczba stopni swobody dla naszego przykładu wynosi: ogólna (całkowita) międzygrupowa wewnątrzgrupowa (błędu) międzykolumnowa międzywierszowa interakcyjna df=N-1=24-1=23 df=ab-1=34-1=12-1=11 df=N-ab=24-12=12 df=b-1=4-1=3 df=a-1=3-1=2 df=(a-1)(b-1)=(3-1)(4-1)= 23=6 Następnie wszystkie obliczone SK oraz df zbieramy w tabeli Źródła zmienności SK df Wariancja F P Całkowita 8858,96 23 grupy 7429,46 11 wiersze (rodzaj) 3715,59 2 1857,80 15,596 P<0,001 kolumny (ilość) 2627,46 3 875,82 7,352 0,001<P<0,01 interakcja 1086,41 6 181,07 1,520 P 0,05 błąd 1429,50 12 119,12 Mówiąc o źródłach zmienności, w tabeli podano ogólnie wiersze i kolumny. W zasadzie powinno się podać rzeczywiste źródła zmienności. Dla naszego przykładu będzie to jakość pokarmu oraz jego ilość. Następnym krokiem jest oszacowanie wariancji, które otrzymujemy dzieląc sumy kwadratów odchyleń SK przez odpowiadające nim stopnie swobody df (np. 3715,59/2=1857,80). Wariancji ogólnej i wariancji miedzy grupami nie szacujemy, ponieważ interesuje nas tylko wpływ rodzaju pokarmu (wiersze), jego ilości (kolumny) i interakcja tych dwóch czynników. Ocenę zmienności losowej otrzymujemy przez oszacowanie wariancji wewnątrz grup, czyli składnika błędu. Opisany przykład analizy wariancji należy do I modelu, ponieważ zarówno jakość pożywki, jak i jej ilość są czynnikami powtarzalnymi, określonymi przez eksperymentatora. Aby ocenić, które z czynników są istotne, dzielimy oszacowania wariancji dla każdego z tych czynników przez oszacowanie wariancji błędu (np. 1857,80/119,12=15,596). W ten sposób otrzymujemy stosunki F dla wierszy, kolumn i interakcji. Jeżeli mamy do czynienia z modelem II (losowym) lub mieszanym (jeden czynnik losowy, drugi ustalony), to istotność interakcji, podobnie jak w modelu I, ustalamy obliczając stosunek F dla wariancji interakcja/błąd. W modelu II istotność wpływu czynnika wyrażonego w kolumnach i wierszach badamy stosunkiem F oszacowań wariancji: kolumny/ interakcja i wiersze/interakcja. W modelu mieszanym inaczej postępujemy z czynnikiem losowym (z modelu II), a inaczej z czynnikiem ustalonym (z modelu I). Istotność czynnika losowego określamy stosunkiem (oszacowanie wariancji tego czynnika)/błąd, zaś czynnika ustalonego – (oszacowanie wariancji tego czynnika)/interakcja. W modelu I po obliczeniu stosunków F oszacowań wariancji: (jakość pożywki)/błąd, (ilość pożywki)/błąd i (interakcja: ilośćjakość)/błąd sprawdzamy, które z tych stosunków są większe od wartości krytycznych podanych w tabeli G. Jeśli którakolwiek z otrzymanych wartości F jest mniejsza od jedności, to znaczy, że dla odpowiadającego jej czynnika należy przyjąć hipotezę 4/10 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami Krótki kurs obsługi komputera zerową. Wartości krytyczne F znajdujemy posługując się stopniami swobody dla większych wariancji (w liczniku), wymienionych w główce tabeli i stopniami swobody dla mniejszej wariancji (w mianowniku), wymienionych w pierwszej kolumnie tabeli. Dla wpływu jakości pokarmu (wiersze) otrzymany stosunek F jest nie tylko większy od F0,05;2;12=3,88, ale także od F0,001;2;12=12,97. Wynika z tego, że hipotezę zerową, iż jakość pokarmu (wiersze) nie ma wpływu na ilość składanych jaj, trzeba odrzucić, ryzykując przy tym popełnienie błędu I rodzaju, z bardzo małym prawdopodobieństwem P<0,001. W podobny sposób odrzucamy hipotezę zerową dla kolumn (df=3 i 12), że ilość pokarmu nie wpływa na liczbę złożonych jaj (0,001<P<0,010, przyjmujemy natomiast hipotezę zerową (P>0,05), że nie ma współdziałania (interakcji) między tymi dwoma czynnikami. Interakcja występuje, gdy efekt uzyskany przy danym poziomie jednego czynnika zależy od poziomu drugiego; nie miałby miejsca bez połączenia dwóch czynników na danym poziomie. Jeżeli interakcja nie zachodzi, to czynniki są addytywne. Kilka słów o tym jak można zaoszczędzić trochę czasu i zapoznać się z dobrodziejstwami cywilizacji Przedstawione powyżej obliczenia można wykonać korzystając narzędzi zainstalowanych w programie Microsoft Excell. Ponieważ to narzędzie nie jest standardowo zainstalowane należy to zrobić samemu. W tym celu po uruchomieniu programu należy wejść w opcje Narzędzia, a następnie wybrać Dodatki. W okienku, które się pojawi należy zaznaczyć pierwsze trzy pozycje: Aktualizowanie łączy dodatków, Analysis ToolPak, oraz Analysis ToolPak-VBA. Wybór należy potwierdzić poprzez naciśnięcie przycisku OK. Teraz można przystąpić do wprowadzenia danych. Dane mogą być wprowadzane w postaci wierszy lub kolumn. W naszym przykładzie dane są podane w wierszach. M0 M0 M5 M5 M10 M10 0,5g 20 11 26 24 27 56 1g 23 18 37 31 37 32 2g 29 38 38 22 65 66 4g 35 42 42 38 62 100 Po wprowadzeniu danych ponownie rozwija się menu Narzędzia, a z niego wybiera się opcje Analiza Danych. W okienku, które się pojawia wybiera się Analiza wariancji: dwuczynnikowa z powtórzeniami. Następnie pojawia się kolejne okno dialogowe. Jako Zakres wejściowy podaje się całość naszych danych (włącznie z nazwami), następnie należy podać liczbę wierszy w próbie (w naszym przykładzie 2). Ponieważ zaznaczyliśmy w zakresie wejściowym kolumnę z nazwami to w oknie dialogowym też to należy to zaznaczyć. Poziom istotności wybieramy, w zależności od potrzeb (zwykle 0,05 lub 0,01). Następnie potwierdzamy wybór przez przyciśnięcie przycisku OK. Ponieważ nic nie zmienialiśmy w opcjach wyjścia to wyniki pojawia się na nowym arkuszu w formie tabeli, która przedstawiono na następnej stronie. Zawiera ona trochę więcej danych. Proszę zwrócić uwagę, że w kolumnie zatytułowanej test F podana jest aktualna wartość F dla wybranego poziomu istotności (w przykładzie wybrano 0,05). Dzięki temu można zrezygnować z korzystania z Tabeli G. Należy pamiętać, by zaznaczyć cały obszar pokazany powyżej. Jeżeli się o tym zapomni mogą wystąpić problemy, a tych należy się wystrzegać. 5/10 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami Krótki kurs obsługi komputera Analiza wariancji: dwuczynnikowa z powtórzeniami PODSUMOWANIE 0,5g 1g 2g 4g Razem M0 Licznik Suma Średnia Wariancja 2 31 15,5 40,5 2 41 20,5 12,5 2 67 33,5 40,5 2 8 77 216 38,5 27 24,5 116,5714 2 50 25 2 2 68 34 18 2 60 30 128 2 8 80 258 40 32,25 8 56,78571 2 83 41,5 420,5 2 69 34,5 12,5 2 131 65,5 0,5 2 8 162 445 81 55,625 722 561,4107 M5 Licznik Suma Średnia Wariancja M10 Licznik Suma Średnia Wariancja Razem Licznik Suma Średnia Wariancja 6 6 164 178 27,33333 29,66667 231,0667 59,06667 ANALIZA WARIANCJI Źródło wariancji SS Próbka 3715,583 Kolumny 2627,458 Interakcja 1086,417 W obrębie 1429,5 Razem 8858,958 df 6 6 258 319 43 53,16667 340 616,1667 MS F Wartość-p Test F 2 1857,792 15,59531 0,00046 3,88529 3 875,8194 7,352104 0,004687 3,4903 6 181,0694 1,519995 0,252567 2,996117 12 119,125 23 Dla porównania niżej zamieszczano tabelę, którą sami sporządziliśmy: Źródła zmienności SK df Wariancja F P Całkowita 8858,96 23 grupy 7429,46 11 wiersze (rodzaj) 3715,59 2 1857,80 15,596 P<0,001 kolumny (ilość) 2627,46 3 875,82 7,352 0,001<P<0,01 interakcja 1086,41 6 181,07 1,520 P 0,05 błąd 1429,50 12 119,12 6/10 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami Krótki kurs obsługi komputera Wielkość Wartość-p można obliczyć korzystając z funkcji Rozkład F wpisując: X to wartość, dla której ta funkcja ma być obliczona czyli odpowiedni F (próbki/kolumny/interakcji), Stopnie_swobody1 to licznik stopni swobody (df próbki/kolumny/interakcji), Stopnie_swobody2 to mianownik stopni swobody (df w obrębie). W naszym przypadku X to odpowiednio 15,59531305; 7,352104465 i 1,519995336, 3 i 16, Stopnie_swobody1 to odpowiednio 2, 3 i 6, a Stopnie_swobody2 to 12. Z kolei wielkość Test F można obliczyć też używając funkcji Rozkład F odwrócony wpisując: Prawdopodobieństwo to prawdopodobieństwo związane ze skumulowanym rozkładem FSnedecora czyli poziom istotności, Stopnie_swobody1 to licznik stopni swobody (df próbki/kolumny/interakcji), Stopnie_swobody2 to mianownik stopni swobody (df w obrębie). W naszym przypadku będzie to odpowiednio 0,05 oraz df (czyli 2, 3 i 6 oraz 12). A tak na marginesie to zachęcam do przeczytania książki na którą się powołuje. Jest ona naprawdę bardzo przystępnie napisana. 7/10 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami Krótki kurs obsługi komputera Ponieważ od pewnego czasu mamy możliwość korzystania z programu STATISTICA kilka uwag jak podobne działania wykonać przy jego pomocy. Po pierwsze program ten wymaga odmiennego niż Excel uszeregowania danych: Ilosc 0,5g 0,5g 0,5g 0,5g 0,5g 0,5g 1g 1g 1g 1g 1g 1g 2g 2g 2g 2g 2g 2g 4g 4g 4g 4g 4g 4g Rodzaj M0 M0 M5 M5 M10 M10 M0 M0 M5 M5 M10 M10 M0 M0 M5 M5 M10 M10 M0 M0 M5 M5 M10 M10 Zmn3 20 11 26 24 27 56 23 18 37 31 37 32 29 38 38 22 65 66 35 42 42 38 62 100 Jak widać wyniki umieszczone są w trzeciej kolumnie, natomiast w pierwszej i trzeciej zostały podane czynniki czyli ilość i rodzaj pożywki. By przeprowadzić analizę wariancji na listwie górnej programu wybiera się kolejno: Statystyka ANOVA ANOVA dla układów czynnikowych. W pojawiającym okienku wybiera się Zmienne: jako czynniki jakościowe wybieramy kolumny 1 i 2 (ilość i rodzaj), jako zmienne zależne kolumnę 3 (Zmn 3). Wybór potwierdza się poprzez dwukrotne przyciśnięcie OK. Pojawia się okienko, gdzie można wcisnąć Wszystkie efekty. Pojawi się okno, które wydaje się wyglądać znajomo. Jak można zauważyć program na czerwono istotne efekty. 8/10 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami Krótki kurs obsługi komputera Efekt Wyraz wolny Jednowymiarowe testy istotności dla Zmn3 (Arkusz17) Parametryzacja z sigma-ograniczeniami Dekompozycja efektywnych hipotez Stopnie SS MS F p swobody 26502,02 1 26502,02 221,4962 0,000000 Ilosc 2317,38 2 1158,69 9,6840 0,001993 Rodzaj 2534,43 2 1267,22 10,5910 0,001355 Ilosc*Rodzaj 1031,25 4 257,81 2,1547 0,124093 Błąd 1794,75 15 119,65 Dla porównania dane otrzymane z Excel-a ANALIZA WARIANCJI Źródło wariancji SS df Próbka 3715,583 2 Kolumny 2627,458 3 Interakcja 1086,417 6 W obrębie 1429,5 12 Razem MS 1857,792 875,8194 181,0694 119,125 F Wartość-p 15,59531 0,00046 7,352104 0,004687 1,519995 0,252567 Test F 3,88529 3,4903 2,996117 8858,958 23 Jak można zauważyć liczby wyglądają dość zbieżnie, natomiast poszczególne nazwy trochę się różnią. 9/10 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego Analiza wariancji: dwuczynnikowa (dwukierunkowa) z powtórzeniami Krótki kurs obsługi komputera Można pójść jeszcze dalej, i zamiast Wszystkie efekty wybrać Więcej wyników Post hoc. Teraz kolei wybrać interesujący nas test (np. Tukey’a HSD) przy danym poziomie istotności (np. 0,05) pokaz jednorodne grupy. W wyniku otrzymamy: Test HSD Tukeya; zmienna Zmn3 (Arkusz17) Grupy jednorodne, alfa = ,05000 Błąd: MS międzygrupowe = 119,12, df = 12,000 Zmn3 Nr Ilosc Rodzaj 1 2 Średnie podkl. 1 0,5g M0 15,50000 **** 3 4 1g M0 20,50000 **** 2 0,5g M5 25,00000 **** **** 8 2g M5 30,00000 **** **** 7 2g M0 33,50000 **** **** 5 1g M5 34,00000 **** **** 6 1g M10 34,50000 **** **** 10 4g M0 38,50000 **** **** **** 11 4g M5 40,00000 **** **** **** 3 0,5g M10 41,50000 **** **** **** 9 2g M10 65,50000 **** **** 12 4g M10 81,00000 **** Jak można zauważyć dane są uszeregowane wg wzrastającej średniej. W trzech ostatnich kolumnach znajdują się gwiazdki. Średnie przy których znajdują się gwiazdki w jednej kolumnie nie różnią się statystycznie istotnie przy założonym poziomie istności. Czyli wszystkie dane można podzielić na trzy grupy (np. a, b i c) Po kilku zabiegach możemy otrzymać następującą tabelkę: Ilość jaj składanych przez samice trojczyka na różnych pożywkach Ilość pożywki 0,5 1 2 4 Rodzaj pożywki M0 M5 M10 a ab 15,5 25 41,5abc a ab 20,5 34 34,5ab 33,5ab 30ab 65,5bc abc abc 38,5 40 81c Wartości średnie w tabeli oznaczone tą sama litera nie różnią się istotnie (α=0,05) 10/10 Opracowano na podstawie „Wprowadzenie do statystyki dla przyrodników” Adama Łomnickiego