Klasyfikacja jednoczynnikowa (analiza wariancji
Transkrypt
Klasyfikacja jednoczynnikowa (analiza wariancji
Klasyfikacja jednoczynnikowa (analiza wariancji jednoczynnikowa - ANOVA) Klasyfikacja jednoczynnikowa (nazywana również analiza, wariancji lub ANOVA) sluży do badania wplywu na ceche, pojedynczego czynnika o dwóch lub wiek, szej liczbie poziomów. Czynniki stale i losowe Czynniki stale to czynniki których poziomy reprezentuja, specyficzne, interesujace nas populacje. Na przyklad czynnik który ma poziomy ”wysoki”, , ”średni”, ”niski” oznaczajace temperature, jest czynnikiem stalym. Jesteśmy , zainteresowani jedynie porównaniem tych trzech populacji. Czynniki losowe to czynniki których poziomy sa, wybierane losowo spośród wszystkich możliwych poziomów dla populacji i sa, stosowane jako losowa reprezentacja populacji. Na przyklad pieć , losowych poziomów temperatury może być użytych jako reprezentacja pelnego zakresu temperatury. Odpowiadajace , czynnikom stalym i losowym hipotezy sa, różne. Czynniki stale odzwierciedlaja, efekty różnych poziomów czynnika. Czynniki losowe sa, modelowane jako sumadodatkowej zmienności jaka, wprowadzaja, różne poziomy czynnika. Hipoteza zerowa W klasyfikacji jednoczynnikowej testuje sie, hipoteze, H0 o braku różnic pomiedzy , średnimi w grupach H0 : µ1 = µ2 = ... = µk = µ tj. że średnie we wszystkich grupach sa, sobie równe i sa, równe ogólnej średniej µ z populacji. Jeśli efekt dla i-tej grupy jest różnica, pomiedzy średnia, i-tej grupy i ogólna, , średnia, z populacji µ (αi = µi − µ), to hipoteza H0 może być zapisana alternatywnie jako H0 : α1 = α2 = ... = αk = 0 tj. efekt każdej grupy jest równy zero. Jeśli jedna lub wiecej spośród αi , i = 1, 2, . . . , k, jest różnych od zera (tzn. , średnia zmiennej wynikowej w i-tej grupie różni sie, od ogólnej średniej zmiennej wynikowej w populacji ), to hipoteza zerowa nie jest prawdziwa. Oznacza to, że zaistnial wplyw na zmienna, wynikowa, ( na przyklad zastosowanie leku przynioslo efekt). 1 Czynnik losowy Hipoteza zerowa dla czynnika losowego ma postać H0 : σα2 = 0 i oznacza, że wariancje pomiedzy wszystkimi możliwymi grupami sa, równe , zero. Model liniowy Model liniowy dla klasyfikacji jednoczynnikowej jest podobny do modelu liniowej regresji wielokrotnej. Wystepuj a, w tym przypadku osobne parametry , dla każdego poziomu (grupy) czynnika i staly parametr przybliżajacy ogólna, , średnia, zmiennej objaśnianej: yi,j = µ + β1 (poziom1)i,j + β2 (poziom2)i,j + · · · + εi,j , gdzie β1 , β2 reprezentuja, efekty poziomów 1. i 2. zmiennej objaśnianej. Gdy te indywidualne efekty zostana, uwzglednione w pojedynczej skladowej αi , , model liniowy możemy zapisać jako yi,j = µ + αi + εi,j . Zauważmy że pomimo różnych hipotez dla efektów stalych i losowych (stale: średnie w grupach populacji sa, wszystkie równe; losowe: wariancje pomiedzy , populacjami sa, wszystkie równe zero), model liniowy w jednoczynnikowej analizie wariancji jest identyczny dla efektów stalych i losowych. Analiza wariancji Gdy hipoteza zerowa jest prawdziwa (populacje sa, identyczne), wariancja pomiedzy obserwacjami wewnatrz grup powinna być równa wariancji ob, , serwacji pomiedzy grupami. Jednakże gdy hipoteza zerowa jest falszywa, , można oczekiwać że wariancja pomiedzy obserwacjami bedzie mniejsza niż , , wariancja wewnatrz grup. Analiza wariancji polega narozdzieleniu calkowitej , wariancji zmiennej objaśnianej na skladowa, wariancji wyjaśniana, przez kombinacje jednej lub wiekszej liczby czynników oraz skladowa, wariancji, która , nie może zostać wyjaśniona (resztowa). Sa, to odpowiednio wariancje obserwacji pomiedzy i wewnatrz grup. Iloraz wariancji powstalych z takiego , , podzialu może zostać użyty do testowania hipotezy zerowej H0 o tym, że średnie w grupach sa, sobie równe. Gdy hipoteza zerowa jest prawdziwa, 2 iloraz wariancji wyjaśnianej i niewyjaśnianej ma rozklad F z 1 i n − 2 stopniami swobody. Iloraz ten jest wówczas mniejszy badź równy 1. Iloraz istotnie , wiekszy od 1 sugeruje, że model wyjaśnia wiecej zmienności niż pozostalo do , , wyjaśnienia. To oznacza, że model liniowy dobrze opisuje dane i że różnice pomiedzy obserwacjami moga, być wyjaśnione w wiekszości poprzez różnice , , w poziomach czynnika. ANOVA (Model) SSM = n X (Ŷi − Y )2 i=1 dfM = 1 M SM = SSM/dfM ANOVA (Blad) , SSE = n X (Yi − Ŷi )2 i=1 dfE = n − 2 M SE = SSE/dfE Statystyka F F = M SM ∼ F1,n−2 . M SE ANOVA - tabela Źródlo zmienności Model Blad , Razem df SS MS F 1 n-2 n-1 SSM SSE MSM MSE MSM/MSE .nn 3 P Zalożenia Testowanie hipotezy dla jednoczynnikowej ANOVy zaklada że reszty ( a wiec , i wartości zmiennej objaśnianej dla każdego z poziomów czynnika) spelniaja, 4 nastepuj ace , , warunki : (i) maja, rozklad normalny - dla zbadania normalności należy przeanalizować wykresy pudelkowe, dajace , informacje, o skośności, wielomodalności oraz obserwacjach odstajacych. , (ii) maja, jednakowe wariancje -wykres reszt powinien wskazywać na losowość. (iii) sa, wzajemnie niezależne. Niespelnienie tych zalożeń obniża wiarygodność i niezawodność przeprowadzonej analizy. Klasyfikacja wieloczynnikowa W sytuacji analizy wiekszej liczby czynników stosuje sie, wieloczynnikowa, , analize, regresji. Gdy rozważamy dwa czynniki o k i r poziomach odpowiednio, analizowanym modelem jest y,jm = µ + αi + βj + γi,j + ε,jm , gdzie i = 1, 2, . . . , k, j = 1, 2, . . . , r oraz γi,j oznacza interakcje, pomiedzy , i-tym poziomem czynnika pierwszego i j-tym poziomem czynnika drugiego. Wówczas testowane sa, hipotezy H0 : α1 = α2 = · · · = αk = 0 przy HA : istnieje i : αi 6= 0 H0 : β1 = β2 = · · · = βr = 0 przy HA : istnieje j : βj 6= 0 H0 : dla wszystkich i ∈ {1, 2, . . . , k}, j ∈ {1, 2, . . . , r} : γi,j = 0 przy HA : istnieje i istnieje j : γi,j 6= 0 . Tabela klasyfikacji wieloczynnikowej Źródlo zmienności Czynnik A df SS MS k−1 SSMA M SMA = SSMA k−1 M SMA M SE Czynnik B r−1 SSMB M SMB = SSMB r−1 M SMB M SE Czynnik AB (k − 1)(r − 1) SSMAB M SMAB = Blad , kr(n-1) SSE M SE = Razem krn-1 SST 5 F SSMAB (k−1)(r−1) SSE kr(n−1) M SMAB M SE