Klasyfikacja jednoczynnikowa (analiza wariancji

Transkrypt

Klasyfikacja jednoczynnikowa (analiza wariancji
Klasyfikacja jednoczynnikowa (analiza wariancji
jednoczynnikowa - ANOVA)
Klasyfikacja jednoczynnikowa (nazywana również analiza, wariancji lub ANOVA)
sluży do badania wplywu na ceche, pojedynczego czynnika o dwóch lub wiek,
szej liczbie poziomów.
Czynniki stale i losowe
Czynniki stale to czynniki których poziomy reprezentuja, specyficzne, interesujace
nas populacje. Na przyklad czynnik który ma poziomy ”wysoki”,
,
”średni”, ”niski” oznaczajace
temperature, jest czynnikiem stalym. Jesteśmy
,
zainteresowani jedynie porównaniem tych trzech populacji.
Czynniki losowe to czynniki których poziomy sa, wybierane losowo spośród
wszystkich możliwych poziomów dla populacji i sa, stosowane jako losowa
reprezentacja populacji. Na przyklad pieć
, losowych poziomów temperatury
może być użytych jako reprezentacja pelnego zakresu temperatury.
Odpowiadajace
, czynnikom stalym i losowym hipotezy sa, różne. Czynniki
stale odzwierciedlaja, efekty różnych poziomów czynnika. Czynniki losowe
sa, modelowane jako sumadodatkowej zmienności jaka, wprowadzaja, różne
poziomy czynnika.
Hipoteza zerowa
W klasyfikacji jednoczynnikowej testuje sie, hipoteze, H0 o braku różnic pomiedzy
,
średnimi w grupach
H0 : µ1 = µ2 = ... = µk = µ
tj. że średnie we wszystkich grupach sa, sobie równe i sa, równe ogólnej średniej
µ z populacji.
Jeśli efekt dla i-tej grupy jest różnica, pomiedzy
średnia, i-tej grupy i ogólna,
,
średnia, z populacji µ (αi = µi − µ), to hipoteza H0 może być zapisana
alternatywnie jako
H0 : α1 = α2 = ... = αk = 0
tj. efekt każdej grupy jest równy zero.
Jeśli jedna lub wiecej
spośród αi , i = 1, 2, . . . , k, jest różnych od zera (tzn.
,
średnia zmiennej wynikowej w i-tej grupie różni sie, od ogólnej średniej zmiennej wynikowej w populacji ), to hipoteza zerowa nie jest prawdziwa. Oznacza
to, że zaistnial wplyw na zmienna, wynikowa, ( na przyklad zastosowanie leku
przynioslo efekt).
1
Czynnik losowy
Hipoteza zerowa dla czynnika losowego ma postać
H0 : σα2 = 0
i oznacza, że wariancje pomiedzy
wszystkimi możliwymi grupami sa, równe
,
zero.
Model liniowy
Model liniowy dla klasyfikacji jednoczynnikowej jest podobny do modelu liniowej regresji wielokrotnej. Wystepuj
a, w tym przypadku osobne parametry
,
dla każdego poziomu (grupy) czynnika i staly parametr przybliżajacy
ogólna,
,
średnia, zmiennej objaśnianej:
yi,j = µ + β1 (poziom1)i,j + β2 (poziom2)i,j + · · · + εi,j ,
gdzie β1 , β2 reprezentuja, efekty poziomów 1. i 2. zmiennej objaśnianej. Gdy
te indywidualne efekty zostana, uwzglednione
w pojedynczej skladowej αi ,
,
model liniowy możemy zapisać jako
yi,j = µ + αi + εi,j .
Zauważmy że pomimo różnych hipotez dla efektów stalych i losowych (stale:
średnie w grupach populacji sa, wszystkie równe; losowe: wariancje pomiedzy
,
populacjami sa, wszystkie równe zero), model liniowy w jednoczynnikowej
analizie wariancji jest identyczny dla efektów stalych i losowych.
Analiza wariancji
Gdy hipoteza zerowa jest prawdziwa (populacje sa, identyczne), wariancja
pomiedzy
obserwacjami wewnatrz
grup powinna być równa wariancji ob,
,
serwacji pomiedzy
grupami. Jednakże gdy hipoteza zerowa jest falszywa,
,
można oczekiwać że wariancja pomiedzy
obserwacjami bedzie
mniejsza niż
,
,
wariancja wewnatrz
grup.
Analiza
wariancji
polega
narozdzieleniu
calkowitej
,
wariancji zmiennej objaśnianej na skladowa, wariancji wyjaśniana, przez kombinacje jednej lub wiekszej
liczby czynników oraz skladowa, wariancji, która
,
nie może zostać wyjaśniona (resztowa). Sa, to odpowiednio wariancje obserwacji pomiedzy
i wewnatrz
grup. Iloraz wariancji powstalych z takiego
,
,
podzialu może zostać użyty do testowania hipotezy zerowej H0 o tym, że
średnie w grupach sa, sobie równe. Gdy hipoteza zerowa jest prawdziwa,
2
iloraz wariancji wyjaśnianej i niewyjaśnianej ma rozklad F z 1 i n − 2 stopniami swobody. Iloraz ten jest wówczas mniejszy badź
równy 1. Iloraz istotnie
,
wiekszy
od 1 sugeruje, że model wyjaśnia wiecej
zmienności niż pozostalo do
,
,
wyjaśnienia. To oznacza, że model liniowy dobrze opisuje dane i że różnice
pomiedzy
obserwacjami moga, być wyjaśnione w wiekszości
poprzez różnice
,
,
w poziomach czynnika.
ANOVA (Model)
SSM =
n
X
(Ŷi − Y )2
i=1
dfM = 1
M SM = SSM/dfM
ANOVA (Blad)
,
SSE =
n
X
(Yi − Ŷi )2
i=1
dfE = n − 2
M SE = SSE/dfE
Statystyka F
F =
M SM
∼ F1,n−2 .
M SE
ANOVA - tabela
Źródlo
zmienności
Model
Blad
,
Razem
df
SS
MS
F
1
n-2
n-1
SSM
SSE
MSM
MSE
MSM/MSE .nn
3
P
Zalożenia
Testowanie hipotezy dla jednoczynnikowej ANOVy zaklada że reszty ( a wiec
,
i wartości zmiennej objaśnianej dla każdego z poziomów czynnika) spelniaja,
4
nastepuj
ace
,
, warunki :
(i) maja, rozklad normalny - dla zbadania normalności należy przeanalizować
wykresy pudelkowe, dajace
, informacje, o skośności, wielomodalności oraz obserwacjach odstajacych.
,
(ii) maja, jednakowe wariancje -wykres reszt powinien wskazywać na losowość.
(iii) sa, wzajemnie niezależne.
Niespelnienie tych zalożeń obniża wiarygodność i niezawodność przeprowadzonej analizy.
Klasyfikacja wieloczynnikowa
W sytuacji analizy wiekszej
liczby czynników stosuje sie, wieloczynnikowa,
,
analize, regresji. Gdy rozważamy dwa czynniki o k i r poziomach odpowiednio, analizowanym modelem jest
y,jm = µ + αi + βj + γi,j + ε,jm ,
gdzie i = 1, 2, . . . , k, j = 1, 2, . . . , r oraz γi,j oznacza interakcje, pomiedzy
,
i-tym poziomem czynnika pierwszego i j-tym poziomem czynnika drugiego.
Wówczas testowane sa, hipotezy
H0 : α1 = α2 = · · · = αk = 0 przy HA : istnieje i : αi 6= 0
H0 : β1 = β2 = · · · = βr = 0 przy HA : istnieje j : βj 6= 0
H0 : dla wszystkich i ∈ {1, 2, . . . , k}, j ∈ {1, 2, . . . , r} : γi,j = 0
przy HA : istnieje i istnieje j : γi,j 6= 0 .
Tabela klasyfikacji wieloczynnikowej
Źródlo
zmienności
Czynnik A
df
SS
MS
k−1
SSMA
M SMA =
SSMA
k−1
M SMA
M SE
Czynnik B
r−1
SSMB
M SMB =
SSMB
r−1
M SMB
M SE
Czynnik
AB
(k − 1)(r −
1)
SSMAB
M SMAB =
Blad
,
kr(n-1)
SSE
M SE =
Razem
krn-1
SST
5
F
SSMAB
(k−1)(r−1)
SSE
kr(n−1)
M SMAB
M SE

Podobne dokumenty