Microsoft PowerPoint - AD_ns_w7.ppt [tryb zgodno\234ci]

Transkrypt

Microsoft PowerPoint - AD_ns_w7.ppt [tryb zgodno\234ci]
Analiza wariancji
• Badanie istnienia wpływu czynnika (lub czynników) na dane = Badanie
równości wartości średniej w k>2 grupach.
Analiza danych
• Przykład analizy:
Wykład 7: Analiza wariancji
– Badanie wpływu czynnika (np. szkoła) na wyniki egzaminu (cecha).
Szkoła1
X11
X12
....
X1n1
Małgorzata Krętowska
Wydział Informatyki
Politechnika Białostocka
Szkoła2
X21
X22
....
X2n2
Szkoła3
X31
X32
....
X3n3
1
Założenia analizy jednoczynnikowej
2
Analiza jednoczynnikowa
• Weryfikowane hipotezy:
Obserwację xij można zapisać jako:
xij = mi + εij
H0: m1=m2= ...=mk (k- liczba różnych poziomów czynnika)
H1: nie wszystkie średnie są sobie równe
j-ta obserwacja na itym poziomie czynnika
• Założenia
Niezależne zmienne losowe
o rozkładzie N(0,σ)
Średnia odpowiedzi itego poziomu czynnika
– Badana cech X ma w k populacjach rozkład normalny N(mi, σi), i=1,2.., k
– σ12 = σ22 = ...=σk2 - wariancje w każdej z k populacji są sobie równe
– z każdej i -tej populacji losujemy ni elementów niezależnie od siebie
Wartości średnie mi można zapisać następująco:
mi = m + βi
Ogólna wartość średnia
Efekt i-tego poziomu
czynnika, zakładamy, że
β1+ β2 +...+ βk=0 (*)
3
4
Podstawy teoretyczne
Podstawy teoretyczne
• W świetle warunku (*) hipoteza zerowa może być zapisana w postaci:
H0: β1= β2 =...= βk=0
• Przyjmując założenie o równości wariancji na wszystkich poziomach
czynnika, to test ten możemy oprzeć na porównaniu dwóch estymatorów
tej samej wariancji σ2 (stąd nazwa testu: test analizy wariancji).
to całkowita suma kwadratów
k
i =1 j =1
Opisuje całkowitą zmienność cechy SST:
SST = SSA + SSE
• Rozkład całkowitej zmienności cechy:
• Jeżeli:
xi =
1
ni
ij
k
k
średnia wartość cechy dla i-tego poziomu czynnika
SSA = ∑ ni ( xi − x )
j =1
1 k ni
x = ∑∑ xij
n i =1 j =1
Suma zmienności
wewnątrzgrupowej
Suma zmienności
międzygrupowej
ni
∑x
ni
x = ∑∑ ( xij − x ) 2
i =1 j =1
i =1
średnia ogólna
ni
SSE = ∑∑ ( xij − xi ) 2
2
Opisuje zmienność średnich
charakteryzujących grupy względem siebie
Charakteryzuje zmienność wewnątrz grup
(suma kwadratów reszt)
Liczba stopni swobody SSA = k-1
Liczba stopni swobody SSA = n-k
5
Podstawy teoretyczne
SSA
• Jeżeli hipoteza H0 jest spełniona to
wielkość:
SSA/(k-1)
jest nieobciążonym estymatorem
wariancji σ2.
• Jeżeli prawdziwa jest hipoteza H1 to
SSA/(k-1) ma tendencje do
przyjmowania dużych wartości
(> σ2)
Podstawy teoretyczne
SSE
• Z tego wynika, że statystyka:
F=
• Zakładając, że próby mają
jednakową liczność n1=...=nk=ni
s2 =
6
SSE
s 2 + s22 + ... + sk2
= 1
k (ni − 1)
k
SSA /( k − 1)
SSE /(n − k )
• Może być wykorzystana do testowania postawionej na początku
hipotezy H0 i H1. Jeżeli spełniona jest H0 to statystyka F ma rozkład FSnedecora z k-1 i n-k stopniami swobody. Obszar krytyczny jest
prawostronny:
• Jeżeli
gdzie si2 – wariancje w próbach
• S2 jest nieobciążonym estymatorem
wariancji σ2
– F≥Fα => hipotezę H0 odrzucamy
– F<Fα => brak podstaw do odrzucenia hipotezy H0
gdzie P(F≥Fα)=α
7
8
Tablica analizy wariancji
Źródło
Suma kwadratów
zmienności
Między
populacjami
SSA
(międzygrupowe)
Wewnątrz
grup (składnik
SSA
losowy)
Stopnie
swobody
k-1
n-k
Porównania wielokrotne
Wariancja
• Jeżeli odrzucimy H0 to należy zbadać, które średnie się między sobą
różnią. Do tego służą tzw. Porównania wielokrotne (testy rozstępów):
Test F
– Test Bonferroniego
– Test Tukeya
– Test Scheffego
SSA/(k-1)=s 12
SSE/(n-k)=s 2
2
F=s 12/s 22
• Grupy jednorodne – grupy, w których nie występują istotne statystycznie
różnice miedzy wartościami średnimi
9
Analiza dwuczynnikowa
10
Podstawy teoretyczne
xijm= m + αi + βj + γij + εijm
• Badanie wpływu dwóch czynników na daną cechę
• Przykład:
m-ta obserwacja na
na i-tym poziomie
czynnika A i j-tym
poziomie czynnika B
– wpływ szkoły i miejsca zamieszkania ucznia na wyniki egzaminów
B
A
Akademik (1)
Stancja (2)
Z rodzicami (3)
Szkoła1
X11
X12
X13
Szkoła2
X21
X22
X23
Szkoła3
X31
X32
X33
Średnia ogólna
Efekt i-tego poziomu
czynnika A
11
Niezależne zmienne losowe
o rozkładzie N(0, σ )
Interakcja pomiędzy itym poziomem
czynnika A a j-tym
poziomem czynnika B
Efekt j-tego poziomu
czynnika B
12
Podstawy teoretyczne
• Gdy brak interakcji
mij = m+ αi + βj
(poziomy obydwu czynników wpływają
na wartość zmiennej w sposób
addytywny)
Założenia i hipotezy
– Dla każdej z kl możliwych kombinacji poziomów czynnika A i B rozkład
zmiennej odpowiedzi jest normalny N(mij, σij), i=1,2.., k, j=1,2,..,
– σij2 = σ2 - wariancje w każdej z kl populacji są sobie równe
– Próby są niezależne
• gdy jest interakcja
mij = m+ αi + βj + γij
• Badane hipotezy
7
5
A=1
A=2
4
– H0A: α1 = α2 =…= αk = 0 – brak wpływu czynnika A na dane
– H1A: nie wszystkie efekty αi są równe 0
A=1
A=2
6
cecha
cecha
5
3
2
4
3
– H0B: β1 = β2 =…= βk = 0 – brak wpływu czynnika B na dane
– H1B: nie wszystkie efekty βi są równe 0
2
1
1
0
0
1
2
3
czynnik B
4
1
2
3
4
– H0C: γij=0 dla wszystkich i=1,.., k; j=1,.., l – brak interakcji między cechami
czynnik B
– H0C: nie wszystkie interakcje są równe 0
13
14

Podobne dokumenty