Microsoft PowerPoint - AD_ns_w7.ppt [tryb zgodno\234ci]
Transkrypt
Microsoft PowerPoint - AD_ns_w7.ppt [tryb zgodno\234ci]
Analiza wariancji • Badanie istnienia wpływu czynnika (lub czynników) na dane = Badanie równości wartości średniej w k>2 grupach. Analiza danych • Przykład analizy: Wykład 7: Analiza wariancji – Badanie wpływu czynnika (np. szkoła) na wyniki egzaminu (cecha). Szkoła1 X11 X12 .... X1n1 Małgorzata Krętowska Wydział Informatyki Politechnika Białostocka Szkoła2 X21 X22 .... X2n2 Szkoła3 X31 X32 .... X3n3 1 Założenia analizy jednoczynnikowej 2 Analiza jednoczynnikowa • Weryfikowane hipotezy: Obserwację xij można zapisać jako: xij = mi + εij H0: m1=m2= ...=mk (k- liczba różnych poziomów czynnika) H1: nie wszystkie średnie są sobie równe j-ta obserwacja na itym poziomie czynnika • Założenia Niezależne zmienne losowe o rozkładzie N(0,σ) Średnia odpowiedzi itego poziomu czynnika – Badana cech X ma w k populacjach rozkład normalny N(mi, σi), i=1,2.., k – σ12 = σ22 = ...=σk2 - wariancje w każdej z k populacji są sobie równe – z każdej i -tej populacji losujemy ni elementów niezależnie od siebie Wartości średnie mi można zapisać następująco: mi = m + βi Ogólna wartość średnia Efekt i-tego poziomu czynnika, zakładamy, że β1+ β2 +...+ βk=0 (*) 3 4 Podstawy teoretyczne Podstawy teoretyczne • W świetle warunku (*) hipoteza zerowa może być zapisana w postaci: H0: β1= β2 =...= βk=0 • Przyjmując założenie o równości wariancji na wszystkich poziomach czynnika, to test ten możemy oprzeć na porównaniu dwóch estymatorów tej samej wariancji σ2 (stąd nazwa testu: test analizy wariancji). to całkowita suma kwadratów k i =1 j =1 Opisuje całkowitą zmienność cechy SST: SST = SSA + SSE • Rozkład całkowitej zmienności cechy: • Jeżeli: xi = 1 ni ij k k średnia wartość cechy dla i-tego poziomu czynnika SSA = ∑ ni ( xi − x ) j =1 1 k ni x = ∑∑ xij n i =1 j =1 Suma zmienności wewnątrzgrupowej Suma zmienności międzygrupowej ni ∑x ni x = ∑∑ ( xij − x ) 2 i =1 j =1 i =1 średnia ogólna ni SSE = ∑∑ ( xij − xi ) 2 2 Opisuje zmienność średnich charakteryzujących grupy względem siebie Charakteryzuje zmienność wewnątrz grup (suma kwadratów reszt) Liczba stopni swobody SSA = k-1 Liczba stopni swobody SSA = n-k 5 Podstawy teoretyczne SSA • Jeżeli hipoteza H0 jest spełniona to wielkość: SSA/(k-1) jest nieobciążonym estymatorem wariancji σ2. • Jeżeli prawdziwa jest hipoteza H1 to SSA/(k-1) ma tendencje do przyjmowania dużych wartości (> σ2) Podstawy teoretyczne SSE • Z tego wynika, że statystyka: F= • Zakładając, że próby mają jednakową liczność n1=...=nk=ni s2 = 6 SSE s 2 + s22 + ... + sk2 = 1 k (ni − 1) k SSA /( k − 1) SSE /(n − k ) • Może być wykorzystana do testowania postawionej na początku hipotezy H0 i H1. Jeżeli spełniona jest H0 to statystyka F ma rozkład FSnedecora z k-1 i n-k stopniami swobody. Obszar krytyczny jest prawostronny: • Jeżeli gdzie si2 – wariancje w próbach • S2 jest nieobciążonym estymatorem wariancji σ2 – F≥Fα => hipotezę H0 odrzucamy – F<Fα => brak podstaw do odrzucenia hipotezy H0 gdzie P(F≥Fα)=α 7 8 Tablica analizy wariancji Źródło Suma kwadratów zmienności Między populacjami SSA (międzygrupowe) Wewnątrz grup (składnik SSA losowy) Stopnie swobody k-1 n-k Porównania wielokrotne Wariancja • Jeżeli odrzucimy H0 to należy zbadać, które średnie się między sobą różnią. Do tego służą tzw. Porównania wielokrotne (testy rozstępów): Test F – Test Bonferroniego – Test Tukeya – Test Scheffego SSA/(k-1)=s 12 SSE/(n-k)=s 2 2 F=s 12/s 22 • Grupy jednorodne – grupy, w których nie występują istotne statystycznie różnice miedzy wartościami średnimi 9 Analiza dwuczynnikowa 10 Podstawy teoretyczne xijm= m + αi + βj + γij + εijm • Badanie wpływu dwóch czynników na daną cechę • Przykład: m-ta obserwacja na na i-tym poziomie czynnika A i j-tym poziomie czynnika B – wpływ szkoły i miejsca zamieszkania ucznia na wyniki egzaminów B A Akademik (1) Stancja (2) Z rodzicami (3) Szkoła1 X11 X12 X13 Szkoła2 X21 X22 X23 Szkoła3 X31 X32 X33 Średnia ogólna Efekt i-tego poziomu czynnika A 11 Niezależne zmienne losowe o rozkładzie N(0, σ ) Interakcja pomiędzy itym poziomem czynnika A a j-tym poziomem czynnika B Efekt j-tego poziomu czynnika B 12 Podstawy teoretyczne • Gdy brak interakcji mij = m+ αi + βj (poziomy obydwu czynników wpływają na wartość zmiennej w sposób addytywny) Założenia i hipotezy – Dla każdej z kl możliwych kombinacji poziomów czynnika A i B rozkład zmiennej odpowiedzi jest normalny N(mij, σij), i=1,2.., k, j=1,2,.., – σij2 = σ2 - wariancje w każdej z kl populacji są sobie równe – Próby są niezależne • gdy jest interakcja mij = m+ αi + βj + γij • Badane hipotezy 7 5 A=1 A=2 4 – H0A: α1 = α2 =…= αk = 0 – brak wpływu czynnika A na dane – H1A: nie wszystkie efekty αi są równe 0 A=1 A=2 6 cecha cecha 5 3 2 4 3 – H0B: β1 = β2 =…= βk = 0 – brak wpływu czynnika B na dane – H1B: nie wszystkie efekty βi są równe 0 2 1 1 0 0 1 2 3 czynnik B 4 1 2 3 4 – H0C: γij=0 dla wszystkich i=1,.., k; j=1,.., l – brak interakcji między cechami czynnik B – H0C: nie wszystkie interakcje są równe 0 13 14