Metody probabilistyczne i statystyka Analiza wariancji Założenia
Transkrypt
Metody probabilistyczne i statystyka Analiza wariancji Założenia
Analiza wariancji • Badanie równo ci warto ci redniej w k>3 grupach. Metody probabilistyczne i statystyka Wykład 4: Analiza regresji. • Przykład analizy jednoczynnikowej Analiza wariancji – Badanie wpływu czynnika (np. szkoła) na wyniki egzaminu. Szkoła1 X11 X12 .... X1n1 Małgorzata Kr towska Wydział Informatyki Politechnika Białostocka e-mail: [email protected] Modele statystyczne (studia zaoczne) 1 Szkoła3 X31 X32 .... X3n3 Modele statystyczne (studia zaoczne) Zało enia analizy jednoczynnikowej 2 Tablica analizy wariancji ródło Suma kwadratów Stopnie Wariancja Test F zmienno ci swobody k Mi dzy k-1 qG/(k-1)=s12 2 populacjami ni ( x i − x ) = q G (mi dzyi =1 F=s12/s22 grupowe) 2 n Wewn trz k n-k qR/(n-k)=s2 i grup (składnik ( x ij − x i ) 2 = q R losowy) i =1 j =1 • Zało enia – Badana cech X ma w k populacjach rozkład normalny N(mi, σi), i=1,2.., k – σ12 = σ22 = ...=σk2 - wariancje w ka dej z k populacji s sobie równe – z ka dej i -tej populacji losujemy ni elementów niezale nie od siebie • Weryfikowane hipotezy: H0: m1=m2= ...=mk H1: nie wszystkie rednie s sobie równe Modele statystyczne (studia zaoczne) Szkoła2 X21 X22 .... X2n2 • gdzie xij- j-ty element w i-tej populacji x xi 3 – rednia ogólna (n=n1+n2+...nk) – rednia w grupie i-tej Modele statystyczne (studia zaoczne) x= xi = 1 n ni k i =1 j =1 1 ni ni j =1 xij xij 4 Wniosek z analizy wariancji Analiza wariancji z klasyfikacj podwójn • Statystyka F ma rozkł d F Snedecora z k-1 i n-k stopniami swobody. Odczytujemy z tablicy warto Fα tak aby zachodziła równo : P(F≥Fα)=α. • Badanie wpływu dwóch czynników na dan cech • Przykład: – wpływ szkoły i miejsca zamieszkania ucznia na wyniki egzaminów • Wnioskowanie: • Je eli B A Akademik (1) Stancja (2) Z rodzicami (3) – F≥Fα => hipotez H0 odrzucamy (badany czynnik ma wpływ na analizowan cech ) – F<Fα => brak podstaw do odrzucenia hipotezy H0 Szkoła1 X11 X12 X13 Szkoła2 X21 X22 X23 Szkoła3 X31 X32 X33 Co testujemy: wpływ czynnika A wpływ czynnika B Modele statystyczne (studia zaoczne) 5 Modele statystyczne (studia zaoczne) Analiza korelacji Własno ci współczynika korelacji • -1 ≤ rxy ≤ 1 • Analiza korelacji zajmuje si badaniem istnienia zale no ci liniowej mi dzy dwiema cechami X i Y. • Podstawow miar jest współczynnik korelacji Pearsona rXY => miara zwi zku liniowego mi dzy cechami: n rxy = i =1 n i =1 ( xi − x )( yi − y ) ( xi − x ) 2 n i =1 = ( yi − y ) 2 cov( x, y ) = • warto 1 n sx, sy - estymatory odchylenia standardowego cechy X i Y Modele statystyczne (studia zaoczne) • znak współczynnika korelacji informuje o kierunku korelacji (korelacja dodatnia -> wraz ze wzrostem jednej zmiennej ro nie warto drugiej zmiennej; korelacja ujemna – wraz ze wzrostem jednej zmiennej druga zmienna maleje) cov( x, y ) sx s y gdzie n-liczno próby (xi, yi) - poszczególne obserwacje w próbie x, y (z daszkiem) - rednia arytmetyczna cechy X i Y cov(X, Y) - współczynnik kowariancji 6 n i =1 bezwzgl dna informuje nas o sile zwi zku: – rxy =0 – brak korelacji pomi dzy zmiennymi X i Y – rxy =1 lub rxy =-1 = wówczas miedzy zmiennymi zachodzi zale no w postaci funkcji liniowej ( xi − x )( yi − y ) • Przykłady wykresów 7 Modele statystyczne (studia zaoczne) 8 Interpretacja współczynnika w analizach statystycznych Analiza regresji • W analizach statystycznych z reguły przyjmuje si , e je eli |rxy|: – – – – – • Po ustaleniu, czy mi dzy rozwa anymi cechami istnieje zale no korelacyjna mo na oszacowa parametry liniowej funkcji regresji. <0,2 => brak zwi zku liniowego mi dzy badanymi cechami 0,2 - 0.4 => zale no liniowa wyra na lecz niska 0,4 - 0,7 => zale no liniowa umiarkowana 0,7 - 0,9 => zale no liniowa znacz ca >0,9 => zale no liniowa bardzo silna • Mo na tu wyznaczy : – funkcj regresji zmiennej zale nej (obja nianej) Y przy danych warto ciach zmiennej niezale nej (obja niaj cej) W (regresja Y wzgl dem X): y^=ayx+by • Uwagi do interpretacji: – warto współczynnika bliska zeru nie musi oznacza braku zale no ci, a jedynie brak zale no ci liniowej – wielko współczynnika zale y zalezy od zakresu zmienno ci badanych cech – Funkcj regresji zmiennej X wzgl dem Y x^=axy + bx Jak wyznaczy parametry równa regresji? Modele statystyczne (studia zaoczne) 9 Modele statystyczne (studia zaoczne) Metoda najmniejszych kwadratów Interpretacja parametrów • Parametry równania regresji z próby szacuje si metod najmniejszych kwadratów (MNK). Polega ona na takim oszacowaniu funkcji y^ i x^ , aby dla danych z próby spełniony był warunek: • Parametry ax, ay nosz nazw współczynników regresji (ang. Slope). Warto współczynnika ax, ay okresla o ile jednostek przeci tnie wzro nie (lub zmaleje, gdzy ax<0, ay<0) warto zmiennej zale nej, gdy warto zmiennej niezale nej wzo nie o jedn jednostk . Parametry b s to wyrazy wolne (ang. Intercept). – dla regresji Y wzgl dem X: n i =1 ( yi − yˆ i ) 2 = n i =1 10 ( yi − a y xi − by ) 2 → min • Wykresy gdzie yi - warto ci empiryczne ( z próby) yi^ - warto ci teoretyczne ( z równania) – dla regresji X wzgl dem Y n i =1 ( xi − xˆi ) 2 = Modele statystyczne (studia zaoczne) n i =1 ( xi − a x yi − bx ) 2 → min 11 Modele statystyczne (studia zaoczne) 12 Ocena dopasowania - reszty Ocena dopasowania - wsp. determinacji • Do oceny dopasowania prostej regresji do punków empirycznych wykorzystuje si tzw. Reszty, które stanowi ró nic pomi dzy warto ciami empirycznymi a teoretycznymi funkcji regresji: Współczynnik determinacji R2: R2=r2xy ( dla regresji liniowej) – dla regresji Y wzgl dem X zi = yi - yi^, dla i=1,2,.., n – dla regresji X wzgl dem Y ui = xi - xi^, , , dla i =1,2,.., n okre la w jakim stopniu zmiany jednej zmiennej s wyja nione przez zmiany drugiej zmiennej. Im warto R2 jest bli sza jedno ci tym dopasowanie funkcji regresji do danych empirycznych jest lepsza. • Przykłady wykresów • Funkcja regresji jest poprawnie oszacowana, je eli warto ci reszt s niewielkie (w stosunku do warto ci zmiennych) i maj charakter losowy Modele statystyczne (studia zaoczne) 13 Modele statystyczne (studia zaoczne) 14