Metody probabilistyczne i statystyka Analiza wariancji Założenia

Transkrypt

Metody probabilistyczne i statystyka Analiza wariancji Założenia
Analiza wariancji
• Badanie równo ci warto ci redniej w k>3 grupach.
Metody probabilistyczne i statystyka
Wykład 4: Analiza regresji.
• Przykład analizy jednoczynnikowej
Analiza wariancji
– Badanie wpływu czynnika (np. szkoła) na wyniki egzaminu.
Szkoła1
X11
X12
....
X1n1
Małgorzata Kr towska
Wydział Informatyki
Politechnika Białostocka
e-mail: [email protected]
Modele statystyczne (studia zaoczne)
1
Szkoła3
X31
X32
....
X3n3
Modele statystyczne (studia zaoczne)
Zało enia analizy jednoczynnikowej
2
Tablica analizy wariancji
ródło
Suma kwadratów
Stopnie Wariancja
Test F
zmienno ci
swobody
k
Mi dzy
k-1
qG/(k-1)=s12
2
populacjami
ni ( x i − x ) = q G
(mi dzyi =1
F=s12/s22
grupowe)
2
n
Wewn trz
k
n-k
qR/(n-k)=s2
i
grup (składnik
( x ij − x i ) 2 = q R
losowy)
i =1 j =1
• Zało enia
– Badana cech X ma w k populacjach rozkład normalny N(mi, σi),
i=1,2.., k
– σ12 = σ22 = ...=σk2 - wariancje w ka dej z k populacji s sobie równe
– z ka dej i -tej populacji losujemy ni elementów niezale nie od siebie
• Weryfikowane hipotezy:
H0: m1=m2= ...=mk
H1: nie wszystkie rednie s sobie równe
Modele statystyczne (studia zaoczne)
Szkoła2
X21
X22
....
X2n2
• gdzie xij- j-ty element w i-tej populacji
x
xi
3
– rednia ogólna (n=n1+n2+...nk)
– rednia w grupie i-tej
Modele statystyczne (studia zaoczne)
x=
xi =
1
n
ni
k
i =1 j =1
1
ni
ni
j =1
xij
xij
4
Wniosek z analizy wariancji
Analiza wariancji z klasyfikacj podwójn
• Statystyka F ma rozkł d F Snedecora z k-1 i n-k stopniami
swobody. Odczytujemy z tablicy warto Fα tak aby zachodziła
równo : P(F≥Fα)=α.
• Badanie wpływu dwóch czynników na dan cech
• Przykład:
– wpływ szkoły i miejsca zamieszkania ucznia na wyniki egzaminów
• Wnioskowanie:
• Je eli
B
A
Akademik (1)
Stancja (2)
Z rodzicami (3)
– F≥Fα => hipotez H0 odrzucamy (badany czynnik ma wpływ na
analizowan cech )
– F<Fα => brak podstaw do odrzucenia hipotezy H0
Szkoła1
X11
X12
X13
Szkoła2
X21
X22
X23
Szkoła3
X31
X32
X33
Co testujemy:
wpływ czynnika A
wpływ czynnika B
Modele statystyczne (studia zaoczne)
5
Modele statystyczne (studia zaoczne)
Analiza korelacji
Własno ci współczynika korelacji
• -1 ≤ rxy ≤ 1
• Analiza korelacji zajmuje si badaniem istnienia zale no ci liniowej mi dzy
dwiema cechami X i Y.
• Podstawow miar jest współczynnik korelacji Pearsona rXY => miara zwi zku
liniowego mi dzy cechami:
n
rxy =
i =1
n
i =1
( xi − x )( yi − y )
( xi − x ) 2
n
i =1
=
( yi − y ) 2
cov( x, y ) =
• warto
1
n
sx, sy - estymatory odchylenia standardowego cechy X i Y
Modele statystyczne (studia zaoczne)
• znak współczynnika korelacji informuje o kierunku korelacji
(korelacja dodatnia -> wraz ze wzrostem jednej zmiennej ro nie
warto drugiej zmiennej; korelacja ujemna – wraz ze wzrostem
jednej zmiennej druga zmienna maleje)
cov( x, y )
sx s y
gdzie n-liczno próby
(xi, yi) - poszczególne obserwacje w próbie
x, y (z daszkiem) - rednia arytmetyczna cechy X i Y
cov(X, Y) - współczynnik kowariancji
6
n
i =1
bezwzgl dna informuje nas o sile zwi zku:
– rxy =0 – brak korelacji pomi dzy zmiennymi X i Y
– rxy =1 lub rxy =-1 = wówczas miedzy zmiennymi zachodzi zale no
w postaci funkcji liniowej
( xi − x )( yi − y )
• Przykłady wykresów
7
Modele statystyczne (studia zaoczne)
8
Interpretacja współczynnika
w analizach statystycznych
Analiza regresji
• W analizach statystycznych z reguły przyjmuje si , e je eli |rxy|:
–
–
–
–
–
• Po ustaleniu, czy mi dzy rozwa anymi cechami istnieje zale no
korelacyjna mo na oszacowa parametry liniowej funkcji regresji.
<0,2 => brak zwi zku liniowego mi dzy badanymi cechami
0,2 - 0.4 => zale no liniowa wyra na lecz niska
0,4 - 0,7 => zale no liniowa umiarkowana
0,7 - 0,9 => zale no liniowa znacz ca
>0,9 => zale no liniowa bardzo silna
• Mo na tu wyznaczy :
– funkcj regresji zmiennej zale nej (obja nianej) Y przy danych
warto ciach zmiennej niezale nej (obja niaj cej) W (regresja Y
wzgl dem X):
y^=ayx+by
• Uwagi do interpretacji:
– warto współczynnika bliska zeru nie musi oznacza braku
zale no ci, a jedynie brak zale no ci liniowej
– wielko współczynnika zale y zalezy od zakresu zmienno ci
badanych cech
– Funkcj regresji zmiennej X wzgl dem Y
x^=axy + bx
Jak wyznaczy parametry równa regresji?
Modele statystyczne (studia zaoczne)
9
Modele statystyczne (studia zaoczne)
Metoda najmniejszych kwadratów
Interpretacja parametrów
• Parametry równania regresji z próby szacuje si metod
najmniejszych kwadratów (MNK). Polega ona na takim
oszacowaniu funkcji y^ i x^ , aby dla danych z próby spełniony
był warunek:
• Parametry ax, ay nosz nazw współczynników regresji (ang.
Slope). Warto współczynnika ax, ay okresla o ile jednostek
przeci tnie wzro nie (lub zmaleje, gdzy ax<0, ay<0) warto
zmiennej zale nej, gdy warto zmiennej niezale nej wzo nie o
jedn jednostk . Parametry b s to wyrazy wolne (ang. Intercept).
– dla regresji Y wzgl dem X:
n
i =1
( yi − yˆ i ) 2 =
n
i =1
10
( yi − a y xi − by ) 2 → min
• Wykresy
gdzie yi - warto ci empiryczne ( z próby)
yi^ - warto ci teoretyczne ( z równania)
– dla regresji X wzgl dem Y
n
i =1
( xi − xˆi ) 2 =
Modele statystyczne (studia zaoczne)
n
i =1
( xi − a x yi − bx ) 2 → min
11
Modele statystyczne (studia zaoczne)
12
Ocena dopasowania - reszty
Ocena dopasowania - wsp. determinacji
• Do oceny dopasowania prostej regresji do punków empirycznych
wykorzystuje si tzw. Reszty, które stanowi ró nic pomi dzy
warto ciami empirycznymi a teoretycznymi funkcji regresji:
Współczynnik determinacji R2:
R2=r2xy ( dla regresji liniowej)
– dla regresji Y wzgl dem X
zi = yi - yi^, dla i=1,2,.., n
– dla regresji X wzgl dem Y
ui = xi - xi^, , , dla i =1,2,.., n
okre la w jakim stopniu zmiany jednej zmiennej s wyja nione przez
zmiany drugiej zmiennej. Im warto R2 jest bli sza jedno ci tym
dopasowanie funkcji regresji do danych empirycznych jest lepsza.
• Przykłady wykresów
• Funkcja regresji jest poprawnie oszacowana, je eli warto ci reszt
s niewielkie (w stosunku do warto ci zmiennych) i maj
charakter losowy
Modele statystyczne (studia zaoczne)
13
Modele statystyczne (studia zaoczne)
14