Wykład13 - Politechnika Białostocka

Transkrypt

Wykład13 - Politechnika Białostocka
Analiza korelacji
• Analiza korelacji zajmuje si badaniem istnienia zale no ci liniowej mi dzy
dwiema cechami X i Y.
• Podstawow miar jest współczynnik korelacji Pearsona rXY => miara zwi zku
liniowego mi dzy cechami:
Metody probabilistyczne i statystyka
Wykład 13: Analiza regresji
n
rxy =
Małgorzata Kr towska
i =1
n
i =1
Wydział Informatyki
Politechnika Białostocka
( xi − x )( yi − y )
( xi − x )
2
n
i =1
=
( yi − y )
2
cov( x, y )
sx s y
gdzie n-liczno próby
(xi, yi) - poszczególne obserwacje w próbie
x, y (z daszkiem) - rednia arytmetyczna cechy X i Y
cov(X, Y) - współczynnik kowariancji
e-mail: [email protected]
cov( x, y ) =
1
n
sx, sy - estymatory odchylenia standardowego cechy X i Y
Modele statystyczne (studia dzienne)
1
i =1
( xi − x )( yi − y )
Modele statystyczne (studia dzienne)
2
Interpretacja współczynnika
w analizach statystycznych
Własno ci współczynika korelacji
• -1 ≤ rxy ≤ 1
• W analizach statystycznych z reguły przyjmuje si , e je eli |rxy|:
–
–
–
–
–
• znak współczynnika korelacji informuje o kierunku korelacji
(korelacja dodatnia -> wraz ze wzrostem jednej zmiennej ro nie
warto drugiej zmiennej; korelacja ujemna – wraz ze wzrostem
jednej zmiennej druga zmienna maleje)
• warto
n
bezwzgl dna informuje nas o sile zwi zku:
<0,2 => brak zwi zku liniowego mi dzy badanymi cechami
0,2 - 0.4 => zale no liniowa wyra na lecz niska
0,4 - 0,7 => zale no liniowa umiarkowana
0,7 - 0,9 => zale no liniowa znacz ca
>0,9 => zale no liniowa bardzo silna
• Uwagi do interpretacji:
– rxy =0 – brak korelacji pomi dzy zmiennymi X i Y
– rxy =1 lub rxy =-1 = wówczas miedzy zmiennymi zachodzi zale no
w postaci funkcji liniowej
– warto współczynnika bliska zeru nie musi oznacza braku
zale no ci, a jedynie brak zale no ci liniowej
– wielko współczynnika zale y zale y od zakresu zmienno ci
badanych cech
• Przykłady wykresów
Modele statystyczne (studia dzienne)
3
Modele statystyczne (studia dzienne)
4
Analiza regresji
Metoda najmniejszych kwadratów
• Po ustaleniu, czy mi dzy rozwa anymi cechami istnieje zale no
korelacyjna mo na oszacowa parametry liniowej funkcji regresji.
• Parametry równania regresji z próby szacuje si metod
najmniejszych kwadratów (MNK). Polega ona na takim
oszacowaniu funkcji y^ i x^ , aby dla danych z próby spełniony
był warunek:
• Mo na tu wyznaczy :
– dla regresji Y wzgl dem X:
– funkcj regresji zmiennej zale nej (obja nianej) Y przy danych
warto ciach zmiennej niezale nej (obja niaj cej) W (regresja Y
wzgl dem X):
y^=ayx+by
n
i =1
n
i =1
( yi − a y xi − by ) 2 → min
gdzie yi - warto ci empiryczne ( z próby)
yi^ - warto ci teoretyczne ( z równania)
– Funkcj regresji zmiennej X wzgl dem Y
x^=axy + bx
– dla regresji X wzgl dem Y
n
i =1
Jak wyznaczy parametry równa regresji?
Modele statystyczne (studia dzienne)
( yi − yˆ i ) 2 =
5
( xi − xˆi ) 2 =
n
i =1
( xi − a x yi − bx ) 2 → min
Modele statystyczne (studia dzienne)
Metoda najmniejszych kwadratów
6
Interpretacja parametrów
• W wyniku oblicze otrzymujemy:
• Parametry ax, ay nosz nazw współczynników regresji (ang.
Slope). Warto współczynnika ax, ay okre la o ile jednostek
przeci tnie wzro nie (lub zmaleje, gdy ax<0, ay<0) warto
zmiennej zale nej, gdy warto zmiennej niezale nej wzro nie o
jedn jednostk . Parametry b s to wyrazy wolne (ang. Intercept).
• Wykresy
Modele statystyczne (studia dzienne)
7
Modele statystyczne (studia dzienne)
8
Ocena dopasowania - reszty
Ocena dopasowania - wsp. determinacji
• Do oceny dopasowania prostej regresji do punków empirycznych
wykorzystuje si tzw. Reszty, które stanowi ró nic pomi dzy
warto ciami empirycznymi a teoretycznymi funkcji regresji:
Współczynnik determinacji R2:
R2=r2xy ( dla regresji liniowej)
– dla regresji Y wzgl dem X
zi = yi - yi^, dla i=1,2,.., n
– dla regresji X wzgl dem Y
ui = xi - xi^, , , dla i =1,2,.., n
okre la w jakim stopniu zmiany jednej zmiennej s wyja nione przez
zmiany drugiej zmiennej. Im warto R2 jest bli sza jedno ci tym
dopasowanie funkcji regresji do danych empirycznych jest lepsza.
• Przykłady wykresów
• Funkcja regresji jest poprawnie oszacowana, je eli warto ci reszt
s niewielkie (w stosunku do warto ci zmiennych) i maj
charakter losowy
Modele statystyczne (studia dzienne)
9
Modele statystyczne (studia dzienne)
10

Podobne dokumenty