Wykład13 - Politechnika Białostocka
Transkrypt
Wykład13 - Politechnika Białostocka
Analiza korelacji • Analiza korelacji zajmuje si badaniem istnienia zale no ci liniowej mi dzy dwiema cechami X i Y. • Podstawow miar jest współczynnik korelacji Pearsona rXY => miara zwi zku liniowego mi dzy cechami: Metody probabilistyczne i statystyka Wykład 13: Analiza regresji n rxy = Małgorzata Kr towska i =1 n i =1 Wydział Informatyki Politechnika Białostocka ( xi − x )( yi − y ) ( xi − x ) 2 n i =1 = ( yi − y ) 2 cov( x, y ) sx s y gdzie n-liczno próby (xi, yi) - poszczególne obserwacje w próbie x, y (z daszkiem) - rednia arytmetyczna cechy X i Y cov(X, Y) - współczynnik kowariancji e-mail: [email protected] cov( x, y ) = 1 n sx, sy - estymatory odchylenia standardowego cechy X i Y Modele statystyczne (studia dzienne) 1 i =1 ( xi − x )( yi − y ) Modele statystyczne (studia dzienne) 2 Interpretacja współczynnika w analizach statystycznych Własno ci współczynika korelacji • -1 ≤ rxy ≤ 1 • W analizach statystycznych z reguły przyjmuje si , e je eli |rxy|: – – – – – • znak współczynnika korelacji informuje o kierunku korelacji (korelacja dodatnia -> wraz ze wzrostem jednej zmiennej ro nie warto drugiej zmiennej; korelacja ujemna – wraz ze wzrostem jednej zmiennej druga zmienna maleje) • warto n bezwzgl dna informuje nas o sile zwi zku: <0,2 => brak zwi zku liniowego mi dzy badanymi cechami 0,2 - 0.4 => zale no liniowa wyra na lecz niska 0,4 - 0,7 => zale no liniowa umiarkowana 0,7 - 0,9 => zale no liniowa znacz ca >0,9 => zale no liniowa bardzo silna • Uwagi do interpretacji: – rxy =0 – brak korelacji pomi dzy zmiennymi X i Y – rxy =1 lub rxy =-1 = wówczas miedzy zmiennymi zachodzi zale no w postaci funkcji liniowej – warto współczynnika bliska zeru nie musi oznacza braku zale no ci, a jedynie brak zale no ci liniowej – wielko współczynnika zale y zale y od zakresu zmienno ci badanych cech • Przykłady wykresów Modele statystyczne (studia dzienne) 3 Modele statystyczne (studia dzienne) 4 Analiza regresji Metoda najmniejszych kwadratów • Po ustaleniu, czy mi dzy rozwa anymi cechami istnieje zale no korelacyjna mo na oszacowa parametry liniowej funkcji regresji. • Parametry równania regresji z próby szacuje si metod najmniejszych kwadratów (MNK). Polega ona na takim oszacowaniu funkcji y^ i x^ , aby dla danych z próby spełniony był warunek: • Mo na tu wyznaczy : – dla regresji Y wzgl dem X: – funkcj regresji zmiennej zale nej (obja nianej) Y przy danych warto ciach zmiennej niezale nej (obja niaj cej) W (regresja Y wzgl dem X): y^=ayx+by n i =1 n i =1 ( yi − a y xi − by ) 2 → min gdzie yi - warto ci empiryczne ( z próby) yi^ - warto ci teoretyczne ( z równania) – Funkcj regresji zmiennej X wzgl dem Y x^=axy + bx – dla regresji X wzgl dem Y n i =1 Jak wyznaczy parametry równa regresji? Modele statystyczne (studia dzienne) ( yi − yˆ i ) 2 = 5 ( xi − xˆi ) 2 = n i =1 ( xi − a x yi − bx ) 2 → min Modele statystyczne (studia dzienne) Metoda najmniejszych kwadratów 6 Interpretacja parametrów • W wyniku oblicze otrzymujemy: • Parametry ax, ay nosz nazw współczynników regresji (ang. Slope). Warto współczynnika ax, ay okre la o ile jednostek przeci tnie wzro nie (lub zmaleje, gdy ax<0, ay<0) warto zmiennej zale nej, gdy warto zmiennej niezale nej wzro nie o jedn jednostk . Parametry b s to wyrazy wolne (ang. Intercept). • Wykresy Modele statystyczne (studia dzienne) 7 Modele statystyczne (studia dzienne) 8 Ocena dopasowania - reszty Ocena dopasowania - wsp. determinacji • Do oceny dopasowania prostej regresji do punków empirycznych wykorzystuje si tzw. Reszty, które stanowi ró nic pomi dzy warto ciami empirycznymi a teoretycznymi funkcji regresji: Współczynnik determinacji R2: R2=r2xy ( dla regresji liniowej) – dla regresji Y wzgl dem X zi = yi - yi^, dla i=1,2,.., n – dla regresji X wzgl dem Y ui = xi - xi^, , , dla i =1,2,.., n okre la w jakim stopniu zmiany jednej zmiennej s wyja nione przez zmiany drugiej zmiennej. Im warto R2 jest bli sza jedno ci tym dopasowanie funkcji regresji do danych empirycznych jest lepsza. • Przykłady wykresów • Funkcja regresji jest poprawnie oszacowana, je eli warto ci reszt s niewielkie (w stosunku do warto ci zmiennych) i maj charakter losowy Modele statystyczne (studia dzienne) 9 Modele statystyczne (studia dzienne) 10