Współczynnik korelacji liniowej oraz funkcja regresji liniowej dwóch
Transkrypt
Współczynnik korelacji liniowej oraz funkcja regresji liniowej dwóch
Współczynnik korelacji liniowej oraz funkcja regresji liniowej dwóch zmiennych cov( x, y ) rxy = = Sx ⋅ S y 1 N = 1 N N ∑ ( x − x )( y i i − y) = i =1 N 1 N 2 ( x − x ) ∑ i i =1 N 2 ( y − y ) ∑ i i =1 N = ∑ ( x − x )( y i i − y) i =1 N N 2 ( ) ( ) x − x ⋅ y − y ∑ i ∑ i 2 i =1 i =1 współczynnik determinacji R =r 2 2 xy Współczynnik indeterminacji ϕ = 1− r 2 2 xy Zarówno współczynnik determinacji jak i indeterminacji po przemnożeniu przez 100 można wyrazić w procentach. Wówczas współczynnik determinacji informuje nas, w jakim procencie zmienność jednej zmiennej (X lub Y) można wyjaśnić zmiennością drugiej zmiennej (Y lub X). Obliczając współczynnik indeterminacji dowiemy się, w jakim procencie zmienność jednej ze zmiennych (X lub Y) nie zależy od zmienności drugiej (Y lub X), lecz od innych czynników losowych. Przykład 1 Zbadaj czy istnieje związek pomiędzy wzrostem (zmienna X w cm) a ciężarem ciała mężczyzn (zmienna Y w kg) – dane w tabeli poniżej. Wyznacz i zinterpretuj: współczynnik korelacji, współczynniki determinacji i indeterminacji. Opisz badaną zależność za pomocą liniowej funkcji regresji oraz zbadaj dobroć jej dopasowania do danych empirycznych (narysuj wykres współzależności, zinterpretuj parametry funkcji regresji). mężczyzna (i) 1 2 3 4 5 6 wzrost xi [cm] 184 176 174 180 178 176 ciężar yi [kg] 84 74 75 80 78 77 Obliczanie współczynnika korelacji liniowej xi − x wzrost w ciężar w cm kg i xi yi 1 184 84 6 2 176 74 -2 3 174 75 -4 4 180 80 2 5 178 78 0 6 176 77 -2 suma 1068 468 0 . − 1 x= N N 1068 x = = 178 ∑ i 6 i =1 rxy = ∑ ( x − x )( y i i =1 N =6 i = N ∑ (x − x) ⋅ ∑ ( y i =1 i i =1 i Rxy2 = rxy2 = 0,953959 2 = 0,910038 ( ≈ 91%) − y)2 ( xi − x ) 6 -4 -3 2 0 -1 0 36 8 12 4 0 2 62 36 4 16 4 0 4 64 1 y= N − y) 2 ( xi − x ) ⋅ ( y i − y ) − oraz N =6 yi − y N ∑y i =1 i = 2 ( yi − y) 2 36 16 9 4 0 1 66 468 = 78 6 62 = 0,953959 ≈ 0,95 64 ⋅ 66 ϕ 2 = 1 − rxy2 = 1 − 0,910038 = 0,089962 (≈ 9%) Pomiędzy wzrostem i ciężarem ciała istnieje silna dodatnia współzależność. Ciężar ciała zależy od wzrost w ok. 91 procentach, natomiast w 9 procentach zależy od innych czynników losowych (nie ujętych w tym badaniu) Wykres zależności pomiedzy wzostem i ciężarem ciała 86 84 ciężar ciała w kg 82 80 78 76 74 72 172 174 176 178 180 wzrost w cm 182 184 186 Aproksymacja funkcji liniowej postaci y = ax + b N N i =1 i =1 a ∑ xi + bN = ∑ yi N N N i =1 i =1 a ∑ x + b∑ xi = ∑ xi yi 2 i i =1 Parametry a i b wynoszą odpowiednio: N a= ∑ ( x − x )( y i i − y) = rxy i =1 N ∑(x − x) 2 Sy Sx i i =1 oraz b = y − ax Parametr a nazywany jest współczynnikiem regresji. Informuje o ile średnio ulegnie zmianie wartość zmiennej Y, jeżeli wartość zmiennej X wzrośnie o jednostkę. Wyraz wolny funkcji b odpowiada na pytanie ile teoretycznie wyniesie wartość zmiennej Y jeżeli X będzie równe 0. Korzystając z informacji liczbowych w przykładzie 1, oszacować parametry a i b liniowej funkcji regresji Y względem X oraz X względem Y. N =10 a= ∑ ( x − x )( y i =1 i N =10 i ∑ (x − x) i =1 − y) = 2 62 = 0,96875 64 i b = y − ax = 78 − 0,96875 ⋅178 = -94,4375 Zatem, funkcja regresji Y względem X ma postać: yˆ i = 0,96875 xi − 94,4375 , Parametr a, nazywany jest współczynnikiem regresji. W analizowanym przykładzie parametr ten informuje nas, że jeżeli mężczyzna urośnie o jednostkę (tzn. 1 cm) to wówczas powinien przybrać na wadze średnio 0,97 kg Natomiast wyraz wolny b, wskazuje ile będzie wynosić średnia wartość zmiennej Y, jeżeli zmienna X=0. W analizowanym przypadku, parametr ten nie posiada logicznej interpretacji, gdyż nie możliwy jest wzrost wynoszący 0 cm :))) Wykres zależności pomiedzy wzostem i ciężarem ciała wraz z funkcją regresji 86 ciężar ciała w kg 84 82 80 yˆ i = 0,96875 xi − 94,4375 78 76 74 72 172 174 176 178 180 wzrost w cm 182 184 186 Miary dobroci dopasowania funkcji Wariancja resztowa: N sε2( y / x ) = ∑(y i =1 2 ˆ y − ) i i , N Odchylenie standardowe składnika resztowego: N ε s ( y / x ) = sε2( y / x ) = 2 ˆ ( y − y ) ∑ i i i =1 N Odchylenie standardowe składnika resztowego informuje badacza, o ile średnio (in plus lub in minus) odchylają się wartości empiryczne Y od wartości hipotetycznych określonych na podstawie funkcji regresji. Współczynnik indeterminacji ( ϕ yx ) funkcji regresji Y względem X: 2 N ϕ yx2 = 2 ˆ ( y − y ) ∑ i i i =1 N 2 ( y − y ) ∑ i , (14) i =1 Współczynnik determinacji: N 2 R yx2 = 1 − ϕ yx =1− 2 ˆ ( ) y − y ∑ i i i =1 N 2 ( y − y ) ∑ i (15) i =1 Współczynnik determinacji informuje nas, jaka część zmian wartości zmiennej objaśnianej została wyjaśniona, przez oszacowaną funkcję regresji. Im współczynnik determinacji jest bliższy jedności, tym funkcja regresji jest lepiej dopasowana do danych empirycznych. Współczynnik indeterminacji wskazuje natomiast, jaka część zmienności zmiennej objaśnianej nie jest wyjaśniona przez zmienną objaśnianą (zmienne objaśniające) występujące w funkcji regresji. Im wartość współczynnika jest bliższa zeru, tym funkcja regresji jest lepiej dopasowana do zmiennych empirycznych. wzrost w cm xi i ciężar w kg yi 1 184 84 2 176 74 3 174 75 4 180 80 5 178 78 6 176 77 Σ 1068 468 Źródło: Obliczenia własne 2 ε ( y / x) s 1 = N N =6 ∑ ( yi − yˆ ) 2 = i =1 ) yi ) y i − y i ( y i − y) i ) 2 ( y i − y ) 2 83,8125 0,1875 76,0625 -2,0625 74,125 0,875 79,9375 0,0625 78 0 76,0625 0,9375 5,9375 = 0,989583 , sε ( y / x ) 6 0,035156 4,253906 0,765625 0,003906 0 0,878906 5,9375 36 16 9 4 0 1 66 = sε2( y / x ) = 0,994778 Powyższy wynik oznacza, że wartości empiryczne ciężaru ciała odchylają się od wartości hipotetycznych średnio o ± 0,99 kg. N N ϕ yx2 = ∑ ( yi − yˆ ) 2 i =1 N ∑(y i =1 i − y)2 = 2 2 5,9375 = 0,089962 (≈ 9%) , R yx = 1 − ϕ yx = 1 − 66 ∑(y i − yˆ i ) 2 ∑(y − y)2 i =1 N i =1 i = 1− 5,9375 = 0,910038 ( ≈ 91%) . 66 Z powyższych obliczeń wynika, że w około 91% zmienności zmiennej objaśnianej (ciężar) wynika ze zmienności zmiennej objaśniającej (wzrost) występującej w funkcji regresji, natomiast 9% zmienności zmiennej objaśnianej jest uzależniona od innych czynników nie objętych badaniem. Przykład 2 W celu zbadania wpływu spożywanego posiłku (śniadania) na wyniki otrzymane ze sprawdzian ze statyki, poddano badaniu grupę 10 studentów. Pierwszą z cech oceniano na skali dwupunktowej w następujący sposób student zjadł śniadanie 1 gdy X = , 0 gdy student nie zjadł śniadania natomiast druga z cech była oceniana na skali punktowej od 0 do 25 punktów Otrzymano następujące wyniki: student śniadanie liczba punktów i xi yi 1 1 15,5 2 0 12 3 0 13 4 1 20 5 0 8 6 0 10 7 1 20,5 8 0 14 9 1 19 10 1 18 Czy istnieje współzależność pomiędzy wynikami ze sprawdzianu i spożywanymi posiłkami? Inne wybrane miary współzależności • Współczynnik korelacji dwuseryjnej • Współczynnik skojarzenia Yulea • Współczynnik korelacji rang Spearmana Empiryczny współczynnik korelacji dwuseryjnej rd . xy y1 − y0 = Sy N1 ⋅ N 0 N ( N − 1) y0 średnia arytmetyczna realizacji zmiennej losowej Y, skojarzonych z realizacjami zmiennej X o wartości 0, y1 średnia arytmetyczna realizacji zmiennej losowej Y, skojarzonych z realizacjami zmiennej X o wartości 1, N0 liczebność podzbioru zer, N1 liczebność podzbioru jedynek, N = N0 + N1 , Sy odchylenie standardowe zmiennej losowej Y. student i śniadanie xi liczba punktów yi yi − y ( yi − y) 2 1 2 3 4 5 6 7 8 9 10 suma 1 0 0 1 0 0 1 0 1 1 5 15,5 12 13 20 8 10 20,5 14 19 18 150 0,5 -3 -2 5 -7 -5 5,5 -1 4 3 0,25 9 4 25 49 25 30,25 1 16 9 168,5 y = 15 S y2 = 16,85 S y = 4,10487515 y 0 = 11,4 y1 = 18,6 rd . xy = 0,924445459 Przykład 3 60 studentów regularnie przygotowywało się do zajęć ze Statystyki, a 40 sporadycznie. w grupie pierwszej egzaminy poprawkowe zdarzyły się 10 razy w ciągu studiów, a w drugiej aż 30. Czy istnieje związek pomiędzy solidnością pracy i koniecznością poprawkowych egzaminów? Uzasadnić odpowiedź posługując się odpowiednim miernikiem Y X Σ Σ 0 1 0 f(0;0) f(0;1) f(0;0) + f(0;1) 1 f(1;0) f(1;1) f(1;0) + f(1;1) f(0;0) + f(1;0) f(0;1) + f(1;1) N Współczynnik skojarzenia: Qxy f (0;0)f (1;1) − f (0;1)f (1;0) = f (0;0)f (1;1) + f (0;1)f (1;0) Przyjmijmy następujące oznaczenia: X = 0, jeżeli student zdał egzamin w pierwszym terminie X = 1, jeżeli student miał egzamin poprawkowy Y = 0, jeżeli student uczył się regularnie Y = 1, jeżeli student uczył się sporadycznie Σ Y X 0 1 0 50 10 1 10 30 60 40 60 40 100 Σ Qxy= [(50x30)-(10x10)]/ [(50x30)+(10x10)]=0,875 Współczynnik korelacji rang Spearmana Współczynnik korelacji rang stosuje się wówczas, gdy wartości cech mierzalnych opisanych przez odpowiednie zmienne (ciągłe lub skokowe) lub warianty cechy niemierzalnej, zostały zastąpione rangami, czyli kolejnymi liczbami. N rs. xy = 1 − 6∑ d i2 i =1 2 N ( N − 1) gdzie d - oznacza różnicę pomiędzy rangami zmiennej X i Y, N – ilość par obserwacji zmiennej X i Y. Przykład 4 Wykorzystując dane z przykładu 1 wyznaczyć współczynnik korelacji rang Spearmana pomiędzy wzrostem a ciężarem ciała mężczyzn. rangi rangi wzrost w cm ciężar w kg 2 zmiennej zmiennej d d i i i xi yi X Y 1 2 3 4 5 6 Σ 184 176 174 180 178 176 1068 84 74 75 80 78 77 468 6 2,5 1 5 4 2,5 XXX 6 1 2 5 4 3 XXX N rs . xy = 1 − 6∑ d i2 i =1 2 N ( N − 1) = 1− 6 ⋅ 3,5 21 = 1− = 0,9 . 6 ⋅ 35 210 0 1,5 -1 0 0 -0,5 XXX 0 2.25 1 0 0 0,25 3,5