Współczynnik korelacji liniowej oraz funkcja regresji liniowej dwóch

Transkrypt

Współczynnik korelacji liniowej oraz funkcja regresji liniowej dwóch
Współczynnik korelacji liniowej
oraz
funkcja regresji liniowej dwóch
zmiennych
cov( x, y )
rxy =
=
Sx ⋅ S y
1
N
=
1
N
N
∑ ( x − x )( y
i
i
− y)
=
i =1
N
1
N
2
(
x
−
x
)
∑ i
i =1
N
2
(
y
−
y
)
∑ i
i =1
N
=
∑ ( x − x )( y
i
i
− y)
i =1
N
N
2
(
)
(
)
x
−
x
⋅
y
−
y
∑ i
∑ i
2
i =1
i =1
współczynnik determinacji
R =r
2
2
xy
Współczynnik indeterminacji
ϕ = 1− r
2
2
xy
Zarówno współczynnik determinacji jak i indeterminacji po przemnożeniu przez 100 można wyrazić w procentach.
Wówczas współczynnik determinacji informuje nas, w jakim procencie zmienność jednej zmiennej (X lub Y)
można wyjaśnić zmiennością drugiej zmiennej (Y lub X).
Obliczając współczynnik indeterminacji dowiemy się, w jakim procencie zmienność jednej ze zmiennych (X lub Y)
nie zależy od zmienności drugiej (Y lub X), lecz od innych czynników losowych.
Przykład 1
Zbadaj czy istnieje związek pomiędzy wzrostem (zmienna X w cm) a
ciężarem ciała mężczyzn (zmienna Y w kg) – dane w tabeli poniżej.
Wyznacz i zinterpretuj: współczynnik korelacji, współczynniki determinacji i
indeterminacji. Opisz badaną zależność za pomocą liniowej funkcji regresji
oraz zbadaj dobroć jej dopasowania do danych empirycznych
(narysuj wykres współzależności, zinterpretuj parametry funkcji regresji).
mężczyzna (i)
1
2
3
4
5
6
wzrost
xi [cm]
184
176
174
180
178
176
ciężar
yi [kg]
84
74
75
80
78
77
Obliczanie współczynnika korelacji liniowej
xi − x
wzrost w ciężar w
cm
kg
i
xi
yi
1
184
84
6
2
176
74
-2
3
174
75
-4
4
180
80
2
5
178
78
0
6
176
77
-2
suma
1068
468
0
.
−
1
x=
N
N
1068
x
=
= 178
∑
i
6
i =1
rxy =
∑ ( x − x )( y
i
i =1
N =6
i
=
N
∑ (x − x) ⋅ ∑ ( y
i =1
i
i =1
i
Rxy2 = rxy2 = 0,953959 2 = 0,910038 ( ≈ 91%)
− y)2
( xi − x )
6
-4
-3
2
0
-1
0
36
8
12
4
0
2
62
36
4
16
4
0
4
64
1
y=
N
− y)
2
( xi − x ) ⋅ ( y i − y )
−
oraz
N =6
yi − y
N
∑y
i =1
i
=
2
( yi − y)
2
36
16
9
4
0
1
66
468
= 78
6
62
= 0,953959 ≈ 0,95
64 ⋅ 66
ϕ 2 = 1 − rxy2 = 1 − 0,910038 = 0,089962 (≈ 9%)
Pomiędzy wzrostem i ciężarem ciała istnieje silna dodatnia współzależność. Ciężar ciała zależy od wzrost w ok. 91 procentach,
natomiast w 9 procentach zależy od innych czynników losowych (nie ujętych w tym badaniu)
Wykres zależności pomiedzy wzostem i ciężarem ciała
86
84
ciężar ciała w kg
82
80
78
76
74
72
172
174
176
178
180
wzrost w cm
182
184
186
Aproksymacja funkcji liniowej postaci y = ax + b
N
N
i =1
i =1
a ∑ xi + bN = ∑ yi
N
N
N
i =1
i =1
a ∑ x + b∑ xi = ∑ xi yi
2
i
i =1
Parametry a i b wynoszą odpowiednio:
N
a=
∑ ( x − x )( y
i
i
− y)
= rxy
i =1
N
∑(x − x)
2
Sy
Sx
i
i =1
oraz
b = y − ax
Parametr a nazywany jest współczynnikiem regresji. Informuje o ile średnio
ulegnie zmianie wartość zmiennej Y, jeżeli wartość zmiennej X wzrośnie o jednostkę.
Wyraz wolny funkcji b odpowiada na pytanie ile teoretycznie wyniesie wartość zmiennej
Y jeżeli X będzie równe 0.
Korzystając z informacji liczbowych w przykładzie 1, oszacować parametry a i
b liniowej funkcji regresji Y względem X oraz X względem Y.
N =10
a=
∑ ( x − x )( y
i =1
i
N =10
i
∑ (x − x)
i =1
− y)
=
2
62
= 0,96875
64
i
b = y − ax = 78 − 0,96875 ⋅178 = -94,4375
Zatem, funkcja regresji Y względem X ma postać:
yˆ i = 0,96875 xi − 94,4375 ,
Parametr a, nazywany jest współczynnikiem regresji. W analizowanym
przykładzie parametr ten informuje nas, że jeżeli mężczyzna urośnie o
jednostkę (tzn. 1 cm) to wówczas powinien przybrać na wadze średnio 0,97 kg
Natomiast wyraz wolny b, wskazuje ile będzie wynosić średnia wartość zmiennej Y, jeżeli
zmienna X=0. W analizowanym przypadku, parametr ten nie posiada logicznej
interpretacji, gdyż nie możliwy jest wzrost wynoszący 0 cm :)))
Wykres zależności pomiedzy wzostem i ciężarem ciała wraz z funkcją
regresji
86
ciężar ciała w kg
84
82
80
yˆ i = 0,96875 xi − 94,4375
78
76
74
72
172
174
176
178
180
wzrost w cm
182
184
186
Miary dobroci dopasowania funkcji
Wariancja resztowa:
N
sε2( y / x ) =
∑(y
i =1
2
ˆ
y
−
)
i
i
,
N
Odchylenie standardowe składnika resztowego:
N
ε
s ( y / x ) = sε2( y / x ) =
2
ˆ
(
y
−
y
)
∑ i i
i =1
N
Odchylenie standardowe składnika resztowego informuje
badacza, o ile średnio (in plus lub in minus) odchylają się
wartości empiryczne Y od wartości hipotetycznych
określonych na podstawie funkcji regresji.
Współczynnik indeterminacji ( ϕ yx ) funkcji regresji Y względem X:
2
N
ϕ yx2 =
2
ˆ
(
y
−
y
)
∑ i i
i =1
N
2
(
y
−
y
)
∑ i
,
(14)
i =1
Współczynnik determinacji:
N
2
R yx2 = 1 − ϕ yx
=1−
2
ˆ
(
)
y
−
y
∑ i i
i =1
N
2
(
y
−
y
)
∑ i
(15)
i =1
Współczynnik determinacji informuje nas, jaka część zmian wartości zmiennej
objaśnianej została wyjaśniona, przez oszacowaną funkcję regresji. Im
współczynnik determinacji jest bliższy jedności, tym funkcja regresji jest lepiej
dopasowana do danych empirycznych.
Współczynnik indeterminacji wskazuje natomiast, jaka część zmienności
zmiennej objaśnianej nie jest wyjaśniona przez zmienną objaśnianą (zmienne
objaśniające) występujące w funkcji regresji. Im wartość współczynnika jest
bliższa zeru, tym funkcja regresji jest lepiej dopasowana do zmiennych
empirycznych.
wzrost w cm
xi
i
ciężar w kg
yi
1
184
84
2
176
74
3
174
75
4
180
80
5
178
78
6
176
77
Σ
1068
468
Źródło: Obliczenia własne
2
ε ( y / x)
s
1
=
N
N =6
∑ ( yi − yˆ ) 2 =
i =1
)
yi
)
y i − y i ( y i − y) i ) 2 ( y i − y ) 2
83,8125 0,1875
76,0625 -2,0625
74,125
0,875
79,9375 0,0625
78
0
76,0625 0,9375
5,9375
= 0,989583 , sε ( y / x )
6
0,035156
4,253906
0,765625
0,003906
0
0,878906
5,9375
36
16
9
4
0
1
66
= sε2( y / x ) = 0,994778
Powyższy wynik oznacza, że wartości empiryczne ciężaru ciała odchylają się od wartości
hipotetycznych średnio o ± 0,99 kg.
N
N
ϕ yx2 =
∑ ( yi − yˆ ) 2
i =1
N
∑(y
i =1
i
− y)2
=
2
2
5,9375
= 0,089962 (≈ 9%) , R yx = 1 − ϕ yx = 1 −
66
∑(y
i
− yˆ i ) 2
∑(y
− y)2
i =1
N
i =1
i
= 1−
5,9375
= 0,910038 ( ≈ 91%) .
66
Z powyższych obliczeń wynika, że w około 91% zmienności zmiennej objaśnianej (ciężar) wynika ze
zmienności zmiennej objaśniającej (wzrost) występującej w funkcji regresji, natomiast 9% zmienności
zmiennej objaśnianej jest uzależniona od innych czynników nie objętych badaniem.
Przykład 2
W celu zbadania wpływu spożywanego posiłku (śniadania) na wyniki
otrzymane ze sprawdzian ze statyki, poddano badaniu grupę 10 studentów.
Pierwszą z cech oceniano na skali dwupunktowej w następujący sposób
student zjadł śniadanie
1 gdy
X =
,
0 gdy student nie zjadł śniadania
natomiast druga z cech była oceniana na skali punktowej od 0 do 25 punktów
Otrzymano następujące wyniki:
student śniadanie
liczba
punktów
i
xi
yi
1
1
15,5
2
0
12
3
0
13
4
1
20
5
0
8
6
0
10
7
1
20,5
8
0
14
9
1
19
10
1
18
Czy istnieje współzależność pomiędzy wynikami ze sprawdzianu i
spożywanymi posiłkami?
Inne wybrane miary współzależności
• Współczynnik korelacji dwuseryjnej
• Współczynnik skojarzenia Yulea
• Współczynnik korelacji rang Spearmana
Empiryczny współczynnik korelacji dwuseryjnej
rd . xy
y1 − y0
=
Sy
N1 ⋅ N 0
N ( N − 1)
y0
średnia arytmetyczna realizacji zmiennej losowej Y,
skojarzonych z realizacjami zmiennej X o wartości 0,
y1
średnia arytmetyczna realizacji zmiennej losowej Y,
skojarzonych z realizacjami zmiennej X o wartości 1,
N0 liczebność podzbioru zer,
N1 liczebność podzbioru jedynek,
N = N0 + N1 ,
Sy
odchylenie standardowe zmiennej losowej Y.
student
i
śniadanie
xi
liczba
punktów
yi
yi − y
( yi − y) 2
1
2
3
4
5
6
7
8
9
10
suma
1
0
0
1
0
0
1
0
1
1
5
15,5
12
13
20
8
10
20,5
14
19
18
150
0,5
-3
-2
5
-7
-5
5,5
-1
4
3
0,25
9
4
25
49
25
30,25
1
16
9
168,5
y = 15
S y2 = 16,85
S y = 4,10487515
y 0 = 11,4
y1 = 18,6
rd . xy = 0,924445459
Przykład 3
60 studentów regularnie przygotowywało się do zajęć ze
Statystyki, a 40 sporadycznie. w grupie pierwszej egzaminy
poprawkowe zdarzyły się 10 razy w ciągu studiów, a w
drugiej aż 30. Czy istnieje związek pomiędzy solidnością
pracy i koniecznością poprawkowych egzaminów?
Uzasadnić odpowiedź posługując się odpowiednim
miernikiem
Y
X
Σ
Σ
0
1
0
f(0;0)
f(0;1)
f(0;0) + f(0;1)
1
f(1;0)
f(1;1)
f(1;0) + f(1;1)
f(0;0) + f(1;0) f(0;1) + f(1;1)
N
Współczynnik skojarzenia:
Qxy
f (0;0)f (1;1) − f (0;1)f (1;0)
=
f (0;0)f (1;1) + f (0;1)f (1;0)
Przyjmijmy następujące oznaczenia:
X = 0, jeżeli student zdał egzamin w pierwszym terminie
X = 1, jeżeli student miał egzamin poprawkowy
Y = 0, jeżeli student uczył się regularnie
Y = 1, jeżeli student uczył się sporadycznie
Σ
Y
X
0
1
0
50
10
1
10
30
60
40
60
40
100
Σ
Qxy= [(50x30)-(10x10)]/ [(50x30)+(10x10)]=0,875
Współczynnik korelacji rang Spearmana
Współczynnik korelacji rang stosuje się wówczas, gdy wartości cech
mierzalnych opisanych przez odpowiednie zmienne (ciągłe lub skokowe) lub
warianty cechy niemierzalnej, zostały zastąpione rangami, czyli kolejnymi
liczbami.
N
rs. xy = 1 −
6∑ d i2
i =1
2
N ( N − 1)
gdzie
d - oznacza różnicę pomiędzy rangami zmiennej X i Y,
N – ilość par obserwacji zmiennej X i Y.
Przykład 4
Wykorzystując dane z przykładu 1 wyznaczyć współczynnik korelacji rang
Spearmana pomiędzy wzrostem a ciężarem ciała mężczyzn.
rangi
rangi
wzrost w cm ciężar w kg
2
zmiennej zmiennej
d
d
i
i
i
xi
yi
X
Y
1
2
3
4
5
6
Σ
184
176
174
180
178
176
1068
84
74
75
80
78
77
468
6
2,5
1
5
4
2,5
XXX
6
1
2
5
4
3
XXX
N
rs . xy = 1 −
6∑ d i2
i =1
2
N ( N − 1)
= 1−
6 ⋅ 3,5
21
= 1−
= 0,9 .
6 ⋅ 35
210
0
1,5
-1
0
0
-0,5
XXX
0
2.25
1
0
0
0,25
3,5