Analiza ZALEśNOŚCI pomiędzy CECHAMI

Transkrypt

Analiza ZALEśNOŚCI pomiędzy CECHAMI
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10
[1]
Analiza ZALEśNOŚCI pomiędzy CECHAMI
(Analiza KORELACJI i REGRESJI)
• korelacyjny wykres rozrzutu (korelogram)
• rodzaje zaleŜności (brak, nieliniowa, liniowa)
• pomiar siły zaleŜności liniowej (współczynnik korelacji
Pearsona, współczynnik korelacji rang Spearmana)
• liniowa funkcja regresji
Badamy jednostki statystyczne pod kątem dwóch róŜnych
cech - cechy X oraz cechy Y.
Pytanie jakie sobie stawiamy to:
czy istnieje zaleŜność pomiędzy cechą X i cechą Y ?
JeŜeli taka zaleŜność istnieje, to poszukujemy odpowiedzi na
kolejne pytania:
• jaki jest charakter tej zaleŜności oraz
• jaka jest jej siła ?
ZaleŜność korelacyjna pomiędzy cechami X i Y
charakteryzuje się tym, Ŝe wartościom jednej cechy
są przyporządkowane ściśle określone wartości
średnie drugiej cechy.
Informacja statystyczna niezbędna do zbadania zaleŜności
pomiędzy cechami X i Y przyjmuje najczęściej 2 formy:
• szereg(i) szczegółowy par informacji o cechach X
oraz Y; ma on postać ciągu par { (xi , yi) } ,
• szereg rozdzielczy w postaci tzw. tablicy
korelacyjnej.
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10
[2]
Korelacyjny wykres rozrzutu
KORELOGRAM
JeŜeli obie cechy X i Y są mierzalne, to analizę zaleŜności
rozpoczynamy od sporządzenia korelogrmamu.
Korelogram jest to wykres punktowy par { (xi , yi) }.
(Excel nazywa taki wykres: „wykresem XY”).
W kartezjańskim układzie współrzędnych x0y pary te odpowiadają
punktom o współrzędnych
(x1, y1 ), (x2 , y2 ),L, (xn , yn )
PRZYKŁADY korelogramów (kaŜdy punkt oznaczono x)
(a)
(b)
(c)
(d)
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10
[3]
JeŜeli otrzymamy bezładny zbiór punktów,
który nie przypomina kształtem wykresu znanego związku
funkcyjnego, to powiemy Ŝe pomiędzy cechami X i Y nie ma
zaleŜności. Ilustruje to rysunek (a).
Na rysunku (b) widać, Ŝe smuga punktów układa się w kształt
paraboli. Powiemy zatem, Ŝe istnieje zaleŜność pomiędzy
cechami X i Y i jest to związek nieliniowy; zaleŜność
nieliniowa.
Na rysunkach (c) i (d) smuga punktów układa się wzdłuŜ linii
prostej. Powiemy zatem, Ŝe istnieje zaleŜność pomiędzy
cechami X i Y i jest to związek liniowy; zaleŜność liniowa.
Rysunki (e) i (f) ilustrują przypadki błędów we wnioskowaniu
o zaleŜności cech X i Y na podstawie korelogramu.
Rysunek (e) – za mało danych. Zebrano dane (punkty
obwiedzione kwadratem) i z korelogramu wynika brak
zaleŜności. W rzeczywistości jest zaleŜność liniowa.
Rysunek (f) – nietypowe dane. Trzy ostatnie punkty
(odseparowane) to dane nietypowe. Sugerują zaleŜność
nieliniową (parabola). Po odrzuceniu tych nietypowych
informacji widać, Ŝe jest wyraźna zaleŜność liniowa.
(e)
(f)
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10
Pomiar KIERUNKU i SIŁY zaleŜności liniowej
Szeregi szczegółowe
WSPÓŁCZYNNIK KORELACJI (Pearsona)
Współczynnik korelacji (Pearsona) rxy obliczamy dla cech
ilościowych wg następującego wzoru:
C ( X ,Y )
rxy =
sx s y
gdzie:
C(X,Y) – kowariancja pomiędzy cechami X i Y
sx (sy) – odchylenie standardowe cechy X (cechy Y)
Kowariancja jest kluczowym parametrem rozkładu dwóch cech w
badaniu zaleŜności cech ilościowych X i Y. Wylicza się ją wg
następującego wzoru (dla szeregu(ów) szczegółowego):
1 n
C ( X , Y ) = ∑ ( xi − x )( yi − y )
n i=1
Współczynnik korelacji (Pearsona)
rxy
spełnia zawsze warunek:
− 1 ≤ rxy ≤ 1
Współczynnik korelacji (Pearsona) jest miarą symetryczną, tzn.
rxy = ryx
[4]
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10
[5]
INTERPRETACJA współczynnika korelacji rxy
Znak współczynnika rxy mówi nam o kierunku zaleŜności. I tak:
• znak plus – zaleŜność liniowa dodatnia, tzn. wraz ze wzrostem
wartości jednej cechy rosną średnie wartości drugiej z cech,
• znak minus – zaleŜność liniowa ujemna, tzn. wraz ze wzrostem
wartości jednej cechy maleją średnie wartości drugiej z cech.
Wartość bezwzględna współczynnika korelacji, czyli |rxy|,
mówi nam o sile zaleŜności. JeŜeli wartość bezwzględna |rxy|:
• jest mniejsza od 0,2, to praktycznie brak związku liniowego
pomiędzy badanymi cechami,
• 0,2 – 0,4 - zaleŜność liniowa wyraźna, lecz niska,
• 0,4 – 0,7 - zaleŜność liniowa umiarkowana,
• 0,7 – 0,9 - zaleŜność liniowa znacząca,
• powyŜej 0,9 - zaleŜność liniowa bardzo silna.
PRZYKŁAD 1
W grupie 7 studentów badano zaleŜność pomiędzy oceną z egzaminu ze
statystyki (Y), a liczbą dni poświęconych na naukę (X).
nr
studenta
ocena
z egzaminu
(Y)
liczba dni
nauki
(X)
i
1
2
3
4
5
6
7
yi
2,0
2,5
2,5
4,0
5,0
3,0
2,0
xi
5
13
16
28
42
16
6
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10
Sporządzamy korelogram.
6,0
ocena (Y )
5,0
4,0
3,0
2,0
1,0
0,0
0
5
10
15
20
25
30
35
40
45
dni nauki (X )
Widać tutaj wyraźną zaleŜność liniową (dodatnią).
Obliczamy współczynnik korelacji (Pearsona).
UWAGA ! Liczebność populacji jest mała (n=7). UŜyjemy tak małego
przykładu tylko dlatego, aby sprawnie zilustrować procedurę liczenia.
Obliczanie średnich, wariancji oraz kowariancji.
(1)
(2)
(3)
i
yi
xi
1
2
3
4
5
6
7
2,0
2,5
2,5
4,0
5,0
3,0
2,0
5
13
16
28
42
16
6
-1,0
-0,5
-0,5
1,0
2,0
0,0
-1,0
razem 21,0
126
x
n=7
(4)
(5)
(6)
(7)
(8)
(4)*(4)
(5)*(5)
(4)*(5)
-13
-5
-2
10
24
-2
-12
1,00
0,25
0,25
1,00
4,00
0,00
1,00
169
25
4
100
576
4
144
13,0
2,5
1,0
10,0
48,0
0,0
12,0
x
7,50
1022
86,5
( yi − y ) (xi − x )
126
x=
= 18
7
21
y = =3
7
[6]
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10
1022
= 146
7
sx = 146 = 12,08
sx2 =
[7]
7,5
s =
= 1,07
7
s y = 1,07 = 1,03
2
y
86,5
C( X ,Y ) =
= 12,36
7
Współczynnik korelacji (Pearsona) wynosi dla danych z przykładu 1:
C(X ,Y )
12,36
rxy =
=
= + 0,993
sx s y
12,08 × 1,03
INTERPRETACJA
W badanej grupie studentów wystąpiła bardzo silna dodatnia
(znak plus) zaleŜność liniowa pomiędzy czasem nauki
(cecha X), a uzyskaną oceną z egzaminu (cecha Y).
Oznacza to, Ŝe wraz ze wzrostem czasu poświęconego na naukę rosła w tej
grupie uzyskiwana ocena.
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10
[8]
WSPÓŁCZYNNIK KORELACJI RANG
(Spearmana)
Współczynnik korelacji rang (Spearmana) rS uŜywamy w
przypadku gdy:
1. choć jedna z badanych cech jest cechą jakościową
(niemierzalną), ale istnieje moŜliwość uporządkowania
(ponumerowania) wariantów kaŜdej z cech;
2. cechy mają charakter ilościowy (mierzalny), ale liczebność
zbiorowości jest mała (n<30).
Numery jakie nadajemy wariantom cech noszą nazwę rang.
UWAGA ! W procesie nadawania rang stymulanty porządkujemy
malejąco, a destymulanty rosnąco.
UWAGA ! W procesie nadawania rang moŜe zdarzyć się więcej niŜ
1 jednostka o takiej samej wartości cechy (np. k jednostek).
Wówczas naleŜy na chwilę nadać tym jednostkom kolejne rangi.
Następnie naleŜy zsumować takie rangi i podzielić przez k
(otrzymamy w ten sposób średnią rangę dla tej grupy k jednostek).
W ostateczności kaŜda jednostka z tych k jednostek otrzyma
identyczną rangę (średnią dla danej grupy k jednostek).
Współczynnik korelacji rang (Spearmana)
wg następującego wzoru:
rS
wyznaczamy
n
6× ∑d
rS = 1 −
di
(
i =1
2
2
i
)
n n −1
– róŜnica pomiędzy rangami dla cechy X i cechy Y
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10
Współczynnik korelacji rang (Spearmana)
warunek:
rS
spełnia zawsze
− 1 ≤ rS ≤ 1
INTERPRETACJA
Analogiczna jak dla współczynnika korelacji (Pearsona).
PRZYKŁAD 2
Dla danych z przykładu 1 obliczenia współczynnika korelacji
rang (Spearmana) są następujące:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
i
yi
xi
rangi
cechy Y
rangi
cechy X
di
di2
1
2
3
4
5
6
7
2,0
2,5
2,5
4,0
5,0
3,0
2,0
5
13
16
28
42
16
6
6,5
4,5
4,5
2
1
3
6,5
7
5
3,5
2
1
3,5
6
0,5
0,5
-1,0
0,0
0,0
0,5
-0,5
0,25
0,25
1,00
0,00
0,00
0,25
0,25
x
x
razem
x
x
x
2,00
n
6× ∑d
2
i
6× 2
rS = 1 −
= 1−
= + 0,964
2
n n −1
7 7 −1
(
i =1
2
)
(
)
Wartość współczynnika korelacji rang (Spearmana)
potwierdza bardzo silną, dodatnią (znak plus) zaleŜność
pomiędzy czasem nauki (X), a uzyskaną oceną (Y).
[9]
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[10]
Pomiar KIERUNKU i SIŁY zaleŜności liniowej
Szeregi rozdzielcze
TABLICA KORELACYJNA
Schemat tablicy korelacyjnej
Warianty cechy Y
(yj)
y1
…
Warianty
cechy X
(xi)
y1
x1
x2
∂
xr
n11
n21
…
nr1
n12
n22
…
nr2
n• 1
n• 2
(razem)
n•j
(razem)
ys
ni••
…
…
…
…
n1s
n2s
…
nrs
n1••
n2••
…
nr •
…
n• s
n
Oznaczenia:
nij
- liczba jednostek, która charakteryzuje się wartością xi cechy X oraz
wartością yj cechy Y
ni••
- liczba jednostek, która charakteryzuje się wartością xi cechy X
s
ni• = ∑ nij
j =1
n•j
- liczba jednostek, która charakteryzuje się wartością yj cechy Y
r
n• j = ∑ nij
i =1
n
- liczebność populacji
r
s
r
s
n = ∑∑ nij = ∑ ni• = ∑ n• j
i =1 j =1
i =1
j =1
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[11]
PRZYKŁAD 3
Podobnie jak w przykładzie 1 zbadamy zaleŜność pomiędzy czasem
nauki (X), a uzyskaną oceną (Y).
W tablicy korelacyjnej zestawiono informację o 400 studentach (n=400).
Czas nauki (X) w dniach
Ocena
ni••
(Y)
0 - 7 7 - 14 14 - 21 21 - 28
2
80
80
3
10
80
90
3,5
60
10
70
4
20
30
50
4,5
50
10
60
5
50
50
n•j
90
160
90
60
400
Obliczamy osobno dla kaŜdej z cech: średnie, wariancje i
odchylenia standardowe.
Ocena
(Y)
(x&
7 - 14 14 - 21 21 - 28
yi − y (b)*(b) (c)*(a)
10
50
2,25
0,25
0
0,25
1
2,25
180
22,5
0
12,5
60
112,5
90
60
400
1395
x
x
387,5
10,5
17,5
24,5
x
x
x
x
x
315
1680
1575
1470
5040
x
x
x
x
-9,1
-2,1
4,9
11,9
x
x
x
x
x
82,81
4,41
x
x
x
x
x
x
x
x
x
x& j
3,5
x& j n• j
x& j − x
2
(d)
-1,5
-0,5
0
0,5
1
1,5
160
− x)
yi ni•
(c)
160
270
245
200
270
250
90
j
ni••
(b)
80
90
70
50
60
50
80
10
80
60
20
10
30
50
24,01 141,61
− x ) n• j 7452,9 705,6 2160,9 8496,6 18816
2
j
0-7
2
3
3,5
4
4,5
5
n•j
(x&
(a)
Czas nauki (X)
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[12]
n = 400
5040
x=
= 12,6
400
1395
y=
= 3,5
400
18816
s =
= 47,04
400
sx = 47,04 = 6,86
387,5
s =
= 0,97
400
s y = 0,97 = 0,98
2
x
2
y
Przechodzimy do obliczania kowariancji C(X,Y).
Na początek policzymy wszystkie iloczyny
yi − y
-1,5
-0,5
0
0,5
1
1,5
(x&
j
− x )( yi − y )
x& j − x
-9,1
13,65
4,55
0
-4,55
-9,1
-13,65
-2,1
3,15
1,05
0
-1,05
-2,1
-3,15
4,9
-7,35
-2,45
0
2,45
4,9
7,35
Wykorzystamy tabelę początkową:
Czas nauki (X) w dniach
Ocena (Y)
0-7
7 - 14
14 - 21
2
80
0
0
3
10
80
0
3,5
0
60
10
4
0
20
30
4,5
0
0
50
5
0
0
0
11,9
-17,85
-5,95
0
5,95
11,9
17,85
21 - 28
0
0
0
0
10
50
:
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[13]
i policzymy wszystkie iloczyny
yi − y
-1,5
-0,5
0
0,5
1
1,5
razem
(x&
j
− x )( yi − y )nij
x& j − x
razem
-9,1
1092
45,5
0
0
0
0
-2,1
0
84
0
-21
0
0
4,9
0
0
0
73,5
245
0
11,9
0
0
0
0
119
892,5
1092
129,5
0
52,5
364
892,5
1137,5
63
318,5
1011,5
2530,5
Zatem kowariancja wynosi:
2530,5
C( X ,Y ) =
= 6,33
400
Współczynnik korelacji (Pearsona) wynosi dla danych
z przykładu 3:
6,33
C( X ,Y )
rxy =
=
= + 0,942
sx s y
6,86 × 0,98
INTERPRETACJA
W badanej grupie 400 studentów wystąpiła bardzo silna
dodatnia (znak plus) zaleŜność liniowa pomiędzy czasem
nauki (cecha X), a uzyskaną oceną z egzaminu (cecha Y).
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[14]
Inne miary zaleŜności
wyliczalne na podstawie tablicy korelacyjnej
Obok współczynnika korelacji Persona stosowane są inne miary zaleŜności
pomiędzy cechą Y i cechą X. Są to:
• Stosunek korelacji (eyx)
2
• Miary oparte na chi-kwadrat (χ )
Stosunek korelacji
• Miara ta jest oparta na spostrzeŜeniu, Ŝe przy braku zaleŜności średnie
poziomy cechy Y wewnątrz grup (klas) pokrywają się ze średnią ogólną
cechy Y.
• Miara ta spełnia warunki
0 < eyx < 1
ryx ≤ eyx
• Warunkiem policzenia stosunku korelacji jest mierzalność cechy Y.
• Jest to miara zalecana w przypadku badania zaleŜności dla związków
nieliniowych.
Miary oparte na chi-kwadrat
• Miary te oparte są na badaniu róŜnic pomiędzy liczebnościami
empirycznymi a liczebnościami teoretycznymi, które wyliczane są przy
załoŜeniu niezaleŜności cechy Y i cechy X.
• Do tej grupy naleŜą współczynniki (por. wykład 10):
C – Persona
Q – Yule’a
T – Czuprowa
• V - Cramera
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[15]
REGRESJA
PROSTA
WaŜnym uzupełnieniem zagadnienia badania kierunku i siły zaleŜności
pomiędzy cechami X i Y jest analiza regresji.
Przez analizę regresji rozumiemy metodę badania wpływu
zmiennych uznanych za niezaleŜne (przyczyny) na zmienną uznana
za zaleŜną (skutek).
JeŜeli w analizie uwzględnimy tylko 1 zmienną niezaleŜną, to
mówimy o REGRESJI PROSTEJ.
Cecha X (zmienna niezaleŜna) - przyczyna.
Cecha Y (zmienna zaleŜna) - skutek.
Przypadek większej liczby zmiennych niezaleŜnych będzie rozwinięty
w przedmiocie „Ekonometria” (dla słuchaczy kierunku Zarządzanie).
Podstawowym narzędziem badania jest tutaj funkcja regresji.
RozwaŜymy tylko przypadek zaleŜności liniowej dla regresji prostej.
Narzędziem będzie zatem funkcja regresji postaci:
yˆ i = axi + b
ŷi - teoretyczna wartość zmiennej zaleŜnej (Y)
xi - empiryczna wartość zmiennej niezaleŜnej (X)
a – współczynnik regresji (współczynnik kierunkowy)
INTERPRETACJA: jeŜeli wartość zmiennej niezaleŜnej X
wzrośnie o jednostkę, to wartość zmiennej zaleŜnej Y :
• wzrośnie (jeŜeli a>0) o |a| jednostek lub
• spadnie (jeŜeli a<0) o |a| jednostek.
b – wyraz wolny
INTERPRETACJA: stały poziom wartości zmiennej zaleŜnej Y niezaleŜny
od zmian wartości zmiennej niezaleŜnej X.
Uwaga ! Interpretacja wyrazu wolnego nie zawsze ma sens ekonomiczny.
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[16]
ZauwaŜmy, Ŝe liniowa funkcja trendu (omówiona w wykładzie 6)
yˆt = at + b
moŜe być równieŜ traktowana jako liniowa funkcja regresji prostej.
Zmienna zaleŜna Y opisuje tam poziom badanego zjawiska Y.
Zmienną niezaleŜną X jest tam czas (zmienna czasowa t).
W efekcie podstawiając x zamiast t oraz zmieniając wskaźnik t
na wskaźnik i otrzymamy funkcję regresji
yˆi = axi + b
W nowym układzie funkcja trendu moŜe być traktowana jako funkcja
regresji Y względem czasu t.
Szacowanie parametrów
aib
funkcji regresji
C(X ,Y )
a=
sx2
b = y − ax
PRZYKŁAD 4
Dla danych z przykładu 1 szacowanie parametrów funkcji regresji
przebiega następująco:
2
x = 18
x
s = 146
y =3
C ( X , Y ) 12,36
a=
=
= 0,085
2
sx
146
C ( X , Y ) = 12,36
b = y − ax = 3 − 0,085 × 18 = 1,47
Funkcja regresji w przykładzie 1 ma więc postać:
yˆi = 0,085⋅ xi + 1,47
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[17]
INTERPRETACJA:
współczynnik regresji (a=0,085 > 0) - jeŜeli liczba dni nauki wzrośnie
o jednostkę (o 1 dzień), to ocena z egzaminu wzrośnie o 0,085 (inaczej: kaŜdy
dzień nauki podnosi średnio ocenę o 0,085)
wyraz wolny (b=1,47) - stały, niezaleŜny od liczby dni nauki (x=0) poziom
uzyskanej oceny z egzaminu to 1,47 (poniŜej niedostatecznej)
Otrzymaną funkcję regresji, wykreśloną na korelogramie pokazano na
rysunku:
6,0
ocena (Y )
5,0
4,0
y = 0,085x + 1,47
2
3,0
R = 0,976
2,0
1,0
0,0
0
5
10
15
20
25
30
35
40
45
dni nauki (X )
Wykorzystanie funkcji regresji do prognozowania
Słuchacz o numerze 8 (przypomnijmy, Ŝe badanie przeprowadzono dla n=7
studentów) poświęcił na naukę 20 dni (x8=20).
Jakiej oceny moŜe spodziewać się (średnio) przy takim nakładzie czasu na
naukę ?
yˆ8 = 0,085⋅ x8 +1,47 = 0,085× 20+1,47 = 3,17
Poświęcając 20 dni na naukę słuchacz moŜe spodziewać się (średnio !!!)
oceny 3,17 czyli „dst+”.
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[18]
Ocena dopasowania funkcji regresji
do danych empirycznych
Problem oceny dopasowania był juŜ częściowo omawiany (wykład 6) przy okazji
analitycznego wygładzania szeregu czasowego za pomocą liniowej funkcji trendu.
Podstawowymi miarami „dobroci” dopasowania linii regresji do danych
empirycznych są:
2
• współczynnik zbieŜności (ϕ )
2
• współczynnik determinacji (R )
• średni błąd szacunku (pierwiastek z tzw. wariancji resztowej)
2
Współczynnik zbieŜności (ϕ ):
n
ϕ2 =
2
ˆ
(
)
y
−
y
∑ i i
i =1
n
∑(y
− y)
2
i
0 ≤ ϕ2 ≤ 1
gdzie
i =1
2
Im ϕ jest bliŜszy 0, tym dopasowanie jest lepsze.
2
Współczynnik determinacji (R ):
R 2 = 1 − ϕ2
gdzie
0 ≤ R2 ≤ 1
Przy zaleŜności liniowej moŜna go wyznaczyć równieŜ jako:
R 2 = rxy2
2
lub
R 2 = ryx2
Im R jest bliŜszy 1, tym dopasowanie jest lepsze.
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[19]
Średni błąd szacunku (Se):
n
S e = S e2 =
2
ˆ
∑ ( yi − y i )
i =1
n−k
gdzie:
k – liczba szacowanych parametrów funkcji regresji
(tutaj k=2; szacujemy dwa parametry: a i b )
2
Jest to pierwiastek z wariancji resztowej (Se ).
Nazwa bierze się od reszty (ei), którą definiuje się jako:
róŜnicę pomiędzy wartością empiryczną, a wartością teoretyczną
cechy zaleŜnej Y:
ei = yi − yˆi
PRZYKŁAD 5
Ocena dopasowania funkcji regresji dla danych z przykładu 1.
y =3
yˆi = 0,085⋅ xi + 1,47
(1)
(2)
(3)
(4)
i
yi
xi
ŷi
1
2
3
4
5
6
7
2,0
2,5
2,5
4,0
5,0
3,0
2,0
5
13
16
28
42
16
6
1,90
2,58
2,83
3,85
5,04
2,83
1,98
-1,0
-0,5
-0,5
1,0
2,0
0,0
-1,0
0,10
-0,08
-0,33
0,15
-0,04
0,17
0,02
1,00
0,25
0,25
1,00
4,00
0,00
1,00
0,0100
0,0064
0,1089
0,0225
0,0016
0,0289
0,0004
x
x
x
x
x
7,50
0,1787
razem
(5)
(6)
(7)
(8)
( yi − y ) ( yi − yˆi ) ( yi − y )2 ( yi − yˆi )2
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[20]
Współczynnik zbieŜności
n
2
ˆ
(
)
−
y
y
∑ i i
2
ϕ =
i =1
n
2
(
)
−
y
y
∑ i
0,1787
=
= 0,024
7,5
i =1
Współczynnik determinacji
R 2 = 1 − ϕ 2 = 1 − 0,024 = 0,976
lub wg innego wzoru
R 2 = rxy2 = (0,993) = 0,986
2
Uwaga! RóŜnice w wartości współczynnika determinacji wynikają z błędów zaokrągleń
na etapie liczenia współczynników: zbieŜności i korelacji
Średni błąd szacunku
n
2
ˆ
∑ ( yi − yi )
Se =
i =1
n−k
0,1787
=
= 0,189
7−2
W celu wyrobienia sobie poglądu nt. wielkości tego błędu odniesiemy go
średniego poziomu cechy Y:
Se
×100% = 0,189 ×100% = 6,3%
y
3
Uwaga! Nie moŜna uŜyć znanego współczynnika zmienności (Vx) poniewaŜ średnia
wartość reszt jest teoretycznie równa 0. Wystąpiłoby zatem dzielenie przez zero.
PODSUMOWANIE (przykład 5)
Wszystkie policzone miary dopasowania potwierdzają bardzo dobre
dopasowanie funkcji regresji do danych empirycznych.
D. Miszczyńska, M.Miszczyński, Materiały do wykładu 7 ze Statystyki (wersja poprawiona), WSEH, Skierniewice 2009/10[21]
PRZYKŁAD 6
Na zakończenie wyznaczymy funkcję regresji dla danych z przykładu 3.
Badaniu poddano tam 400 studentów. Wcześniej otrzymaliśmy tam:
n = 400 x = 12,6 y = 3,5
C ( X , Y ) = 6,33
sx2 = 47,04
rxy = 0,942
Parametry funkcji regresji wynoszą:
C ( X , Y ) 6,33
a=
=
= 0,135
2
sx
47,04
b = y − ax = 3,5 − 0,135 × 12,6 = 1,799
Funkcja regresji w przykładzie 3 ma postać:
yˆi = 0,135⋅ xi + 1,799
Dobroć dopasowania do danych empirycznych mierzona współczynnikiem
determinacji wynosi:
2
2
2
xy
R = r = (0,942) = 0,887
PowyŜsza funkcja regresji w 88,7% objaśnia kształtowanie się oceny
z egzaminu (Y) w zaleŜności od czasu nauki (X).
WYKORZYSTANIE funkcji regresji do PROGNOZY oceny.
Słuchacz o numerze 401 poświęcił na naukę 20 dni (x401=20).
Jakiej oceny moŜe się spodziewać (średnio) ?
yˆ401 = 0,135⋅ x401 +1,7999= 0,135× 20+1,799= 4,499
Poświęcając 20 dni na naukę słuchacz moŜe spodziewać się (średnio !!!)
oceny 4,499 czyli „db+”.