Katarzyna Chudy – Laskowska http://kc.sd.prz.edu.pl/

Transkrypt

Katarzyna Chudy – Laskowska http://kc.sd.prz.edu.pl/
Statystyka
Katarzyna Chudy – Laskowska
http://kc.sd.prz.edu.pl/
Analiza korelacji umożliwia stwierdzenie
występowania zależności oraz ocenę jej natężenia
ZALEŻNOŚCI pomiędzy CECHAMI:
CECHY: ILOŚCIOWA
ILOŚCIOWA
ANALIZA
KORELACJI
CECHY: JAKOŚCIOWA
JAKOŚCIOWA
TEST NIEZALEŻNOŚCI
CHI – KWADRAT
PEARSONA
CECHY : ILOŚCIOWA
JAKOŚCIOWA
TEST
ANOVA
TEST
Anova
Kruskala –Wallisa
Korelacja –cechy ilościowe
Zależność korelacyjna charakteryzuje się tym, że określonym wartościom
jednej zmiennej przyporządkowane są ściśle określone wartości drugiej zmiennej.
Stopień zależności pomiędzy cechami określany jest za pomocą
współczynnika korelacji rxy
Współczynnik korelacji
liniowej Pearsona
Liczony w przypadku
cech ilościowych, mających
rozkład normalny lub zbliżony
do normalnego (zbiór danych
powinien być liczny)
Współczynnik korelacji
Rang Spearmana
Liczony w przypadku :
- gdy cechy są mierzalne badana
zbiorowość jest nieliczna
- gdy cechy mają charakter jakościowy
i istnieje możliwość ich
uporządkowania
Współczynnik korelacji liniowej Pearsona
Analizę zależności pomiędzy cechami ilościowymi należy rozpocząć od
Sporządzenia wykresu rozrzutu. Dzięki analizie graficznej można już na
Początku stwierdzić czy istnieje potencjalna zależność pomiędzy cechami
I czy jest sens obliczania związku między badanymi zmiennymi.
Y
Y
korelacja liniowa
dodatnia rxy > 0
korelacja liniowa
ujemna rxy < 0
X
X
Y
Y
brak
korelacji liniowej
rxy = 0
korelacja nieliniowa
brak
korelacji liniowej
rxy = 0
X
X
Współczynnik korelacji liniowej Pearsona przyjmuje wartości z przedziału
od -1 do 1
Przyjmuje się że:
rxy< 0,2 – brak związku liniowego
0,2-0,4 – zależność wyraźna liniowa ale niska
0,4 – 0,7 zależność umiarkowana
0,7 – 0,9 –zależność znacząca
powyżej 0,9 – zależność bardzo silna
Jeśli współczynnik korelacji liniowej Pearsona jest równy 0 to nie ma
związku między badanymi zmiennymi. Natomiast jeśli współczynnik korelacji
jest równy 1 lub -1 to występuje idealny związek liniowy.
Współczynnik korelacji liniowej Pearsona podany jest wzorem:
n
rxy 
 x  x  y  y 
i 1
i
i
n
2
2




x

x

y

y
 i
i

CX ,Y 
sx s y
i 1
Współczynnik korelacji informuje o
sile i kierunku związku:
SIŁA  od 0 do 1 (0-100%)
KIERUNEK 
+ –
lub
Korelacja dodatnia występuje wtedy gdy wraz ze wzrostem jednej cechy
wzrastają średnio wartości drugiej cechy (związek proporcjonalny)
Korelacja ujemna występuje wtedy gdy wraz ze wzrostem jednej cechy
maleją średnio wartości drugiej cechy (związek proporcjonalny)
UWAGI
1. Wartość współczynnika korelacji bliska 0 oznacza tylko brak korelacji
liniowej Pearsona (może wystąpić inny związek dlatego tak ważne są
wykresy rozrzutu).
2. Współczynnik korelacji podlega wpływom wartości odstających
(ekstremalnych)
3. Korelacja pozorna – bociany – przyrost naturalny
Przykład
W pewnej firmie sprawdzono jak obciążenie samochodów dostawczych wpływa na
zużycie paliwa. Sprawdzić czy istnieje zależność pomiędzy badanymi cechami.
Obciążenie
samochodu Spalanie
X
175
181
185
192
195
202
205
210
215
220
1980
198
x
rxy 
Y
5
5,5
6
6,5
7
7,5
8
9,5
10
11
76
7,6
( x  x)
-23
-17
-13
-6
-3
4
7
12
17
22
( x  x) 2
( y  y)
529
289
169
36
9
16
49
144
289
484
2014
-2,6
-2,1
-1,6
-1,1
-0,6
-0,1
0,4
1,9
2,4
3,4
( y  y) 2
6,76
4,41
2,56
1,21
0,36
0,01
0,16
3,61
5,76
11,56
36,4
( x  x)  ( y  y )
59,8
35,7
20,8
6,6
1,8
-0,4
2,8
22,8
40,8
74,8
265,5
Spalania (l)
Lp
1
2
3
4
5
6
7
8
9
10
12
10
8
6
4
2
0
170
180
190
200
210
220
230
Obciążenie samochodu (kg)
n
rxy 
 x  x  y
i
i 1
n
i
 y
 x  x    y
i 1
2
i
 y
2
i
y
265,5
265,5
265,5


 0,98
2014  36,4
73309,6 270,76
Zależność między obciążeniem a spalaniem jest bardzo wysoka.
jest to zależność dodatnia, wprost proporcjonalna,
wraz ze wzrostem obciążenia wzrasta spalanie.
W 98% obciążenie wpływa na zużycie paliwa.
Zadanie:
Zbadać zależność pomiędzy liczbą posiadanych samochodów
przez przedsiębiorstwa transportowe a kosztami stałymi (tys.).
X
Y
Liczba posiadanych samochodów Koszty stałe (tys.)
20
52
30
45
40
40
50
35
REGRESJA
Pojęcie analizy regresji ściśle wiąże się z pojęciem korelacji. Na podstawie korelacji
stwierdzić można, czy między danymi występuje zależność (określić jej wielkość)
oraz jaki kierunek ona posiada.
Analiza regresji pozwala w sposób dokładny zinterpretować odkryte zależności.
Linię regresji określa się jako miejsce geometryczne średnich wartości zmiennej
zależnej, przy ustalonych wartościach zmiennej niezależnej.
Zmienna
zależna
(objaśniana)
Y=ax+b
współczynnik
kierunkowy
a
Zmienna
niezależna
(objaśniająca)
wyraz wolny b
Parametry równania regresji z próby szacuje się klasyczną metodą
najmniejszych kwadratów (MNK), polega ona na takim oszacowaniu parametrów
Funkcji Y=ax+b by dla danych z próby spełniony był warunek
  y  yˆ    y  a x  b 
n
2
i
i 1
n
i 1
2
i
x
y
 min
Gdzie yi oznaczają wartości empiryczne cechy Y a ŷ wartości teoretyczne
wyznaczone na podstawie równania Y=ax+b
Obliczając miejsca zerowe pierwszych pochodnych cząstkowych względem
odpowiednich parametrów funkcji otrzymujemy:
n
ay 
 x  x  y
i
i 1
n
 y
i
 x  x 
i 1
2
i
by  y  a x x
Y= x+by
INTERPRETACJA
Jeżeli zmienną X zwiększymy o jednostkę, to zmienna Y zwiększy się (spadnie)
O współczynnik kierunkowy a
Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się
reszty czyli różnicę pomiędzy wartościami empirycznymi a teoretycznymi funkcji regresji.
yi  wartości empiryczne
yˆ  wartości teoretyczne
et  yi  yˆ
Funkcja regresji jest poprawnie oszacowana
jeżeli wartości reszt są niewielkie i mają charakter losowy.
n
Wariancja składnika resztowego:
s (et ) 
2
  y  yˆ 
i 1
2
i
nk
i
n - liczba obserwacji
k – liczba szacowanych parametrów
Odchylenie standardowe reszt zwane również średnim błędem szacunku określa
o ile średnio wartości empiryczne odchylają się od wartości teoretycznych.
Wraz ze wzrostem odchylenia standardowego reszt maleje „poprawność”
dopasowania prostej regresji do danych
Aby sprawdzić w jakim stopniu prosta regresji dopasowana jest do danych
Oblicza się współczynnik determinacji R 2
R2  1  2
Współczynnik zbieżności mieści się w przedziale od 0 do 1 a często
interpretowany jest w procentach. Wskazuje stopnień braku dopasowania
Prostej regresji do danych.
n
2 
 y
i 1
n
ˆ
i  yi 
2
2


y

y
 i
i 1
Przykład cd.
Obciążenie
samochodu
Lp
1
2
3
4
5
6
7
8
9
10
X
175
181
185
192
195
202
205
210
215
220
1980
198
Spalanie
( x  x) 2 ( y  y )
( x  x)
Y
5
-23
5,5
-17
6
-13
6,5
-6
7
-3
7,5
4
8
7
9,5
12
10
17
11
22
76
7,6
529
289
169
36
9
16
49
144
289
484
2014
-2,6
-2,1
-1,6
-1,1
-0,6
-0,1
0,4
1,9
2,4
3,4
n
ay 
 x  x  y
i
i 1
n
( x  x)  ( y  y )
ŷ
et  ( yi  yˆ )
et2
( yi  y ) 2
6,76
4,41
2,56
1,21
0,36
0,01
0,16
3,61
5,76
11,56
36,4
59,8
35,7
20,8
6,6
1,8
-0,4
2,8
22,8
40,8
74,8
265,5
4,61
5,39
5,91
6,82
7,21
8,12
8,51
9,16
9,81
10,46
0,39
0,11
0,09
-0,32
-0,21
-0,62
-0,51
0,34
0,19
0,54
0,1521
0,0121
0,0081
0,1024
0,0441
0,3844
0,2601
0,1156
0,0361
0,2916
1,4066
6,76
4,41
2,56
1,21
0,36
0,01
0,16
3,61
5,76
11,56
36,4
 y
i
 x  x 
i 1
( y  y) 2
2

265,5
 0,13
2014
i
by  y  ax x  7,6  0,13 198  7,6  25,74  18,14
Y=ax+b
Y=0,13x-18,14
Y=ax+b Y=0,13x-18,14
n
s 2 (et ) 
  y  yˆ 
i 1
2
i
i
nk
s  0,1758  0,42

1,4066 1,4066

 0,1758
10  2
8
n
 
2
2
ˆ


y

y
 i i
i 1
n
2


y

y
 i
1,4066

 0,04
36,4
i 1
R 2  1   2  1  0,04  0,94
Współczynnik korelacji rang Spearmana
Współczynnik ten służy do opisu siły korelacji dwóch cech w przypadku gdy:
-cechy są mierzalne, a badana zbiorowość jest małoliczna
-mają one charakter jakościowy ale istnieje możliwość ich uporządkowania
Wzięte do badań cechy należy uporządkować ze względu na wartości każdej
cechy oddzielnie (rosnąco lub malejąco). Jednostkom w każdym z porządkowań
przypisuje się numer od 1 do n czyli rangę.
d i  oznacza różnicę między rangami cechy x i y
n
rs  1 
6 d
i 1
2
2
i
nn  1
Współczynnik korelacji rang Spearmana przyjmuje
wartości z przedziału [-1,1]. Im wyższa wartość
korelacji rang Spearmana tym większa zależność
między cechami.
Przykład
Liczba
Liczba Ranga
samochodów ludności
Y
Lp
1 ŁÓDZKIE
2 MAZOWIECKIE
Ranga
X
d i d i2
1568366
2534357
6
6
0
0
6
3541044
5242911
1
1
0
0
1
4
3 MAŁOPOLSKIE
1898517
3310094
4
4
0
0
4 ŚLĄSKIE
2521534
4635882
2
2
0
0
2
5 LUBELSKIE
6 PODKARPACKIE
1322252
1174565
2151895
2103505
7
10
8
9
-1
1
1
1
7,5
9,5
7 PODLASKIE
697228
1188329
14
14
0
0
14
8 ŚWIĘTOKRZYSKIE
783698
1266014
12
13
-1
1 12,5
9 LUBUSKIE
609231
1011024
16
16
0
0
16
2346895
3419426
3
3
0
0
3
11 ZACHODNIOPOMORSKIE
937571
1693072
11
11
0
0
11
12 DOLNOŚLĄSKIE
1655833
2877840
5
5
0
0
5
13 OPOLSKIE
630900
1028585
15
15
0
0
15
14 KUJAWSKO-POMORSKIE
1253158
2069543
9
10
-1
1
9,5
15 POMORSKIE
1313756
2240319
8
7
1
1
7,5
16 WARMIŃSKO-MAZURSKIE
782601
1427241
13
12
10 WIELKOPOLSKIE
rs  1 
1
1 12,5

6
n
rs  1 
6 d i2
i 1
2
nn  1
66
36
36

1


1

 1  0,0088  0,9912
2
16 16  1
16  255
4080


Zadanie
Na podstawie danych określić siłę związku pomiędzy liczbą emitowanych reklam
a liczbą sprzedanych samochodów. Dokonać interpretacji współczynnika
korelacji rang Spearmana
Liczba emisji reklam samochodu Liczba sprzedanych samochodów
3
15
5
33
4
42
5
50
6
48
7
51

Podobne dokumenty