Analiza współzależności dwóch zjawisk Badanie zbiorowości ze

Transkrypt

Analiza współzależności dwóch zjawisk Badanie zbiorowości ze
Analiza współzależności dwóch zjawisk
Badanie zbiorowości ze względu na dwie cechy ma zazwyczaj na celu poszukiwanie
zależności między tymi cechami. Poszukiwanie to ma sens tylko wtedy, gdy między cechami
może istnieć logicznie uzasadniony związek przyczynowo-skutkowy. Analizując związek
przyczynowo – skutkowy między cechami ustalamy, która z badanych cech może być traktowana
jako cecha niezależna, a którą uznamy za cechę zależną, np. badając wpływ powierzchni sklepów
(X) na wysokość utargu (Y) przyjmiemy, że cechą niezależną będzie powierzchnia sklepów (X) zaś
utarg będzie cechą zależną. W niektórych przypadkach można stwierdzić zarówno wpływ cechy X
na cechę Y jak i odwrotnie. Mówimy wówczas o współzależności cech, np. spożycie cukru i mąki
w gospodarstwach domowych.
Zależność między cechami może mieć charakter:
a) funkcyjny - polegający na tym, że każdej wartości zmiennej X odpowiada ściśle określona i tylko
jedna wartość zmiennej Y. Przykładem jest tu zależność między ceną a wartością towaru.
b) stochastyczny (definiowany za pomocą pojęć z rachunku prawdopodobieństwa). Zależność
stochastyczna (probabilistyczna) polega na tym, że zależne są rozkłady prawdopodobieństwa
zmiennych X i Y. W praktyce oznacza to, że wpływ jednej zmiennej na drugą jest zależny również
od czynników losowych, wspólnie działających na obie zmienne, oprócz innych czynników
działających na każdą z nich oddzielnie.
Szczególnym przypadkiem zależności stochastycznej jest zależność statystyczna
(korelacyjna) występująca między cechami mierzalnymi lub quasi-mierzalnymi. Polega ona na
tym, że określonym wartościom jednej zmiennej przyporządkowane są ściśle określone średnie
wartości drugiej zmiennej.
Pod względem kierunku wyróżniamy korelację dodatnią i ujemną.
Korelacja dodatnia występuje wtedy, gdy wzrostowi wartości jednej cechy odpowiada wzrost
średnich wartości drugiej cechy.
Korelacja ujemna występuje wtedy, gdy wzrostowi wartości jednej cechy odpowiada spadek
średnich wartości drugiej cechy.
Rozkład dwuwymiarowy, brzegowy, warunkowy; tablica korelacyjna
Punktem wyjściowym do badania współzależności cech są dane, w których dla każdej
jednostki statystycznej określono wartości dwóch cech: X i Y. Mamy więc zbiór n jednostek i
przyporządkowane im pary cech (xi, yi), i = 1, 2, ... n. Mamy zatem szereg:
Tablica 3.11
Szereg szczegółowy dla dwóch obserwowanych cech
i
xi
yi
1
x1
y1
2
x2
y2
...
...
...
n
xn
yn
Źródło: Opracowanie własne
Jeżeli liczebność zbiorowości jest duża i zachodzi potrzeba pogrupowania danych w szeregi
rozdzielcze, to ze względu na dwa różne wymiary grupowania - na k wariantów dla cechy X
i l wariantów cechy Y, otrzymujemy k l wartości nij -liczebności klas dla i-tego wariantu cechy X
(i=1, 2, ...,k) i j-tego wariantu cechy Y (j=1, 2, ...,l). Opisane przyporządkowanie nazywamy
dwuwymiarowym rozkładem empirycznym cechy (X,Y) dla danej populacji. Dane pogrupowane
umieszcza się zwykle w tzw. tablicy korelacyjnej:
Tablica 1
Tablica korelacyjna
Y y1d - y2d
X
y1g
y2g
x1d - x1g n11
n12
x2d - x2g n21
n22
...
...
...
xkd - xkg nk1
nk2
k
n
ij
i 1
 n j
- ...
...
...
...
...
yld
ylg
n1l
n1l
...
nkl
...
n l
- l n  n
ij
i
j 1
n1 
n2 
...
nk 
k
n 1
n 2
n
i
i 1
l
  n j  n
j 1
Symbole xid, xig oraz yjd, yjg oznaczają odpowiednio dolną i górną granicę przedziału klasowego dla
cech X i Y. W ostatnim wierszu tablicy korelacyjnej umieszczone zostały sumy liczebności
wszystkich klas cechy X dla danego wariantu Y, tworzące rozkład empiryczny cechy Y w badanej
zbiorowości, nazywany tutaj rozkładem brzegowym tej cechy. Podobnie w ostatniej kolumnie
tablicy powstaje rozkład brzegowy X.
Możemy też rozpatrywać rozkład jednej cechy przy ustalonej wartości drugiej, np. dla części
populacji posiadającej cechę X w pierwszym wariancie x1d - x1g (n1  jednostek) mamy rozkład:
Tablica 2
Wariant Y Liczebność klasy
y1d - y1g
n11
y2d - y2g
n12
...
...
yld - ylg
n1l
Taki rozkład nazywamy rozkładem warunkowym cechy Y. Zatem w wierszach tablicy
korelacyjnej mamy rozkłady warunkowe dla cechy Y, a w kolumnach - dla cechy X.
Przykład 1
Struktura mieszkań pewnej spółdzielni mieszkaniowej pod względem wielkości i liczby
zamieszkujących je osób została podana w poniższej tabeli:
Tablica 3
Lp
.
1
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
Powierzchnia
użytkowa (w m2)
2
42
48
37
56
46
102
33
74
63
42
58
72
96
38
64
Liczba
mieszkańców
3
4
2
1
2
3
4
4
5
5
2
3
4
5
1
5
1
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
2
75
68
46
74
85
64
56
30
93
49
66
56
104
43
39
3
3
5
3
2
5
4
4
2
4
1
3
3
4
3
2
Źródło: Dane umowne
Dane te pogrupowane w tabeli korelacyjnej wyglądają następująco:
Tablica 4
Liczba osób (yj)
Pow. uż.(xi)
30-50
50-70
70-90
90-110
Razem
1
2
3
4
5
3
3
4
1
1
6
3
3
1
7
2
2
1
3
8
3
2
1
6
Raze
m
12
9
5
4
30
Rysunek 1 przedstawia dane z tabeli 4 na histogramie trójwymiarowym:
Liczba
mieszkań
4
3
1
2
2
1
3
5
90-110
70-90
Pow ierzchnia
m ieszkań
4
50-70
30-50
0
Liczba m ieszkańców
Dane przedstawione w przykładzie 1 zdają się być zależne i stochastycznie, i korelacyjnie.
Widać bowiem, że mniej liczne rodziny zamieszkują na ogół mniejsze mieszkania. Można sobie
jednak wyobrazić cechy zależne korelacyjnie, ale niezależne stochastycznie, tzn. posiadające stałą
średnią warunkową mimo istotnie różnych rozkładów warunkowych, np. pod względem wariancji dla różnych wariantów jednej cechy możemy otrzymywać rozkłady bardziej równomierne lub
bardziej skoncentrowane, chociaż posiadające wciąż tą samą średnią. Jednak na ogół pojęcia
zależności stochastycznej i korelacyjnej są ze sobą związane. W dalszej części zajmiemy się
mierzeniem siły współzależności cech.
Podstawowe miary współzależności cech
Podamy teraz kilka najczęściej stosowanych wskaźników mierzących siłę korelacji dwóch cech
(współczynnik korelacji liniowej Pearsona, stosunek korelacji, współczynnik korelacji rang
Spearmana) oraz miarę zależności stochastycznej - współczynnik zbieżności Czuprowa.
Przy badaniu współzależności cech przyjmuje się zwykle jedną cechę za niezależną, której
zmienność jest uwarunkowana czynnikami zewnętrznymi, a drugą za zależną, tzn. jej wahania
próbuje się wyjaśnić (przynajmniej częściowo) zmiennością cechy niezależnej.
Najczęściej stosowanym miernikiem współzależności cech jest współczynnik korelacji
liniowej Pearsona (określany w literaturze również jako współczynnik korelacji prostoliniowej)
oparty na pojęciu kowariancji:
covx, y  
1 n
 ( xi  x )( y i  y )
n i 1
lub równoważnie covx, y  
oraz
lub
1 n
 xi yi  x  y
n i 1
1 k l
 ( xi  x )( y j  y )nij
n i 1 j 1
1 k l
covx, y    x i y j nij  x  y
n i 1 j 1
covx, y  
(1)
( 2)
( 3)
( 4)
dla szeregu szczegółowego
dla szeregu pogrupowanego w tablicy korelacyjnej. Współczynnik korelacji liniowej dany jest wzorem
covx, y  x y  x  y
,
( 5)

SxSy
SxSy
gdzie Sx, Sy oznaczają odchylenia standardowe zmiennych X i Y.
Jest to, jak widać, miara symetryczna. Współczynnik korelacji liniowej przyjmuje wartości z
przedziału <-1,1> i informuje o sile oraz kierunku korelacji liniowej między zmiennymi, tzn. rxy= 0
świadczy o braku korelacji liniowej między badanymi cechami (możliwe, że istnieje między nimi
korelacja krzywoliniowa!), rxy> 0 informuje nas, że mamy do czynienia z korelacją dodatnią (wraz
ze wzrostem wartości jednej cechy wzrasta średnia warunkowa drugiej), dla rxy< 0 korelacja jest
ujemna (wzrostowi wartości jednej cechy towarzyszy spadek drugiej). Przy rxy= 1 lub -1 mamy
liniową zależność funkcyjną, tzn. y=ax+b.
rxy  ryx 
Przykład 2
W “Gazecie Motoryzacyjnej” 12/97 znajdują się następujące dane o cenach samochodów
pewnej marki:
Tablica 5
Wiek
w Cena w tys.
latach
zł
3
27
7
17
10
8
4
26
2
35
3
32
Źródło: Dane umowne
Obliczymy współczynnik korelacji liniowej dla podanych cech. W tym przykładzie podano
dane dla n = 6 samochodów. Średni wiek samochodu to 4,83 lata, średnia cena wynosiła 24,17 tys.
Tablica 6
Wiek (xi)
Cena (yi)
x i  x yi  y
(xi  x )( yi  y ) (xi  x ) 2
( yi  y ) 2
3
27
-1,83
2,83
-5,19
3,36
8,03
7
17
2,17
-7,17
-15,53
4,69
51,36
10
8
5,17
-16,17
-83,53
26,69
261,36
4
26
-0,83
1,83
-1,53
0,69
3,36
2
35
-2,83
10,83
-30,69
8,03
117,36
3
32
-1,83
7,83
-14,36
3,36
61,36
29
145
-150,83
46,83
502,83



Jak widać w tabeli 6, otrzymano:
x
29
 4,83 ,
6
y
145
 24,17 ,
6
cov xy 
 150,83
 25,14 ,
6
 25,14
 0,98 ,
2,79  9,15
a to oznacza, że podane cechy są bardzo silnie skorelowane.Powinniśmy zatem powiedzieć,
ze
wiek samochodu ma bardzo silny wpływ na jego cenę. Ujemny znak współczynnika korelacji
wskazuje na to, że jeśli rośnie wiek to spodziewamy się spadku jego ceny. 
Sx 
46,83
502,83
 2,79 , S y 
 9,15 .Stąd
6
6
rxy 
Przykład 3 Obliczymy teraz współczynnik korelacji liniowej dla danych z przykładu 3.
Tablica korelacyjna, uzupełniona o dane konieczne do obliczenia Sx, Sy oraz covxy, została
przedstawiona w tablicy 7.
Średnie arytmetyczne cech na podstawie przedstawionych danych obliczamy jako:
k
x
 x i ni 
l
1820

 60,67 , y 
30
covx, y  
xi \ y j
j 1

6380
 60,67  3,27  14,49
30
1
2
3
4
5
=n i x i ni  x i  x
( x i  x ) 2
( x i  x ) 2 ni 
30-50
50-70
70-90
90-110
3
4
1
1
3
3
1
2
2
1
3
3
2
1
12
9
5
4
480
540
400
400
427,11
0,44
373,78
1547,11
5125,33
4,00
1868,89
6188,44
 = nj
3
6
7
8
6
30
1820
y j n j
3
12
21
32
30
98
x i
40
60
80
10
0
 y j n j
98
 3,27 .
n
n
30
Kowariancja została obliczona wg wzoru (4):
i 1
y j  y -2,27 -
-0,27 0,73
0,54
3
( y j  y ) 2 n15,4
j
9,63 0,49
4,3
18
120
300 380
580
440
600 1140
2320
k
 x n
k
120

x
n
y
 i ij j
i 1
i
13186,67
1,73
1,27
1,6 0,07
( y j  y )25,14
-20,67
-0,67
19,33
39,33
47,87
ij
220 6380
0
i 1
Odchylenia
standardowe obliczamy, podobnie jak średnie, na podstawie rozkładów
warunkowych:
Sx 
1 k
13186,67
( x i  x ) 2 ni 
 20,97 ,

n i 1
30
1 l
47,87
( y j  y ) 2 n j 
 1,60 .

n j 1
30
I wreszcie współczynnik korelacji liniowej jest równy:
Sy 
rxy  ryx 
covx, y 
14,49

 0,55 .
SxSy
20,97  1,6
Mamy w tym przypadku cechy wyraźnie skorelowane, choć nie tak silnie, jak w poprzednim
przykładzie.

Kwadrat współczynnika korelacji liniowej rxy2 nazywać będziemy współczynnikiem
determinacji liniowej, który podaje, jaka część zmienności cechy zależnej jest wyjaśniona
zmiennością cechy niezależnej. Podobnie wprowadzimy pojęcie współczynnika indeterminacji
liniowej jako
xy2 = yx2 = 1- rxy2,
(6)
który wyraża, jaka część zmienności zmiennej zależnej nie została wyjaśniona.
W przykładzie 3 mamy zatem rxy2= 0,552= 0,30 i xy2= 0,70 co oznacza, że wielkość
mieszkania, mierzona jego powierzchnią, zostało w 30% wyjaśniona liczbą zamieszkujących je
osób, a w 70% przez inne przyczyny.
Inną miarą korelacji jest stosunek korelacji (wskaźnik siły korelacji) Pearsona eyx i exy,
nazywany też współczynnikiem korelacji nieliniowej, ponieważ mierzy on siłę korelacji cech
niezależnie od kształtu tej zależności. Mierzy się go dla danych pogrupowanych, przy czym cecha
zależna musi być cechą mierzalną. Stosunek korelacji cechy Y do X jest dany wzorem
S y2i
e yx 
S y2
,
(7)
gdzie S y2i jest wariancją średnich warunkowych cechy Y, czyli
1 k
 ( yi  y ) 2 ni ,
n i 1
S y2i 
( 8)
natomiast y i jest średnią warunkową cechy Y dla i-tego wariantu cechy X, czyli
l
 y j nij
j 1
yi 
ni 
, i  1,2,...k
( 9)
S y2 jest wariancją ogólną cechy Y.
Analogicznie konstruuje się stosunek exy korelacji X do Y.
Przykład 4
W pewnym przedsiębiorstwie istnieje związek pomiędzy wielkością partii wyrobów gotowych
a kosztem jednostkowym produkcji. Na podstawie obserwacji z ostatnich kilku miesięcy
stwierdzono, że dla partii wyrobów wielkości 10-20 sztuk średni koszt jednostkowy wynosił 4,3 zł,
dla partii 20-50 sztuk średni koszt wynosił 3,2 zł, w partiach o wielkości 50-100 – 2,3 zł, w partiach
100-150 szt. – 2,1 zł, a w partiach największych, 150-200 sztuk wyrobów średni koszt jednostkowy
wynosił 2 zł. Wiadomo ponadto, że odchylenie standardowe kosztu jednostkowego w badanym
okresie wynosiło 2,2 zł. Rozkład liczby partii o poszczególnych liczebnościach podano w poniższej
tabeli:
Wielkość partii Liczba partii o tej
(szt.)
wielkości
10-20
5
20-50
15
50-100
20
100-150
15
150-200
10
Źródło: Dane umowne.
Określić siłę związku między wielkością partii wyrobów gotowych a kosztem jednostkowym
produkcji.
Rozwiązanie: Obliczymy wielkość stosunku korelacji. Średnie warunkowe kosztu jednostkowego
dane są w treści zadania. Na ich podstawie można też obliczyć średnią ogólną jako średnią ważoną:
5
y
y n
i 1
5
i
n
i 1
i

4,3  5  3,4  15  2,3  20  2,1  15  2  10 167

 2,57 zł.
5  15  20  15  10
65
i
Wariancję średnich warunkowych obliczymy, zgodnie ze wzorem (8), jako:
1 5
1
S y2i   ( yi  y )2 ni   (4,3  2,57)2 5  (3,4  2,57)215  (2,3  2,57)2 20  (2,1  2,57)215  (2  2,57)210 
65 i 1
65
1
  28,93846  0,445207
65
Stosunek korelacji jest zatem równy

e yx 
S y2i
S
0,445207
 0,30329 .
4,84

2
y
Można w tym przypadku mówić o wyraźnym, choć niezbyt silnym związku korelacyjnym. 
Stosunek korelacji może przyjmować wartości z przedziału <0,1>. Na ogół jest to miara
niesymetryczna, tzn. exy eyx poza dwoma przypadkami: exy= eyx= 0 (brak korelacji) oraz exy= eyx=
1 (zależność funkcyjna między Y a X).
Istnieje zależność między exy i rxy:
rxy exy,
( 10)
która stała się podstawą do utworzenia miary krzywoliniowości związku zmiennych, tzw. miernika
2
krzywoliniowości:
( 11)
my  eyx
 ryx2
2
i oczywiście, przy badaniu zależności cechy X od Y: mx  exy
 rxy2 .
( 12)
Przykład 5
Zbadać, czy zależność między powierzchnią mieszkania a liczbą zamieszkujących je osób z
przykładu 1 można uznać za liniową.
Rozwiązanie: Obliczymy stosunek korelacji nieliniowej exy – zależności powierzchni
mieszkania od liczby członków gospodarstwa domowego, a następnie wielkość miernika
krzywoliniowości (im jego wartość jest mniejsza, tym bardziej zależność można uznać za liniową).
Na podstawie tabeli 3.18 można obliczyć wartości średnich warunkowych cechy xpowierzchni mieszkania dla poszczególnych wariantów cechy y – liczby osób. I tak, w grupie
gospodarstw jednoosobowych są tylko trzy jednostki i wszystkie mają powierzchnię mieszkań w
przedziale 30-50 m2, zatem
4
 x n
40  3  60  0  80  0  100  0
 40
n1
3
W następnej grupie – gospodarstw dwuosobowych średnia powierzchnia mieszkań
x1 
i
i 1
i1

4
wynosi x 2 
 x n
i 1
i
i2

40  4  60  1  80  1  100  0
 50
6
n 2
i analogicznie
x3  54,28571 , x 4  72,5 , x5  73,3333 .
Ponieważ obliczona w przykładzie 1 średnia wynosi 60,67 zatem wariancję średnich
warunkowych obliczamy jako
1 4
1
S x2j   ( x j  x ) 2 n j 
(40  60,67) 2  3  (50  60,67) 2  6  (54,28571  60,67) 2  7 
n j 1
30

 (72,5  60,67) 2  8  (73,3333  60,67) 2  6 
1
1281,333  682,6667  285,0159  1120,222  962,6667  144,3968
30
13186,67
 439,5557 .
30
wzoru (7) jest równy
Wariancja cechy x na podstawie obliczeń z przykładu 1 wynosi S x2 
Zatem
e xy 
stosunek
S x2j
S x2

korelacji
nieliniowej
144,3968
 0,573155 ,
439,5557
analogicznie
do
2
natomiast miernik krzywoliniowości w tym przypadku m x  e xy
 rxy2  0,33 - 0,30  0,03
i ponieważ jest to wartość bardzo bliska zera, zależność z przykładu 1 można uznać za liniową. 
Kolejną miarą korelacji, wygodną i użyteczną dla niezbyt długich szeregów szczegółowych z
dwoma cechami mierzalnymi (lub przynajmniej posiadającymi pewien naturalny porządek
pozwalający na ustawienie wartości rosnąco lub malejąco) jest współczynnik korelacji
kolejnościowej (rang) Spearmana Rxy:
N
R xy  R yx  1 
N
6 d i2
 1
i 1
n3  n
6 d i2

i 1

n n2 1
,
(13)
gdzie di są różnicami między kolejnymi numerami (rangami) nadawanymi w kolejności
niemalejącej (lub nierosnącej) osobno dla każdej cechy od 1 do n. Jeżeli kilka elementów w szeregu
ma taką samą wartość jednej cechy, to nadaje im się rangi będące średnią arytmetyczną
przypadających na te elementy rang.
Wartość Rxy należy do przedziału <-1,1> i mówi o sile oraz kierunku korelacji.
Ostatnia z przedstawianych tu miar, współczynnik zbieżności Czuprowa jest miarą zależności
stochastycznej cech. Porównuje on bowiem dwuwymiarowy rozkład empiryczny z rozkładem
uzyskanym na podstawie rozkładów brzegowych cech i zakładającym niezależność cech (tzn.
równomierność rozkładów warunkowych). Konstruuje się go w oparciu o wartość testu
niezależności 2 w postaci:
k
l
 2  
i 1 j 1
gdzie nˆ ij 
ni  n j
n
(nij  nˆ ij ) 2
nˆ ij
,
( 14)
jest liczebnością klasy (i,j) przy teoretycznym założeniu niezależności cech X,Y.
Współczynnik zbieżności Czuprowa jest dany wzorem
Txy  Tyx 
2
n ( k  1)( l  1)
.
( 15)
Jest to miara często stosowana dla cech niemierzalnych, dla których trudno byłoby mierzyć zależność
korelacyjną. Wymaga ona danych pogrupowanych. wartości współczynnika zbieżności należą do przedziału
T  0;1
Linie regresji.
Po ustaleniu, że między badanymi cechami istnieje liniowa zależność korelacyjna, można
oszacować parametry liniowej funkcji regresji tzn takiej funkcji, której wykres jest miejscem
geometrycznym średnich wartości zmiennej zależnej przy ustalonych wartościach zmiennej
niezależnej.
W zależności od tego, którą z badanych cech uznamy za zmienną niezależną, możemy
wyznaczyć:
funkcję regresji zmiennej zależnej (objaśnianej) Y przy danych wartościach
zmiennej niezależnej (objaśniającej) X
yˆ  ax  b (16)
funkcję regresji zmiennej X względem zmiennej Y.
-
xˆ  Ay  B .(17)
Współczynniki tych funkcji określają wzory:
1) dla funkcji yˆ  ax  b
n
a
 x
i 1
i
 x    yi  y 
n
 x
i 1
 x
2
i

Sy
covx, y 
 rxy
;
2
Sx
Sx
b  y  ax .
(18)
2) dla funkcji xˆ  Ay  B
n
A
 x
i 1
i
 x    yi  y 
n
 y
i 1
 y
2
i

S
covx, y 
 rxy x ;
2
Sy
Sy
B  x  Ay .
(19)
Występujące w tych równaniach współczynniki kierunkowe prostych a i A nazywamy
współczynnikami regresji. Mają one następujące własności:
- Wartość współczynnika regresji w odpowiednim równaniu określa, o ile jednostek wzrośnie
lub zmaleje wartość zmiennej zależnej, gdy wartość zmiennej niezależnej wzrośnie o jedną
jednostkę. (W niektórych przypadkach o ile jednostek będzie większa lub mniejsza wartość
zmiennej zależnej, gdy wartość zmiennej niezależnej będzie większa o jedną jednostkę.)
-
Obydwa współczynniki regresji mają jednakowy znak, taki sam jak znak współczynnika
korelacji.
Współczynniki regresji i współczynnik korelacji łączy związek:
a  A  rxy2 .
(20)
Współczynniki b i B mają sensowną interpretację tylko wtedy:
- gdy w uzasadnionej sytuacji zmienna niezależna może przyjmuje wartość zero
- interpretacja jest logiczna
-wartości zmiennej niezależnej na podstawie których szacowaliśmy równanie regresji nie są
bardzo oddalone od 0.
-

Podobne dokumenty