KORELACJA. WSPÓŁCZYNNIKI KORELACJI Gdy w badaniu mamy

Transkrypt

KORELACJA. WSPÓŁCZYNNIKI KORELACJI Gdy w badaniu mamy
KORELACJA. WSPÓŁCZYNNIKI
KORELACJI
Gdy w badaniu mamy kilka cech, często interesujemy
się stopniem powiązania tych cech między sobą.
Pod słowem korelacja rozumiemy współzależność. Mówimy np. o korelacji pewnej pary cech między sobą lub
o korelacji między jedną wybraną cechą a zestawem innych cech.
Zależność między cechami może być funkcyjna i statystyczna. Nas interesuje ta druga. Związek statystyczny polega na tym, że określonym wartościom jednej zmiennej (bądź kilku zmiennych) mogą odpowiadać
różne wartości drugiej zmiennej (np. waga człowieka
nie jest funkcją jego wzrostu; ludzi o tym samym wzroście mogą mieć zupełnie różną wagę).
Wśród typów zależności statystycznej wyróżniamy zależność liniową i zależność krzywoliniową. Nas interesuje ta pierwsza. Podstawowym wstępnym narzędziem
badania zależności pomiędzy dwoma zmiennymi jest
tzw. wykres rozrzutu. Ale bardziej wiarygodną odpowiedź na pytanie o sile i kierunku statystycznej zależności liniowej pomiędzy dwoma zmiennymi dają współczynniki korelacji liniowej.
1
Współczynnik korelacji liniowej Pearsona
Jest najbardziej znanym współczynnikiem mierzącym
zależność liniową dwóch zmiennych typu ilościowego.
Niech x1, x2, . . . , xn będą obserwowanymi wartościami
zmiennej X, a y1, y2, . . . , yn odpowiednimi wartościami
zmiennej Y. Współczynnikiem korelacji liniowej Pearsona pomiędzy X a Y nazywamy
∑n
j=1 (xj − x̄)(yj − ȳ)
rxy = √∑
.
(1)
∑
n
n
2
2
j=1 (xj − x̄)
j=1 (yj − ȳ)
Podstawowe własności tego współczynnika:
• rxy = ryx ∈ [−1, 1];
• rxy > 0 – zależność dodatnia; rxy < 0 – zależność
ujemna;
• rxy = 0 – brak zależności liniowej; rxy = ±1 – „idealna” zależność liniowa (czyli zmienne są powiązane
liniową zależnością funkcyjną);
• im bliższe |rxy | jedności, tym zależność liniowa jest
mocniejsza, im bliższe |rxy | zeru, tym zależność liniowa jest słabsza.
W niektórych książkach można spotkać pewną klasyfikacje wartości współczynnika korelacji Pearsona np.:
0 < |rxy | < 0,1 − korelacja nikła;
2
0,1 6 |rxy | < 0,3 − korelacja słaba;
0,3 6 |rxy | < 0,5 − korelacja przeciętna;
0,5 6 |rxy | < 0,7 − korelacja wysoka;
0,7 6 |rxy | < 0,9 − korelacja bardzo wysoka;
0,9 6 |rxy | < 1 − korelacja prawie pełna.
Warto podkreślić, iż współczynnik korelacji Pearsona
jest miernikiem zależności liniowej. Zatem wartości
współczynnika rxy , wskazujące na brak zależności, oznaczają tylko brak zależności liniowej, co zupełnie nie
wyklucza, że zmienne mogą być w dużym stopniu zależne, ale zależność ta jest krzywoliniowa. Z drugiej zaś
strony, nie można otrzymując względnie wysokie wartości rxy być od razu przekonanym, że istnieje wysoka
zależność liniowa pomiędzy zmiennymi; czasami wysoka wartość współczynnika korelacji liniowej Pearsona
pomiędzy dwoma zmiennymi X i Y jest spowodowana
np. nie tyle mocną zależnością liniową pomiędzy tymi
zmiennymi, lecz istnieniem innej zmiennej lub zmiennych, z którymi X i Y osobno są mocno skorelowane.
Współczynnik korelacji rang Spearmana
Jest to odpowiednik poprzedniego współczynnika, który
mierzy zależność liniową dwóch zmiennych typu jakościowego (porządkowego). Najpierw wartościom zmiennych nadajemy rangi; rangą wartości zmiennej nazy3
wamy numer jej miejsca w szeregu niemalejącym tych
wartości. Jeśli kilka wartości w szeregu są równe, to
ich rangi będą jednakowe i równe średniej arytmetycznej numerów miejsc. Rangi oznaczamy odpowiednimi
dużymi literami.
Niech np. zmienna X przyjmuje wartości: x1 = 2,
x2 = 8, x3 = 10, x4 = 5, x5 = 9, x6 = 5. Wówczas,
przeliczając te wartości na rangi, otrzymujemy: X1 =
1, X2 = 4, X3 = 6, X4 = 2,5, X5 = 5, X6 = 2,5 (są
to miejsca, które zajmują liczby x1, x2, x3, x4, x5, x6 po
uporządkowaniu w szereg niemalejący). Jeśli zmienna
Y przyjmuje odpowiednio wartości: y1 = 3, y2 = 6,
y3 = 8, y4 = 8, y5 = 9, y6 = 1, to Y1 = 2, Y2 = 3,
Y3 = 4,5, Y4 = 4,5, Y5 = 6, Y6 = 1.
Współczynnik korelacji rang Spearmana wylicza się według wzoru:
∑n
6 j=1(Xj − Yj )2
Rxy = 1 −
.
(2)
2
n(n − 1)
Np. dla podanych powyżej wartości otrzymamy Rxy =
0,662.
Współczynnik korelacji rang Spearmana jest nic innego, jak współczynnik korelacji liniowej Pearsona zastosowany do rang (a nie do wartości) zmiennych. Czyli
jeśli zamiast wartości {(xi, yi)} podstawimy do wzoru
4
(1) wartości {(Xi, Yi)}, to otrzymamy wzór (2).
Z powodu wyżej wymienionego związku pomiędzy współczynnikami (1) i (2), własności współczynnika korelacji
rang Spearmana są dokładnie takie same, jak własności
współczynnika korelacji liniowej Pearsona.
Korelacja cząstkowa i wieloraka
Współczynniki korelacji liniowej są miernikami zależności pomiędzy wybraną parą zmiennych X i Y. Ale
często interesuje nas także zależność badanej zmiennej
Y od zestawu innych zmiennych (wszystkich pozostałych lub tylko części), z którymi mamy do czynienia
w badaniu. Taką współzależność nazywamy korelacją
wieloraką (wielokrotną) i mierzymy ją za pomocą odpowiedniego współczynnika.
Oprócz korelacji wielorakiej, często interesujemy się
również korelacją cząstkową. Okazuje się, że inne zmienne, poprzez swoje różne powiązania z wybraną parą
zmiennych, wpływają na pomiar zależności pomiędzy
X i Y, i mogą w sposób istotny „zakłócić” wartość
współczynnika korelacji liniowej Pearsona. Istnieje możliwość „oczyszczenia” korelacji od tych „zaburzeń” i w
tym przypadku sięgamy po pojęcie korelacji cząstkowej i odpowiedni jej współczynnik. Czyli korelacją
cząstkową pomiędzy parą zmiennych X i Y nazywamy
5
współzależność pomiędzy tymi zmiennymi, po wykluczeniu wpływu innych zmiennych (wszystkich pozostałych lub tylko części) na zmienne X i Y, czyli jest to
tzw. „czysta” współzależność pomiędzy X i Y.
Podstawą do obliczania wspomnianych współczynników jest macierz korelacji C, odpowiadająca wszystkim
zmiennym, które bierzemy pod uwagę; element ij tej
macierzy to współczynnik korelacji liniowej Pearsona
rij dla zmiennych i i j (na przekątnej, oczywiście, stoją
jedynki jako wartości współczynnika korelacji zmiennej
samej z sobą). Dalej wygodnie jest kojarzyć zmienne z
liczbami naturalnymi.
Współczynnikiem korelacji cząstkowej pomiędzy zmiennymi i, j z wyłączeniem wpływu pozostałych zmiennych od 1 do k nazywamy
rij.1...(i−1)(i+1)...(j−1)(j+1)...k
Cij
= −√
,
CiiCjj
gdzie Cij jest dopełnieniem algebraicznym elementu rij
macierzy C, czyli iloczynem (−1)i+j oraz wyznacznika
macierzy, którą otrzymamy z macierzy C poprzez wykreślenie i-tego wiersza oraz j-tej kolumny (analogicznie, Cii jest dopełnieniem algebraicznym elementu rii =
1 macierzy C, a Cjj jest dopełnieniem algebraicznym
elementu rjj = 1 macierzy C). Indeks tego współczyn6
nika wskazuje: przed kropką – dla których zmiennych
jest on mierzony, a po kropce – wpływ których zmiennych jest eliminowany.
Podobnie jak współczynnik korelacji liniowej Pearsona,
współczynnik korelacji cząstkowej przyjmuje wartości
w przedziale [−1, 1] i informuje zarówno o sile jak i kierunku zależności pomiędzy badanymi zmiennymi (interpretacja jego wartości jest analogiczna do wartości współczynnika korelacji liniowej Pearsona). Współczynnik korelacji cząstkowej może być większy bądź
mniejszy od współczynnika korelacji liniowej Pearsona.
Współczynnikiem korelacji wielorakiej pomiędzy zmienną i oraz zespołem pozostałych zmiennych od 1 do k
nazywamy
√
|C|
Ri.1...(i−1)(i+1)...k = 1 −
,
Cii
gdzie, jak wyżej, Cii jest dopełnieniem algebraicznym
elementu rii = 1 macierzy C, a |C| oznacza wyznacznik macierzy C. Ponownie, indeks tego współczynnika
wskazuje: przed kropką – dla której zmiennej jest on
mierzony, a po kropce – względem których zmiennych
jest on mierzony.
Współczynnik korelacji wielorakiej przyjmuje wartości
w przedziale [0, 1] i informuje tylko o sile zależności
7
pomiędzy badanymi zmiennymi. Jest on równy 0 tylko
wtedy, gdy zmienna i nie zależy od pozostałych zmiennych, oraz równy 1, gdy zmienna i jest funkcją liniową
pozostałych zmiennych. Oczywiście, im bliższy jedności jest współczynnik korelacji wielorakiej, tym związek
pomiędzy daną zmienną a pozostałymi jest silniejszy i
odwrotnie, im bliższy zeru tym słabszy. Jeżeli przynajmniej jeden ze współczynników korelacji cząstkowej ma wartość 1, to współczynnik korelacji wielorakiej
także wynosi 1; jeżeli wszystkie współczynniki korelacji
cząstkowej są równe 0, to współczynnik korelacji wielorakiej także jest równy 0.
Reasumując, można stwierdzić, że liczenie oprócz zwykłych współczynników korelacji również współczynników korelacji cząstkowej oraz wielorakiej dodaje sporo
informacji na temat rzeczywistych powiązań pomiędzy
zmiennymi.
8

Podobne dokumenty