Badanie zależności dwóch zmiennych losowych. Współczynniki

Transkrypt

Badanie zależności dwóch zmiennych losowych. Współczynniki
Badanie zależności dwóch
zmiennych losowych.
Współczynniki korelacji
Załóżmy, że obserwujemy pewne zjawisko rejestrując wartości dwóch wielkości X i Y (np. badamy rozwój dzieci mierząc ich wzrost i wagę). Chcemy
wykryć zależności pomiędzy tymi wielkościami i zbadać siłę tych zależności.
1
Metody graficzne
Załóżmy, że dysponujemy zbiortem obserwacji (x, y) = (x1 , y1 ), . . . , (xn , yn )
wektora losowego (X, Y ). Najprostszą metodą sprawdzenia, czy pomiędzy
składowymi wektora losowego (X, Y ) występują zależności jest narysowanie
wykresu rozrzutu (scatterplot). Wykres taki jest zbiorem punktów (xi , yi ),
i = 1, . . . , n, reprezentujących kolejne obserwacje.
Jeśli wykres rozrzutu przyjmuje kształt owalnej chmury punktów, to można się spodziewać, że zmienne X i Y są niezależne. Spłaszczenie takiej chmury
lub inny jej kształt sugeruje zależność pomiędzy tymi zmiennymi.
Wykres rozrzutu jest jedynie wstępną metodą oceny zależności zmiennych
X i Y . Pewniejsze wnioski co występowania i siły tej zależności wyciągamy
na podstawie współczynników korelacji.
2
Współczynniki korelacji
Definicja 1 Niech X i Y będą zniennymi losowymi o skończonych warian2
cjach σX
i σY2 . Współczynnik korelacji dany jest wzorem
corr(X, Y ) =
Cov(X, Y )
E [(X − EX)(Y − EY )]
=q
.
σX σY
E [(X − EX)2 ] E [(Y − EY )2 ]
(2.1)
Uwagi:
1. Współczynnik korelcji jest miarą skorelowania zmiennych X i Y . Skorelowanie jest słabszym pojęciem niż zależność zmiennych losowych X
i Y rozumiana jako brak ich niezależności. Mówimy, że zmienne X i Y
są dodatnio skorelowane jeśli dużym wartościom X odpowiadają duże
wartości Y . Przy ujemnej korelacji dużym wartośiom X odpowiadają
małe wartości Y .
2. Jeśli corr(X, Y ) = 0 to mówimy, że zmienne X i Y są nieskorelowane.
Należy pamiętać, że nieskorelowanie nie jest równoważnie niezależności. Jeśli zmienne losowe są niezależne to są nieskorelowane. Odwrotne
stwierdzenie jest nieprawdziwe.
1
3. Współczynnik korelacji przyjmuje wartości z przedziału [−1, 1]. Jeśli
• |corr(X, Y )| ∈ (0, 0.1) to mówimy, że korelacja jest nikła;
• |corr(X, Y )| ∈ [0.1, 0.3) to mówimy, że korelacja jest słaba;
• |corr(X, Y )| ∈ [0.3, 0.5) to mówimy, że korelacja jest przeciętna;
• |corr(X, Y )| ∈ [0.5, 0.7) to mówimy, że korelacja jest wysoka;
• |corr(X, Y )| ∈ [0.7, 0.9) to mówimy, że korelacja jest bardzo wysoka;
• |corr(X, Y )| ∈ [0.9, 0.1) to mówimy, że korelacja jest prawie pełna;
• |corr(X, Y )| = 1 to mówimy, że korelacja jest pełna.
4. Współczynnik korelacji jest symetryczny, tzn corr(X, Y ) = corr(Y, X).
Oznacza to, że współczynnik korelacji jest jedynie miarą współzależności zmiennych X i Y i nie wskazuje kierunku tej zależności. Na podstawie współczynnika korelacji nie możemy stwierdzić np., że to wielkość
X zależy od wielkości Y (dodatnia korelacja pomiędzy wzrostem i wiekiem dzieci nie mówi nic o tym czy to wzrost zależy od wieku, czy wiek
od wzrostu).
5. Fakt:Jeżeli wektor (X, Y ) ma dwuwymiarowy rozkład normalny, to
E(Y |X) = corr(X, Y )
σY
(X − EX) + EY.
σX
Innymi słowy, warunkowa wartość oczekiwana E(Y |X) jest liniową funkcją X a współczynnik korelacji corr(X, Y ) jest współczynnikiem kierunkowym tej funkcji. Przy ustalonych parametrach rozkładów zmiennych
X i Y współczynnik korelacji jednoznacznie określa zależność pomiędzy
tymi zmiennymi.
Powyższy fakt dotyczy sytuacji, gdy wektor (X, Y ) ma dwuwymiarowy
rozkład normalny. W ogólności współczynnik korelacji całkowicie charakteryzuje zależność między zmiennymi X i Y (o dowolnych rozkładach), jeśli jest ona opisana powyższym wzorem. Dla tego współczynnik
korelacji dobrze opisuje zależności liniowe pomiędzy zmiennymi, jednak
nie działa dobrze dla zależności innego typu. Np. jeśli X ma rozkład
jednostajny na odcinju [−1, 1] a Y = X 2 , to zmienne X i Y są w pełni
zależne ale są nieskorelowane (tzn. corr(X, Y ) = 0).
W praktyce nie znamy rozkładów zmiennych X oraz Y . Ich wzajemną
korelację szacujemy na podstawie dostępnych obserwacji (x, y) wektora losowego (X, Y ). Poniżej przedstawione są współczynniki korelacji liczone na
podstawie próby.
2
2.1
Współczynnik korelacji liniowej Pearsona
Współczynnik korelacji liniowej Pearsona jest estymatorem współczynnika korelacji i oblicza się go poprzez zastąpienie średnich i wariancji zmiennych
X i Y we wzorze (2.1) przez odpowiednie średnie i wariancje próbkowe
rX,Y
=s
n
P
i=1
n
P
i=1
(Xi − X̄)(Yi − Ȳ )
(Xi −
X̄)2
n
P
i=1
.
(Yi − Ȳ
)2
Uwagi:
1. Współczynnik rX,Y ma te same wałasności co współczynnik korelacji.
W szczególności dobrze opisuje liniową zależność.
2. Współczynnik korelacji Pearsona jest czuły na występowanie obserwacji
odstających. Obserwacje takie mogą mocno zafałszować współczynnik
korelacji w przypadku krótkich prób.
3. STATISTICA oblicza współczynnik korelacji Pearsona i wyświetla na
czerwono te, których watości są statystycznie istotne na poziomie 0.05
(tzn z prawdopodobieństwem mniejszym niż 0.05 zaobserwowany spółczynnik korelacji jest przypadkowy). Należy pamiętać, że test istotności
współczynnilka korelacji Pearsona opiera się na założeniu normalności
rozkładów badanych zmiennych losowych. Pominięcie założenia o normalności zmiennych X i Y nie powoduje znacznych błędów w ocenie
istotności, jeżeli odstępstwa rozkładów X i Y od normalności nie są
zbyt duże i próba jest dłuższa niż 50 obserwacji. Dla prób dłuższych
niż 100 obserwacji założenie o normalności można pominąć.
2.2
Rangowe współczynniki korelacji
Istnieją alternatywne statystyki mierzące zależność pomiędzy dwiema
zmiennymi losowymi. Nazywa się je rangowymi współczynnikami korelacji,
ale należy pamiętać, że nie są to estymatory korelacji danej wzorem (2.1).
Opierają się one na badaniu zależności rang obserwacji a nie samych obserwacji.
Definicja 2 Dla próby losowej X = (X1 , . . . , Xn ) rangę ri = r(Xi ) i-tej
obserwacji Xi określamy jako ilość obserwacji mniejszych bądź równych obserwacji Xi . Innymi słowy ri spełnia równanie
Xri :n = Xi .
Przykład: Dla próby
x = (9, 3, 7, 5, 7)
wektorem rang jest
r(x) = (4, 1, 3, 2, 3).
3
2.2.1
Współczynnik ρ Spearmana
Współczynnik korelacji Spearmana dany jest wzorem
ρX,Y = s
n P
i=1
n P
i=1
Ri −
Ri −
n+1
2
n+1
2
Si −
2 P
n i=1
n+1
2
Si −
n+1
2
2 ,
gdzie Ri = r(Xi ), Si = r(Yi ), i = 1, . . . , n.
Uwagi:
1. Współczynnik korelacji Spearmana jest wspólczynnikiem korelacji Pearsona liczonym dla rang obserwacji.
2. Jeśli pomiędzy obserwacjami x i y zmiennych X i Y występuje zależność monotoniczna (niekoniecznie liniowa), to zależność pomiędzy
rangami tych obserwacji r(x) i r(y) jest liniowa. Innymi słowy, zastąpienie obserwacji przez ich rangi sprowadza zależności monotoniczne do
zależności liniowej. Dlatego współczynnik ρ Spearmana dobrze opisuje
zależności monotoniczne.
2.2.2
Współczynnik τ Kendalla
Współczynnik τ Kendalla określa siłę zależności pomiędzy składowymi
wektora losowego (X, Y ) na podstawie porównania ilości par zgodnych (concordant) z ilościąhpar niezgodnych
i (discordant) występujących w próbie (x, y).
Parę obserwacji (xi , yi ), (xj , yj ) nazywamy zgodną jeśli
sign r(xi ) − r(xj ) = sign r(yi ) − r(yj ) .
W przeciwnym razie parę tą nazywamy niezgodną. Współczynnik korelacji
Kendalla dany jest wzorem
τ=
2 (Nc − Nd )
,
n(n − 1)
gdzie Nc , Nd , n oznaczają odpowiednio ilość par zgodnych, ilość par niezgodnych i długość próby.
Uwagi:
1. Współczynnik τ Kendalla dobrze opisuje zależności monotoniczne.
2. Współczynnik korelacji Kendalla daje dobre wyniki nawet dla krótkich
prób.
4