a 1

Transkrypt

a 1
Statystyka
Metody analizy korelacji i regresji
Badania stopnia i kierunku zależności różnych
zjawisk – gdy istnieje przypuszczenie o istnienie więzi
przyczynowej łączącej te zjawiska – jest jednym z
naczelnych zadań każdej dyscypliny naukowej.
Analiza współzależności może dotyczyć zarówno cech
mierzalnych, jak i cech jakościowych.
Związek korelacyjny charakteryzuje się tym,
że konkretnym wartościom jednej zmiennej
odpowiadają ściśle określone wartości średnie drugiej
zmiennej. Związki między zmiennymi mają charakter
liniowy lub nieliniowy, co można stwierdzić, gdy
informacje o dwóch zmiennych X i Y zostaną naniesione
w postaci punktów na wykres korelacyjny.
Obserwując na wykresie korelacyjnym rozrzut tzw.
„punktów empirycznych” (xi, yi) można rozróżnić, czy
występuje korelacja dodatnia, czy też ujemna
(względnie jej brak).
Korelacja dodatnia występuje wtedy, gdy
wzrostowi (spadkowi) wartości jednej zmiennej
towarzyszy wzrost (spadek) wartości średnich drugiej
zmiennej. Z korelacją ujemną mamy do czynienia
wtedy, gdy wzrostowi (spadkowi) wartości jednej
zmiennej towarzyszy spadek (wzrost) wartości średnich
drugiej zmiennej.
Zupełny brak korelacji występuje wówczas, gdy
wzrostowi (spadkowi) wartości jednej zmiennej
odpowiadają przeciętne zerowe wzrosty (spadki)
drugiej zmiennej. Innymi słowy, zmiany jednej
zmiennej nie wywołują zmian drugiej zmiennej.
Badanie związków korelacyjnych jest uzasadnione tylko
w przypadkach, gdy między badanymi zmiennymi
istnieje więź przyczynowa.
Stosując analizę regresji otrzymujemy
informację, jakiej przeciętnej wartości zmiennej
zależnej należy się spodziewać, gdy wartość zmiennej
niezależnej wzrośnie lub obniży się o jednostkę.
Zatem analiza regresyjna przedstawia mechanizm
działania badanych zjawisk, zaś analiza korelacyjna
daje obraz siły związku między tymi zjawiskami.
Zwykle też badania korelacyjne poprzedzają analizę
regresji.
Istnieje prosty sposób pozwalający ocenić siłę i
rodzaj zależności występującej między dwoma cechami
statystycznymi X i Y. Zakładając, że dysponujemy
realizacjami zmiennej X - (x1, x2,…, xn) oraz
Y - (y1, y2,…, yn), można wyznaczyć wartość oceny
współczynnika korelacji liniowej posługując się wzorem:
n
rxy =
∑ (x − x )( y
i =1
i
n
n
i =1
i =1
i
− y)
2
2
(
)
(
)
x
−
x
y
−
y
∑ i
∑ i
.
Wzór ten można zapisać również w postaci:
rxy =
gdzie:
cov( X , Y )
,
sx ⋅ s y
n
cov( X , Y ) =
∑ (x − x )( y
i =1
i
i
− y)
n
.
Kowariancję dwóch zmiennych X i Y można otrzymać
także w następujący sposób:
1 n
cov( X , Y ) = ∑ xi yi − x y ,
n i =1
czyli kowariancja zmiennych X, Y jest różnicą między
średnią iloczynów zmiennych a iloczynem ich średnich.
Współczynnik korelacji liniowej przybiera
wartości z przedziału [-1,1]. Gdy rxy=-1 lub rxy=1,
wówczas miedzy zmiennymi X i Y zachodzi zależność
funkcyjna (rozrzut punktów empirycznych układa się na
wykresie korelacyjnym na linii prostej). Gdy rxy=0,
badane cechy są nieskorelowane, czyli nie występuje
miedzy nimi żadna więź. Może się zdarzyć, że rxy=0
również wtedy, gdy między zmiennymi X i Y zachodzi
zależność funkcyjna krzywoliniowa (np. przypadek
zależności typu y=x2). Wówczas przypadek taki
możemy zauważyć na wcześniej sporządzonym
wykresie korelacyjnym.
W praktyce badań statystycznych wartości
współczynnika korelacji liniowej niezwykle rzadko
osiągają -1, 0 lub 1. Gdy |rxy|>0,9, mówi się o bardzo
silnej zależności łączącej cechy X i Y. Gdy |rxy|<0,2,
stwierdza się na ogół, że brak jest związku między
badanymi cechami. Jeśli zaś rxy <0,2, 0,9>, to w
zależności od liczby elementów próby, wnioskuje się o
umiarkowanej, względnie znaczącej zależności łączącej
obie zmienne.
э
Współczynnik korelacji rang Spearmana,
zwany inaczej współczynnikiem korelacji
kolejnościowej, stosowany jest w dwóch grupach
zagadnień:
a) gdy obie cechy są mierzalne lecz zbiorowość jest
mało liczna,
b) gdy obie, względnie jedna z cech ma charakter
jakościowy i jest możliwość ustalenia w kolejności
poszczególnych obiektów analizy względem
natężenia tych cech.
Współczynnik korelacji kolejnościowej obliczamy
według wzoru:
n
rS = 1 −
6∑ d i2
(
i =1
2
),
n n −1
gdzie di oznaczają różnice między rangami
odpowiadających sobie wartości cechy xi i cechy yi
(i=1, 2, …, n). Obliczenia rozpoczynamy zwykle od
uporządkowania wyjściowych informacji według
rosnących (lub malejących) wariantów jednej z cech.
Uporządkowanym wartościom zmiennych nadajemy
następnie numery kolejnych liczb naturalnych.
Czynność ta nazywa się rangowaniem. Rangowanie
może się odbywać od największej do najmniejszej
wartości lub odwrotnie (sposób rangowania musi być
jednakowy dla obydwu zmiennych).
W przypadku, gdy występują jednakowe wartości
realizacji zmiennych, przyporządkowujemy im średnią
arytmetyczną obliczoną z ich kolejnych numerów.
Mówi się wówczas o występowaniu tzw. węzłów.
Jednakowe rangi wartości badanych zmiennych (lub na
ogół jednakowe) świadczą o istnieniu dodatniej
korelacji między zmiennymi. Natomiast przeciwstawna
numeracja sugeruje istnienie korelacji ujemnej.
Współczynnik korelacji rang przyjmuje wartości z
przedziału [-1, 1], a jego interpretacja jest identyczna
jak współczynnika korelacji Pearsona.
W badaniach statystycznych niejednokrotnie
zachodzi konieczność ustalania skojarzeń (asocjacji,
kontyngencji) między dwiema cechami X i Y, z
których obie (lub przynajmniej jedna) mają charakter
jakościowy. W takim przypadku budujemy tablice
wielodzielne o określonej liczbie wierszy i kolumn, w
których zamieszczamy liczebności poszczególnych
wariantów cech (a nie ich wartości). Liczba kolumn i
wierszy w takich tablicach, jak również specyfikacja
kategorii cech zależą od decyzji badacza.
Najprostszą tablicą wielodzielną jest tablica 2x2,
tj. o dwóch wierszach i dwóch kolumnach. Schemat
takiej tablicy przedstawia się następująco:
+
-
Razem
+
-
a
c
b
d
a+b
c+d
Razem
a+c
b+d
n
Y
X
Użyte w tej tabeli symbole oznaczają: a- liczba
jednostek posiadających cechę X i cechę Y, b- liczba
jednostek posiadających cechę X, a nie posiadających
cechy Y, c- liczba jednostek posiadających cechę Y, a
nie posiadających cechy X, d- liczba jednostek nie
posiadających żadnej z badanych cech.
Współczynnik ten służy do badania siły związku
dwóch cech jakościowych, z których każda ma dwa
warianty. Wyraża on zależność φ od χ2. Zależność tę
można określić następująco:
χ = n ⋅ϕ
2
2
lub ϕ =
2
χ2
n
, lub
ϕ=
χ2
n
.
Jak wynika z powyższego wzoru, w celu obliczenia
współczynnika φ niezbędna jest znajomość statystyki
χ2. Dla tablic o wymiarach 2x2 istnieje sposób
bezpośredniego obliczania współczynnika φ:
ϕ=
ad − bc
.
(a + b )(a + c )(b + d )(c + d )
Użyte symbole są zgodne z występującymi w ogólnym
schemacie tablicy czteropolowej.
Współczynnik określony wcześniejszym wzorem
może, teoretycznie, przyjmować wartości z przedziału
od -1 do +1. W przypadku niezależności zmiennych
φ=0. Współczynnik φ osiąga wartość -1 lub +1 tylko w
przypadku, gdy a=d=0 lub b=c=0. W innych
przypadkach współczynnik nie osiąga wartości
krańcowych ±1, nawet przy bardzo silnym związku
cech.
Należy zwrócić uwagę, że znak współczynnika φ
– w przeciwieństwie do mierników korelacji cech
ilościowych – nie informuje o kierunku zależności,
gdyż zależy od sposobu uporządkowania wariantów
cech w tablicy czteropolowej. Dlatego interpretację
ścisłości związku zachodzącego między badanymi
zmiennymi jakościowymi należy opierać na wartości
absolutnej współczynnika φ.
Współczynnik ten przybiera wartości z przedziału
[0, 1]. Zależność rozpatrywanych cech jest tym
silniejsza im V jest bliższe jedności. Współczynnik
V Cramera jest zdefiniowany następująco:
V=
χ2
n ⋅ min (r − 1, k − 1)
=
ϕ2
min (r − 1, k − 1)
,
gdzie r jest liczbą wierszy, a k – liczbą kolumn. Jak
wynika z wzoru, współczynnik Cramera jest oparty albo
na χ2, albo na φ2.
Współczynnik ten różni się od omawianych
wcześniej mierników tym, że może być stosowany przy
tablicach wielodzielnych dowolnej wielkości
(najmniejsza liczba pól wynosi 4) i dowolnej formy
(prostokątnych lub kwadratowych). Wartość
współczynnika C Pearsona obliczamy ze wzoru:
χ2
gdzie:
ϕ2
C=
=
.
2
2
χ +n
1+ ϕ
ni.n. j
⎛
⎜n −
r
s ⎜ ij
n
χ 2 = ∑∑ ⎝
ni.n. j
i =1 j =1
n
2
⎞
⎟⎟
⎠ .
Teoretycznie współczynnik C może przyjmować
wartości z przedziału liczbowego od 0 (cechy są
wówczas niezależne) do 1 (gdy liczba pól w tablicy
wzrasta do nieskończoności). Kres górny współczynnika
C zależy od liczby wierszy i kolumn w tablicy
wielodzielnej. Im wierszy i kolumn jest więcej, tym
wartość C jest wyższa. Dlatego też otrzymaną z
obliczeń wartość współczynnika C należy rozpatrywać w
stosunku do jego wartości maksymalnej dla danej
tablicy wielodzielnej.
W przypadku tablicy kwadratowej:
Cmax =
Dla tablic prostokątnych:
Cmax =
k −1
,
k
k −1
r −1
+
k
r .
2
Współzależność miedzy zmiennymi może
występować w dwóch odmianach: funkcyjnej
(deterministycznej) i stochastycznej. W świecie zjawisk
społeczno-ekonomicznych i przyrodniczych mamy
najczęściej do czynienia ze współzależnością typu
stochastycznego (probabilistycznego). Do pomiaru siły tej
współzależności wykorzystujemy współczynniki korelacji.
Natomiast narzędziem pozwalającym badać mechanizm
powiązań między różnymi zjawiskami (co do których
istnieje przypuszczenie o związku przyczynowym) są
funkcje regresji. Funkcje te można podzielić na liniowe i
nieliniowe. Najprostszym i najczęściej wykorzystywanym
narzędziem badania współzależności występujących
miedzy dwoma zjawiskami jest funkcja liniowa z jedną
zmienną niezależną.
Funkcja regresji Y względem zmiennej X
przybiera postać:
yi = α 0 + α1 xi + ξ i , i = 1,..., n.
Funkcję regresji X względem zmiennej Y można
przedstawić następująco:
xi = β 0 + β1 yi + ε i , i = 1,..., n,
gdzie: n – liczba obserwacji (liczebność próby),
α0, α1, β0, β1 - parametry równań regresji,
ξi, εi - składniki losowe obu równań.
Metoda najmniejszych kwadratów polega na
takim oszacowaniu parametrów α0, α1 funkcji
f ( x ) = α 0 + α1 xi + ξ i ,
aby dla danych z próby n wartości (xi, yi), i=1,2,…,n,
wyrażenie
n
S = ∑ a0 + a1 xi + ξ i ,
i =1
osiągnęło minimum.
Wyrażenie powyższe jest funkcją dwóch zmiennych
a0 i a1. Zagadnienie sprowadza się zatem do znalezienia
minimum funkcji kwadratowej dwóch zmiennych.
Warunkiem koniecznym istnienia ekstremum jest
zerowanie się pochodnych cząstkowych.
Pochodne cząstkowe funkcji względem a0 i a1 są
następujące:
n
∂S
= 2∑ ( yi − a0 − a1 xi )(− 1),
a0
i =1
n
∂S
= 2∑ ( yi − a0 − a1 xi )( xi ).
a1
i =1
Przyrównując pochodne cząstkowe do zera oraz
dokonując odpowiednich algebraicznych przekształceń
otrzymujemy następujący układ równań:
n
n
⎧
⎪⎪ na0 + a1 ∑ xi = ∑ yi ,
i =1
i =1
⎨ n
n
n
2
⎪a0 ∑ xi + a1 ∑ xi = ∑ yi xi .
⎪⎩ i =1
i =1
i =1
Układ ten ma rozwiązanie:
n
n
⎧
⎪⎪ na0 + a1 ∑ xi = ∑ yi ,
i =1
i =1
⎨ n
n
n
2
⎪a0 ∑ xi + a1 ∑ xi = ∑ yi xi .
⎪⎩ i =1
i =1
i =1
Wyrażenie to można przedstawić w prostszej postaci, a
mianowicie:
a0 = y − a1 x ,
n
a1 =
∑ (x − x )( y
i
i =1
n
i
− y)
2
(
)
x
−
x
∑ i
i =1
.
Postępując analogicznie w przypadku liniowej
funkcji regresji X względem Y otrzymamy następujące
wzory na estymatory b0 i b1 parametrów β0 i β1 funkcji
regresji:
b0 = x − b1 y ,
n
b1 =
∑ (x − x )( y
i
i =1
n
i
− y)
2
(
)
y
−
y
∑ i
i =1
.
W celu znalezienia wspólnej miary siły
współzależności między zmiennymi X i Y należy obliczyć
średnią dwóch współczynników regresji. Ponieważ
współczynniki regresji są wielkościami względnymi,
należy zastosować średnią geometryczną.
Średnia geometryczna ze współczynników
regresji jest współczynnikiem korelacji liniowej:
rxy = a1 ⋅ b1 .
Współczynnik korelacji obliczony za pomocą
powyższego wzoru przyjmuje taki sam znak, jaki
mają współczynniki regresji. Współczynniki regresji
a1 i b1 obliczone z konkretnych informacji wyjściowych
mają zawsze jednakowe znaki.
Współczynnik regresji dla liniowych funkcji
regresji z jedną zmienną objaśniającą można również
obliczać metodą pośrednią. Metoda ta opiera się na
odpowiedniej relacji między współczynnikiem korelacji
liniowej a odchyleniami standardowymi badanych cech,
a mianowicie:
a1 = rxy
sy
b1 = rxy
sx
.
sy
oraz
sx
Po oszacowaniu równań regresji otrzymujemy
różnice między rzeczywistymi a teoretycznymi
wartościami, czyli tzw. reszty. Reszta odpowiadająca i-tej
obserwacji wyraża się więc wzorem
)
et = yt − yt , ut = xt − xˆt , (t = 1,2,..., n).
Ocena wariancji składnika losowego wyraża się wzorem
1 n
2
ˆ
(
)
s =
y
−
y
∑ i
n − k t =1
2
e
1 n
2
ˆ
(
)
s =
x
−
x
∑ i
n − k t =1
2
u
gdzie k – oznacza liczbę szacowanych parametrów.
Wielkość ta określa się często jako wariancję
resztową, a jej pierwiastek kwadratowy mówi, o ile
przeciętnie odchylają się poszczególne obserwacje
zmiennej objaśnianej od ich wartości teoretycznych
oszacowanych na podstawie równania regresji.
a0
W celu oceny dopasowania funkcji regresji do
punktów empirycznych najczęściej stosuje się
współczynnik φ2:
n
2
ϕ y2 =
∑ (y
t =1
n
i
− yˆ )
2
(
)
y
−
y
∑ i
,
t =1
n
ϕ x2 =
2
ˆ
(
)
x
−
x
∑ i
t =1
n
2
(
)
x
−
x
∑ i
t =1
.
Współczynnik determinacji R2 można otrzymać
następująco:
R2 = 1− ϕ 2.
Oba współczynniki przyjmują wartości z przedziału
[0,1].
Dziękuję za uwagę