a 1
Transkrypt
a 1
Statystyka Metody analizy korelacji i regresji Badania stopnia i kierunku zależności różnych zjawisk – gdy istnieje przypuszczenie o istnienie więzi przyczynowej łączącej te zjawiska – jest jednym z naczelnych zadań każdej dyscypliny naukowej. Analiza współzależności może dotyczyć zarówno cech mierzalnych, jak i cech jakościowych. Związek korelacyjny charakteryzuje się tym, że konkretnym wartościom jednej zmiennej odpowiadają ściśle określone wartości średnie drugiej zmiennej. Związki między zmiennymi mają charakter liniowy lub nieliniowy, co można stwierdzić, gdy informacje o dwóch zmiennych X i Y zostaną naniesione w postaci punktów na wykres korelacyjny. Obserwując na wykresie korelacyjnym rozrzut tzw. „punktów empirycznych” (xi, yi) można rozróżnić, czy występuje korelacja dodatnia, czy też ujemna (względnie jej brak). Korelacja dodatnia występuje wtedy, gdy wzrostowi (spadkowi) wartości jednej zmiennej towarzyszy wzrost (spadek) wartości średnich drugiej zmiennej. Z korelacją ujemną mamy do czynienia wtedy, gdy wzrostowi (spadkowi) wartości jednej zmiennej towarzyszy spadek (wzrost) wartości średnich drugiej zmiennej. Zupełny brak korelacji występuje wówczas, gdy wzrostowi (spadkowi) wartości jednej zmiennej odpowiadają przeciętne zerowe wzrosty (spadki) drugiej zmiennej. Innymi słowy, zmiany jednej zmiennej nie wywołują zmian drugiej zmiennej. Badanie związków korelacyjnych jest uzasadnione tylko w przypadkach, gdy między badanymi zmiennymi istnieje więź przyczynowa. Stosując analizę regresji otrzymujemy informację, jakiej przeciętnej wartości zmiennej zależnej należy się spodziewać, gdy wartość zmiennej niezależnej wzrośnie lub obniży się o jednostkę. Zatem analiza regresyjna przedstawia mechanizm działania badanych zjawisk, zaś analiza korelacyjna daje obraz siły związku między tymi zjawiskami. Zwykle też badania korelacyjne poprzedzają analizę regresji. Istnieje prosty sposób pozwalający ocenić siłę i rodzaj zależności występującej między dwoma cechami statystycznymi X i Y. Zakładając, że dysponujemy realizacjami zmiennej X - (x1, x2,…, xn) oraz Y - (y1, y2,…, yn), można wyznaczyć wartość oceny współczynnika korelacji liniowej posługując się wzorem: n rxy = ∑ (x − x )( y i =1 i n n i =1 i =1 i − y) 2 2 ( ) ( ) x − x y − y ∑ i ∑ i . Wzór ten można zapisać również w postaci: rxy = gdzie: cov( X , Y ) , sx ⋅ s y n cov( X , Y ) = ∑ (x − x )( y i =1 i i − y) n . Kowariancję dwóch zmiennych X i Y można otrzymać także w następujący sposób: 1 n cov( X , Y ) = ∑ xi yi − x y , n i =1 czyli kowariancja zmiennych X, Y jest różnicą między średnią iloczynów zmiennych a iloczynem ich średnich. Współczynnik korelacji liniowej przybiera wartości z przedziału [-1,1]. Gdy rxy=-1 lub rxy=1, wówczas miedzy zmiennymi X i Y zachodzi zależność funkcyjna (rozrzut punktów empirycznych układa się na wykresie korelacyjnym na linii prostej). Gdy rxy=0, badane cechy są nieskorelowane, czyli nie występuje miedzy nimi żadna więź. Może się zdarzyć, że rxy=0 również wtedy, gdy między zmiennymi X i Y zachodzi zależność funkcyjna krzywoliniowa (np. przypadek zależności typu y=x2). Wówczas przypadek taki możemy zauważyć na wcześniej sporządzonym wykresie korelacyjnym. W praktyce badań statystycznych wartości współczynnika korelacji liniowej niezwykle rzadko osiągają -1, 0 lub 1. Gdy |rxy|>0,9, mówi się o bardzo silnej zależności łączącej cechy X i Y. Gdy |rxy|<0,2, stwierdza się na ogół, że brak jest związku między badanymi cechami. Jeśli zaś rxy <0,2, 0,9>, to w zależności od liczby elementów próby, wnioskuje się o umiarkowanej, względnie znaczącej zależności łączącej obie zmienne. э Współczynnik korelacji rang Spearmana, zwany inaczej współczynnikiem korelacji kolejnościowej, stosowany jest w dwóch grupach zagadnień: a) gdy obie cechy są mierzalne lecz zbiorowość jest mało liczna, b) gdy obie, względnie jedna z cech ma charakter jakościowy i jest możliwość ustalenia w kolejności poszczególnych obiektów analizy względem natężenia tych cech. Współczynnik korelacji kolejnościowej obliczamy według wzoru: n rS = 1 − 6∑ d i2 ( i =1 2 ), n n −1 gdzie di oznaczają różnice między rangami odpowiadających sobie wartości cechy xi i cechy yi (i=1, 2, …, n). Obliczenia rozpoczynamy zwykle od uporządkowania wyjściowych informacji według rosnących (lub malejących) wariantów jednej z cech. Uporządkowanym wartościom zmiennych nadajemy następnie numery kolejnych liczb naturalnych. Czynność ta nazywa się rangowaniem. Rangowanie może się odbywać od największej do najmniejszej wartości lub odwrotnie (sposób rangowania musi być jednakowy dla obydwu zmiennych). W przypadku, gdy występują jednakowe wartości realizacji zmiennych, przyporządkowujemy im średnią arytmetyczną obliczoną z ich kolejnych numerów. Mówi się wówczas o występowaniu tzw. węzłów. Jednakowe rangi wartości badanych zmiennych (lub na ogół jednakowe) świadczą o istnieniu dodatniej korelacji między zmiennymi. Natomiast przeciwstawna numeracja sugeruje istnienie korelacji ujemnej. Współczynnik korelacji rang przyjmuje wartości z przedziału [-1, 1], a jego interpretacja jest identyczna jak współczynnika korelacji Pearsona. W badaniach statystycznych niejednokrotnie zachodzi konieczność ustalania skojarzeń (asocjacji, kontyngencji) między dwiema cechami X i Y, z których obie (lub przynajmniej jedna) mają charakter jakościowy. W takim przypadku budujemy tablice wielodzielne o określonej liczbie wierszy i kolumn, w których zamieszczamy liczebności poszczególnych wariantów cech (a nie ich wartości). Liczba kolumn i wierszy w takich tablicach, jak również specyfikacja kategorii cech zależą od decyzji badacza. Najprostszą tablicą wielodzielną jest tablica 2x2, tj. o dwóch wierszach i dwóch kolumnach. Schemat takiej tablicy przedstawia się następująco: + - Razem + - a c b d a+b c+d Razem a+c b+d n Y X Użyte w tej tabeli symbole oznaczają: a- liczba jednostek posiadających cechę X i cechę Y, b- liczba jednostek posiadających cechę X, a nie posiadających cechy Y, c- liczba jednostek posiadających cechę Y, a nie posiadających cechy X, d- liczba jednostek nie posiadających żadnej z badanych cech. Współczynnik ten służy do badania siły związku dwóch cech jakościowych, z których każda ma dwa warianty. Wyraża on zależność φ od χ2. Zależność tę można określić następująco: χ = n ⋅ϕ 2 2 lub ϕ = 2 χ2 n , lub ϕ= χ2 n . Jak wynika z powyższego wzoru, w celu obliczenia współczynnika φ niezbędna jest znajomość statystyki χ2. Dla tablic o wymiarach 2x2 istnieje sposób bezpośredniego obliczania współczynnika φ: ϕ= ad − bc . (a + b )(a + c )(b + d )(c + d ) Użyte symbole są zgodne z występującymi w ogólnym schemacie tablicy czteropolowej. Współczynnik określony wcześniejszym wzorem może, teoretycznie, przyjmować wartości z przedziału od -1 do +1. W przypadku niezależności zmiennych φ=0. Współczynnik φ osiąga wartość -1 lub +1 tylko w przypadku, gdy a=d=0 lub b=c=0. W innych przypadkach współczynnik nie osiąga wartości krańcowych ±1, nawet przy bardzo silnym związku cech. Należy zwrócić uwagę, że znak współczynnika φ – w przeciwieństwie do mierników korelacji cech ilościowych – nie informuje o kierunku zależności, gdyż zależy od sposobu uporządkowania wariantów cech w tablicy czteropolowej. Dlatego interpretację ścisłości związku zachodzącego między badanymi zmiennymi jakościowymi należy opierać na wartości absolutnej współczynnika φ. Współczynnik ten przybiera wartości z przedziału [0, 1]. Zależność rozpatrywanych cech jest tym silniejsza im V jest bliższe jedności. Współczynnik V Cramera jest zdefiniowany następująco: V= χ2 n ⋅ min (r − 1, k − 1) = ϕ2 min (r − 1, k − 1) , gdzie r jest liczbą wierszy, a k – liczbą kolumn. Jak wynika z wzoru, współczynnik Cramera jest oparty albo na χ2, albo na φ2. Współczynnik ten różni się od omawianych wcześniej mierników tym, że może być stosowany przy tablicach wielodzielnych dowolnej wielkości (najmniejsza liczba pól wynosi 4) i dowolnej formy (prostokątnych lub kwadratowych). Wartość współczynnika C Pearsona obliczamy ze wzoru: χ2 gdzie: ϕ2 C= = . 2 2 χ +n 1+ ϕ ni.n. j ⎛ ⎜n − r s ⎜ ij n χ 2 = ∑∑ ⎝ ni.n. j i =1 j =1 n 2 ⎞ ⎟⎟ ⎠ . Teoretycznie współczynnik C może przyjmować wartości z przedziału liczbowego od 0 (cechy są wówczas niezależne) do 1 (gdy liczba pól w tablicy wzrasta do nieskończoności). Kres górny współczynnika C zależy od liczby wierszy i kolumn w tablicy wielodzielnej. Im wierszy i kolumn jest więcej, tym wartość C jest wyższa. Dlatego też otrzymaną z obliczeń wartość współczynnika C należy rozpatrywać w stosunku do jego wartości maksymalnej dla danej tablicy wielodzielnej. W przypadku tablicy kwadratowej: Cmax = Dla tablic prostokątnych: Cmax = k −1 , k k −1 r −1 + k r . 2 Współzależność miedzy zmiennymi może występować w dwóch odmianach: funkcyjnej (deterministycznej) i stochastycznej. W świecie zjawisk społeczno-ekonomicznych i przyrodniczych mamy najczęściej do czynienia ze współzależnością typu stochastycznego (probabilistycznego). Do pomiaru siły tej współzależności wykorzystujemy współczynniki korelacji. Natomiast narzędziem pozwalającym badać mechanizm powiązań między różnymi zjawiskami (co do których istnieje przypuszczenie o związku przyczynowym) są funkcje regresji. Funkcje te można podzielić na liniowe i nieliniowe. Najprostszym i najczęściej wykorzystywanym narzędziem badania współzależności występujących miedzy dwoma zjawiskami jest funkcja liniowa z jedną zmienną niezależną. Funkcja regresji Y względem zmiennej X przybiera postać: yi = α 0 + α1 xi + ξ i , i = 1,..., n. Funkcję regresji X względem zmiennej Y można przedstawić następująco: xi = β 0 + β1 yi + ε i , i = 1,..., n, gdzie: n – liczba obserwacji (liczebność próby), α0, α1, β0, β1 - parametry równań regresji, ξi, εi - składniki losowe obu równań. Metoda najmniejszych kwadratów polega na takim oszacowaniu parametrów α0, α1 funkcji f ( x ) = α 0 + α1 xi + ξ i , aby dla danych z próby n wartości (xi, yi), i=1,2,…,n, wyrażenie n S = ∑ a0 + a1 xi + ξ i , i =1 osiągnęło minimum. Wyrażenie powyższe jest funkcją dwóch zmiennych a0 i a1. Zagadnienie sprowadza się zatem do znalezienia minimum funkcji kwadratowej dwóch zmiennych. Warunkiem koniecznym istnienia ekstremum jest zerowanie się pochodnych cząstkowych. Pochodne cząstkowe funkcji względem a0 i a1 są następujące: n ∂S = 2∑ ( yi − a0 − a1 xi )(− 1), a0 i =1 n ∂S = 2∑ ( yi − a0 − a1 xi )( xi ). a1 i =1 Przyrównując pochodne cząstkowe do zera oraz dokonując odpowiednich algebraicznych przekształceń otrzymujemy następujący układ równań: n n ⎧ ⎪⎪ na0 + a1 ∑ xi = ∑ yi , i =1 i =1 ⎨ n n n 2 ⎪a0 ∑ xi + a1 ∑ xi = ∑ yi xi . ⎪⎩ i =1 i =1 i =1 Układ ten ma rozwiązanie: n n ⎧ ⎪⎪ na0 + a1 ∑ xi = ∑ yi , i =1 i =1 ⎨ n n n 2 ⎪a0 ∑ xi + a1 ∑ xi = ∑ yi xi . ⎪⎩ i =1 i =1 i =1 Wyrażenie to można przedstawić w prostszej postaci, a mianowicie: a0 = y − a1 x , n a1 = ∑ (x − x )( y i i =1 n i − y) 2 ( ) x − x ∑ i i =1 . Postępując analogicznie w przypadku liniowej funkcji regresji X względem Y otrzymamy następujące wzory na estymatory b0 i b1 parametrów β0 i β1 funkcji regresji: b0 = x − b1 y , n b1 = ∑ (x − x )( y i i =1 n i − y) 2 ( ) y − y ∑ i i =1 . W celu znalezienia wspólnej miary siły współzależności między zmiennymi X i Y należy obliczyć średnią dwóch współczynników regresji. Ponieważ współczynniki regresji są wielkościami względnymi, należy zastosować średnią geometryczną. Średnia geometryczna ze współczynników regresji jest współczynnikiem korelacji liniowej: rxy = a1 ⋅ b1 . Współczynnik korelacji obliczony za pomocą powyższego wzoru przyjmuje taki sam znak, jaki mają współczynniki regresji. Współczynniki regresji a1 i b1 obliczone z konkretnych informacji wyjściowych mają zawsze jednakowe znaki. Współczynnik regresji dla liniowych funkcji regresji z jedną zmienną objaśniającą można również obliczać metodą pośrednią. Metoda ta opiera się na odpowiedniej relacji między współczynnikiem korelacji liniowej a odchyleniami standardowymi badanych cech, a mianowicie: a1 = rxy sy b1 = rxy sx . sy oraz sx Po oszacowaniu równań regresji otrzymujemy różnice między rzeczywistymi a teoretycznymi wartościami, czyli tzw. reszty. Reszta odpowiadająca i-tej obserwacji wyraża się więc wzorem ) et = yt − yt , ut = xt − xˆt , (t = 1,2,..., n). Ocena wariancji składnika losowego wyraża się wzorem 1 n 2 ˆ ( ) s = y − y ∑ i n − k t =1 2 e 1 n 2 ˆ ( ) s = x − x ∑ i n − k t =1 2 u gdzie k – oznacza liczbę szacowanych parametrów. Wielkość ta określa się często jako wariancję resztową, a jej pierwiastek kwadratowy mówi, o ile przeciętnie odchylają się poszczególne obserwacje zmiennej objaśnianej od ich wartości teoretycznych oszacowanych na podstawie równania regresji. a0 W celu oceny dopasowania funkcji regresji do punktów empirycznych najczęściej stosuje się współczynnik φ2: n 2 ϕ y2 = ∑ (y t =1 n i − yˆ ) 2 ( ) y − y ∑ i , t =1 n ϕ x2 = 2 ˆ ( ) x − x ∑ i t =1 n 2 ( ) x − x ∑ i t =1 . Współczynnik determinacji R2 można otrzymać następująco: R2 = 1− ϕ 2. Oba współczynniki przyjmują wartości z przedziału [0,1]. Dziękuję za uwagę