Analiza współzależności dwóch zjawisk Badanie zbiorowości ze
Transkrypt
Analiza współzależności dwóch zjawisk Badanie zbiorowości ze
Analiza współzależności dwóch zjawisk Badanie zbiorowości ze względu na dwie cechy ma zazwyczaj na celu poszukiwanie zależności między tymi cechami. Poszukiwanie to ma sens tylko wtedy, gdy między cechami może istnieć logicznie uzasadniony związek przyczynowo-skutkowy. Analizując związek przyczynowo – skutkowy między cechami ustalamy, która z badanych cech może być traktowana jako cecha niezależna, a którą uznamy za cechę zależną, np. badając wpływ powierzchni sklepów (X) na wysokość utargu (Y) przyjmiemy, że cechą niezależną będzie powierzchnia sklepów (X) zaś utarg będzie cechą zależną. W niektórych przypadkach można stwierdzić zarówno wpływ cechy X na cechę Y jak i odwrotnie. Mówimy wówczas o współzależności cech, np. spożycie cukru i mąki w gospodarstwach domowych. Zależność między cechami może mieć charakter: a) funkcyjny - polegający na tym, że każdej wartości zmiennej X odpowiada ściśle określona i tylko jedna wartość zmiennej Y. Przykładem jest tu zależność między ceną a wartością towaru. b) stochastyczny (definiowany za pomocą pojęć z rachunku prawdopodobieństwa). Zależność stochastyczna (probabilistyczna) polega na tym, że zależne są rozkłady prawdopodobieństwa zmiennych X i Y. W praktyce oznacza to, że wpływ jednej zmiennej na drugą jest zależny również od czynników losowych, wspólnie działających na obie zmienne, oprócz innych czynników działających na każdą z nich oddzielnie. Szczególnym przypadkiem zależności stochastycznej jest zależność statystyczna (korelacyjna) występująca między cechami mierzalnymi lub quasi-mierzalnymi. Polega ona na tym, że określonym wartościom jednej zmiennej przyporządkowane są ściśle określone średnie wartości drugiej zmiennej. Pod względem kierunku wyróżniamy korelację dodatnią i ujemną. Korelacja dodatnia występuje wtedy, gdy wzrostowi wartości jednej cechy odpowiada wzrost średnich wartości drugiej cechy. Korelacja ujemna występuje wtedy, gdy wzrostowi wartości jednej cechy odpowiada spadek średnich wartości drugiej cechy. Rozkład dwuwymiarowy, brzegowy, warunkowy; tablica korelacyjna Punktem wyjściowym do badania współzależności cech są dane, w których dla każdej jednostki statystycznej określono wartości dwóch cech: X i Y. Mamy więc zbiór n jednostek i przyporządkowane im pary cech (xi, yi), i = 1, 2, ... n. Mamy zatem szereg: Tablica 3.11 Szereg szczegółowy dla dwóch obserwowanych cech i xi yi 1 x1 y1 2 x2 y2 ... ... ... n xn yn Źródło: Opracowanie własne Jeżeli liczebność zbiorowości jest duża i zachodzi potrzeba pogrupowania danych w szeregi rozdzielcze, to ze względu na dwa różne wymiary grupowania - na k wariantów dla cechy X i l wariantów cechy Y, otrzymujemy k l wartości nij -liczebności klas dla i-tego wariantu cechy X (i=1, 2, ...,k) i j-tego wariantu cechy Y (j=1, 2, ...,l). Opisane przyporządkowanie nazywamy dwuwymiarowym rozkładem empirycznym cechy (X,Y) dla danej populacji. Dane pogrupowane umieszcza się zwykle w tzw. tablicy korelacyjnej: Tablica 1 Tablica korelacyjna Y y1d - y2d X y1g y2g x1d - x1g n11 n12 x2d - x2g n21 n22 ... ... ... xkd - xkg nk1 nk2 k n ij i 1 n j - ... ... ... ... ... yld ylg n1l n1l ... nkl ... n l - l n n ij i j 1 n1 n2 ... nk k n 1 n 2 n i i 1 l n j n j 1 Symbole xid, xig oraz yjd, yjg oznaczają odpowiednio dolną i górną granicę przedziału klasowego dla cech X i Y. W ostatnim wierszu tablicy korelacyjnej umieszczone zostały sumy liczebności wszystkich klas cechy X dla danego wariantu Y, tworzące rozkład empiryczny cechy Y w badanej zbiorowości, nazywany tutaj rozkładem brzegowym tej cechy. Podobnie w ostatniej kolumnie tablicy powstaje rozkład brzegowy X. Możemy też rozpatrywać rozkład jednej cechy przy ustalonej wartości drugiej, np. dla części populacji posiadającej cechę X w pierwszym wariancie x1d - x1g (n1 jednostek) mamy rozkład: Tablica 2 Wariant Y Liczebność klasy y1d - y1g n11 y2d - y2g n12 ... ... yld - ylg n1l Taki rozkład nazywamy rozkładem warunkowym cechy Y. Zatem w wierszach tablicy korelacyjnej mamy rozkłady warunkowe dla cechy Y, a w kolumnach - dla cechy X. Przykład 1 Struktura mieszkań pewnej spółdzielni mieszkaniowej pod względem wielkości i liczby zamieszkujących je osób została podana w poniższej tabeli: Tablica 3 Lp . 1 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. Powierzchnia użytkowa (w m2) 2 42 48 37 56 46 102 33 74 63 42 58 72 96 38 64 Liczba mieszkańców 3 4 2 1 2 3 4 4 5 5 2 3 4 5 1 5 1 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 2 75 68 46 74 85 64 56 30 93 49 66 56 104 43 39 3 3 5 3 2 5 4 4 2 4 1 3 3 4 3 2 Źródło: Dane umowne Dane te pogrupowane w tabeli korelacyjnej wyglądają następująco: Tablica 4 Liczba osób (yj) Pow. uż.(xi) 30-50 50-70 70-90 90-110 Razem 1 2 3 4 5 3 3 4 1 1 6 3 3 1 7 2 2 1 3 8 3 2 1 6 Raze m 12 9 5 4 30 Rysunek 1 przedstawia dane z tabeli 4 na histogramie trójwymiarowym: Liczba mieszkań 4 3 1 2 2 1 3 5 90-110 70-90 Pow ierzchnia m ieszkań 4 50-70 30-50 0 Liczba m ieszkańców Dane przedstawione w przykładzie 1 zdają się być zależne i stochastycznie, i korelacyjnie. Widać bowiem, że mniej liczne rodziny zamieszkują na ogół mniejsze mieszkania. Można sobie jednak wyobrazić cechy zależne korelacyjnie, ale niezależne stochastycznie, tzn. posiadające stałą średnią warunkową mimo istotnie różnych rozkładów warunkowych, np. pod względem wariancji dla różnych wariantów jednej cechy możemy otrzymywać rozkłady bardziej równomierne lub bardziej skoncentrowane, chociaż posiadające wciąż tą samą średnią. Jednak na ogół pojęcia zależności stochastycznej i korelacyjnej są ze sobą związane. W dalszej części zajmiemy się mierzeniem siły współzależności cech. Podstawowe miary współzależności cech Podamy teraz kilka najczęściej stosowanych wskaźników mierzących siłę korelacji dwóch cech (współczynnik korelacji liniowej Pearsona, stosunek korelacji, współczynnik korelacji rang Spearmana) oraz miarę zależności stochastycznej - współczynnik zbieżności Czuprowa. Przy badaniu współzależności cech przyjmuje się zwykle jedną cechę za niezależną, której zmienność jest uwarunkowana czynnikami zewnętrznymi, a drugą za zależną, tzn. jej wahania próbuje się wyjaśnić (przynajmniej częściowo) zmiennością cechy niezależnej. Najczęściej stosowanym miernikiem współzależności cech jest współczynnik korelacji liniowej Pearsona (określany w literaturze również jako współczynnik korelacji prostoliniowej) oparty na pojęciu kowariancji: covx, y 1 n ( xi x )( y i y ) n i 1 lub równoważnie covx, y oraz lub 1 n xi yi x y n i 1 1 k l ( xi x )( y j y )nij n i 1 j 1 1 k l covx, y x i y j nij x y n i 1 j 1 covx, y (1) ( 2) ( 3) ( 4) dla szeregu szczegółowego dla szeregu pogrupowanego w tablicy korelacyjnej. Współczynnik korelacji liniowej dany jest wzorem covx, y x y x y , ( 5) SxSy SxSy gdzie Sx, Sy oznaczają odchylenia standardowe zmiennych X i Y. Jest to, jak widać, miara symetryczna. Współczynnik korelacji liniowej przyjmuje wartości z przedziału <-1,1> i informuje o sile oraz kierunku korelacji liniowej między zmiennymi, tzn. rxy= 0 świadczy o braku korelacji liniowej między badanymi cechami (możliwe, że istnieje między nimi korelacja krzywoliniowa!), rxy> 0 informuje nas, że mamy do czynienia z korelacją dodatnią (wraz ze wzrostem wartości jednej cechy wzrasta średnia warunkowa drugiej), dla rxy< 0 korelacja jest ujemna (wzrostowi wartości jednej cechy towarzyszy spadek drugiej). Przy rxy= 1 lub -1 mamy liniową zależność funkcyjną, tzn. y=ax+b. rxy ryx Przykład 2 W “Gazecie Motoryzacyjnej” 12/97 znajdują się następujące dane o cenach samochodów pewnej marki: Tablica 5 Wiek w Cena w tys. latach zł 3 27 7 17 10 8 4 26 2 35 3 32 Źródło: Dane umowne Obliczymy współczynnik korelacji liniowej dla podanych cech. W tym przykładzie podano dane dla n = 6 samochodów. Średni wiek samochodu to 4,83 lata, średnia cena wynosiła 24,17 tys. Tablica 6 Wiek (xi) Cena (yi) x i x yi y (xi x )( yi y ) (xi x ) 2 ( yi y ) 2 3 27 -1,83 2,83 -5,19 3,36 8,03 7 17 2,17 -7,17 -15,53 4,69 51,36 10 8 5,17 -16,17 -83,53 26,69 261,36 4 26 -0,83 1,83 -1,53 0,69 3,36 2 35 -2,83 10,83 -30,69 8,03 117,36 3 32 -1,83 7,83 -14,36 3,36 61,36 29 145 -150,83 46,83 502,83 Jak widać w tabeli 6, otrzymano: x 29 4,83 , 6 y 145 24,17 , 6 cov xy 150,83 25,14 , 6 25,14 0,98 , 2,79 9,15 a to oznacza, że podane cechy są bardzo silnie skorelowane.Powinniśmy zatem powiedzieć, ze wiek samochodu ma bardzo silny wpływ na jego cenę. Ujemny znak współczynnika korelacji wskazuje na to, że jeśli rośnie wiek to spodziewamy się spadku jego ceny. Sx 46,83 502,83 2,79 , S y 9,15 .Stąd 6 6 rxy Przykład 3 Obliczymy teraz współczynnik korelacji liniowej dla danych z przykładu 3. Tablica korelacyjna, uzupełniona o dane konieczne do obliczenia Sx, Sy oraz covxy, została przedstawiona w tablicy 7. Średnie arytmetyczne cech na podstawie przedstawionych danych obliczamy jako: k x x i ni l 1820 60,67 , y 30 covx, y xi \ y j j 1 6380 60,67 3,27 14,49 30 1 2 3 4 5 =n i x i ni x i x ( x i x ) 2 ( x i x ) 2 ni 30-50 50-70 70-90 90-110 3 4 1 1 3 3 1 2 2 1 3 3 2 1 12 9 5 4 480 540 400 400 427,11 0,44 373,78 1547,11 5125,33 4,00 1868,89 6188,44 = nj 3 6 7 8 6 30 1820 y j n j 3 12 21 32 30 98 x i 40 60 80 10 0 y j n j 98 3,27 . n n 30 Kowariancja została obliczona wg wzoru (4): i 1 y j y -2,27 - -0,27 0,73 0,54 3 ( y j y ) 2 n15,4 j 9,63 0,49 4,3 18 120 300 380 580 440 600 1140 2320 k x n k 120 x n y i ij j i 1 i 13186,67 1,73 1,27 1,6 0,07 ( y j y )25,14 -20,67 -0,67 19,33 39,33 47,87 ij 220 6380 0 i 1 Odchylenia standardowe obliczamy, podobnie jak średnie, na podstawie rozkładów warunkowych: Sx 1 k 13186,67 ( x i x ) 2 ni 20,97 , n i 1 30 1 l 47,87 ( y j y ) 2 n j 1,60 . n j 1 30 I wreszcie współczynnik korelacji liniowej jest równy: Sy rxy ryx covx, y 14,49 0,55 . SxSy 20,97 1,6 Mamy w tym przypadku cechy wyraźnie skorelowane, choć nie tak silnie, jak w poprzednim przykładzie. Kwadrat współczynnika korelacji liniowej rxy2 nazywać będziemy współczynnikiem determinacji liniowej, który podaje, jaka część zmienności cechy zależnej jest wyjaśniona zmiennością cechy niezależnej. Podobnie wprowadzimy pojęcie współczynnika indeterminacji liniowej jako xy2 = yx2 = 1- rxy2, (6) który wyraża, jaka część zmienności zmiennej zależnej nie została wyjaśniona. W przykładzie 3 mamy zatem rxy2= 0,552= 0,30 i xy2= 0,70 co oznacza, że wielkość mieszkania, mierzona jego powierzchnią, zostało w 30% wyjaśniona liczbą zamieszkujących je osób, a w 70% przez inne przyczyny. Inną miarą korelacji jest stosunek korelacji (wskaźnik siły korelacji) Pearsona eyx i exy, nazywany też współczynnikiem korelacji nieliniowej, ponieważ mierzy on siłę korelacji cech niezależnie od kształtu tej zależności. Mierzy się go dla danych pogrupowanych, przy czym cecha zależna musi być cechą mierzalną. Stosunek korelacji cechy Y do X jest dany wzorem S y2i e yx S y2 , (7) gdzie S y2i jest wariancją średnich warunkowych cechy Y, czyli 1 k ( yi y ) 2 ni , n i 1 S y2i ( 8) natomiast y i jest średnią warunkową cechy Y dla i-tego wariantu cechy X, czyli l y j nij j 1 yi ni , i 1,2,...k ( 9) S y2 jest wariancją ogólną cechy Y. Analogicznie konstruuje się stosunek exy korelacji X do Y. Przykład 4 W pewnym przedsiębiorstwie istnieje związek pomiędzy wielkością partii wyrobów gotowych a kosztem jednostkowym produkcji. Na podstawie obserwacji z ostatnich kilku miesięcy stwierdzono, że dla partii wyrobów wielkości 10-20 sztuk średni koszt jednostkowy wynosił 4,3 zł, dla partii 20-50 sztuk średni koszt wynosił 3,2 zł, w partiach o wielkości 50-100 – 2,3 zł, w partiach 100-150 szt. – 2,1 zł, a w partiach największych, 150-200 sztuk wyrobów średni koszt jednostkowy wynosił 2 zł. Wiadomo ponadto, że odchylenie standardowe kosztu jednostkowego w badanym okresie wynosiło 2,2 zł. Rozkład liczby partii o poszczególnych liczebnościach podano w poniższej tabeli: Wielkość partii Liczba partii o tej (szt.) wielkości 10-20 5 20-50 15 50-100 20 100-150 15 150-200 10 Źródło: Dane umowne. Określić siłę związku między wielkością partii wyrobów gotowych a kosztem jednostkowym produkcji. Rozwiązanie: Obliczymy wielkość stosunku korelacji. Średnie warunkowe kosztu jednostkowego dane są w treści zadania. Na ich podstawie można też obliczyć średnią ogólną jako średnią ważoną: 5 y y n i 1 5 i n i 1 i 4,3 5 3,4 15 2,3 20 2,1 15 2 10 167 2,57 zł. 5 15 20 15 10 65 i Wariancję średnich warunkowych obliczymy, zgodnie ze wzorem (8), jako: 1 5 1 S y2i ( yi y )2 ni (4,3 2,57)2 5 (3,4 2,57)215 (2,3 2,57)2 20 (2,1 2,57)215 (2 2,57)210 65 i 1 65 1 28,93846 0,445207 65 Stosunek korelacji jest zatem równy e yx S y2i S 0,445207 0,30329 . 4,84 2 y Można w tym przypadku mówić o wyraźnym, choć niezbyt silnym związku korelacyjnym. Stosunek korelacji może przyjmować wartości z przedziału <0,1>. Na ogół jest to miara niesymetryczna, tzn. exy eyx poza dwoma przypadkami: exy= eyx= 0 (brak korelacji) oraz exy= eyx= 1 (zależność funkcyjna między Y a X). Istnieje zależność między exy i rxy: rxy exy, ( 10) która stała się podstawą do utworzenia miary krzywoliniowości związku zmiennych, tzw. miernika 2 krzywoliniowości: ( 11) my eyx ryx2 2 i oczywiście, przy badaniu zależności cechy X od Y: mx exy rxy2 . ( 12) Przykład 5 Zbadać, czy zależność między powierzchnią mieszkania a liczbą zamieszkujących je osób z przykładu 1 można uznać za liniową. Rozwiązanie: Obliczymy stosunek korelacji nieliniowej exy – zależności powierzchni mieszkania od liczby członków gospodarstwa domowego, a następnie wielkość miernika krzywoliniowości (im jego wartość jest mniejsza, tym bardziej zależność można uznać za liniową). Na podstawie tabeli 3.18 można obliczyć wartości średnich warunkowych cechy xpowierzchni mieszkania dla poszczególnych wariantów cechy y – liczby osób. I tak, w grupie gospodarstw jednoosobowych są tylko trzy jednostki i wszystkie mają powierzchnię mieszkań w przedziale 30-50 m2, zatem 4 x n 40 3 60 0 80 0 100 0 40 n1 3 W następnej grupie – gospodarstw dwuosobowych średnia powierzchnia mieszkań x1 i i 1 i1 4 wynosi x 2 x n i 1 i i2 40 4 60 1 80 1 100 0 50 6 n 2 i analogicznie x3 54,28571 , x 4 72,5 , x5 73,3333 . Ponieważ obliczona w przykładzie 1 średnia wynosi 60,67 zatem wariancję średnich warunkowych obliczamy jako 1 4 1 S x2j ( x j x ) 2 n j (40 60,67) 2 3 (50 60,67) 2 6 (54,28571 60,67) 2 7 n j 1 30 (72,5 60,67) 2 8 (73,3333 60,67) 2 6 1 1281,333 682,6667 285,0159 1120,222 962,6667 144,3968 30 13186,67 439,5557 . 30 wzoru (7) jest równy Wariancja cechy x na podstawie obliczeń z przykładu 1 wynosi S x2 Zatem e xy stosunek S x2j S x2 korelacji nieliniowej 144,3968 0,573155 , 439,5557 analogicznie do 2 natomiast miernik krzywoliniowości w tym przypadku m x e xy rxy2 0,33 - 0,30 0,03 i ponieważ jest to wartość bardzo bliska zera, zależność z przykładu 1 można uznać za liniową. Kolejną miarą korelacji, wygodną i użyteczną dla niezbyt długich szeregów szczegółowych z dwoma cechami mierzalnymi (lub przynajmniej posiadającymi pewien naturalny porządek pozwalający na ustawienie wartości rosnąco lub malejąco) jest współczynnik korelacji kolejnościowej (rang) Spearmana Rxy: N R xy R yx 1 N 6 d i2 1 i 1 n3 n 6 d i2 i 1 n n2 1 , (13) gdzie di są różnicami między kolejnymi numerami (rangami) nadawanymi w kolejności niemalejącej (lub nierosnącej) osobno dla każdej cechy od 1 do n. Jeżeli kilka elementów w szeregu ma taką samą wartość jednej cechy, to nadaje im się rangi będące średnią arytmetyczną przypadających na te elementy rang. Wartość Rxy należy do przedziału <-1,1> i mówi o sile oraz kierunku korelacji. Ostatnia z przedstawianych tu miar, współczynnik zbieżności Czuprowa jest miarą zależności stochastycznej cech. Porównuje on bowiem dwuwymiarowy rozkład empiryczny z rozkładem uzyskanym na podstawie rozkładów brzegowych cech i zakładającym niezależność cech (tzn. równomierność rozkładów warunkowych). Konstruuje się go w oparciu o wartość testu niezależności 2 w postaci: k l 2 i 1 j 1 gdzie nˆ ij ni n j n (nij nˆ ij ) 2 nˆ ij , ( 14) jest liczebnością klasy (i,j) przy teoretycznym założeniu niezależności cech X,Y. Współczynnik zbieżności Czuprowa jest dany wzorem Txy Tyx 2 n ( k 1)( l 1) . ( 15) Jest to miara często stosowana dla cech niemierzalnych, dla których trudno byłoby mierzyć zależność korelacyjną. Wymaga ona danych pogrupowanych. wartości współczynnika zbieżności należą do przedziału T 0;1 Linie regresji. Po ustaleniu, że między badanymi cechami istnieje liniowa zależność korelacyjna, można oszacować parametry liniowej funkcji regresji tzn takiej funkcji, której wykres jest miejscem geometrycznym średnich wartości zmiennej zależnej przy ustalonych wartościach zmiennej niezależnej. W zależności od tego, którą z badanych cech uznamy za zmienną niezależną, możemy wyznaczyć: funkcję regresji zmiennej zależnej (objaśnianej) Y przy danych wartościach zmiennej niezależnej (objaśniającej) X yˆ ax b (16) funkcję regresji zmiennej X względem zmiennej Y. - xˆ Ay B .(17) Współczynniki tych funkcji określają wzory: 1) dla funkcji yˆ ax b n a x i 1 i x yi y n x i 1 x 2 i Sy covx, y rxy ; 2 Sx Sx b y ax . (18) 2) dla funkcji xˆ Ay B n A x i 1 i x yi y n y i 1 y 2 i S covx, y rxy x ; 2 Sy Sy B x Ay . (19) Występujące w tych równaniach współczynniki kierunkowe prostych a i A nazywamy współczynnikami regresji. Mają one następujące własności: - Wartość współczynnika regresji w odpowiednim równaniu określa, o ile jednostek wzrośnie lub zmaleje wartość zmiennej zależnej, gdy wartość zmiennej niezależnej wzrośnie o jedną jednostkę. (W niektórych przypadkach o ile jednostek będzie większa lub mniejsza wartość zmiennej zależnej, gdy wartość zmiennej niezależnej będzie większa o jedną jednostkę.) - Obydwa współczynniki regresji mają jednakowy znak, taki sam jak znak współczynnika korelacji. Współczynniki regresji i współczynnik korelacji łączy związek: a A rxy2 . (20) Współczynniki b i B mają sensowną interpretację tylko wtedy: - gdy w uzasadnionej sytuacji zmienna niezależna może przyjmuje wartość zero - interpretacja jest logiczna -wartości zmiennej niezależnej na podstawie których szacowaliśmy równanie regresji nie są bardzo oddalone od 0. -