Katarzyna Chudy – Laskowska http://kc.sd.prz.edu.pl/
Transkrypt
Katarzyna Chudy – Laskowska http://kc.sd.prz.edu.pl/
Statystyka Katarzyna Chudy – Laskowska http://kc.sd.prz.edu.pl/ Analiza korelacji umożliwia stwierdzenie występowania zależności oraz ocenę jej natężenia ZALEŻNOŚCI pomiędzy CECHAMI: CECHY: ILOŚCIOWA ILOŚCIOWA ANALIZA KORELACJI CECHY: JAKOŚCIOWA JAKOŚCIOWA TEST NIEZALEŻNOŚCI CHI – KWADRAT PEARSONA CECHY : ILOŚCIOWA JAKOŚCIOWA TEST ANOVA TEST Anova Kruskala –Wallisa Korelacja –cechy ilościowe Zależność korelacyjna charakteryzuje się tym, że określonym wartościom jednej zmiennej przyporządkowane są ściśle określone wartości drugiej zmiennej. Stopień zależności pomiędzy cechami określany jest za pomocą współczynnika korelacji rxy Współczynnik korelacji liniowej Pearsona Liczony w przypadku cech ilościowych, mających rozkład normalny lub zbliżony do normalnego (zbiór danych powinien być liczny) Współczynnik korelacji Rang Spearmana Liczony w przypadku : - gdy cechy są mierzalne badana zbiorowość jest nieliczna - gdy cechy mają charakter jakościowy i istnieje możliwość ich uporządkowania Współczynnik korelacji liniowej Pearsona Analizę zależności pomiędzy cechami ilościowymi należy rozpocząć od Sporządzenia wykresu rozrzutu. Dzięki analizie graficznej można już na Początku stwierdzić czy istnieje potencjalna zależność pomiędzy cechami I czy jest sens obliczania związku między badanymi zmiennymi. Y Y korelacja liniowa dodatnia rxy > 0 korelacja liniowa ujemna rxy < 0 X X Y Y brak korelacji liniowej rxy = 0 korelacja nieliniowa brak korelacji liniowej rxy = 0 X X Współczynnik korelacji liniowej Pearsona przyjmuje wartości z przedziału od -1 do 1 Przyjmuje się że: rxy< 0,2 – brak związku liniowego 0,2-0,4 – zależność wyraźna liniowa ale niska 0,4 – 0,7 zależność umiarkowana 0,7 – 0,9 –zależność znacząca powyżej 0,9 – zależność bardzo silna Jeśli współczynnik korelacji liniowej Pearsona jest równy 0 to nie ma związku między badanymi zmiennymi. Natomiast jeśli współczynnik korelacji jest równy 1 lub -1 to występuje idealny związek liniowy. Współczynnik korelacji liniowej Pearsona podany jest wzorem: n rxy x x y y i 1 i i n 2 2 x x y y i i CX ,Y sx s y i 1 Współczynnik korelacji informuje o sile i kierunku związku: SIŁA od 0 do 1 (0-100%) KIERUNEK + – lub Korelacja dodatnia występuje wtedy gdy wraz ze wzrostem jednej cechy wzrastają średnio wartości drugiej cechy (związek proporcjonalny) Korelacja ujemna występuje wtedy gdy wraz ze wzrostem jednej cechy maleją średnio wartości drugiej cechy (związek proporcjonalny) UWAGI 1. Wartość współczynnika korelacji bliska 0 oznacza tylko brak korelacji liniowej Pearsona (może wystąpić inny związek dlatego tak ważne są wykresy rozrzutu). 2. Współczynnik korelacji podlega wpływom wartości odstających (ekstremalnych) 3. Korelacja pozorna – bociany – przyrost naturalny Przykład W pewnej firmie sprawdzono jak obciążenie samochodów dostawczych wpływa na zużycie paliwa. Sprawdzić czy istnieje zależność pomiędzy badanymi cechami. Obciążenie samochodu Spalanie X 175 181 185 192 195 202 205 210 215 220 1980 198 x rxy Y 5 5,5 6 6,5 7 7,5 8 9,5 10 11 76 7,6 ( x x) -23 -17 -13 -6 -3 4 7 12 17 22 ( x x) 2 ( y y) 529 289 169 36 9 16 49 144 289 484 2014 -2,6 -2,1 -1,6 -1,1 -0,6 -0,1 0,4 1,9 2,4 3,4 ( y y) 2 6,76 4,41 2,56 1,21 0,36 0,01 0,16 3,61 5,76 11,56 36,4 ( x x) ( y y ) 59,8 35,7 20,8 6,6 1,8 -0,4 2,8 22,8 40,8 74,8 265,5 Spalania (l) Lp 1 2 3 4 5 6 7 8 9 10 12 10 8 6 4 2 0 170 180 190 200 210 220 230 Obciążenie samochodu (kg) n rxy x x y i i 1 n i y x x y i 1 2 i y 2 i y 265,5 265,5 265,5 0,98 2014 36,4 73309,6 270,76 Zależność między obciążeniem a spalaniem jest bardzo wysoka. jest to zależność dodatnia, wprost proporcjonalna, wraz ze wzrostem obciążenia wzrasta spalanie. W 98% obciążenie wpływa na zużycie paliwa. Zadanie: Zbadać zależność pomiędzy liczbą posiadanych samochodów przez przedsiębiorstwa transportowe a kosztami stałymi (tys.). X Y Liczba posiadanych samochodów Koszty stałe (tys.) 20 52 30 45 40 40 50 35 REGRESJA Pojęcie analizy regresji ściśle wiąże się z pojęciem korelacji. Na podstawie korelacji stwierdzić można, czy między danymi występuje zależność (określić jej wielkość) oraz jaki kierunek ona posiada. Analiza regresji pozwala w sposób dokładny zinterpretować odkryte zależności. Linię regresji określa się jako miejsce geometryczne średnich wartości zmiennej zależnej, przy ustalonych wartościach zmiennej niezależnej. Zmienna zależna (objaśniana) Y=ax+b współczynnik kierunkowy a Zmienna niezależna (objaśniająca) wyraz wolny b Parametry równania regresji z próby szacuje się klasyczną metodą najmniejszych kwadratów (MNK), polega ona na takim oszacowaniu parametrów Funkcji Y=ax+b by dla danych z próby spełniony był warunek y yˆ y a x b n 2 i i 1 n i 1 2 i x y min Gdzie yi oznaczają wartości empiryczne cechy Y a ŷ wartości teoretyczne wyznaczone na podstawie równania Y=ax+b Obliczając miejsca zerowe pierwszych pochodnych cząstkowych względem odpowiednich parametrów funkcji otrzymujemy: n ay x x y i i 1 n y i x x i 1 2 i by y a x x Y= x+by INTERPRETACJA Jeżeli zmienną X zwiększymy o jednostkę, to zmienna Y zwiększy się (spadnie) O współczynnik kierunkowy a Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się reszty czyli różnicę pomiędzy wartościami empirycznymi a teoretycznymi funkcji regresji. yi wartości empiryczne yˆ wartości teoretyczne et yi yˆ Funkcja regresji jest poprawnie oszacowana jeżeli wartości reszt są niewielkie i mają charakter losowy. n Wariancja składnika resztowego: s (et ) 2 y yˆ i 1 2 i nk i n - liczba obserwacji k – liczba szacowanych parametrów Odchylenie standardowe reszt zwane również średnim błędem szacunku określa o ile średnio wartości empiryczne odchylają się od wartości teoretycznych. Wraz ze wzrostem odchylenia standardowego reszt maleje „poprawność” dopasowania prostej regresji do danych Aby sprawdzić w jakim stopniu prosta regresji dopasowana jest do danych Oblicza się współczynnik determinacji R 2 R2 1 2 Współczynnik zbieżności mieści się w przedziale od 0 do 1 a często interpretowany jest w procentach. Wskazuje stopnień braku dopasowania Prostej regresji do danych. n 2 y i 1 n ˆ i yi 2 2 y y i i 1 Przykład cd. Obciążenie samochodu Lp 1 2 3 4 5 6 7 8 9 10 X 175 181 185 192 195 202 205 210 215 220 1980 198 Spalanie ( x x) 2 ( y y ) ( x x) Y 5 -23 5,5 -17 6 -13 6,5 -6 7 -3 7,5 4 8 7 9,5 12 10 17 11 22 76 7,6 529 289 169 36 9 16 49 144 289 484 2014 -2,6 -2,1 -1,6 -1,1 -0,6 -0,1 0,4 1,9 2,4 3,4 n ay x x y i i 1 n ( x x) ( y y ) ŷ et ( yi yˆ ) et2 ( yi y ) 2 6,76 4,41 2,56 1,21 0,36 0,01 0,16 3,61 5,76 11,56 36,4 59,8 35,7 20,8 6,6 1,8 -0,4 2,8 22,8 40,8 74,8 265,5 4,61 5,39 5,91 6,82 7,21 8,12 8,51 9,16 9,81 10,46 0,39 0,11 0,09 -0,32 -0,21 -0,62 -0,51 0,34 0,19 0,54 0,1521 0,0121 0,0081 0,1024 0,0441 0,3844 0,2601 0,1156 0,0361 0,2916 1,4066 6,76 4,41 2,56 1,21 0,36 0,01 0,16 3,61 5,76 11,56 36,4 y i x x i 1 ( y y) 2 2 265,5 0,13 2014 i by y ax x 7,6 0,13 198 7,6 25,74 18,14 Y=ax+b Y=0,13x-18,14 Y=ax+b Y=0,13x-18,14 n s 2 (et ) y yˆ i 1 2 i i nk s 0,1758 0,42 1,4066 1,4066 0,1758 10 2 8 n 2 2 ˆ y y i i i 1 n 2 y y i 1,4066 0,04 36,4 i 1 R 2 1 2 1 0,04 0,94 Współczynnik korelacji rang Spearmana Współczynnik ten służy do opisu siły korelacji dwóch cech w przypadku gdy: -cechy są mierzalne, a badana zbiorowość jest małoliczna -mają one charakter jakościowy ale istnieje możliwość ich uporządkowania Wzięte do badań cechy należy uporządkować ze względu na wartości każdej cechy oddzielnie (rosnąco lub malejąco). Jednostkom w każdym z porządkowań przypisuje się numer od 1 do n czyli rangę. d i oznacza różnicę między rangami cechy x i y n rs 1 6 d i 1 2 2 i nn 1 Współczynnik korelacji rang Spearmana przyjmuje wartości z przedziału [-1,1]. Im wyższa wartość korelacji rang Spearmana tym większa zależność między cechami. Przykład Liczba Liczba Ranga samochodów ludności Y Lp 1 ŁÓDZKIE 2 MAZOWIECKIE Ranga X d i d i2 1568366 2534357 6 6 0 0 6 3541044 5242911 1 1 0 0 1 4 3 MAŁOPOLSKIE 1898517 3310094 4 4 0 0 4 ŚLĄSKIE 2521534 4635882 2 2 0 0 2 5 LUBELSKIE 6 PODKARPACKIE 1322252 1174565 2151895 2103505 7 10 8 9 -1 1 1 1 7,5 9,5 7 PODLASKIE 697228 1188329 14 14 0 0 14 8 ŚWIĘTOKRZYSKIE 783698 1266014 12 13 -1 1 12,5 9 LUBUSKIE 609231 1011024 16 16 0 0 16 2346895 3419426 3 3 0 0 3 11 ZACHODNIOPOMORSKIE 937571 1693072 11 11 0 0 11 12 DOLNOŚLĄSKIE 1655833 2877840 5 5 0 0 5 13 OPOLSKIE 630900 1028585 15 15 0 0 15 14 KUJAWSKO-POMORSKIE 1253158 2069543 9 10 -1 1 9,5 15 POMORSKIE 1313756 2240319 8 7 1 1 7,5 16 WARMIŃSKO-MAZURSKIE 782601 1427241 13 12 10 WIELKOPOLSKIE rs 1 1 1 12,5 6 n rs 1 6 d i2 i 1 2 nn 1 66 36 36 1 1 1 0,0088 0,9912 2 16 16 1 16 255 4080 Zadanie Na podstawie danych określić siłę związku pomiędzy liczbą emitowanych reklam a liczbą sprzedanych samochodów. Dokonać interpretacji współczynnika korelacji rang Spearmana Liczba emisji reklam samochodu Liczba sprzedanych samochodów 3 15 5 33 4 42 5 50 6 48 7 51