ZAJĘCIA 6 ∑∑ ∑ ∑
Transkrypt
ZAJĘCIA 6 ∑∑ ∑ ∑
ZAJĘCIA 6 Analiza korelacji - miary zależności cech niemierzalnych MIERNIKI OPARTE NA CHI-KWADRAT – CECHY WIELOWARIANTOWE Do badania sił związku pomiędzy cechami jakościowymi (niemierzalnymi) stosuje się miernik wyrażający jego natężenie. Miernik ten jest jednak zależny od liczebności badanej próby. Jednymi z najczęściej wybieranych mierników natężania związku statystycznego są mierniki oparte na mierniku chi-kwadrat. Są miernikami standaryzowanymi, przyjmującymi wartości z przedziału *0,1+. Uwzględniają one liczebności poszczególnych grup w badanej zbiorowości w postaci tablicy korelacyjnej. TABLICA KORELACYJNA Stanowi podstawę do wyznaczania mierników zależności pomiędzy cechami niemierzalnymi, opartych na chikwadrat. l y1 y2 y3 yl n n ij i j1 x1 x2 x3 n11 n12 n13 . . . . . n1l n2l n1• n2• . . . . . . . . . xk nk1 nk2 nk3 nkl nk• n•1 n•2 n•3 n•l n k n n ij j i1 Miernik Chi-kwadrat (χ2) Na podstawie miernika nie można orzec o sile zależności pomiędzy badanymi cechami – miernik nie posiada kresu górnego. Wartości miernika są również uzależnione od liczebności badanej próby (wraz ze wzrostem liczebności rośnie również wartośd miernika). Miernik chi-kwadrat określa różnice pomiędzy empiryczną (rzeczywistymi) liczebnością w tablicy (n ij) a liczebnością teoretyczną ( n̂ij ) obliczoną przy założeniu, że pomiędzy cechami nie zachodzi zależnośd. nˆ ij k ni n j n l 2 i 1 j 1 , (nij nˆ ij ) 2 nˆ ij Gdzie k – liczba grup według zmiennej X, l – liczba grup według zmiennej Y k n ij n j - suma liczebności od 1. wiersza do k-ego w kolumnie j-tej, ij ni - suma liczebności od 1 kolumny do l-tej w wierszu i-tym i 1 l n j 1 Wartośd miernika chi-kwadrat różna od zera wskazuje na występowanie zależności pomiędzy cechami. Nie można jednak orzec jak silny jest analizowany związek, nie posiada kresu górnego. Zajęcia 6. Materiały pomocnicze do dwiczeo STATYSTYKA mgr Emilia Modranka, [email protected] Strona 1 z 4 W celu wyeliminowania wpływu liczebności na wartośd miernika 2 wprowadza się wyrażenie: 2 2 n Miernik przyjmuje wartośd 0, gdy badane cechy są niezależne. Dla tablic o wymiarach 2x1, 2x2 maksymalna wartośd miernika wynosi 1 i oznacza zupełny związek pomiędzy badanymi cechami. Przy dowolnych wymiarach tablic wartośd tego miernika może przekraczad 1. Współczynnik zbieżności (współczynnik kontyngencji) C-Pearsona Bada siłę związku pomiędzy cechami mierzonymi na skali nominalnej Przyjmuje wartości z przedziału *0,1+, C=0 – cechy są niezależne; W celu ułatwienia interpretacji i umożliwienia porównywalności prowadzona jest standaryzacja. Polega na podzieleniu wartości miernika przez maksymalną wartośd dla liczby wierszy i kolumn; Wartośd współczynnika nie informuje o kierunku korelacji C 2 2 , n 2 2 n C , 2 2 1 Skorygowany współczynnik zbieżności C-Pearsona r=max{k;l} r , r 1 C , C skor C max Cmax Współczynnik T-Czuprowa Jest miernikiem nieposiadającym wad poprzednich mierników opartych na mierniku chi-kwadrat (miernika chi-kwadrat, modyfikacji chi-kwadrat ze względu na liczebnośd próby, współczynnika kontyngencji C-Pearsona); Przyjmuje wartości z przedziału *0,1+; Im wartośd współczynnika T jest bliższa jedności, tym zależnośd pomiędzy badanymi cechami jest silniejsza; Miernik może osiągnąd wartośd 1, gdy liczba kolumn jest równa liczbie wierszy. Gdy taka zależnośd nie zachodzi to maksymalna wartośd współczynnika T-Czuprowa może byd mniejsza od jedności; Wadą jest to, że nie mierzy kierunku korelacji T 2 n (k 1) (l 1) lub T 2 (k 1) (l 1) k – liczba wierszy, l – liczba kolumn Zajęcia 6. Materiały pomocnicze do dwiczeo STATYSTYKA mgr Emilia Modranka, [email protected] Strona 2 z 4 Współczynnik V-Cramera Bada siłę związku między zmiennymi, których pomiary są wyrażone na skali nominalnej; Daje podobne rezultaty jak współczynnik T-Czuprowa i C-Pearsona W przeciwieostwie do współczynników T-Czuprowa i C-Pearsona nie zależy od liczby kolumn i wierszy tablicy korelacyjnej Znak współczynnika nie informuje o kierunku korelacji V 2 n(m 1) , m min(k,l) , k – liczba wierszy, l – liczba kolumn MIERNIKI ZALEŻNOŚCI – CECHY DWUWARIANTOWE Punktem wyjścia badania związku dwóch cech, z których każda ma dwa warianty jest budowa tablicy korelacyjnej o postaci: l y1 n y2 ij ni j 1 x1 x2 k n ij n j a c b d a+b c+d a+c b+d a+b+c+d i 1 Współczynnik φ-Yule’a Służy do badania związku korelacyjnego pomiędzy cechami jakościowymi dwuwariantowymi Może przyjmowad wartości *-1, 1]; Kraocowe wartości współczynnika zależą od sposobu uporządkowania liczebności w poszczególnych polach tablicy korelacyjnej (wartości -1 i 1 przyjmowane są tylko dla a=d=0 lub b=c=0) Wartości współczynnika należy skorygowad z wartościami najmniejszymi i największymi. Znak współczynnika nie informuje o kierunku zależności, interpretację przeprowadza się jedynie w parciu o wartośd bezwzględną ad bc (a b)(a c)(b d )(c d ) ad bc n min( b, c) (ad bc) ad bc n min( a, d ) (ad bc) dla 0 kor dla 0 kor Zajęcia 6. Materiały pomocnicze do dwiczeo STATYSTYKA mgr Emilia Modranka, [email protected] Strona 3 z 4 Współczynnik asocjacji Q-Kendalla Służy do badania zależności pomiędzy dwoma cechami jakościowymi dwuwariantowymi Istnieje możliwośd ustalenia zmiennej zależnej Przyjmuje wartości w przedziale *-1, 1], 0 – całkowita niezależnośd, 1 – zależnośd numerów w uporządkowanym szeregu. Q Zajęcia 6. ad bc ad bc Materiały pomocnicze do dwiczeo STATYSTYKA mgr Emilia Modranka, [email protected] Strona 4 z 4