ZAJĘCIA 6 ∑∑ ∑ ∑

Transkrypt

ZAJĘCIA 6 ∑∑ ∑ ∑
ZAJĘCIA 6
Analiza korelacji - miary zależności cech niemierzalnych
MIERNIKI OPARTE NA CHI-KWADRAT – CECHY WIELOWARIANTOWE
Do badania sił związku pomiędzy cechami jakościowymi (niemierzalnymi) stosuje się miernik wyrażający jego
natężenie. Miernik ten jest jednak zależny od liczebności badanej próby.
Jednymi z najczęściej wybieranych mierników natężania związku statystycznego są mierniki oparte na mierniku
chi-kwadrat. Są miernikami standaryzowanymi, przyjmującymi wartości z przedziału *0,1+. Uwzględniają one
liczebności poszczególnych grup w badanej zbiorowości w postaci tablicy korelacyjnej.
TABLICA KORELACYJNA
Stanowi podstawę do wyznaczania mierników zależności pomiędzy cechami niemierzalnymi, opartych na chikwadrat.
l
y1
y2
y3
yl
n  n
ij
i
j1
x1
x2
x3
n11
n12
n13
.
.
.
.
.
n1l
n2l
n1•
n2•
.
.
.
.
.
.
.
.
.
xk
nk1
nk2
nk3
nkl
nk•
n•1
n•2
n•3
n•l
n
k
n  n
ij
j
i1
Miernik Chi-kwadrat (χ2)

Na podstawie miernika nie można orzec o sile zależności pomiędzy badanymi cechami – miernik nie
posiada kresu górnego.

Wartości miernika są również uzależnione od liczebności badanej próby (wraz ze wzrostem liczebności
rośnie również wartośd miernika).

Miernik chi-kwadrat określa różnice pomiędzy empiryczną (rzeczywistymi) liczebnością w tablicy (n ij) a
liczebnością teoretyczną ( n̂ij ) obliczoną przy założeniu, że pomiędzy cechami nie zachodzi zależnośd.
nˆ ij 
k
ni   n  j
n
l
 2  
i 1 j 1
,
(nij  nˆ ij ) 2
nˆ ij
Gdzie k – liczba grup według zmiennej X, l – liczba grup według zmiennej Y
k
n
ij
 n j - suma liczebności od 1. wiersza do k-ego w kolumnie j-tej,
ij
 ni - suma liczebności od 1 kolumny do l-tej w wierszu i-tym
i 1
l
n
j 1
Wartośd miernika chi-kwadrat różna od zera wskazuje na występowanie zależności pomiędzy cechami. Nie
można jednak orzec jak silny jest analizowany związek, nie posiada kresu górnego.
Zajęcia 6.
Materiały pomocnicze do dwiczeo
STATYSTYKA
mgr Emilia Modranka,
[email protected]
Strona 1 z 4
W celu wyeliminowania wpływu liczebności na wartośd miernika  2 wprowadza się wyrażenie:
 
2
2
n
Miernik przyjmuje wartośd 0, gdy badane cechy są niezależne. Dla tablic o wymiarach 2x1, 2x2 maksymalna
wartośd miernika wynosi 1 i oznacza zupełny związek pomiędzy badanymi cechami. Przy dowolnych wymiarach
tablic wartośd tego miernika może przekraczad 1.
Współczynnik zbieżności (współczynnik kontyngencji) C-Pearsona

Bada siłę związku pomiędzy cechami mierzonymi na skali nominalnej

Przyjmuje wartości z przedziału *0,1+, C=0 – cechy są niezależne;

W celu ułatwienia interpretacji i umożliwienia porównywalności prowadzona jest standaryzacja.
Polega na podzieleniu wartości miernika przez maksymalną wartośd dla liczby wierszy i kolumn;

Wartośd współczynnika nie informuje o kierunku korelacji
C
2 
2
,
n
2
2 n
C
,
2
 2 1
Skorygowany współczynnik zbieżności C-Pearsona
r=max{k;l}
r
,
r 1
C
,
C skor 
C max
Cmax 
Współczynnik T-Czuprowa

Jest miernikiem nieposiadającym wad poprzednich mierników opartych na mierniku chi-kwadrat
(miernika chi-kwadrat, modyfikacji chi-kwadrat ze względu na liczebnośd próby, współczynnika
kontyngencji C-Pearsona);

Przyjmuje wartości z przedziału *0,1+;

Im wartośd współczynnika T jest bliższa jedności, tym zależnośd pomiędzy badanymi cechami jest
silniejsza;

Miernik może osiągnąd wartośd 1, gdy liczba kolumn jest równa liczbie wierszy. Gdy taka zależnośd nie
zachodzi to maksymalna wartośd współczynnika T-Czuprowa może byd mniejsza od jedności;

Wadą jest to, że nie mierzy kierunku korelacji
T
2
n  (k  1)  (l  1)
lub T 
2
(k  1)  (l  1)
k – liczba wierszy, l – liczba kolumn
Zajęcia 6.
Materiały pomocnicze do dwiczeo
STATYSTYKA
mgr Emilia Modranka,
[email protected]
Strona 2 z 4
Współczynnik V-Cramera
 Bada siłę związku między zmiennymi, których pomiary są wyrażone na skali nominalnej;
 Daje podobne rezultaty jak współczynnik T-Czuprowa i C-Pearsona
 W przeciwieostwie do współczynników T-Czuprowa i C-Pearsona nie zależy od liczby kolumn i wierszy
tablicy korelacyjnej
 Znak współczynnika nie informuje o kierunku korelacji
V
2
n(m  1)
, m  min(k,l) ,
k – liczba wierszy, l – liczba kolumn
MIERNIKI ZALEŻNOŚCI – CECHY DWUWARIANTOWE
Punktem wyjścia badania związku dwóch cech, z których każda ma dwa warianty jest budowa tablicy
korelacyjnej o postaci:
l
y1
n
y2
ij
 ni
j 1
x1
x2
k
n
ij
 n j
a
c
b
d
a+b
c+d
a+c
b+d
a+b+c+d
i 1
Współczynnik φ-Yule’a

Służy do badania związku korelacyjnego pomiędzy cechami jakościowymi dwuwariantowymi
 Może przyjmowad wartości *-1, 1];
 Kraocowe wartości współczynnika zależą od sposobu uporządkowania liczebności w poszczególnych
polach tablicy korelacyjnej (wartości -1 i 1 przyjmowane są tylko dla a=d=0 lub b=c=0)
 Wartości współczynnika należy skorygowad z wartościami najmniejszymi i największymi.
 Znak współczynnika nie informuje o kierunku zależności, interpretację przeprowadza się jedynie w
parciu o wartośd bezwzględną

ad  bc
(a  b)(a  c)(b  d )(c  d )
ad  bc
n  min( b, c)  (ad  bc)
ad  bc

n  min( a, d )  (ad  bc)
dla   0  kor 
dla   0  kor
Zajęcia 6.
Materiały pomocnicze do dwiczeo
STATYSTYKA
mgr Emilia Modranka,
[email protected]
Strona 3 z 4
Współczynnik asocjacji Q-Kendalla

Służy do badania zależności pomiędzy dwoma cechami jakościowymi dwuwariantowymi

Istnieje możliwośd ustalenia zmiennej zależnej
Przyjmuje wartości w przedziale *-1, 1], 0 – całkowita niezależnośd, 1 – zależnośd numerów w uporządkowanym
szeregu.
Q
Zajęcia 6.
ad  bc
ad  bc
Materiały pomocnicze do dwiczeo
STATYSTYKA
mgr Emilia Modranka,
[email protected]
Strona 4 z 4

Podobne dokumenty