Badanie zależności pomiędzy zmiennymi

Transkrypt

Badanie zależności pomiędzy
zmiennymi
„Czy istnieje związek, a jeśli tak, to jak silny
jest pomiędzy np. wykształceniem personelu a
jakością świadczonych usług?
• Ogólnie szukamy miary zależności
(współzależności), korelacji
» współczynnik
Etapy badań:
• 1) Określenie liczby zmiennych oraz
zdefiniowanie skal, w jakich są wyrażone
• 2) określenie wielkości próby
• 3) wylosowanie próby z populacji
• 4) pomiar zmiennych opisujących badane obiekty
• 5) wyszczególnienie możliwych współczynników
• 6) wybór współczynnika optymalnego
• 7) obliczenie współczynników
• 8) testowanie istotności współczynnika (hipoteza
zerowa: brak zależności pomiędzy zmiennymi.
Współczynniki siły związku:
1) współczynnik Φ (phi) Yule’a:
Mierzy siłę związku pomiędzy dwiema
zmiennymi, mierzonymi na skalach
niemetrycznych nominalnych
Przykład: Badamy czy zmiana opakowania lub nowa reklama
nasilają popyt?
Badamy rynek poprzez np. krótki sondaż wśród
sprzedawców: zmienna X – rodzaj opakowania (1 – nowe,
0 – stare), Y – zachowanie rynku (1 – wzrost popytu, 0 –
brak wzrostu popytu)
Otrzymujemy:
X
Y
1
0
0
a
c
a+c
1
b
d
b+d
a+b
c+d
N
Współczynnik Yule’a:
Φ=
ad − bc
(a + b)(a + c)(b + d )(c + d )
0 ≤ Φ ≤1
Jeśli rozkłady brzegowe są równe albo jeśli liczebność pól leżących na tej
samej przekątnej jest zerowa to współczynnik Yule’a równy jest 1.
Testowanie:
2
χ
Za pomocą testu
dla df=1 stopni swobody.
H
0
χ
2
χ
2
χ
2
:Φ = 0
≥ χα
≥ χα
=
/2
(test
(test
dwustronny
jednostron
)
ny)
N ( ad − bc ) 2
( a + b )( a + c )( b + d )( c + d )
Współczynnik Q-Kendalla:
• Jeśli zmienne są zdychotomizowane (np.
wartości powyżej mediany przyjmują
wartość 1, a poniżej 0) to lepiej stosować
współczynnik Q-Kendalla:
ad − bc
Q=
ad + bc
Współczynnik korelacji C – Pearsona
(współczynnik kontygencji)
Służy do badania siły związku między
zmiennymi mierzonymi na skali nominalnej
X
Y
2
1
0
2
a
d
g
a+d+g
1
b
e
h
b+e+h
0
c
f
i
c+f+i
a+b+c
d+e+f
g+h+i
N
Współczynnik C – Pearsona:
C=
χ
2
χ2 + N
w
k
χ 2 = ∑∑
i =1 j =1
( Fij − Eij ) 2
Eij
df = ( w − 1)(k − 1)
Fij - obserwowane
E ij - teoretyczne
Hipoteza zerowa:
Ho: C=0
• Testujemy podobnie jak współczynnik Yule’a dla
przyjętej powyżej liczby stopni swobody.
• Uwaga: bez testowania istotności można ulec
złudzeniu dużej wartości współczynnika gdyż jego
wartość silnie zależy od liczby wierszy i kolumn –
najwyższe wartości osiągane są dla macierzy
kwadratowych.
Przykład
2
1
0
n.j
Wa rtoś c i obs e rwowa ne
2
1
20
10
10
5
0
15
30
30
0,3
0,3
Wa rtoś c i te ore tyc z ne
2
1
2
13,5
13,5
1
7,5
7,5
0
9
9
0
15
10
15
40
0,4
45
25
30
100
ni.
0,45
0,25
0,3
1
0
18
10
12
ni.
0,45
0,25
0,3
100
n.j
0,3
0,3
0,4
nic e pomię dz y wa rtoś c ia mi obs e rwowa nymi a te ore tyc z nymi
2
1
0
2
6,5
-3,5
-3
1
2,5
-2,5
0
0
-9
6
3
1
Przykład c.d.
Różnice pomiędzy wartoś ciami obs erwowanymi a teoretycznymi
2
1
0
2
6,5
-3,5
-3
1
2,5
-2,5
0
0
-9
6
3
2
1
0
2
1
0
3,12963 0,907407
0,5
0,833333 0,833333
0
9
4
0,75
wartoś ć chi-kwadrat
wartoś ć C-P ears ona
19,9537037
0,40785419
Przykład c.d. - testowanie
Hiopoteza Ho: C = 0
df = (w-1)(k-1)= 2 x 2 = 4
obliczona wartoś ć chi-kwadrat=
p-value wartoś ci obs erw. chi=
Wnios ek: hipotezę Ho odrzucamy
19,9537
0,00051
Współczynnik V – Cramera:
Mierzy siłę związku pomiędzy zmiennymi,
których pomiary wyrażone są na skalach
nominalnych (podobnie jak C – Pearsona):
V =
χ
2
N min (( w − 1), ( k − 1) )
0 ≤V ≤1
Współczynnik V-Cramera dla poprzedniego przykładu
V= 0,315862
Testowanie jak poprzednio: hipotezę Ho odrzucamy na rzecz hipotezy alternatywnej (związek
pomiędzy X i Y istnieje)
Uwaga: Współczynnik V-Cramera nie zależy od ilości kolumn i wierszy, a więc jest bliższy
„prawdziwej” wielkości korelacji liniowej.
Współczynnik korelacji rang Spearmana
• Ma zastosowanie w ocenie siły związku
pomiędzy zmiennymi, które mierzono na
skali porządkowej lub których wartości
zostały porangowane.
• Wygodny i łatwy w stosowaniu – istnieją podobne jak np.
Kendalla nie tak jednak proste.
Współczynnik korelacji Spearmana (c.d.)
N
rS = 1 −
6∑ d
i =1
3
N −N
(−1 ≤ rS ≤ 1),
N ≥5
2
i
Testowanie współczynnika Spearmana
• Hipoteza zerowa: Ho: rs = 0.
• - dla 5 <= N <= 30 istnieją specjalne tablice,
tzw. tablice L Guilforda,
• - dla N > 30 przy pomocy testu t-Studenta 0
N – 2 stopniach swobody
•
(Używać oprogramowania)
t = rS
N −2
1 − rS2
Przykład – pomiar smakowitości:
• W badaniu sensorycznym pewnych
produktów spożywczych zastosowano skalę
pięciopunktową na wygląd ogólny (Y) oraz
smakowitość (X). Pobrano próbę o
liczebności n=15 i po jej zbadaniu
otrzymano:
Wyniki badań:
Wygląd ogólny
Smakowitość
di
3
3
2
4
3
5
4
5
2
4
3
3
2
4
2
2
3
1
4
2
4
3
5
2
2
2
4
1
3
2
1
0
1
0
1
1
1
0
0
2
1
-1
1
1
0
d i2
1
0
1
0
1
1
1
0
0
4
1
1
1
1
0
13
Testowanie:
6 ⋅13
rS = 1 −
= 0,98
2
15 ⋅ (15 − 1)
t = rS
N −2
13
= 0,98
= 17,7562
2
1 − rS
0,0396
Inne współczynniki korelacji:
• Na podstawie książki J. Kowal: Metody
statystyczne w badaniach sondażowych rynku:
- T- Czuprowa,
- Lambda,
- Rang Kendalla (tau),
- Z serii gamma,
- Korelacji dwuseryjnej,
- Korelacji punktowo-dwuseryjnej,
- Punktowo-czteropolowej phi,
- W – Kendalla,
- Korelacji częściowej Kendalla.

Badanie zależności pomiędzy zmiennymi

Transkrypt

Podobne dokumenty

Korelacja - Wydział Zarządzania i Ekonomii

∑ ∑ ∑ ∑

Analiza danych rynkowych i marketingowych z wykorzystaniem

(Wspó³czynnik korelacji Pearsona,Kendala,Spearmana)

miary odległości stosowane w algorytmach grupujących

Lista 1

Wyklad 5 - Ekonometria

Elementarne metody statystyczne 6

σσ ρ ρ ρ = ρ

Współczynnik korelacji odkształceń

Rozpoznawanie obrazów za pomocą funkcji korelacji.

Badanie zależności dwóch zmiennych losowych. Współczynniki

XYY i xxx

Statystyczne sterowanie procesami o danych stochastycznie