Korelacja krzywoliniowa i współzaleność cech niemierzalnych

Transkrypt

Korelacja krzywoliniowa i współzaleność cech niemierzalnych
Metody probabilistyczne i statystyka
Wykład 13
Korelacja krzywoliniowa
i współzależność cech
niemierzalnych
Dr Joanna Banaś
Zakład Badań Systemowych
Instytut Sztucznej Inteligencji i Metod Matematycznych
Wydział Informatyki Politechniki Szczecińskiej
Metody probabilistyczne i statystyka
Wykład 13
29. Współczynnik korelacji krzywoliniowej,
stosunek korelacyjny
ρ nie jest właściwym miernikiem współzależności, gdy zależność między
X i Y nie jest liniowa
y = g(x) – dowolna regresja 2-go rodzaju, wyznaczona na podstawie
próbki (xi, yi), i=1,…,n
Współczynnik zgodności
n
n
2
2
ˆ
y
−
g
(
x
)
y
−
y
i )
∑ ( i
∑ i=1 ( i i )
ϕ 2yx = i =1n
=
n
2
2
−
−
y
y
y
y
(
)
(
)
∑ i=1 i
∑ i=1 i
jest miernikiem zgodności wyznaczonej linii regresji z danymi w próbce
(29.1) Własności (współczynnika zgodności)
a)
b)
c)
Zgodność jest tym większa im ϕ2yx jest mniejsze
ϕ2yx ≠ ϕ2xy
0 ≤ ϕ2yx ≤ 1
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
Współczynnik korelacji krzywoliniowej
Współczynnik korelacji krzywoliniowej to wielkość
ryx = 1 − ϕ 2yx
zaś r2yx nazywamy współczynnikiem determinacji (im r2yx
bliższe 1, tym linia regresji lepiej dopasowana)
(29.2) Własności (współczynnika korelacji krzywoliniowej)
a)
b)
Współczynnik korelacji krzywoliniowej jest uogólnieniem
współczynnika korelacji liniowej, gdyż r2yx = r2 , jeśli g(x) = ax + b
Można go obliczyć dopiero po wyznaczeniu linii regresji, również dla
tablic korelacyjnych
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
Stosunek korelacyjny Pearsona
Niezależnym od regresji miernikiem współzależności cech jest stosunek
korelacyjny Pearsona, wyznaczany dla tablic korelacyjnych ze wzorów
2
=
e yx
s
2
y/x
2
y
s
w
=
2
∑ i=1 ( yi − y ) ni.
k
∑ j=1 ( y j
0
− y ) n. j
gdzie
s
2
y/x
jest wariancją średnich
warunkowych
(mierzy zróżnicowanie między
grupami, będące wynikiem
zmienności cechy X )
yi =
1
ni .
∑
k
j =1
0
y j nij
Stosunek korelacyjny e
2
xy
2
1
n
=
1
n
w
2
2
y
n
−
y
i
i
.
∑ i=1
k
2
2
y
n
−
y
∑ j=1 j . j
0
Tablica 29.1. Tablica korelacyjna
0
0
ni .
y1
X
Y
…
yk
0
x1
n11
…
n1k
n1.
…
…
…
…
…
xw
nw1
…
nwk
nw.
n. j
n.1
…
n.k
n
0
określamy analogicznie
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
Stosunek korelacyjny Pearsona
(29.3) Własności (stosunków korelacyjnych)
a)
b)
c)
d)
e)
2
e yx
∈ 〈 0,1〉
2
r 2 ≤ e yx
e yx = 0 ⇒ r = 0 (cechy są nieskorelowane)
r = 1 ⇒ e yx = e xy = 1 (zależność liniowa)
e yx ∈ (0,1) ⇒ e yx ≠ e xy
2
− r 2 określa miarę krzywoliniowości
Różnica M yx = e yx
związku
Jeśli przyjmuje wartości bliskie zera, wnioskujemy o liniowości
regresji
W przeciwnym przypadku wykorzystanie r do analizy jest
niepoprawne
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
Testy liniowości regresji
(29.4) Weryfikacja hipotezy o liniowości regresji
Model (2-wymiarowy rozkład normalny, parametry nieznane)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym,
nieznany współczynnik korelacji ρ i nieznany stosunek korelacyjny E2YX
Jeśli z populacji pobrano n-elementową próbkę, którą przedstawiono w
tablicy korelacyjnej z w > 2 klasami dla cechy X i k klasami dla cechy Y,
to statystyka
M YX n − w
⋅
, | EYX |< 1
F=
2
1 − EYX
w−2
ma rozkład Fishera-Snedecora z w−2 i n−w stopniami swobody przy
założeniu, że prawdziwa jest hipoteza zerowa H0: MYX = 0
Obszar krytyczny dla hipotezy alternatywnej H1: MYX ≠ 0 ma dla ustalonego
poziomu ufności α postać
K = 〈 F(1−α, w−2, n−w), ∞)
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
Weryfikacja hipotezy o liniowości regresji
Przykład
a)
b)
c)
Cel badania – analiza jakości produkcji w przedsiębiorstwie A
Jedna z hipotez: dzienna liczba braków, produkowana przez pracownika zależy od jego
stażu pracy
Zbadano 100 pracowników (poziom istotności 0.01)
Tablica przedstawia uzyskane wyniki o stażu pracy (cecha X w latach)
i dziennej liczbie braków (cecha Y w sztukach)
Określić siłę korelacji liczby braków
i stażu pracy
Obliczyć współczynnik korelacji
liniowej
Ocenić przydatność obu miar
współzależności testem liniowości
regresji (poziom istotności 0.05)
X
Y
0-4
4-8
8-12
12-16
16-20
0-2
−
−
10
20
−
2-4
5
−
10
10
15
4-6
5
10
−
−
5
6-8
10
−
−
−
−
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
30. Badanie współzależności cech
niemierzalnych
Model 1 (cechy wyrażone w skali porządkowej)
Jeśli wartości cech niemierzalnych wyrażone są w skali porządkowej, można nadać
im rangi, tzn. ponumerować wartości od najniższej do najwyższej (lub odwrotnie)
Miernikiem współzależności cech X i Y jest wówczas współczynnik korelacji
rang Spearmana:
n
2
6∑ i =1 ( xi − yi )
rS = 1 −
n(n 2 − 1)
gdzie xi i yi to rangi nadane i-tej parze wartości cech X i Y odpowiednio w próbce
(30.1) Własności (współczynnika Spearmana)
a)
rs ∈〈−1,1〉
b)
c)
rs = 0 – brak związku korelacyjnego
|rs| = 1 – związek funkcyjny
Jest miarą siły i kierunku związku korelacyjnego
Jest symetryczny
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
Współczynnik korelacji rang Spearmana
(30.2) Przykład
Tablica przedstawia informacje dotyczące zangażowania w pracę
organizacji studenckich oraz ocen w nauce badanej grupy studentów IV
roku WIPS
Student
Stopień zaangażowania
Średnia ocen z III roku studiów
A
mniej niż przeciętny
4,5
B
niski
4,0
C
wysoki
2,7
D
przeciętny
3,0
E
bardzo wysoki
2,7
F
bardzo niski
3,3
G
przeciętny
3,1
Określić siłę związku pomiędzy cechami
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
Badanie współzależności cech
niemierzalnych
Model 2 (cechy wyrażone w skali nominalnej)
Jeśli wartości cech niemierzalnych wyrażone są w skali nominalnej, to po
utworzeniu tablicy korelacyjnej, w której w jest liczbą kategorii cechy X, zaś k jest
liczbą kategorii cechy Y, można zbadać istnienie zależności testem statystycznym
Jeśli liczności nij ≥ 5 , i=1,…,w , j=1,…,k , to statystyka
w
k
χ 2 = ∑ i =1 ∑ j =1
( nij − npij )
2
npij
ma rozkład χ2 z (w−1)(k−1) stopniami swobody przy założeniu, że prawdziwa
jest hipoteza zerowa H0: X i Y są niezależne, gdzie npij są licznościami
hipotetycznymi, wyznaczonymi z rozkładów brzegowych, a pij = pi.⋅p.j
Obszar krytyczny dla hipotezy alternatywnej H1: X i Y są zależne ma dla
ustalonego poziomu ufności α postać
K = 〈 χ2 (1−α, (w−1)(k−1) ), ∞)
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
Badanie współzależności cech
niemierzalnych
Miarę siły związku między cechami wyznaczają m.in. współczynniki
oparte na statystyce χ2
współczynnik zbieżności V Cramera
χ2
V=
, gdzie g = min{w, k}
n( g − 1)
współczynnik T Czuprowa
χ2
T=
n ( w − 1)(k − 1)
(30.3) Własności
a)
b)
c)
{T, V } ⊂ 〈0,1〉
Cechy X, Y są niezależne ⇒ T = V = 0
T = V = 1 ⇔ zależność między X i Y jest funkcyjna
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
Badanie współzależności cech
niemierzalnych
(30.4) Przykład
W mieście A poddano ankiecie 200 osób z wyższym wykształceniem
Wyniki badania przedstawia tablica korelacyjna
Czy jest zadowolony z aktualnej pracy?
Wykształcenie
Tak
Nie
Techniczne
45
25
Ekonomiczne
35
25
Humanistyczne
30
40
Czy istnieje związek między kierunkiem ukończonych studiów a
zadowoleniem z aktualnej pracy ?
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 13
Dziękuję za uwagę
Opracowała Joanna Banaś