Ćwiczenia 10 – KORELACJA Zadanie 1. W sondażu - E-SGH

Transkrypt

Ćwiczenia 10 – KORELACJA Zadanie 1. W sondażu - E-SGH
Ćwiczenia 10 – KORELACJA
Zadanie 1. W sondażu przeprowadzonym przed wyborami prezydenckimi analizowano poparcie dla
kandydatów A i B. Wyniki zaprezentowano w tabeli:
Y (kandydat)
A
B
.
X (płeć)
M
20
40
...
K
10
30
...
...
...
100
.
a.
b.
c.
Należy sprawdzić czy wybór kandydata na prezydenta zależy od płci?
Jeżeli występuje korelacja wyznaczyć i zinterpretować współczynnik zbieżności V-Cramera.
Czy wyniki dla tej próby są analogiczne jak w populacji generalnej? Odpowiedź uzasadnić.
Zadanie 2. Zbadano miesięczne wydatki na pewne dobro w 100 gospodarstwach domowych 2, 3 i 4osobowych. Wyniki zaprezentowano w tabeli:
2
3
4
.
0-20
20-40
40-60
13
15
3
...
7
23
9
...
5
7
18
...
.
...
...
...
100
W oparciu o podane informacje należy:
a. Określić typ/rodzaj dobra analizowanego w zadaniu.
b. Określić zróżnicowanie między gospodarstwami domowymi a wydatkami na dobro.
c. Wyznaczyć rozkłady brzegowe i warunkowe.
d. Wyznaczyć współczynnik korelacji liniowej oraz sprawdzić czy występuje zależność liniowa między
zmiennymi X i Y.
Zadanie 3. Zbadano związek między dziennym spożyciem pokarmu (w kcal) a nadwagą (w kg) wśród 6 losowo
wybranych osób:
spożywany pokarm
2800
3400
4000
4100
4800
5400
(ilość kcal)
nadwaga (w kg)
1
4
7
8
11
13
Należy wyznaczyć i zinterpretować współczynnik korelacji liniowej Pearsona. Przeprowadzić weryfikację
stosownej hipotezy dla
0,05.
Zadanie 4. Na podstawie danych w tabeli należy porównać siłę zależności między oceną stopnia wyposażenia w
dobra trwałego użytkowania a miejscem zamieszkania do siły zależności między oceną warunków
mieszkaniowych a miejscem zamieszkania.
ocena warunków mieszkaniowych
ocena wyposażenia
miejsce
miejsce
zła i
średnia
dobra i
zła i
średnia
dobra i
zamieszkazamieszkabardzo zła
bardzo
bardzo zła
bardzo
nia
nia
dobra
dobra
m
15
65
20
m
35
45
20
w
10
60
30
w
30
50
20
1
Zadanie 5. Na podstawie danych w tabeli należy wyznaczyć i zinterpretować współczynnik korelacji rang
Spearmana.
kraj
rangi rozwoju
rangi stabilności
ekonomicznego
politycznej
A
2
1
B
C
6
1
4
3
D
E
F
8
3
5
6
2
10
G
H
I
10
4
9
8
5
9
J
7
7
Zadanie 6. Na podstawie informacji w tabeli należy wyznaczyć i zinterpretować współczynnik korelacji rang
Spearmana.
województwo
ludność (w mln os.)
powierzchnia (w tys
km kwadr.)
dolnośląskie
2,98
19,95
kujawsko-pomorskie
lubelskie
2,10
2,23
17,97
25,11
lubuskie
łódzkie
małopolskie
1,02
2,65
3,22
13,98
18,22
15,14
mazowieckie
5,07
35,60
opolskie
1,09
9,41
Zadanie 7. W pewnym mieście zbadano zależność pomiędzy miejscem zamieszkania a posiadaniem samochodu
w grupie 120 osób aktywnych zawodowo.
miejsce zamieszkania
posiada samochód
nie posiada
samochodu
m – miasto
25
35
w- wieś
35
25
Należy zweryfikować hipotezę o niezależności stochastycznej między badanymi zmiennymi, przyjąć poziom
istoności 0,01.
Zadanie 8. Na zlecenie pewnej międzynarodowej korporacji poproszono firmę zewnętrzną specjalizującą się w
raportach płacowych o zbadanie czy występuje zależność między stażem pracy a wynagrodzeniem.
staż pracy (w latach)
1
1,5
2,5
3
2
wynagrodzenie netto (w euro)
800
2500
2000
3000
1500
Na podstawie 5-osobowej próby losowej należy:
a. zweryfikować czy zależność występuje.
b. jeżeli zależność występuje wyznaczyć jej siłę i kierunek oraz zinterpretować uzyskany wynik.
c. sprawdzić czy zależność jest istona w populacji generalnej pracowników korporacji, jeżeli rozkład pracy
i wynagrodzenia mają rozkład normalny. Przyjąć poziom istotności 0,05.
2
Zadania sprawdzające
Każdą odpowiedź jako: T – prawdziwą lub N – nieprawdziwą.
Zadanie 1.1
Współczynnik korelacji liniowej:
a. może być wyznaczany tylko wtedy, gdy obie zmienne są mierzalne
b. może przyjmować wartości ujemne
c. jest miarą zależności dla związków krzywoliniowych
T N
T N
T N
Zadanie 1.2
Test zgodności chi-kwadrat:
a. jest jednym z wielu testów parametrycznych stosowanych w statystyce
b. jest wykorzystywany do weryfikacji hipotezy o równości średnich w analizie wariancji
c. jego zastosowanie wymaga znajomości parametrów rozkładu w populacji
T N
T N
T N
Zadanie 1.3
Jeżeli zmienne X i Y są niezależne stochastycznie, to:
a. prawdopodobieństwa z rozkładów warunkowych są identyczne jak odpowiednie prawdopodobieństwa
z rozkładów brzegowych,
T N
b. kowariancja zmiennych X i Y będzie wynosić 0,
T N
c. średnie warunkowe zmiennej X są sobie równe i równe średniej ogólnej zmiennej X
T N
Zadanie 1.4
Rozkłady warunkowe:
a. to rozkłady jednej zmiennej przy ustalonych wartościach drugiej zmiennej,
b. wyznacza się je łącznie dla cechy X i Y,
c. są wykorzystywane do wyznaczenia kowariancji X,Y.
T N
T N
T N
3
Wzory – Analiza współzależności – korelacja
1 l
y = ∑ y j n. j
n j =1
1 k
x = ∑ xi ni.
n i =1
Średnie ogólne:
s x2 =
Wariancje ogólne:
1 k
( xi − x ) 2 ni.
∑
n − 1 i =1
1
xj =
n. j
Średnie warunkowe:
Wariancje warunkowe:
k
∑ xi nij
i =1
1 l
s =
( y j − y ) 2 n. j
∑
n − 1 j =1
2
y
1 l
yi = ∑ y j nij
ni. j =1
1 k
s ( x) =
( xi − x j ) 2 nij
∑
n. j − 1 i =1
2
j
1 l
s ( y) =
( y j − yi ) 2 nij
∑
ni . − 1 j =1
2
i
Kowariancja:
cov( x, y ) = c xy =
1 n
1  n

(
x
−
x
)(
y
−
y
)
=
 ∑ xi yi − nx y 
∑
i
i
n − 1 i =1
n − 1  i =1

a. dane indywidualne
b. dane pogrupowane (w tablicy korelacyjnej)
cov( x, y ) = cxy =

1 k l
1  k l
 ∑∑ xi y j nij − nx y 
(
)
(
)
x
−
x
y
−
y
n
=
∑∑
i
j
ij

n − 1 i =1 j =1
n − 1  i =1 j =1

4
Teoria – Analiza współzależności (korelacja)
Def. 1. Empiryczny dwuwymiarowy rozkład cechy (X,Y) lub inaczej – empiryczny łączny rozkład cech
X, Y określają liczebności nij (i=1,2,…,k; j=1,2,…,l) odpowiadające parom wartości (xi, yj).
Def. 2. Rozkład brzegowy (bezwarunkowy) cechy X wyznaczają liczebności ni. określone jako:
l
ni. = ∑ nij
i = 1,2,..., k
j =1
Def. 3. Rozkład brzegowy (bezwarunkowy) cechy Y wyznaczają liczebności n.j określone jako:
k
n. j = ∑ nij
j = 1,2,..., l
i =1
Korelacja – badanie zbiorowości pod względem dwóch cech: X i Y
Badanie stochastycznej niezależności zmiennych X, Y
Test niezależności
Wyniki z próby → wnioskowanie o zależności w populacji
Weryfikacja hipotez:
H0: ∧ , pij = pi.p.j
zmienne są stochastycznie niezależne
H1: ⋁ , pij ≠ pi.p.j
zmienne są stochastycznie zależne
(nij − nˆij ) 2
χ = ∑∑
nˆij
i =1 j =1
k
2
l
gdzie
nˆij =
ni.n. j
n
Obszar krytyczny – zawsze prawostronny : P(χ2≥χ2α,(k-1)(l-1))=α
−liczba stopni swobody; = ( − 1)( − 1).
k – liczba wierszy,
l – liczba kolumn
Mierniki korelacji:
5
1. Współczynnik zbieżności V-Cramera
V=
χ2
n(m − 1)
Własności:
a. Wskaźnik symetryczny, tzn.:Vxy=Vyx
b. Przyjmuje wartości z przedziału [0,1]
Vxy = 0 – stochastyczna niezależność dwóch cech
Vxy = 1 – związek funkcyjny
c. Nie wskazuje kierunku korelacji dwóch cech
d. Może być stosowany zarówno w przypadku cech mierzalnych, jak i niemierzalnych.
2. Współczynnik korelacji liniowej (Pearsona) – r2 = ryx
r 2 = ryx =
c( xy ) =
C yx
S ( y ) S ( x)
1 k
∑
n − 1 i =1
=
cov( y, x)
S ( y ) S ( x)
l
∑ ( x − x )( y
j =1
i
j
− y )nij
Własności:
a. Wskaźnik symetryczny, tzn.: rxy = ryx
b. Wskazuje zarówno siłę, jak i kierunek zależności.
c. Ma zastosowanie w przypadku badania związków liniowych.
d. Przyjmuje wartości z przedziału [-1,1]
rxy = -1 – związek funkcyjny: liniowy ujemny.
rxy = 0 - brak zależności liniowej
rxy = 1 – związek funkcyjny: liniowy dodatni.
e. Może być stosowany wyłącznie w przypadku cech mierzalnych.
UWAGA!!! Wnioskowanie statystyczne
Badanie statystycznej istotności współczynnika korelacji liniowej (r2 <= rxy = ryx)
H0 : ρ = 0
H1 : ρ ≠ 0
temp =
ryx
1 − ryx2
P ( t ≥ tα , s ) = α
n−2
λ = (−∞;−tα ,s
∪ tα ,s ;+∞)
gdzie:
−2
– liczba stopni swobody
6
3. współczynnik rang (Spearmana)
n
rd = 1 −
6∑ d i2
i =1
n( n 2 − 1)
, gdzie
d i = a1 − bi
gdzie ! – różnica między rangami
Cechy statystyczne:
-mierzalne
-niemierzalne – dające się rangować
Własności:
a. Wskaźnik symetryczny
b. Wskazuje zarówno siłę, jak i kierunek zależności
c. Przyjmuje wartości z przedziału [-1,1]
rd=1 – całkowita zgodność rang,
rd=-1 – całkowita niezgodność rang,
rd=0 – przypadkowe skojarzenie rang.
d. Może być stosowany wyłącznie w przypadku cech, które można rangować.
7