ROZWIĄZANIA PRZYKŁADOWYCH ZADAŃ KORELACJA

Transkrypt

ROZWIĄZANIA PRZYKŁADOWYCH ZADAŃ KORELACJA
ROZWIĄZANIA PRZYKŁADOWYCH ZADAŃ
KORELACJA zmiennych jakościowych (niemierzalnych)
Zadanie 1
Zapytano 180 osób (w tym 120 mężczyzn) o to czy rozpoczynają dzień od wypicia kawy czy też
może preferują herbatę. Wśród kobiet 57 wolało kawę, a wśród mężczyzn zwolennikami herbaty
okazało się być 42 osoby. Zbadaj występowanie współzależności między płcią a preferowanym
porannym napojem.
Kobiety
Mężczyźni
Herbata
3
42
45
Kawa
57
78
135
60
120
180
n = 180, k = 2, m = 2, l = 2
ij
11
12
21
22
chi-kwadrat: 19,2
liczebności
empiryczne
n_ij
3
42
57
78
liczebności
teoretyczne
n^_ij
15
30
45
90
(n_ij-n^_ij)^2 / n^_ij
9,6
4,8
3,2
1,6
współczynnik V-Cramera: 0,33
Na podstawie wielkości współczynnika V Cramera możemy stwierdzić, że istnieje nieznaczna
zależność między płcią o preferowanym porannym napojem (inaczej: płeć w nieznacznym stopniu
wpływa na rodzaj wybieranego rano napoju).
Zadanie 2
Uzupełnij tabelę korelacyjną. Zbadaj związek między aktywnością zawodową a sposobem
spędzania wolnego czasu.
Pracujący
Spacer z psem
Bezrobotny
21
Oglądanie TV
40
Spotkania ze znajomymi
52
Emeryt
43
85
18
17
100
250
Dane w zadaniu są sprzeczne. Nie da się w sposób sensowny uzupełnić danych w tabeli (tzn. tak, by
każda komórka zawierała całkowitą liczbę nieujemną).
Zadanie 3
Zapytano 200 osób (w tym 45% kobiet) o ulubiony sport (3 możliwości). Kobiety preferowały
siatkówkę (58 osób) oraz pływanie (28), podczas gdy mężczyźni okazali się zdecydowanymi
zwolennikami piłki nożnej (72 osoby). Tylko 21 mężczyzn wybrało pływanie jako swoją ulubioną
dyscyplinę sportową. Czy można stwierdzić, że płeć determinuje rodzaj wybieranej aktywności
fizycznej?
Kobiety
Mężczyźni
Siatkówka
58
17
75
Pływanie
28
21
49
Piłka nożna
4
72
76
90
110
200
n = 200, k = 2, m = 3, l = 2
ij
11
12
21
22
31
32
chi-kwadrat: 83,09
liczebności
empiryczne
n_ij
58
17
28
21
4
72
liczebności
teoretyczne
n^_ij
34
41
22
27
34
42
(n_ij-n^_ij)^2 / n^_ij
17,42
14,26
1,61
1,31
26,67
21,82
współczynnik V-Cramera: 0,64
Badając zależność pomiędzy płcią a ulubioną dyscypliną sportową można stwierdzić, że istnieje
związek korelacyjny między analizowanymi zmiennymi o umiarkowanej sile. Oznacza to, że płeć w
dość dużym stopniu determinuje rodzaj ulubionego sportu.
Zadanie 4
Wyniki ankiety na temat kupowania produktów pod wpływem reklamy przedstawia tabela.
Kobiety
Mężczyźni
Czy zdarzyło się Panu/Pani kupić
produkt pod wpływem reklamy?
Nigdy
Tak, rzadko
Tak,
często
7
32
28
45
16
5
Na podstawie zebranych danych oceń, stosując odpowiednią miarę statystyczną, wielkość związku
korelacyjnego między badanymi cechami.
Nigdy Tak, rzadko Tak, często
Kobiety
7
32
28
67
Mężczyźni
45
16
5
66
52
48
33
133
n = 133, k = 3, m = 2, l = 2
ij
11
12
13
21
22
23
chi-kwadrat: 42,92
liczebności
empiryczne
n_ij
7
32
28
45
16
5
liczebności
teoretyczne
n^_ij
26
26
24
24
17
16
(n_ij-n^_ij)^2 / n^_ij
14,07
1,49
0,6
18,83
0,02
7,9
współczynnik V-Cramera: 0,57
Pomiędzy badanymi cechami istnieje umiarkowana zależność. Oznacza to, że skłonność do zakupu
danego produktu pod wpływem reklamy w średnim stopniu zależy od płci.
Zadanie 5
W grupie 50 osób (w tym 30% kobiet) 58% posiadało prawo jazdy (w tym 19 mężczyzn). Oblicz
współczynnik V Cramera, zinterpretuj wynik.
Kobiety
Mężczyźni
Posiada prawo jazdy
10
19
29
Nie posiada prawa jazdy
5
16
21
15
35
50
n = 50, k = 2, m = 2, l= 2
ij
11
12
21
22
chi-kwadrat: 0,14
liczebności
empiryczne
n_ij
10
19
5
16
liczebności
teoretyczne
n^_ij
9
20
6
15
(n_ij-n^_ij)^2 / n^_ij
0,03
0,03
0,03
0,03
współczynnik V-Cramera: 0,05
Na podstawie współczynnika V Cramera nie można stwierdzić statystycznie istotnej zależności
między płcią a faktem posiadania uprawnień do prowadzenia pojazdów. Oznacza to, że płeć nie
określa (nie ma wpływu) na posiadanie prawa jazdy.
KORELACJA
zmiennych ilościowych (mierzalnych)
Zadanie 1
Przedstaw graficznie dane zaprezentowane w tabeli. Na podstawie wykresu oceń korelację między
badanymi zmiennymi. Która ze zmiennych jest zależną, a która niezależną?
Punkty otrzymane na egzaminie 20 10 15 17 19 4 7
Ilość zdobytych punktów
Czas nauki (w godzinach)
8
3,5 7
7,5 9
18 13 11 10 16 13 7
0 2,5 8
4,5 4
4
6
5
3
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
0
1
2
3
4
5
6
7
8
9
Czas nauki (w godzinach)
Na podstawie prezentacji graficznej danych empirycznych można stwierdzić istnienie dodatniej
korelacji między badanymi zmiennymi, co oznacza, że wraz z wydłużeniem się czasu nauki,
wzrasta także liczba uzyskanych punktów na egzaminie.
Zmienna zależna:
Ilość zdobytych punktów
Zmienna niezależna: Czas nauki
Zadanie 2
Przeprowadzono badanie na temat dochodów i wydatków warszawskich rodzin w 2006 roku.
Wybrane obserwacje przedstawiono w tabeli. Czy na podstawie tych danych można stwierdzić, że
występuje związek pomiędzy badanymi zmiennymi? Dokonaj wstępnej oceny na podstawie
wykresu, a następnie odpowiedz na pytanie stosując odpowiednią miarę zależności.
Miesięczne wydatki (średnia za ostatni rok)
1100 900 1600 1700 1800 1200 700
Miesięczne dochody netto (średnia za ostatni rok) 1200 850 1500 2100 2050 1500 730
Uwaga! W rozwiązaniu tego zadania przyjmuje się, że zmienną zależną są wydatki. Oznacza to, że
podchodzimy do zadania następująco: widzimy ile zarabiamy i do tego dostosowywujemy nasze
wydatki. Nie jest to jedyne możliwe podejście. Można także przyjąć jako zmienną zależną dochody.
Wówczasmamy do czynienia z taką sytuacją: patrzymy ile musimy wydać i do tego
dostosowywujemy nasze dochody, tzn. w zależności od wielkości wydatków poszukujemy nowego
miejsca pracy (lub też rezygnujemy z dotychczasowej).
1800
1700
Miesięczne wydatki
1600
1500
1400
1300
1200
1100
1000
900
800
700
500
750
1000
1250
1500
1750
2000
2250
Miesięczne dochody
Na podstawie wykresu można stwierdzić istnienie dodatniej zależności między badanymi
zmiennymi, co zonacza, że wzrostowi miesięcznych dochodów towarzyszy wzrost wydatków.
Lp.
1
2
3
4
5
6
7
X
Y
Miesięczne dochody
1200
850
1500
2100
2050
1500
730
Miesięczne wydatki
1100
900
1600
1700
1800
1200
700
9930
9000
x_sredni = 1418,57
S^2(x) = 245926,53
S(x) = 495,91
x*y
1320000
765000
2400000
3570000
3690000
1800000
511000
14056000
(x-x_sredni)^2
47773,47
323273,47
6630,61
464344,9
398702,04
6630,61
474130,61
1721485,71
(y-y_sredni)^2
34489,8
148775,51
98775,51
171632,65
264489,8
7346,94
343061,22
1068571,43
y_sredni = 1285,71
S^2(y) = 152653,06
S(y) = 390,71
cov (x,y) = 184122,45
r_xy = 0,95
Bazując na wielkości współczynnika korelacji liniowej Pearsona można stwierdzić, że pomiędzy
badanymi cechami istnieje bardzo silna (prawie liniowa) zależność dodatnia. Oznacza to, że
dochody w bardzo dużym stopniu determinują dochody, wraz ze wzrostem dochodów, rosną także
wydatki.
Zadanie 3
Na podstawie danych w tabeli wyznacz współczynnik korelacji Pearsona. Wynik zinterpretuj.
Staż pracy (w latach)
10
8
2
1
9
12
7
Wynagrodzenie miesięczne brutto (w PLN) 2500 1800 1600 1400 1700 2400 1800
X
Lp.
1
2
3
4
5
6
7
Y
Staż pracy (w
Wynagrodzenie
latach)
miesięczne brutto (w PLN)
x*y
10
2500
25000
8
1800
14400
2
1600
3200
1
1400
1400
9
1700
15300
12
2400
28800
7
1800
12600
49
x_sredni = 7
S^2(x) = 14,29
S(x) = 3,78
cov (x,y) = 1185,71
13200
100700
(x-x_sredni)^2
9
1
25
36
4
25
0
100
(y-y_sredni)^2
377346,94
7346,94
81632,65
235918,37
34489,8
264489,8
7346,94
1008571,43
y_sredni = 1885,71
S^2(y) = 144081,63
S(y) = 379,58
r_xy = 0,83
Według wielkości współczynnika Pearsona należy stwierdzić, że pomiędzy badanymi zmiennymi
istnieje bardzo silna korelacja dodatnia. Oznacza to, że staż pracy w bardzo dużym stopniu wpływa
na wynagrodzenie. Wraz z wydłużeniem się stażu pracy, wzrasta również wynagrodzenie.
Zadanie 4
_
Dane są: cov (x, y) = 672 , S2(x) = 16, V(y) = 25%,
y = 800,
gdzie:
X – ilość karatów,
Y – cena diamentu (w PLN).
Wyznacz współczynnik korelacji Pearsona. Wynik zinterpretuj.
r_xy = 0,84
S(x) = 4, S(y) = 200
Pomiędzy analizowanymi zmiennymi istnieje bardzo silna korelacja dodatnia, co oznacza, że wraz
ze wzrostem ilości karatów zwiększa się także cena diamentu (związek jest bardzo silny – w
związku z czym cena diamentu w bardzo dużym stopniu jest określona poprzez ilość diamentów).
Zadanie 5
Przedstaw graficznie dane zawarte w tabeli. Zinterpretuj otrzymany wykres. Która ze zmiennych
jest objaśniająca, a która objaśniana?
Ilość znajomych
12
13
11
10
9
12
11 7
8
4
20
Wydatki na alkohol (m - cznie, w PLN) 250 300 200 100 50 170 70 100 40 10 300
300
275
Wydatki na alkohol
250
225
200
175
150
125
100
75
50
25
0
2,5
5
7,5
10
12,5
15
17,5
20
Ilość znajomych
Na podstawie wykresu można stwierdzić istnienie dodatniego związku korelacyjnego między
badanymi cechami, co oznacza, że wraz ze zwiększaniem się grona znajomych rosną także wydatki
na alkohol. W takim ujęciu zmienną objaśniającą jest ilość znajomych, a zmienną objaśnianą
wydatki na alkohol.
Można na to zadanie popatrzeć także odwrotnie (zmienna objaśniająca: wydatki na alkohol,
zmienna objaśniana: ilość znajomych). Wówczas to wielkość grona znajomych będzie zależała od
tego ile wydajemy na używki w płynnej postaci.

Podobne dokumenty