Zmienna losowa dwuwymiarowa i korelacja

Transkrypt

Zmienna losowa dwuwymiarowa i korelacja
WIELKA SGH-OWA
POWTÓRKA ZE STATYSTYKI
Zmienna losowa dwuwymiarowa
i
korelacja
Zmienna losowa dwuwymiarowa
Definiujemy ją tak samo, jak zmienną losową
jednowymiarową, z tym że poszczególnym
zdarzeniom elementarnym danego
doświadczenia przyporządkowuje się nie jedną,
lecz dwie liczby rzeczywiste.
Dwuwymiarowa zmienna losowa
skokowa
• Przyjmuje skończoną, bądź przeliczalną liczbę
wartości
• Każda wartość ma prawdopodobieństwo
odpowiednio 𝑝𝑖𝑗
• Zachodzi przy tym warunek
𝑖 𝑗 𝑝𝑖𝑗 =1
Kowariancja
• Informuje o kierunku zależności –
interpretacja tylko znaku
𝑐𝑥𝑦 > 0 ⇒ 𝑝𝑟𝑧𝑦 𝑥 ↑,
𝑦↑
𝑐𝑥𝑦 < 0 ⇒ 𝑝𝑟𝑧𝑦 𝑥 ↑,
𝑦↓
• 𝑐𝑥𝑦 =
1
𝑛−1
𝑖
𝑗 (𝑥𝑖
− 𝑥)(𝑦𝑗 − 𝑦) × 𝑛𝑖𝑗
Korelacja
• Współczynnik korelacji liniowej Pearsona –
info jak silna jest liniowa zależność między X a
Y w badanej próbie
• 𝑟=
𝑐𝑥𝑦
𝑆 𝑥 𝑆(𝑦)
, 𝑟 ∈< −1,1 >
• Znak r zależy od znaku 𝑐𝑥𝑦 , zatem interpretuje
się |r| <- im bliżej 1, tym silniejsza korelacja
2
• 𝑆 𝑥 =
1
𝑛−1
2
(𝑥
−
𝑥)
𝑛𝑖
𝑖 𝑖
Badania istotności współczynnika
korelacji liniowej Pearsona
• Czy liniowa zależność między X a Y występuje
w populacji
• 𝐻0 : ρ = 0 (nie ma zależności); 𝐻1 : ρ ≠ 0
𝑟
𝑡=
𝑛−2
1 − 𝑟2
(−∞; −𝑡α,𝑛−2 > ∪ < 𝑡α,𝑛−2 ; +∞)
Wartość testu należy do przedziału = odrzucamy
𝐻0
Niezależność zmiennych
(X,Y ) jest niezależną zmienną losową typu skokowego
• Test niezależności χ 2
𝐻0 : 𝑝𝑖𝑗 = 𝑝𝑖. 𝑝.𝑗 (brak zależności pomiędzy X i Y)
𝐻1 :𝑝𝑖𝑗 ≠ 𝑝𝑖. 𝑝.𝑗 (X i Y są zależne)
χ2 =
(𝑛𝑖𝑗 −𝑛𝑖𝑗 )2
𝑖
𝑗
𝑛𝑖𝑗
𝑛𝑖𝑗 - liczebności empiryczne
𝑛𝑖𝑗 - liczebności teoretyczne
Wartość testu zależy od obszaru krytycznego.
Współczynnik zbieżności V-Crammera
• Info o sile zależności
• 𝑉=
χ2
,
𝑛(𝑚−1)
m = min(k, l)
• 𝑉 ∈< 0,1 > - im bliżej 1, tym większa
zależność (niekoniecznie liniowa!)
• Porównanie wartości r i V
Współczynnik korelacji rang
Spearmana
• Na ile zgodne są preferencje
• Porównywanie rankingów – na ile są zgodne
wg różnych kryteriów
• 𝑟𝑑 = 1 −
6 𝑑2
𝑛 𝑛2 −1
, 𝑟𝑑 ∈< −1, 1 >
-1 – absolutnie niezgodne (lustrzane odbicie)
1 – absolutnie zgodne
Zadania
Zad. 1 (E. Słotwińska-Rosłanowska)
Dla 100 losowo wybranych rodzin zanotowano
liczbę dzieci w rodzinie na utrzymaniu (X) oraz
czas poświęcony przez kobietę w tym
gospodarstwie na czynności związane z
utrzymaniem domu (Y w godzinach):
a) Oceń, która ze zmiennych jest zmienną
zależną, a która niezależną
b) Wyznacz średni czas poświęcony na
gospodarstwo domowe przez kobiety
Zad. 1 (c.d.)
c) Wyznacz średnią liczbę dzieci w gospodarstwie
d) Wyznacz średni czas na gospodarstwo domowe z
0 liczbą dzieci i 2 dzieci
e) Czy można uznać, że wraz ze wzrostem liczby
dzieci rośnie czas poświęcony na utrzymanie
domu
f) Czy w badanej próbie istnieje liniowa zależność
pomiędzy czasem na gosp. dom. a liczbą dzieci?
g) Czy zależność taka występuje dla ogółu
gospodarki?
Zad. 1 (c.d.)
Czas (h)
0-10
10-20
0
29
11
40
1
18
12
30
2
13
17
30
60
40
100
Liczba dzieci
a) Zmienna zależna: czas (Y); zmienna niezależna: liczba dzieci (X)
5×60+15×50
b) y =
=9
100
Odp: Średnio na utrzymani domu w tym domu poświęcano 9h.
0×40 + 1×30 + 3×30
c) x =
= 0,9
100
5×29 + 15×11
d) 𝑦𝑥=0 =
= 7,75
40
5×13 + 15×17
𝑦𝑥=2 =
= 10,7
30
Zad. 1 (c.d.)
e) 𝑐𝑥𝑦 =
1
𝑛−1
1
×
100−1
𝑖
𝑗 (𝑥𝑖
− 𝑥)(𝑦𝑗 − 𝑦) × 𝑛𝑖𝑗 =
[ 0 − 0,9 5 − 9 × 29 +
0 − 0,9 15 − 9 × 11 + 1 − 0,9 (5 −
Zad. 1 (c.d.)
2
f) 𝑆 𝑦 =
1
×
100−1
[ 5−9
2
× 60 +
Zad. 1 (c.d.)
g) 𝑡 =
0,2
1−0,2
×
100
−
2
≈
2,06
2
−∞; −𝑡0,05;98 >∪< 𝑡0,05;98 ; +∞ ⇒
(−∞; −1,98 >∪< 1,98; +∞)
Odp: W populacji zależność występuje.
7.11
Dla 15 losowo wybranych studentów ustalono
liczbę egzaminów w sesji zimowej (X) i liczbę
wizyt w kinie (Y) w styczniu br. Obliczono m.in.:
𝑆 𝑥 = 0,99; 𝑥 = 4,4. Zbadać, czy prawdą jest,
że im cięższa sesja przed studentami, tym
rzadziej pozwalają sobie na wyjście do kina.
Przyjąć poziom istotności 0,1. jakie założenie
dotyczące rozkładu obu zmiennych należy
przyjąć?
7.11 - rozwiązanie
𝑆 𝑥 = 0,99; 𝑛 = 15; 𝑥 = 4,4; α = 0,1
Liczba
egzaminów
(X)
Liczba
wizyt w
kinie (Y)
3
4
5
4
5
3
6
4
5
5
4
4
5
3
6
2
1
0
1
0
2
0
1
1
0
1
1
0
2
0
Pytanie: 𝑐𝑥𝑦 < 0, weryfikacja hipotezy, czy dla
populacji jest zależność
Czego brakuje do obliczeń: 𝑦, 𝑆 𝑦 , 𝑟, 𝑡
7.11 – rozwiązanie
𝑦=
2+1+0…
15
2
= 0,8; 𝑆 𝑦 =
1
×
15−1
[(2 −
7.11 - rozwiązanie
𝑟=
𝑡=
−0,7
0,99×0,77
= −0,91
−0,91
1−(−0,91)2
15 − 2 = −7,91
𝑡0,1;13 = 1,771 ⇒ (−∞; −1,771 >∪<
7.16
Dokonano pomiaru siły zależności między trzema zmiennymi
dotyczącymi 49 firm.
x – wysokość kosztów poniesionych przez firmę ( w mln USD)
y – wysokość miesięcznych zysków uzyskanych przez firmę ( w
mln USD)
z – poziom skłonności do ryzyka właściciela firmy (niski, średni,
wysoki)
Które układy miar ( współczynnika V Crammera i współczynnika
korelacji) budzą zastrzeżenia i jakiego typu:
𝑎) 𝑟𝑥𝑦 = - 0,4 𝑉𝑥𝑦 = - 0,5
𝑏) 𝑟𝑥𝑦 = 0 𝑉𝑥𝑦 = 1,2
𝑐) 𝑟𝑥𝑦 = 0,9 𝑉𝑥𝑦 =0,7
7.16 - rozwiązanie
a) 𝑟𝑥𝑦 = - 0,4
𝑉𝑥𝑦 = - 0,5
𝑉 ∈ < 0,1 >
b) 𝑟𝑥𝑦 = 0
𝑉𝑥𝑦 = 1,2
𝑉 ∈ < 0,1 >, r=0 – cechy liniowo nieskorelowane
c) 𝑟𝑥𝑦 = 0,9 𝑉𝑥𝑦 = 0,7
𝑟 > 𝑉 Wartość r zawiera się w V
7.17
W pewnej klasie gimnazjalnej liczącej 17 uczniów na wzór
programu PISA pilotowanego przed OECD przeprowadzono
badanie umiejętności 15-latków. Testowano a)czytanie ze
zrozumieniem, b)rozwiązywanie zadań matematycznych,
c)rozwiązywanie problemów i rozumowanie w naukach
przyrodniczych.
Oto ranking uczniów w zakresie dwóch pierwszych umiejętności:
Uczeń
A
Test mat. 1
Czytanie 1
B
2
2
C
3
5
D
4
3
E
5
6
F
6
11
G
7
8
H
8
4
I J K L M N O P R
9 10 11 12 13 14 15 16 17
10 16 7 12 13 9 17 14 15
Czy w badanej grupie 15-latków umiejętność rozwiązywania
zadań matematycznych oraz czytania ze zrozumieniem są ze sobą
powiązane?
Ocenić siłę skorelowania badanych zmiennych.
7.17-rozwiązanie
𝒅𝒊 𝟐
𝒅𝒊
-2
4
1
1
-1
1
-5
25
-1
1
4
16
-1
1
-6
36
4
16
5
25
-2
4
2
4
2
4
17
𝑑𝑖 2 = 138
1
6∗138
=1
17 ∗288
𝑟𝑑 = 1 −
=1 – 0,16911≈ 0,83
828
=
4896
Odp: Wartość współczynnika korelacji rang wynosi w
przybliżeniu 0,83, więc umiejętność rozwiązywania
testów matematycznych i szybkiego czytania są ze
sobą dość silnie powiązane.
Dziękujemy za uwagę! 
Anna Bylina
Aleksandra Petrykiewicz