Zmienna losowa dwuwymiarowa i korelacja
Transkrypt
Zmienna losowa dwuwymiarowa i korelacja
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Zmienna losowa dwuwymiarowa i korelacja Zmienna losowa dwuwymiarowa Definiujemy ją tak samo, jak zmienną losową jednowymiarową, z tym że poszczególnym zdarzeniom elementarnym danego doświadczenia przyporządkowuje się nie jedną, lecz dwie liczby rzeczywiste. Dwuwymiarowa zmienna losowa skokowa • Przyjmuje skończoną, bądź przeliczalną liczbę wartości • Każda wartość ma prawdopodobieństwo odpowiednio 𝑝𝑖𝑗 • Zachodzi przy tym warunek 𝑖 𝑗 𝑝𝑖𝑗 =1 Kowariancja • Informuje o kierunku zależności – interpretacja tylko znaku 𝑐𝑥𝑦 > 0 ⇒ 𝑝𝑟𝑧𝑦 𝑥 ↑, 𝑦↑ 𝑐𝑥𝑦 < 0 ⇒ 𝑝𝑟𝑧𝑦 𝑥 ↑, 𝑦↓ • 𝑐𝑥𝑦 = 1 𝑛−1 𝑖 𝑗 (𝑥𝑖 − 𝑥)(𝑦𝑗 − 𝑦) × 𝑛𝑖𝑗 Korelacja • Współczynnik korelacji liniowej Pearsona – info jak silna jest liniowa zależność między X a Y w badanej próbie • 𝑟= 𝑐𝑥𝑦 𝑆 𝑥 𝑆(𝑦) , 𝑟 ∈< −1,1 > • Znak r zależy od znaku 𝑐𝑥𝑦 , zatem interpretuje się |r| <- im bliżej 1, tym silniejsza korelacja 2 • 𝑆 𝑥 = 1 𝑛−1 2 (𝑥 − 𝑥) 𝑛𝑖 𝑖 𝑖 Badania istotności współczynnika korelacji liniowej Pearsona • Czy liniowa zależność między X a Y występuje w populacji • 𝐻0 : ρ = 0 (nie ma zależności); 𝐻1 : ρ ≠ 0 𝑟 𝑡= 𝑛−2 1 − 𝑟2 (−∞; −𝑡α,𝑛−2 > ∪ < 𝑡α,𝑛−2 ; +∞) Wartość testu należy do przedziału = odrzucamy 𝐻0 Niezależność zmiennych (X,Y ) jest niezależną zmienną losową typu skokowego • Test niezależności χ 2 𝐻0 : 𝑝𝑖𝑗 = 𝑝𝑖. 𝑝.𝑗 (brak zależności pomiędzy X i Y) 𝐻1 :𝑝𝑖𝑗 ≠ 𝑝𝑖. 𝑝.𝑗 (X i Y są zależne) χ2 = (𝑛𝑖𝑗 −𝑛𝑖𝑗 )2 𝑖 𝑗 𝑛𝑖𝑗 𝑛𝑖𝑗 - liczebności empiryczne 𝑛𝑖𝑗 - liczebności teoretyczne Wartość testu zależy od obszaru krytycznego. Współczynnik zbieżności V-Crammera • Info o sile zależności • 𝑉= χ2 , 𝑛(𝑚−1) m = min(k, l) • 𝑉 ∈< 0,1 > - im bliżej 1, tym większa zależność (niekoniecznie liniowa!) • Porównanie wartości r i V Współczynnik korelacji rang Spearmana • Na ile zgodne są preferencje • Porównywanie rankingów – na ile są zgodne wg różnych kryteriów • 𝑟𝑑 = 1 − 6 𝑑2 𝑛 𝑛2 −1 , 𝑟𝑑 ∈< −1, 1 > -1 – absolutnie niezgodne (lustrzane odbicie) 1 – absolutnie zgodne Zadania Zad. 1 (E. Słotwińska-Rosłanowska) Dla 100 losowo wybranych rodzin zanotowano liczbę dzieci w rodzinie na utrzymaniu (X) oraz czas poświęcony przez kobietę w tym gospodarstwie na czynności związane z utrzymaniem domu (Y w godzinach): a) Oceń, która ze zmiennych jest zmienną zależną, a która niezależną b) Wyznacz średni czas poświęcony na gospodarstwo domowe przez kobiety Zad. 1 (c.d.) c) Wyznacz średnią liczbę dzieci w gospodarstwie d) Wyznacz średni czas na gospodarstwo domowe z 0 liczbą dzieci i 2 dzieci e) Czy można uznać, że wraz ze wzrostem liczby dzieci rośnie czas poświęcony na utrzymanie domu f) Czy w badanej próbie istnieje liniowa zależność pomiędzy czasem na gosp. dom. a liczbą dzieci? g) Czy zależność taka występuje dla ogółu gospodarki? Zad. 1 (c.d.) Czas (h) 0-10 10-20 0 29 11 40 1 18 12 30 2 13 17 30 60 40 100 Liczba dzieci a) Zmienna zależna: czas (Y); zmienna niezależna: liczba dzieci (X) 5×60+15×50 b) y = =9 100 Odp: Średnio na utrzymani domu w tym domu poświęcano 9h. 0×40 + 1×30 + 3×30 c) x = = 0,9 100 5×29 + 15×11 d) 𝑦𝑥=0 = = 7,75 40 5×13 + 15×17 𝑦𝑥=2 = = 10,7 30 Zad. 1 (c.d.) e) 𝑐𝑥𝑦 = 1 𝑛−1 1 × 100−1 𝑖 𝑗 (𝑥𝑖 − 𝑥)(𝑦𝑗 − 𝑦) × 𝑛𝑖𝑗 = [ 0 − 0,9 5 − 9 × 29 + 0 − 0,9 15 − 9 × 11 + 1 − 0,9 (5 − Zad. 1 (c.d.) 2 f) 𝑆 𝑦 = 1 × 100−1 [ 5−9 2 × 60 + Zad. 1 (c.d.) g) 𝑡 = 0,2 1−0,2 × 100 − 2 ≈ 2,06 2 −∞; −𝑡0,05;98 >∪< 𝑡0,05;98 ; +∞ ⇒ (−∞; −1,98 >∪< 1,98; +∞) Odp: W populacji zależność występuje. 7.11 Dla 15 losowo wybranych studentów ustalono liczbę egzaminów w sesji zimowej (X) i liczbę wizyt w kinie (Y) w styczniu br. Obliczono m.in.: 𝑆 𝑥 = 0,99; 𝑥 = 4,4. Zbadać, czy prawdą jest, że im cięższa sesja przed studentami, tym rzadziej pozwalają sobie na wyjście do kina. Przyjąć poziom istotności 0,1. jakie założenie dotyczące rozkładu obu zmiennych należy przyjąć? 7.11 - rozwiązanie 𝑆 𝑥 = 0,99; 𝑛 = 15; 𝑥 = 4,4; α = 0,1 Liczba egzaminów (X) Liczba wizyt w kinie (Y) 3 4 5 4 5 3 6 4 5 5 4 4 5 3 6 2 1 0 1 0 2 0 1 1 0 1 1 0 2 0 Pytanie: 𝑐𝑥𝑦 < 0, weryfikacja hipotezy, czy dla populacji jest zależność Czego brakuje do obliczeń: 𝑦, 𝑆 𝑦 , 𝑟, 𝑡 7.11 – rozwiązanie 𝑦= 2+1+0… 15 2 = 0,8; 𝑆 𝑦 = 1 × 15−1 [(2 − 7.11 - rozwiązanie 𝑟= 𝑡= −0,7 0,99×0,77 = −0,91 −0,91 1−(−0,91)2 15 − 2 = −7,91 𝑡0,1;13 = 1,771 ⇒ (−∞; −1,771 >∪< 7.16 Dokonano pomiaru siły zależności między trzema zmiennymi dotyczącymi 49 firm. x – wysokość kosztów poniesionych przez firmę ( w mln USD) y – wysokość miesięcznych zysków uzyskanych przez firmę ( w mln USD) z – poziom skłonności do ryzyka właściciela firmy (niski, średni, wysoki) Które układy miar ( współczynnika V Crammera i współczynnika korelacji) budzą zastrzeżenia i jakiego typu: 𝑎) 𝑟𝑥𝑦 = - 0,4 𝑉𝑥𝑦 = - 0,5 𝑏) 𝑟𝑥𝑦 = 0 𝑉𝑥𝑦 = 1,2 𝑐) 𝑟𝑥𝑦 = 0,9 𝑉𝑥𝑦 =0,7 7.16 - rozwiązanie a) 𝑟𝑥𝑦 = - 0,4 𝑉𝑥𝑦 = - 0,5 𝑉 ∈ < 0,1 > b) 𝑟𝑥𝑦 = 0 𝑉𝑥𝑦 = 1,2 𝑉 ∈ < 0,1 >, r=0 – cechy liniowo nieskorelowane c) 𝑟𝑥𝑦 = 0,9 𝑉𝑥𝑦 = 0,7 𝑟 > 𝑉 Wartość r zawiera się w V 7.17 W pewnej klasie gimnazjalnej liczącej 17 uczniów na wzór programu PISA pilotowanego przed OECD przeprowadzono badanie umiejętności 15-latków. Testowano a)czytanie ze zrozumieniem, b)rozwiązywanie zadań matematycznych, c)rozwiązywanie problemów i rozumowanie w naukach przyrodniczych. Oto ranking uczniów w zakresie dwóch pierwszych umiejętności: Uczeń A Test mat. 1 Czytanie 1 B 2 2 C 3 5 D 4 3 E 5 6 F 6 11 G 7 8 H 8 4 I J K L M N O P R 9 10 11 12 13 14 15 16 17 10 16 7 12 13 9 17 14 15 Czy w badanej grupie 15-latków umiejętność rozwiązywania zadań matematycznych oraz czytania ze zrozumieniem są ze sobą powiązane? Ocenić siłę skorelowania badanych zmiennych. 7.17-rozwiązanie 𝒅𝒊 𝟐 𝒅𝒊 -2 4 1 1 -1 1 -5 25 -1 1 4 16 -1 1 -6 36 4 16 5 25 -2 4 2 4 2 4 17 𝑑𝑖 2 = 138 1 6∗138 =1 17 ∗288 𝑟𝑑 = 1 − =1 – 0,16911≈ 0,83 828 = 4896 Odp: Wartość współczynnika korelacji rang wynosi w przybliżeniu 0,83, więc umiejętność rozwiązywania testów matematycznych i szybkiego czytania są ze sobą dość silnie powiązane. Dziękujemy za uwagę! Anna Bylina Aleksandra Petrykiewicz