Ćwiczenia 10 – KORELACJA Zadanie 1. W sondażu - E-SGH
Transkrypt
Ćwiczenia 10 – KORELACJA Zadanie 1. W sondażu - E-SGH
Ćwiczenia 10 – KORELACJA Zadanie 1. W sondażu przeprowadzonym przed wyborami prezydenckimi analizowano poparcie dla kandydatów A i B. Wyniki zaprezentowano w tabeli: Y (kandydat) A B . X (płeć) M 20 40 ... K 10 30 ... ... ... 100 . a. b. c. Należy sprawdzić czy wybór kandydata na prezydenta zależy od płci? Jeżeli występuje korelacja wyznaczyć i zinterpretować współczynnik zbieżności V-Cramera. Czy wyniki dla tej próby są analogiczne jak w populacji generalnej? Odpowiedź uzasadnić. Zadanie 2. Zbadano miesięczne wydatki na pewne dobro w 100 gospodarstwach domowych 2, 3 i 4osobowych. Wyniki zaprezentowano w tabeli: 2 3 4 . 0-20 20-40 40-60 13 15 3 ... 7 23 9 ... 5 7 18 ... . ... ... ... 100 W oparciu o podane informacje należy: a. Określić typ/rodzaj dobra analizowanego w zadaniu. b. Określić zróżnicowanie między gospodarstwami domowymi a wydatkami na dobro. c. Wyznaczyć rozkłady brzegowe i warunkowe. d. Wyznaczyć współczynnik korelacji liniowej oraz sprawdzić czy występuje zależność liniowa między zmiennymi X i Y. Zadanie 3. Zbadano związek między dziennym spożyciem pokarmu (w kcal) a nadwagą (w kg) wśród 6 losowo wybranych osób: spożywany pokarm 2800 3400 4000 4100 4800 5400 (ilość kcal) nadwaga (w kg) 1 4 7 8 11 13 Należy wyznaczyć i zinterpretować współczynnik korelacji liniowej Pearsona. Przeprowadzić weryfikację stosownej hipotezy dla 0,05. Zadanie 4. Na podstawie danych w tabeli należy porównać siłę zależności między oceną stopnia wyposażenia w dobra trwałego użytkowania a miejscem zamieszkania do siły zależności między oceną warunków mieszkaniowych a miejscem zamieszkania. ocena warunków mieszkaniowych ocena wyposażenia miejsce miejsce zła i średnia dobra i zła i średnia dobra i zamieszkazamieszkabardzo zła bardzo bardzo zła bardzo nia nia dobra dobra m 15 65 20 m 35 45 20 w 10 60 30 w 30 50 20 1 Zadanie 5. Na podstawie danych w tabeli należy wyznaczyć i zinterpretować współczynnik korelacji rang Spearmana. kraj rangi rozwoju rangi stabilności ekonomicznego politycznej A 2 1 B C 6 1 4 3 D E F 8 3 5 6 2 10 G H I 10 4 9 8 5 9 J 7 7 Zadanie 6. Na podstawie informacji w tabeli należy wyznaczyć i zinterpretować współczynnik korelacji rang Spearmana. województwo ludność (w mln os.) powierzchnia (w tys km kwadr.) dolnośląskie 2,98 19,95 kujawsko-pomorskie lubelskie 2,10 2,23 17,97 25,11 lubuskie łódzkie małopolskie 1,02 2,65 3,22 13,98 18,22 15,14 mazowieckie 5,07 35,60 opolskie 1,09 9,41 Zadanie 7. W pewnym mieście zbadano zależność pomiędzy miejscem zamieszkania a posiadaniem samochodu w grupie 120 osób aktywnych zawodowo. miejsce zamieszkania posiada samochód nie posiada samochodu m – miasto 25 35 w- wieś 35 25 Należy zweryfikować hipotezę o niezależności stochastycznej między badanymi zmiennymi, przyjąć poziom istoności 0,01. Zadanie 8. Na zlecenie pewnej międzynarodowej korporacji poproszono firmę zewnętrzną specjalizującą się w raportach płacowych o zbadanie czy występuje zależność między stażem pracy a wynagrodzeniem. staż pracy (w latach) 1 1,5 2,5 3 2 wynagrodzenie netto (w euro) 800 2500 2000 3000 1500 Na podstawie 5-osobowej próby losowej należy: a. zweryfikować czy zależność występuje. b. jeżeli zależność występuje wyznaczyć jej siłę i kierunek oraz zinterpretować uzyskany wynik. c. sprawdzić czy zależność jest istona w populacji generalnej pracowników korporacji, jeżeli rozkład pracy i wynagrodzenia mają rozkład normalny. Przyjąć poziom istotności 0,05. 2 Zadania sprawdzające Każdą odpowiedź jako: T – prawdziwą lub N – nieprawdziwą. Zadanie 1.1 Współczynnik korelacji liniowej: a. może być wyznaczany tylko wtedy, gdy obie zmienne są mierzalne b. może przyjmować wartości ujemne c. jest miarą zależności dla związków krzywoliniowych T N T N T N Zadanie 1.2 Test zgodności chi-kwadrat: a. jest jednym z wielu testów parametrycznych stosowanych w statystyce b. jest wykorzystywany do weryfikacji hipotezy o równości średnich w analizie wariancji c. jego zastosowanie wymaga znajomości parametrów rozkładu w populacji T N T N T N Zadanie 1.3 Jeżeli zmienne X i Y są niezależne stochastycznie, to: a. prawdopodobieństwa z rozkładów warunkowych są identyczne jak odpowiednie prawdopodobieństwa z rozkładów brzegowych, T N b. kowariancja zmiennych X i Y będzie wynosić 0, T N c. średnie warunkowe zmiennej X są sobie równe i równe średniej ogólnej zmiennej X T N Zadanie 1.4 Rozkłady warunkowe: a. to rozkłady jednej zmiennej przy ustalonych wartościach drugiej zmiennej, b. wyznacza się je łącznie dla cechy X i Y, c. są wykorzystywane do wyznaczenia kowariancji X,Y. T N T N T N 3 Wzory – Analiza współzależności – korelacja 1 l y = ∑ y j n. j n j =1 1 k x = ∑ xi ni. n i =1 Średnie ogólne: s x2 = Wariancje ogólne: 1 k ( xi − x ) 2 ni. ∑ n − 1 i =1 1 xj = n. j Średnie warunkowe: Wariancje warunkowe: k ∑ xi nij i =1 1 l s = ( y j − y ) 2 n. j ∑ n − 1 j =1 2 y 1 l yi = ∑ y j nij ni. j =1 1 k s ( x) = ( xi − x j ) 2 nij ∑ n. j − 1 i =1 2 j 1 l s ( y) = ( y j − yi ) 2 nij ∑ ni . − 1 j =1 2 i Kowariancja: cov( x, y ) = c xy = 1 n 1 n ( x − x )( y − y ) = ∑ xi yi − nx y ∑ i i n − 1 i =1 n − 1 i =1 a. dane indywidualne b. dane pogrupowane (w tablicy korelacyjnej) cov( x, y ) = cxy = 1 k l 1 k l ∑∑ xi y j nij − nx y ( ) ( ) x − x y − y n = ∑∑ i j ij n − 1 i =1 j =1 n − 1 i =1 j =1 4 Teoria – Analiza współzależności (korelacja) Def. 1. Empiryczny dwuwymiarowy rozkład cechy (X,Y) lub inaczej – empiryczny łączny rozkład cech X, Y określają liczebności nij (i=1,2,…,k; j=1,2,…,l) odpowiadające parom wartości (xi, yj). Def. 2. Rozkład brzegowy (bezwarunkowy) cechy X wyznaczają liczebności ni. określone jako: l ni. = ∑ nij i = 1,2,..., k j =1 Def. 3. Rozkład brzegowy (bezwarunkowy) cechy Y wyznaczają liczebności n.j określone jako: k n. j = ∑ nij j = 1,2,..., l i =1 Korelacja – badanie zbiorowości pod względem dwóch cech: X i Y Badanie stochastycznej niezależności zmiennych X, Y Test niezależności Wyniki z próby → wnioskowanie o zależności w populacji Weryfikacja hipotez: H0: ∧ , pij = pi.p.j zmienne są stochastycznie niezależne H1: ⋁ , pij ≠ pi.p.j zmienne są stochastycznie zależne (nij − nˆij ) 2 χ = ∑∑ nˆij i =1 j =1 k 2 l gdzie nˆij = ni.n. j n Obszar krytyczny – zawsze prawostronny : P(χ2≥χ2α,(k-1)(l-1))=α −liczba stopni swobody; = ( − 1)( − 1). k – liczba wierszy, l – liczba kolumn Mierniki korelacji: 5 1. Współczynnik zbieżności V-Cramera V= χ2 n(m − 1) Własności: a. Wskaźnik symetryczny, tzn.:Vxy=Vyx b. Przyjmuje wartości z przedziału [0,1] Vxy = 0 – stochastyczna niezależność dwóch cech Vxy = 1 – związek funkcyjny c. Nie wskazuje kierunku korelacji dwóch cech d. Może być stosowany zarówno w przypadku cech mierzalnych, jak i niemierzalnych. 2. Współczynnik korelacji liniowej (Pearsona) – r2 = ryx r 2 = ryx = c( xy ) = C yx S ( y ) S ( x) 1 k ∑ n − 1 i =1 = cov( y, x) S ( y ) S ( x) l ∑ ( x − x )( y j =1 i j − y )nij Własności: a. Wskaźnik symetryczny, tzn.: rxy = ryx b. Wskazuje zarówno siłę, jak i kierunek zależności. c. Ma zastosowanie w przypadku badania związków liniowych. d. Przyjmuje wartości z przedziału [-1,1] rxy = -1 – związek funkcyjny: liniowy ujemny. rxy = 0 - brak zależności liniowej rxy = 1 – związek funkcyjny: liniowy dodatni. e. Może być stosowany wyłącznie w przypadku cech mierzalnych. UWAGA!!! Wnioskowanie statystyczne Badanie statystycznej istotności współczynnika korelacji liniowej (r2 <= rxy = ryx) H0 : ρ = 0 H1 : ρ ≠ 0 temp = ryx 1 − ryx2 P ( t ≥ tα , s ) = α n−2 λ = (−∞;−tα ,s ∪ tα ,s ;+∞) gdzie: −2 – liczba stopni swobody 6 3. współczynnik rang (Spearmana) n rd = 1 − 6∑ d i2 i =1 n( n 2 − 1) , gdzie d i = a1 − bi gdzie ! – różnica między rangami Cechy statystyczne: -mierzalne -niemierzalne – dające się rangować Własności: a. Wskaźnik symetryczny b. Wskazuje zarówno siłę, jak i kierunek zależności c. Przyjmuje wartości z przedziału [-1,1] rd=1 – całkowita zgodność rang, rd=-1 – całkowita niezgodność rang, rd=0 – przypadkowe skojarzenie rang. d. Może być stosowany wyłącznie w przypadku cech, które można rangować. 7