Collegium Civitas. Egzamin ze statystyki 6/27/2009, test nr XX Na
Transkrypt
Collegium Civitas. Egzamin ze statystyki 6/27/2009, test nr XX Na
Collegium Civitas. Egzamin ze statystyki 6/27/2009, test nr XX imię i nazwisko piszącego nr albumu Na każde z pytań testowych odpowiedz „T”- tak lub „N” – nie. 1. Dystrybuanta zmiennej losowej X to: Funkcja, która przyjmuje wyłącznie wartości ze zbioru <0; 1> Funkcja, której wartości są określone przez prawdopodobieństwo: F(r)=P(X>r) Funkcja, która jest prawdopodobieństwem jakiegoś zdarzenia Funkcja, która me sens wyłącznie dla zmiennych o rozkładzie normalnym T N T N 2. Średnia zarobków w przedsiębiorstwie wynosi 2100 zł, a odchylenie standardowe 200 zł. Przyjęto dwóch nowych pracowników. Okazało się, że każdy z nich będzie zarabiał po 2100 zł. Czy w wyniku przyjęcia nowych pracowników średnia zarobków w przedsiębiorstwie może się zmienić N mediana zarobków w przedsiębiorstwie może się zmienić T wariancja zarobków na pewno zmaleje T odsetek pracowników o najwyższych zarobkach (tj. tych, T których zarobki równe są maksimum zarobków wśród wszystkich pracowników) może ulec zmianie 3. Standaryzowany wzrost Jasia to +1, zaś standaryzowany wzrost Małgosi to +1,5. Jaś ma 130 cm. wzrostu, zaś Małgosia 135. Czy wynika z tego, że Wzrost Jasia przekracza średnią Średnia wzrostu w populacji, do której należą Jaś i Małgosia jest większa niż 126 cm Standaryzowany wzrost Łukasza, który ma 115 cm wzrostu wynosi –0,5 W tej populacji na pewno są osoby, których standaryzowany wzrost jest ujemny 4. W populacji pracowników pewnej firmy 30% stanowią kobiety. Wiadomo też, że 40% zatrudnionych pali, zaś zmienne „płeć” i „palenie” są niezależne stochastycznie. Czy wynika z tego, że: 60% kobiet zatrudnionych w tej firmie to osoby niepalące Palący mężczyźni stanowią 28% pracowników firmy Odsetek mężczyzn wśród palących jest taki sam, jak wśród niepalących Wśród niepalących jest tyle samo kobiet, co mężczyzn 5. Zmienne X (zadowolenie z życia: 0 – niezadowolony; 1 – zadowolony) i Y (stan zdrowia: 0 – chory; 1 – zdrowy) są maksymalnie skorelowane liniowo. Czy wynika z tego, że: Chorych można spotkać równie często wśród zadowolonych z życia jak wśród niezadowolonych z życia Albo wszyscy chorzy są zadowoleni albo wszyscy chorzy są niezadowoleni eta2X|Y = eta2Y|X = 1 Regresja średnich X od Y jest funkcja stałą T N 6. Dane są zmienne X – „pensja w zł” oraz Y – „o ile pensja w złotych musiała by być wyższa, żeby dana osoba zarabiała 10.000 zł”. Czy zatem: Współczynnik korelacji liniowej rhoX,Y = -1 Y=10.000-X Zmienne X i Y mogą być niezależne stochastycznie Stosunek korelacyjny eta2X|Y=1 7. Zmienna X jest niezależna korelacyjnie (tzn. w sensie zależności przy regresji średnich) od zmiennej Y. Czy wynika z tego, że: Zmienne X i Y są nieskorelowane (niezależne) liniowo Zmienna Y jest niezależna korelacyjnie od zmiennej X Zmienna X jest niezależna w sensie zależności przy regresji median od zmiennej Y Zmienne X i Y są niezależne stochastycznie T T N T T N N N 8. Statystyka „średnia X z próby” (dla prostej, zwrotnej próby losowej)… … ma wartość oczekiwaną równą E(X) T … ma wartość oczekiwaną równą E(X) tylko dla prób nieskończenie (w praktyce: wystarczająco) dużych N … zawsze przyjmuje wartość E(X) N … ma wariancję D2(X)/n, gdzie n to liczebność próby T T T T T T N N T T N 9. Estymator, to … parametr populacyjny N … taka liczba, która jest równa wartości nieznanego parametru populacyjnego N … wartość oczekiwana średniej z próby N … pewna statystyka z próby T 10. Na podstawie 200 elementowej próby prostej niezależnej oszacowano odsetek osób popierających kandydata A jako należący do przedziału <18%, 22%> na poziomie ufności równym 0,95. Czy wynika z tego, że: 20% osób w próbie popiera kandydata A T 20% osób w populacji popiera kandydata A N 5% dwustuelementowych prostych niezależnych prób T losowych da nam błędne przedziałowe oszacowanie odsetka osób popierających kandydata A Prawdopodobieństwo, że odsetek osób w populacji, popierających kandydata A będzie zawierał się w przedziale <18%, 22%> wynosi 0,95 N COLLEGIUM CIVITAS × Egzamin ze statystyki - translacje i zadania [55 pkt] 27 czerwca 2009 r. Imię i nazwisko: CZYTELNIE Prowadzący zajęcia JK MJ TŁUMACZENIE ZDAŃ [10 pkt] Zbadano mieszkańców pewnej gminy i określono następujące zmienne: X – płeć (0 – kobieta; 1 – mężczyzna) Y – wykształcenie (1 – podstawowe, 2 – średnie, 3 –wyższe) Z – zarobki w pln Zapisz (na osobnej kartce) za pomocą symboli statystycznych następujące zdania a) Średnie zarobki mężczyzn z wyższym wykształceniem były wyższe od średnich zarobków w całej populacji gminy. b) Kobiety stanowiły większy odsetek osób o wyższym wykształceniu niż mężczyźni. Wyjaśnij (na osobnej kartce) znaczenie poniższych zapisów, nie odwołując się do terminologii statystycznej nie występującej w potocznym języku c) P(X = 0 ∧ Y = 3 | Z=1000) < P(X = 0 | Y = 3 ∧ Z=1000) d) E(X | Y=2) = E(X | Y=3) Rozwiązanie: a) E(Z|X=1 ∧ Y=3) > E(Z) b) P(X=0|Y=3) > P(X=1|Y=3) c) Udział kobiet z wyższym wykształceniem wśród osób zarabiających 1000 zł był mniejszy niż udział kobiet wśród osób z wyższym wykształceniem, które zarabiały 1000 zł. d) Odsetek (udział) mężczyzn był taki sam wśród osób z wyższym wykształceniem, jak ze średnim. ZADANIA [45 pkt] Uwaga! Wszystkie odpowiedzi należy uzasadnić. Rozwiązania bez uzasadnienia nie będą punktowane Zadanie 1 [25 PKT] W zbiorowości studentów pewnej uczelni określone są zmienne: X (liczba zdanych egzaminów w sesji) i Y (liczba tygodni poświęconych na naukę do sesji). Dana jest rodzina rozkładów warunkowych częstości zmiennej Y ze względu na wartości X oraz rozkład brzegowy zmiennej X: X Y 1 2 3 a) b) c) d) 1 ⅓ ½ 2 ⅓ ⅓ 3 ⅓ ⅓ 4 ½ ⅓ 1 1 1 xi 1 2 3 P(X=xi) ⅓ ⅓ ⅓ 1 Wyznacz regresję średnich zmiennej X względem zmiennej Y. [5 pkt] Wyznacz regresję liniową zmiennej X względem zmiennej Y. [6 pkt] Wyznacz mierniki siły zależności związane z każdą z regresji. [8 pkt] Zinterpretuj parametry równania regresji liniowej zmiennej X względem zmiennej Y. [6 pkt] COLLEGIUM CIVITAS Rozwiązanie zadania 1: a) Zaczynamy od zamiany rodziny rozkładów warunkowych Y ze względu na X na rodzinę rozkładów warunkowych X ze względu na Y Rozkład łączny częstości Y X 1 2 1 2 3 1 9 1 6 0 5 18 3 4 1 9 1 9 0 0 0 1 9 4 18 1 9 4 18 1 6 1 9 5 18 Rodzina rozkładów warunkowych X ze względu na Y Y X 1 2 3 4 1 0,4 0,5 0,5 2 0,6 3 0 0,5 0,5 0,4 1 1 1 1 0,6 Regresja średnich E(X|Y=1) = 1*0,4 + 2*0,6 = 0,4+1,2 = 1,6 E(X|Y=2) = 1*0,5 + 3*0,5 = 2 E(X|Y=3) = 1*0,5 + 3*0,5 = 2 E(X|Y=4) = 2*0,6 + 3*0,4 = 1,2+1,2 = 2,4 ⎧1,6 ⎪2 ⎪ ˆ XY = ⎨ ⎪2 ⎪⎩2,4 dla dla dla dla Y =1 Y =2 Y =3 Y =4 b) Regresja liniowa Zaczynamy od wyznaczenie kowariancji C(X,Y) = E(XY) – E(X)E(Y) E(X)=2, E(Y)=2,5 – oba rozkłady są symetryczne, więc to widać bez wykonywania obliczeń. XY 1 2 3 6 8 9 12 P 1 9 5 18 1 9 1 9 1 6 1 9 1 9 1 1 * 2 + 2 * 5 + 3 * 2 + 6 * 2 + 8 * 3 + 9 * 2 + 12 * 2 96 16 = = 18 18 3 16 16 − 15 1 − 2 * 2,5 = cov( X , Y ) = = 3 3 3 5 4 4 5 D 2 (Y ) = (1 − 2,5) 2 * + (2 − 2,5) 2 * + (3 − 2,5) 2 * + (4 − 2,5) 2 * = 18 18 18 18 9 5 1 4 9 5 1 4 90 + 8 49 = * + * + * + * = = 4 18 4 18 4 18 4 18 36 18 E ( XY ) = b X |Y 1 6 = 3 = 49 49 18 a X |Y = 2 − 2,5 * 6 98 − 15 83 = = 49 49 49 83 6 Równanie regresji liniowej: Xˆ Y = + Y 49 49 COLLEGIUM CIVITAS c) Mierniki siły zależności Potrzebna będzie wariancja zmiennej X, której jeszcze nie mamy wyliczonej: D ( X ) = (1 − 2) * 2 ρ X2 ,Y 2 1 1 2 + (3 − 2) 2 * = 3 3 3 1 cov ( X , Y ) 3 = 2 = 9 = 2 D ( X ) D (Y ) 2 49 49 * 3 18 2 Do obliczenia eta-kwadrat potrzebujemy wariancji średnich warunkowych lub średniej wariancji warunkowych. Ze względów rachunkowych średnia wariancji wydaje się łatwiejsza do obliczenia: D 2 ( X | Y = 1) = D 2 ( X | Y = 4) = 0,24 5 4 52 2 zatem: E[ D ( X | Y )] = 0,24 * + 1 * = 9 9 90 η X2 |Y D 2 ( X | Y = 2) = D 2 ( X | Y = 3) = 1 2 52 − 3 90 = 8 = 2 = 2 60 15 3 d) interpretacja parametrów równania regresji liniowej Równanie regresji liniowej: Xˆ Y = 83 6 + Y 49 49 83 49 Przewidywana liczba zdanych egzaminów dla studenta, który nie uczył się (poświęcił 0 tygodni na naukę) 6 49 Jeśli porównamy dwóch studentów, którzy różnią się o 1 tydzień czasem poświęconym na naukę, to przewidujemy, że student, który uczył się dłużej zda o 6/49 (czyli ok. 0,12) egzaminu więcej niż ten, który uczył się krócej. Zadanie 2. [5 PKT] Dana jest trzyosobowa populacja: {Anna, Beata, Karol}. W populacji tej określono zmienną X - wzrost w cm. Anna ma 160 cm, Beata 170 cm, Karol - 180 cm wzrostu. a) Wypisz wszystkie dwuelementowe próby losowe proste niezależne (tzn. zwrotne), które można wylosować z tej populacji. [1 pkt] b) Wyznacz rozkład statystyki „średnia wzrostu z dwuelementowej prostej niezależnej próby losowej”. [4 pkt] Rozwiązanie zadania 2 a) Dwuelementowe próby proste, niezależne: 1) Anna, Anna; 2) Anna, Beata; 3) Anna, Karol; 4) Beata, Anna; 5) Beata, Beata; 6) Beata, Karol 7) Karol, Anna; 8) Karol, Beata; 9) Karol, Karol b) Rozkład statystyki “średni wzrost z dwuelementowej próby” Próba Wzrost w Średni wzrost w próbie próbie 1) Anna, Anna; 160, 160 160 2) Anna, Beata; 160, 170 165 3) Anna, Karol; 160, 180 170 4) Beata, Anna; 170, 160 165 5) Beata, Beata; 170, 170 170 6) Beata, Karol 170, 180 175 7) Karol, Anna; 180, 160 170 8) Karol, Beata; 180, 170 175 9) Karol, Karol 180, 180 180 Rozkład statystyki W - “średni wzrost z dwuelementowej próby wi P(W=wi) 160 1/9 165 2/9 170 3/9 175 2/9 180 1/9 COLLEGIUM CIVITAS Zadanie 3. [15 pkt] Dla oszacowania przedziałowego frekwencji wyborczej (odsetka osób uczestniczących w wyborach) w populacji obywateli pewnego kraju wylosowano prostą, niezależną próbę losową o liczebności 900 osób. Okazało się, że procent osób planujących pójść na wybory w zbadanej próbie wynosił 90%. a. Oszacuj przedziałowo frekwencję wyborczą przyjmując poziom ufności równy 0,98 [10 pkt] b. Jak liczną należałoby wylosować próbę, aby na tym samym poziomie ufności oszacować frekwencję wyborczą z dokładnością do +/- 2 punktów procentowych? [5 pkt] Rozwiązanie zadania 3 Zakładamy, że w badanej populacji określona jest dychotomiczna (zerojedynkowa) zmienna X przyjmująca wartość 0 jeśli respondent nie zamierza wziąć udziału w wyborach i 1 – jeśli zamierza. Rozkład zmiennej w zbadanej próbie będzie więc następujący: Xi 0 1 razem N(X=xi) 90 810 900 Średnia tej zmiennej w próbie wynosi E(X)=0,9 i jest równa udziałowi osób W PRÓBIE, które zamierzają wziąć udział w wyborach. W POPULACJI średnia tej samej zmiennej również jest równa udziałowi osób, które zamierzają wziąć udział w wyborach a) WYZNACZANIE PRZEDZIAŁU UFNOŚCI DLA ŚREDNIEJ Przedział ufności dla średniej wyznacza się ze wzoru: x ± λγ σ n , gdzie x jest wynikiem badania próby. Dla poziomu ufności 0,98 mamy: Φ (λγ ) = 0,99 zatem λγ = 2,33 Nie mamy odchylenia standardowego w populacji σ, w związku z tym musimy dokonać estymacji punktowej odchylenia na podstawie zbadanej próby σ = s = 0,9 * 0,1 = 0,3 W rezultacie otrzymujemy: d = 2,33 0,3 = 0,0233 , czyli odsetek osób, które zamierzają wziąć udział w nadchodzących wyborach znajduje się w przedziale: 30 (88,67%; 92,33%) b) WYZNACZANIE MINIMALNEJ LICZEBNOŚCI PRÓBY Jeśli chcemy dopiero wylosować próbę, by oszacować frekwencję, to nie wiemy – oczywiście – jaka ona może być i tym samym – jakie może być odchylenie standardowe zmiennej X w populacji. Zakładamy najmniej optymistyczny scenariusz, że odchylenie to będzie maksymalne, czyli, że będzie wynosiło 0,5. Przekształcamy wzór na d względem n: Jeśli d = 0,02 to d = 0,0004 , 2 więc n= λγ2 σ 2 d2 2,33 2 0,25 = = 3393,063 0,0004 Minimalna liczebność próby, która musielibyśmy wylosować wynosi n=3394