Elementarne metody statystyczne 2
Transkrypt
Elementarne metody statystyczne 2
Elementarne metody statystyczne 2 Estymacja wskaźnika struktury w badaniach reprezentacyjnych Losowanie nieograniczone zależne (bez zwracania) Załóżmy, że populacja liczy N elementów, wśród których nieznana frakcja p posiada pewną wyróżnioną cechę. W próbie losowej n−elementowej zaobserwowano m ¬ n elementów posiadających tą cechę. Jeśli n jest bardzo duże (kilkaset), wówczas przedział ufności dla p na poziomie 1 − α tworzy się następująco: m − u1− α2 n s N −n · N −1 m (1 n − n m ) n m , + u1− α2 n s N −n · N −1 m (1 n − n m ) n , gdzie u1− α2 jest kwantylem rzędu 1 − α2 rozkładu N (0, 1). Jeśli chcemy oszacować nieznany parametr p z błędem maksymalnym nie przekraczającym d, wówczas minimalna liczebność próby powinna wynosić nmin = N 1+ d2 (N −1) b + 1, b u21− α p(1−p) 2 gdzie pb oznacza znany (spodziewany) rząd wielkości szacowanego parametru p. Jeśli pb nie jest b − p) b tzn. 1 i otrzymuznane, wówczas przyjmujemy maksymalną możliwą wartość iloczynu p(1 4 jemy N nmin = + 1. 2 −1) 1 + 4du(N 2 α 1− 2 Losowanie warstwowe proporcjonalne Załóżmy, że populacja liczy N elementów, a poszczególne L warstw odpowiednio N1 , ..., NL elementów. Wj = NNj oznacza frakcję elementów populacji znajdujących się w j−tej warstwie. Próba losowa cechy X liczy n jednostek, przy czym z j−tej warstwy pochodzi nj = Wj n elementów (j = 1, ..., L). Poszczególne wyniki próby xij są indeksowane kolejnym numerem i elementu próby pochodzącego z danej warstwy (i = 1, ..., ni ) oraz numerem j warstwy (j = 1, ..., L). Estymator nieznanej frakcji p elementów wyróżnionych w populacji jest następujący: pbw = L L X 1 X Nj p j = Wj pj , N j=1 j=1 gdzie pj jest frakcją elementów wyróżnionych w próbie pochodzących z j−tej warstwy. Wariancja estymatora pbw ma postać: D2 (pbw ) = 1 n − L 1 X Wj Pj (1 − Pj ), N j=1 gdzie Pj oznacza frakcję elementów wyróżnionych w j−tej warstwie populacji. Dla dużych n można zastąpić Pj przez zaobserwowaną wielkość pj . Przedział ufności na poziomie 1 − α dla parametru p (przy n rzędu kilkaset) jest następujący: pbw − u1− α2 D(pbw ), pbw + u1− α2 D(pbw ) , 1 zaś minimalną liczebność próby gwarantującą błąd maksymalny nie przekraczający d obliczamy jako: L P nmin = j=1 d2 u21− α 2 Wj Pj (1 − Pj ) L P + N1 Wj Pj (1 − Pj ) + 1. j=1 Losowanie warstwowe optymalne (schemat Neymana) Różnica pomiędzy losowaniem warstwowym proporcjonalnym a optymalnym polega na tym, że w tym ostatnim liczebność próby pobranej z konkretnej warstwy jest proporcjonalna nie tylko do liczebności tej warstwy, ale także do odchylenia standardowego badanej cechy X w warstwie. W praktyce zatem liczebności nj prób wylosowanych z poszczególnych warstw ustalamy w następujący sposób: q nj = Wj Pj (1 − Pj ) L P j=1 · n, q j = 1, 2, ..., L, Wj Pj (1 − Pj ) gdzie Pj jest wskaźnikiem struktury w j−tej warstwie populacji, a Wj , podobnie jak w przypadku losowania proporcjonalnego, frakcją elementów populacji należących do j−tej warstwy. Estymatorem pbw nieznanego wskaźnika struktury p w populacji jest wielkość: pbw = L X Wj pj , j=1 j gdzie pj = m jest frakcją elementów wyróżnionych pochodzących z j−tej warstwy. nj W przypadku, gdy liczebności poszczególnych warstw Nj są duże, wariancję estymatora pbw możemy obliczyć ze wzoru: 2 D (pbw ) = L L q 2 1 X 1 X Wj Pj (1 − Pj ) − Wj Pj (1 − Pj ). n j=1 N j=1 Gdy nie znamy wartości wskaźników struktury Pj w poszczególnych warstwach, wówczas do wzoru wstawiamy ich oszacowania pj uzyskane z próby losowej. Przedział ufności na poziomie ufności 1 − α dla nieznanego waskaźnika struktury p przy założeniu dużej próby i niezbyt małych frakcji Pj ma postać: p ∈ pbw − u1− α2 D(pbw ), pbw + u1− α2 D(pbw ) . Minimalna liczebność próby losowej konieczna do oszacowania nieznanego parametru p z błędem maksymalnym nie przekraczającym d wynosi: nmin = P L j=1 d2 u21− α 2 q 2 Wj Pj (1 − Pj ) + 1 N L P j=1 2 + 1. Wj Pj (1 − Pj ) Zadania 1. Z populacji liczącej 8500 pracowników pewnego sektora wylosowano próbę liczącą 380 osób, wśród których zaobserwowano 16% osób, którym do osiągnięcia pełnych praw emerytalnych brakuje co najwyżej 5 lat. Na poziomie ufności 1 − α = 0.95 oszacuj nieznaną frakcję takich osób w populacji generalnej. 2. Ile elementów powinna liczyć próba losowa, by oszacować nieznany procent palących studentów pewnej uczelni z błędem maksymalnym nie przekraczającym 5%, jeśli przypuszcza się, że może on wynosić 15% ? Wiemy, że na uczelni studiuje 5867 osób. Przyjmij poziom ufności 0.90. 3. Jak liczną próbę należałoby pobrać z populacji 10000 osób, które w pewnym ustalonym okresie czasu zdały egzamin na prawo jazdy, by oszacować nieznany procent osób, które zdały go za pierwszym razem z błędem maksymalnym nie przekraczającym 3% ? Przyjmij 1 − α = 0.90. 4. Wśród kierowców pewnej dużej firmy transportowej przeprowadzono pewien test psychologiczny. Kierowców podzielono ze względu na wiek na trzy grupy: A - pracownicy poniżej 30 roku życia, B - pracownicy w wieku 30-50 lat, C - pracownicy powyżej 50 roku życia. Badanie objęło 30 osób z grupy A, 50 osób z grupy B i 20 osób z grupy C. Wyniki testu (w punktach na 100 możliwych były następujące: Grupa A: 89, 76, 78, 78, 90, 47, 67, 80, 76, 56, 68, 74, 81, 87, 98, 97, 55, 60, 78, 76, 87, 80, 97, 75, 74, 40, 90, 49, 82, 90. Grupa B: 65, 67, 80, 86, 85, 54, 34, 46, 79, 70, 67, 69, 80, 85, 76, 70, 80, 98, 56, 68, 70, 74, 68, 86, 92, 57, 68, 76, 79, 80, 82, 99, 100, 76, 65, 69, 78, 85, 93, 90, 87, 65, 69, 80, 97, 84, 46, 60, 80, 86. Grupa C: 49, 98, 86, 76, 70, 69, 76, 71, 80, 97, 95, 81, 90, 91, 84, 76, 80, 80, 91, 76. Wykorzystując losowanie warstwowe proporcjonalne i optymalne oraz ustalając całkowitą liczebność próby na 40, wyznacz estymatory frakcji kierowców, którzy z testu uzyskali ponad 80 punktów. Porównaj wartości uzyskanych estymatorów z dokładną wartością badanej frakcji otrzymaną na podstawie całej populacji. 5. Średnie wyniki pomiaru ciśnienia tętniczego krwi skurczowego (w mm Hg) u pacjentów leczonych pewnym lekiem w trzech różnych szpitalach (A, B, C) były następujące: Szpital A: 90, 99, 98, 97, 99, 100, 100, 87, 89, 80, 94, 87, 89, 93, 79, 100, 85, 87, 94, 98, 87, 100, 105, 93, 94, 97, 86, 87, 80, 102; Szpital B: 80, 68, 76, 97, 90, 98, 75, 97, 100, 102, 104, 91, 96, 89, 82, 80, 95, 90, 105, 110; Szpital C: 95, 90, 86, 102, 103, 104, 98, 96, 87, 90. Interesuje nas frakcja osób z ciśnieniem co najmniej 100 mm Hg. Wykorzystując losowania warstwowe: proporcjonalne i optymalne wybierz z powyższych danych próbę 20-elementową (przyjmij, że wartości Wj są w kolejnych grupach równe odpowiednio 0.20, 0.25 i 0.33) i wyznacz wartości estymatorów pbw . Porównaj wyniki z rzeczywistą wartością p obliczoną z populacji. 6. Po weryfikacji kart zaliczeniowych 250 studentów pierwszego roku pewnej wyższej uczelni, którzy zaliczyli sesję egzaminacyjną okazało się, że w pierwszym terminie sesję zaliczyły 124 osoby, w drugim terminie - 78 osób, a pozostałe osoby zaliczyły sesję w trzecim terminie. Wyznacz frakcję osób, które zaliczyły sesję w pierwszym terminie, a następnie odpowiednie estymatory tej wielkości. Wykorzystaj obydwa typy losowań warstwowych, ograniczając próbę losową do 50 osób. 7. W populacji 10000 uczniów szkół średnich w pewnym mieście badaniu poddano odsetek osób uczęszczających na dodatkowe zajęcia pozaszkolne. Populację podzielono na cztery warstwy, obejmujące uczniów liceów ogólnokształcących, liceów zawodowych, techników oraz szkół zasadniczych zawodowych. Stosując losowanie warstwowe proporcjonalne uzyskano próbę o licz3 ności 500, która dała następujące frakcje badanej cechy w poszczególnych warstwach: j 1 2 3 4 Rodzaj szkoły licea ogólnokształcące licea zawodowe technika szkoły zasadnicze zawodowe Nj 4280 1270 2540 1910 pj 0.55 0.35 0.40 0.45 Przyjmując 1 − α = 0.95 zbuduj przedział ufności dla nieznanej frakcji uczniów uczęszczających na zajęcia pozalekcyjne. 8. Spośród 5000 uczniów ostatnich klas gimnazjów (2560 dziewcząt i 2440 chłopców) wylosowano optymalnie 200 uczniów i w pewnym ustalonym dniu zmierzono czas dojścia (dojazdu) do szkoły. Okazało się, że 300 dziewczętom i 420 chłopcom zajęło to ponad pół godziny. Na poziomie ufności 1 − α = 0.99 oszacuj nieznaną frakcję uczniów, którzy potrzebują co najmniej pół godziny na dotarcie do szkoły. Oblicz przeciętny błąd szacunku. 9. Ile elementów powinna liczyć próba losowa, aby z błędem maksymalnym nie przekraczającym 3% oszacować przedziałowo frakcję osób powyżej 60 roku życia w populacji 10000 mieszkańców pewnego miasteczka (5100 kobiet i 4900 mężczyzn), jeżeli szacuje się, że frakcja ta wynosi u mężczyzn 24%, a u kobiet 25% ?. Przyjmij 1 − α = 0.90 i proporcjonalny sposób doboru próby. 10. Jak liczną próbę losową należałoby pobrać, aby z błędem maksymalnym nie przekraczającym 2% oszacować przedziałowo procent mieszkańców pewnego miasta legitymujących się wyższym wykształceniem, jeżeli przypuszcza się, że w dzielnicy A (10250 mieszkańców) procent ten wynosi 30, w dzielnicy B (8700 mieszkańców) - 27, a w dzielnicy C (6500 mieszkańców) - 34 ? Zakładamy, że losowanie będzie warstwowe optymalne. Przyjmij 1 − α = 0.95. 4