Elementarne metody statystyczne 2

Transkrypt

Elementarne metody statystyczne 2
Elementarne metody statystyczne 2
Estymacja wskaźnika struktury w badaniach reprezentacyjnych
Losowanie nieograniczone zależne (bez zwracania)
Załóżmy, że populacja liczy N elementów, wśród których nieznana frakcja p posiada pewną
wyróżnioną cechę. W próbie losowej n−elementowej zaobserwowano m ¬ n elementów posiadających tą cechę. Jeśli n jest bardzo duże (kilkaset), wówczas przedział ufności dla p na poziomie
1 − α tworzy się następująco:

m

− u1− α2
n
s
N −n
·
N −1
m
(1
n
−
n
m
)
n
m
,
+ u1− α2
n
s
N −n
·
N −1
m
(1
n
−
n

m
)
n 
,
gdzie u1− α2 jest kwantylem rzędu 1 − α2 rozkładu N (0, 1).
Jeśli chcemy oszacować nieznany parametr p z błędem maksymalnym nie przekraczającym
d, wówczas minimalna liczebność próby powinna wynosić
nmin =
N
1+
d2 (N −1)
b
+ 1,
b
u21− α p(1−p)
2
gdzie pb oznacza znany (spodziewany) rząd wielkości szacowanego parametru p. Jeśli pb nie jest
b − p)
b tzn. 1 i otrzymuznane, wówczas przyjmujemy maksymalną możliwą wartość iloczynu p(1
4
jemy
N
nmin =
+ 1.
2
−1)
1 + 4du(N
2
α
1− 2
Losowanie warstwowe proporcjonalne
Załóżmy, że populacja liczy N elementów, a poszczególne L warstw odpowiednio N1 , ..., NL
elementów. Wj = NNj oznacza frakcję elementów populacji znajdujących się w j−tej warstwie.
Próba losowa cechy X liczy n jednostek, przy czym z j−tej warstwy pochodzi nj = Wj n
elementów (j = 1, ..., L). Poszczególne wyniki próby xij są indeksowane kolejnym numerem i
elementu próby pochodzącego z danej warstwy (i = 1, ..., ni ) oraz numerem j warstwy (j =
1, ..., L).
Estymator nieznanej frakcji p elementów wyróżnionych w populacji jest następujący:
pbw =
L
L
X
1 X
Nj p j =
Wj pj ,
N j=1
j=1
gdzie pj jest frakcją elementów wyróżnionych w próbie pochodzących z j−tej warstwy. Wariancja estymatora pbw ma postać:
D2 (pbw ) =
1
n
−
L
1 X
Wj Pj (1 − Pj ),
N j=1
gdzie Pj oznacza frakcję elementów wyróżnionych w j−tej warstwie populacji. Dla dużych n
można zastąpić Pj przez zaobserwowaną wielkość pj . Przedział ufności na poziomie 1 − α dla
parametru p (przy n rzędu kilkaset) jest następujący:
pbw − u1− α2 D(pbw ), pbw + u1− α2 D(pbw ) ,
1
zaś minimalną liczebność próby gwarantującą błąd maksymalny nie przekraczający d obliczamy
jako:

L
P
nmin = 
j=1
d2
u21− α
2

Wj Pj (1 − Pj )
L
P
+ N1
Wj Pj (1 − Pj )
 + 1.
j=1
Losowanie warstwowe optymalne (schemat Neymana)
Różnica pomiędzy losowaniem warstwowym proporcjonalnym a optymalnym polega na tym,
że w tym ostatnim liczebność próby pobranej z konkretnej warstwy jest proporcjonalna nie tylko
do liczebności tej warstwy, ale także do odchylenia standardowego badanej cechy X w warstwie.
W praktyce zatem liczebności nj prób wylosowanych z poszczególnych warstw ustalamy w
następujący sposób:
q
nj =
Wj Pj (1 − Pj )
L
P
j=1
· n,
q
j = 1, 2, ..., L,
Wj Pj (1 − Pj )
gdzie Pj jest wskaźnikiem struktury w j−tej warstwie populacji, a Wj , podobnie jak w przypadku losowania proporcjonalnego, frakcją elementów populacji należących do j−tej warstwy.
Estymatorem pbw nieznanego wskaźnika struktury p w populacji jest wielkość:
pbw =
L
X
Wj pj ,
j=1
j
gdzie pj = m
jest frakcją elementów wyróżnionych pochodzących z j−tej warstwy.
nj
W przypadku, gdy liczebności poszczególnych warstw Nj są duże, wariancję estymatora pbw
możemy obliczyć ze wzoru:
2
D (pbw ) =
L
L
q
2
1 X
1 X
Wj Pj (1 − Pj ) −
Wj Pj (1 − Pj ).
n j=1
N j=1
Gdy nie znamy wartości wskaźników struktury Pj w poszczególnych warstwach, wówczas do
wzoru wstawiamy ich oszacowania pj uzyskane z próby losowej.
Przedział ufności na poziomie ufności 1 − α dla nieznanego waskaźnika struktury p przy
założeniu dużej próby i niezbyt małych frakcji Pj ma postać:
p ∈ pbw − u1− α2 D(pbw ), pbw + u1− α2 D(pbw ) .
Minimalna liczebność próby losowej konieczna do oszacowania nieznanego parametru p z błędem
maksymalnym nie przekraczającym d wynosi:

nmin = 
P
L
j=1
d2
u21− α
2
q
2
Wj Pj (1 − Pj )
+
1
N
L
P
j=1
2

 + 1.
Wj Pj (1 − Pj )
Zadania
1. Z populacji liczącej 8500 pracowników pewnego sektora wylosowano próbę liczącą 380 osób,
wśród których zaobserwowano 16% osób, którym do osiągnięcia pełnych praw emerytalnych
brakuje co najwyżej 5 lat. Na poziomie ufności 1 − α = 0.95 oszacuj nieznaną frakcję takich
osób w populacji generalnej.
2. Ile elementów powinna liczyć próba losowa, by oszacować nieznany procent palących studentów pewnej uczelni z błędem maksymalnym nie przekraczającym 5%, jeśli przypuszcza się,
że może on wynosić 15% ? Wiemy, że na uczelni studiuje 5867 osób. Przyjmij poziom ufności
0.90.
3. Jak liczną próbę należałoby pobrać z populacji 10000 osób, które w pewnym ustalonym okresie czasu zdały egzamin na prawo jazdy, by oszacować nieznany procent osób, które zdały go
za pierwszym razem z błędem maksymalnym nie przekraczającym 3% ? Przyjmij 1 − α = 0.90.
4. Wśród kierowców pewnej dużej firmy transportowej przeprowadzono pewien test psychologiczny. Kierowców podzielono ze względu na wiek na trzy grupy: A - pracownicy poniżej 30
roku życia, B - pracownicy w wieku 30-50 lat, C - pracownicy powyżej 50 roku życia. Badanie
objęło 30 osób z grupy A, 50 osób z grupy B i 20 osób z grupy C. Wyniki testu (w punktach
na 100 możliwych były następujące:
Grupa A: 89, 76, 78, 78, 90, 47, 67, 80, 76, 56, 68, 74, 81, 87, 98, 97, 55, 60, 78, 76, 87, 80, 97,
75, 74, 40, 90, 49, 82, 90.
Grupa B: 65, 67, 80, 86, 85, 54, 34, 46, 79, 70, 67, 69, 80, 85, 76, 70, 80, 98, 56, 68, 70, 74, 68,
86, 92, 57, 68, 76, 79, 80, 82, 99, 100, 76, 65, 69, 78, 85, 93, 90, 87, 65, 69, 80, 97, 84, 46, 60,
80, 86.
Grupa C: 49, 98, 86, 76, 70, 69, 76, 71, 80, 97, 95, 81, 90, 91, 84, 76, 80, 80, 91, 76.
Wykorzystując losowanie warstwowe proporcjonalne i optymalne oraz ustalając całkowitą liczebność próby na 40, wyznacz estymatory frakcji kierowców, którzy z testu uzyskali ponad
80 punktów. Porównaj wartości uzyskanych estymatorów z dokładną wartością badanej frakcji
otrzymaną na podstawie całej populacji.
5. Średnie wyniki pomiaru ciśnienia tętniczego krwi skurczowego (w mm Hg) u pacjentów leczonych pewnym lekiem w trzech różnych szpitalach (A, B, C) były następujące:
Szpital A: 90, 99, 98, 97, 99, 100, 100, 87, 89, 80, 94, 87, 89, 93, 79, 100, 85, 87, 94, 98, 87, 100,
105, 93, 94, 97, 86, 87, 80, 102;
Szpital B: 80, 68, 76, 97, 90, 98, 75, 97, 100, 102, 104, 91, 96, 89, 82, 80, 95, 90, 105, 110;
Szpital C: 95, 90, 86, 102, 103, 104, 98, 96, 87, 90.
Interesuje nas frakcja osób z ciśnieniem co najmniej 100 mm Hg. Wykorzystując losowania
warstwowe: proporcjonalne i optymalne wybierz z powyższych danych próbę 20-elementową
(przyjmij, że wartości Wj są w kolejnych grupach równe odpowiednio 0.20, 0.25 i 0.33) i wyznacz
wartości estymatorów pbw . Porównaj wyniki z rzeczywistą wartością p obliczoną z populacji.
6. Po weryfikacji kart zaliczeniowych 250 studentów pierwszego roku pewnej wyższej uczelni,
którzy zaliczyli sesję egzaminacyjną okazało się, że w pierwszym terminie sesję zaliczyły 124
osoby, w drugim terminie - 78 osób, a pozostałe osoby zaliczyły sesję w trzecim terminie.
Wyznacz frakcję osób, które zaliczyły sesję w pierwszym terminie, a następnie odpowiednie
estymatory tej wielkości. Wykorzystaj obydwa typy losowań warstwowych, ograniczając próbę
losową do 50 osób.
7. W populacji 10000 uczniów szkół średnich w pewnym mieście badaniu poddano odsetek
osób uczęszczających na dodatkowe zajęcia pozaszkolne. Populację podzielono na cztery warstwy, obejmujące uczniów liceów ogólnokształcących, liceów zawodowych, techników oraz szkół
zasadniczych zawodowych. Stosując losowanie warstwowe proporcjonalne uzyskano próbę o licz3
ności 500, która dała następujące frakcje badanej cechy w poszczególnych warstwach:
j
1
2
3
4
Rodzaj szkoły
licea ogólnokształcące
licea zawodowe
technika
szkoły zasadnicze zawodowe
Nj
4280
1270
2540
1910
pj
0.55
0.35
0.40
0.45
Przyjmując 1 − α = 0.95 zbuduj przedział ufności dla nieznanej frakcji uczniów uczęszczających
na zajęcia pozalekcyjne.
8. Spośród 5000 uczniów ostatnich klas gimnazjów (2560 dziewcząt i 2440 chłopców) wylosowano optymalnie 200 uczniów i w pewnym ustalonym dniu zmierzono czas dojścia (dojazdu)
do szkoły. Okazało się, że 300 dziewczętom i 420 chłopcom zajęło to ponad pół godziny. Na
poziomie ufności 1 − α = 0.99 oszacuj nieznaną frakcję uczniów, którzy potrzebują co najmniej
pół godziny na dotarcie do szkoły. Oblicz przeciętny błąd szacunku.
9. Ile elementów powinna liczyć próba losowa, aby z błędem maksymalnym nie przekraczającym
3% oszacować przedziałowo frakcję osób powyżej 60 roku życia w populacji 10000 mieszkańców
pewnego miasteczka (5100 kobiet i 4900 mężczyzn), jeżeli szacuje się, że frakcja ta wynosi u
mężczyzn 24%, a u kobiet 25% ?. Przyjmij 1 − α = 0.90 i proporcjonalny sposób doboru próby.
10. Jak liczną próbę losową należałoby pobrać, aby z błędem maksymalnym nie przekraczającym 2% oszacować przedziałowo procent mieszkańców pewnego miasta legitymujących się
wyższym wykształceniem, jeżeli przypuszcza się, że w dzielnicy A (10250 mieszkańców) procent ten wynosi 30, w dzielnicy B (8700 mieszkańców) - 27, a w dzielnicy C (6500 mieszkańców)
- 34 ? Zakładamy, że losowanie będzie warstwowe optymalne. Przyjmij 1 − α = 0.95.
4

Podobne dokumenty