Steczkowski_1998_10. Wielofazowe losowanie proby

Transkrypt

Steczkowski_1998_10. Wielofazowe losowanie proby
Rozdział
X
Wielofazowe losowanie próby
10.1. Wprowadzenie w zagadnienie
W tym rozdziale zostanie podana informacja w związku z doborem próby, wyodręb­
nianiem warstw lub zespołów, a przede wszystkim z efektywnością dokonanych szacunków.
Jeżeli takiej informacji brak, to relatywnie tanim i najpoprawniejszym postępowaniem będzie
jej uzyskanie na drodze losowania wielofazowego.
Losowanie wielofazowe (multi-phase sampling) polega na tym, że w pierwszej fazie pobiera
się dużą liczebnie próbę (czasem zwaną próbą matką), a z niej z kolei losuje się niezależnie od
siebie jedną lub wiele- ma się rozumieć- mniej liczebnych podprób. Próba pierwotna służy
oszacowaniu dodatkowej zmiennej Y, podpróba zaś z następnej fazy oszacowaniu parametru
zasadniczej zmiennej X, podlegającej badaniu.
Nic nie stoi na przeszkodzie, aby tych faz było więcej niż dwie, ale w praktyce rzadko
wychodzi się poza próbę dwufazową (two-phase sample; double sample), która polega na
losowaniu najpierw próby pierwotnej, aby w następnym losowaniu uznać otrzymaną próbę za
zbiorowość generalną, z której w kolejnej fazie pobiera się próbę wtórną (podpróbę).
Różnica między losowaniem wielostopniowym oraz wielofazowym polega przede wszystkim na tym, że w tym ostatnim przypadku musimy mieć do dyspozycji pełny operat
losowania. Decyzja, aby posłużyć się omawianym rodzajem próby, zależy więc od tego, jak
wzrośnie koszt badań w stosunku do wzrostu efektywności oszacowania wybranego parametru badanej zmiennej losowej X.
Losowanie dwufazowe zaproponował J. Neyman (1938, s. 101-116). D. S. Robson (1952,
s. 203-215) oraz D. S. Robson, A. J. King (1953) rozciągnęli tę procedurę na losowanie
wielofazowe. K. P. Srinath (1971, s. 583-586) z kolei rozwiązał problem optymalnego
rozmieszczenia omawianej próby. W końcu J. N. K. Rao (1973, s. 125-133) zmodyfikował
i zdefiniował, pod różnymi warunkami, wariancję tego rodzaju estymatorów.
10.2. Estymator ilorazowy i regresyJny w losowaniu dwufazowym
W sytuacji gdy nie jest znana średnia zmiennej dodatkowej (Y) i nie może być użyty
estymator ilorazowy (zgodnie z tym, co zostało pokazane w punkcie 9.2) dla oszacowania
parametru zmiennej badanej X należy zastosować postępowanie jak w schemacie A.
Schemat A - szacowanie średniej arytmetycznej, losowanie bezzwrotne w obu fazach,
estymator ilorazowy. Zbiorowość generalna składa się z N jednostek badania. Zmienna Y jest
347
uwzględniona
w obu fazach badania, a zmienna X tylko w drugiej fazie. W wyniku pomiaru
otrzymujemy wartości X; oraz Y; (i = l, ... , N) w zbiorowości generalnej, oraz w próbie
Y(l) i (i = l, ... , n 1 ) w fazie pierwszej, zaś x(Zli Y<ZJi (i = l, ... , n 2 ) w fazie drugiej.
W tych warunkach zgodnym, ale obciążonym estymatorem ilorazowym średniej arytmetycznej flx (zmiennej X) w zbiorowości generalnej jest
-
- Yt
Xz _
_
Xu = Xz-=- = -=-Yt = wyt,
Yz
gdzie: Y1 to
średnia
(10.1)
Y2
z próby pierwotnej (I faza);
x2 , y2
to
średnie
z próby wtórnej (II faza);
Xz
w=-.
(10.2)
Y2
Gdy n 2 jest
podpróbą
przybliżona
n1 , wówczas
l
2-
2
s (x; 1 ):::::: -(sx+w
22
Sy
~
wariancja wynosi
l
nt
-2wsx)+-(2wsyx-w
22
Sy),
(10.3a)
lub inaczej
(10.3b)
gdzie
(10.4)
jeśli
jednak n1 oraz n2
są niezależne,
to
(10.5)
Różnica między (10.4) i (10.5) staje się mało znacząca, gdy n 1 jest dużo większe od n 2 (n 1 ~ n 2 ).
Pokazuje to Daroga Singh i inni (1986, s. 272-275).
Gdy nie jest znana średnia zmiennej dodatkowej (Y) użycie estymatara regresyjnego
przedstawia schemat B.
Schemat B - szacowanie średniej arytmetycznej, losowanie bezzwrotne w obu fazach,
estymator regresyjny. W identycznych warunkach, jak w schemacie A, zgodnym, lecz
obciążonym estymatorem regresyjnym średniej arytmetycznej flx w zbiorowości generalnej jest
(10.6)
gdzie
współczynnik
regresji zmiennej X
względem
zmiennej Y w drugiej fazie badania ma
postać:
n2
I
b
(x(2)i-.Xz)(Y(z)i-Yz)
= ' - - 1 =n-z- - ' 1 " - - - - - - - - - - = r~.
sY
I (y(2)i- Yz)
i= 1
(10.7)
348
Jeżeli liczebność
próby n 2 jest dostatecznie
a jego wariancja wynosi
duża,
to
obciążenie
estymatara jest niewielkie,
(10.8a)
lub inaczej
(10.8b)
gdzie
(10.9)
2
Sy
l
~
-
2
=nz-l~ (y(2)i-yz) '
(10.10)
i= 1
n2
L (X z(i)- .XzHY(Z)i- Yz)
(10.11)
Schemat C
-liczebność
próby i podpróby dla schematu B. Za L. Kishem (1965, s. 441)
można przyjąć, że
(10.12)
gdzie: C - ogólne koszty zmienne; c 1 - koszt badania jednostki w próbie pierwotnej
o liczebności n 1 (I faza); c 2 - koszt badanej jednostki w podpróbie wtórnej o liczebności n 2 (II
faza).
Losowanie dwufazowe ma sens przede wszystkim wtedy, gdy koszt jednostkowy badania
zjawisk przewidzianych w pierwszej fazie jest relatywnie niski, a zjawisk badanych w drugiej
fazie - relatywnie wysoki. Tak więc c 1 < c 2 , gdy n 1 > n2 .
Dla funkcji kosztów (10.12) wariancja estymatora D 2 (x,) będzie najmniejsza, gdy:
c
(10.13)
(10.14)
Przykład
10.1
zaczerpnięty
z pracy: R.
Zasępa
(1983, s. 109).
Decydując się
na
próbę
dwufazową dokonuje się oceny średniej arytmetycznej zbiorowości generalnej ze względu na
zmienną X. W każdej fazie zastosowano losowanie bezzwrotne. Na pokrycie ogólnych
kosztów zmiennych przeznaczono 106 tys. zł. Jednostkowy koszt badania w pierwszej fazie
wynosi c 1 = 16 zł, a w drugiej fazie c2 = 900 zł. Jak wielką próbę trzeba pobrać w każdej fazie,
gdy wie się, że korelacje między zmienną X a dodatkową zmienną Y, którą zamierzamy badać
w fazie pierwszej, wynosi r = 0,8?
349
Stosując
wzór (10.13) otrzymujemy
106000
n1 =
16+900·
J J
l-0,8 2
--·
0,8 2
Do pierwszej próby w pierwszej fazie powinno
badania.
Zgodnie z wzorem (10.14)
= 1000.
16
900
się wylosować
bezzwrotnie 1000 jednostek
J J16
2
l-0,8
- · -=100
0,8 2
900
.
Z próby pierwotnej do próby wtórnej w drugiej fazie należy wylosować bezzwrotnie 100
jednostek badania.
n 2 =1000·
Sięgnijmy
razjeszcze do
przykładu
z książki Daroga Singh i inni (1986, s. 278-283). Tam
też można znaleźć przykład wykorzystania w próbie dwufazowej estymatara różnicowego
(1986, s. 270---272).
Przykład 10.2. Przeprowadzono badania nad wydajnością plonów ryżu w stanie Uttar
Pradesh (Indie) pobierając losowo po 40 "garstek" ryżu świeżego (z poletek o rozmiarze 1/100
akra). Podpróba pobrana z próby pierwotnej wyniosła 20 garstek. Rozróżniono dwie zmienne:
X oznaczającą plon ryżu wysuszonego (w kg) oraz zmienną dodatkową Y będącą plonem ryżu
świeżego (w kg) zebranego w polu.
Należy:
- oszacować przeciętny plon na akr ryżu wysuszonego oraz obliczyć wariancję
estymatora, uwzględniając przy tym informację dodatkową,
· - jeżeli koszt otrzymania garstek ryżu suchego jest 1,5 raza większy w stosunku do ryżu
świeżego, to jaka będzie optymalna liczebność próby przy przyjętej efektywności oszacowania?
W tablicy 10.1. po wylosowaniu próby pierwotnej (od l do 40) wylosowano z niej
podpróbę (od 21 do 40) i dopiero potem uporządkowano dane nadając im odpowiednią
numerację.
Tablica 10.1
Dane
wyjściowe
Waga
Próba
Nr "garstki"'
Świeży
i
ryż
ryż
(kg) y,
(kg) x,
Suszony
Nr
"garstki"
Świeży
ryż
(kg) Y1
l
2
3
4
5
l
2
3
4
5
6
7
8
9
16.8
12.7
18.8
13.9
11.3
10.9
12.5
17.4
14.1
15.2
11.8
17.5
12.5
10.4
10.1
11.2
15.8
13.0
21
22
23
24
25
26
27
28
29
8.7
11.6
11.5
14.4
17.8
8.4
8.7
14.6
12.1
350
l
2
3
4
5
10
11.9
13.4
13.5
8.3
13.7
14.6
14.5
17.1
14.5
11.4
14.0
10.8
12.3
12.4
7.6
12.5
13.3
13.5
16.2
13.5
10.3
12.8
30
31
32
33
34
35
36
37
38
39
40
7.9
8.9
11.1
13.0
10.5
14.2
12.7
11.9
15.5
17.1
10.9
11
12
13
14
15
16
17
18
19
20
Estymator ilorazowy w losowaniu dwufazowym:
Zgodnie z wzorem (10.1)
252,7
x2 = -20- =
12635·
'
'
513,8
40
-
Y- = - - = 12 845.
l
'
276,3
Yz=20;
'
l
xil = 13. 765 (12,635. 12,845) = 11.78 (100 kg/akr).
Wariancję
tego estymatara oblicza
się
zgodnie z wzorem (103b)
w= 12' 635 = 09178
13,765
'
'
s; = 119 [3,296, 49-20 (12,63WJ = 5,45,
s;= _!_[3906,73-20(13,76WJ
= 6,15
19
sly =
s2 (:Xu) =
A
więc
1
19 [3588,19- 20 (12,635) (13,765)] = 5,77.
(_.!.._- _.!.._) [5,45 + (0,9178) 2 . 6,15-2.0,9178. 5,77 +_.!.._ 5. 55] =
20
40
40
odchylenie standardowe wyniesie
s (xil) = Jo,1363 (10 4 ) = 36,9 kg/akr.
Jeżeli
dodatkowa informacja
zostałaby pominięta (ryż świeży),
:X = 12,635 (100 kg/akr)
oraz
2
5,45
4
s (x)=-=027·10.
23
'
to
0,1363 ·104
.
351
Tak więc efektywność estymatara z dodatkową
bez niej wyniesie
e (.X, X u)
o27 ·10
4
= ( 0,{ 363 ·l04
informacją
w porównaniu z szacowaniem
)
l · 100 = 98,91%
Estymator regresyjny w losowaniu dwustopniowym:
Zgodnie z wzorem (10.6) otrzymamy:
r
=
5·77
x1 =
Wariancję
=
flTs~
0·9966·
r2 =
,
0,9933;
l - r 2 = 0,0067,
12,635 + 0,9381 (12,845 -13,765) = 11,77 (100 kg/akr).
tego estymatara oblicza
s 2 (x 1)
się
zgodnie z wzorem (10.8b):
l
l
= 20 (5,45 · 0,0067) + 40 (5,45 · 0,9933) = 0,1372 ·104 •
W tym przypadku odchylenie standardowe estymatara wyniesie
s(x1) = JO,l372 (10 4 ) = 37,04.
estymacja średniej arytmetycznej, losowanie dwufazowe warstwowe ze
W dużej części przypadków najbardziej efektywne jest następujące postępowanie. Badana jest zmienna X. W pierwszej fazie przy losowaniu próby
pierwotnej stosuje się losowanie bezzwrotne. Następnie otrzymaną próbę pierwotną dzieli się
na l warstw z zastosowaniem alokacji proporcjonalnej. Z każdej h-tej warstwy (h = l, ... , l)
Schemat D -
zmieniającą się liczebnością.
l
losuje się nh jednostek badania, tworząc w ten sposób próbę wtórną o liczebności n 2
=
L nh.
h- l
W takich warunkach nieobciążonym estymatorem
generalnej jest statystyka:
średniej
arytmetycznej J1
zbiorowości
l
__ Ln(l)h _
xwxh,
(10.15)
nl
h= l
której
wariancję
szacuje
się
za
pomocą wyrażenia:
l
2s~ l
s 2(-xw) -_ L[n(l)hJ
- - -+nl nh nl
h= l
L
l
h= l
n(l)h(-xh-xw
_ )2 ,
-nl
(10.16)
gdzie: xh oraz s~ oblicza się dla warstw w próbie wtórnej (II faza) zgodnie z wzorami (5.16)
i (5.18). Podobne postępowanie dla alokacji optymalnej pokazuje L. Kish (1965, s. 444).
L. Kish zwraca też uwagę, że przy wykorzystaniu losowania dwufazowego można
tworzyć wiele bardziej skomplikowanych schematów, np. przez połączenie go z losowaniem
wielostopniowym, warstwowym itp. (L. Kish 1965, s. 444-446, Daraga Singh i inni 1986,
s. 262-270).
A. Stuart (1983, s. 55-58) przedstawia sytuację, w której nie można powarstwować
zbiorowości generalnej ze względu na interesującą badacza dziedzinę. W takim przypadku
utworzył on wstępne warstwy i w ich obrębie dokonał losowania. Następnie w tak
otrzymanych próbach w obrębie warstw uwzględnił tylko te jednostki, które należą do
interesującej go dziedziny (domeny), (M. Tin i inni 1972, s. 913-916, N. J. Purcell i inni
1979).
352
Przykład 10.3. Chcemy dowiedzieć się, jakie jest zużycie elektryczności w gospodarstwach domowych (odczytanie stanu licznika). Przed pobraniem próby gospodarstwa domowe można podzielić na poszczególne warstwy ze względu na przynależność do regionu. Pozwala to np. odpowiedzieć na pytanie, jak się zmienia zużycie elektryczności 1ze
względu na zmiany klimatyczne w poszczególnych regionach. Nic nam to jednak nie
powie o tym, jak zużycie elektryczności kształtuje się np. ze względu na liczbę członków
gospodarstwa domowego (co jest istotnym czynnikiem dla badanego zjawiska). Struktura
gospodarstw domowych pod tym względem nie jest jednak znana i nie można pogrupować ich ze względu na tę dziedzinę. Dlatego też pobrano podpróby z poszczególnych
warstw (regionów) i w ich obrębie, dysponując już informacją z próby, utworzono dziedziny, które wynikają z koncepcji badań. Wielkość podpróby zmienia się zależnie od
dziedziny w poszczególnych warstwach, gdyż uwzględnia się tylko te jednostki, które do
danej dziedziny należą. Jak wiele jednostek gubi się, zależy od rozmiarów uwzględnia­
nych dziedzin. W rozpatrywanym przypadku będą to rozmiary poszczególnych grup
gospodarstw domowych. Na jednym krańcu dziedzina pokrywa się prawie dokładnie ze
zbiorowością generalną. Na drugim krańcu leży dziedzina stanowiąca bardzo małą część
zbiorowości generalnej. W każdym z tych przypadków strata efektywności oszacowania
będzie bardzo różna. Przykład numeryczny znajduje się w pracy A. Stuarta (1983,
s. 56-58). Patrz też: M. Tin, T. Toe (1972), S. W. Sinclair (1986).
Schemat E Nawiązując
do
losowanie dwufazowe przy
zróżnicowanych prawdopodobieństwach
wyboru.
rozdziału
VII rozpatrzmy z kolei zagadnienie, gdzie zmienna Y nadal
dodatkową i służy podniesieniu efektywności oszacowania któregoś
reprezentuje informację
parametru zmiennej X.
Jak wcześniej wspomniano dodatkową informację uzyskuje się na drodze losowania
dwufazowego zgodnie z propozycją, jaką przedstawił Des Raj (1964, s. 900--902) a także
D. Singh i B. D. Singh (1965, s. 45-67).
Próba pierwotna o liczebności n 1 zostaje wylosowana ze zbiorowości generalnej
w losowaniu nieograniczonym (próba prosta). Zmienna pomocnicza Y zostaje pomierzona na
jednostkach wylosowanych do próby pierwotnej, w efekcie czego otrzymuje się wartości
Y l i (i= l, ... , n 1 ). Następnie z próby tej pobiera się w losowaniu ze zwracaniem przy
zróżnicowanych prawdopodobieństwach wyboru jednostek do próby podpróbę o liczebności
n 2 i dokonuje się pomiaru zarówno zmiennej losowej X, jak i pomocniczej Y i otrzymuje
odpowiednio wartości x 2 ; oraz Yzi dla i = l, ... , n 2 .
W tych warunkach nieobciążonym estymatorem flx w zbiorowości generalnej będzie:
(10.17)
gdzie
prawdopodobieństwo
wyboru
P;
Y;
=Y
a
dla
i= l, ... ,n 2
oraz
(10.18)
353
Nieobciążonym estymatorem wariancji tego oszacowania D 2 (x 2P) będzie
s2 (x_ 2
)
P
=
n~
[L" (xi)
- (L" -xi)
(n -l)
Pi
Pi
l
2
2
2
2
i= 1
2
]
+ ( -1 - -1)
ni
1
N n 2 (ni -l)
·
i= 1
Zasępa
(1983, s. 108 i 113) oraz Daroga Singh i inni (1986, s. 277-278 i 284-286)
próby ni w pierwszej fazie oraz liczebności n 2
w drugiej fazie badań. Patrz też J. N. K. Rao i inni (1977, s. 579-584).
R.
podają procedurę określania liczebności
Schemat F - losowanie z powtórnym wyborem. Wspomnieć trzeba, że do omawianej
grupy procedur zaliczyć można technikę zwaną losowaniem z powtórnym wyborem (capture-recapture sampling). Często nie jest znana liczebność zbiorowości generalnej (N),
szczególnie, gdy ta jest bardzo mobilna, a jednocześnie zamknięta w pewnych granicach (ryby
w stawie, zwierzyna łowna w lesie, ludność w granicach państwowych itp). Występują wtedy
trudności z ustaleniem odpowiedniej liczebności próby. W takiej sytuacji można zastosować
pewne postępowanie zaczerpnięte z nauk biologicznych, a szczególnie z ekologii (M. Doggan)
i inni 1969).
Znana jest liczebność M jednostek w pewien sposób wyróżnionych w danej zbiorowości generalnej. Dochodzi się do niej przez pobranie próby losowej o liczebności
M i specjalne, trwałe ich oznakowanie (w przypadku zwierząt przez obrączkowanie lub
kolczykowanie). Następnie te zaznaczone jednostki zwraca się do zbiorowości, z której
zostały pobrane. Po pewnym czasie, którego okres zależy od ruchliwości badanych jednostek, powtórnie pobiera się próbę o liczebności n. Przypuśćmy, że w próbie tej znalaz-
ło się m oznakowanych jednostek, stąd ich frakcja w tej próbie wyniesie ~. Przyjmując,
podobna frakcja wystąpi w
zwracania, jak ze zwracaniem:
że
zbiorowości
M
N
generalnej uzna
m
-;::::-
a
n
się, że
n
tak w losowaniu bez
(10.20)
stąd
A
M
N=-n
m ,
(10.21)
które to wyrażenie jest nieobciążonym estymatorem liczebności zbiorowości generalnej
zarówno w przypadku wystąpienia rozkładu dwumianowego (patrz pkt. 2.2.2), jak i hipergeometrycznego (patrz pkt. 2.2.3).
Wariancja tego estymatara jest niewymierna, choć czasem określa się ją wzorem
(10.22)
Są to rozwiązania zaproponowane przed laty przez G. G. J. Petersona (1896, s. 1-48) oraz
P. C. Lincolna (1930).
23 -
J. Steczkowski, Metoda reprezentacyjna...
354
Bardziej wnikliwe dociekania wymagają posłużenia się bardziej finezyjnymi procedurami.
W tej sprawie patrz pkt. 12.2 oraz M. T. Boswell i inni (1988, s. 469--488), A. N. Arnason i inni
(1980), C. D. Cowan i inni (1980).
Jest tam również opisana tzw. próba składana (composite sampling), którą tworzy się
poprzez pobranie wielu niezależnych od siebie prób, a następnie fizyczne wymieszanie ich ze
sobą. Przede wszystkim chodzi tu o zmniejszenie kosztu uzyskiwania tego rodzaju prób, np.
w badaniu wody pod względem chemicznym czy biologicznym, a także w statystycznej
kontroli jakości, szczególnie produktów bezkształtnych (C. A. Rhode 1976, s. 273-281, M. T.
Boswell i inni 1987). Poruszony problem losowania wielofazowego spotyka się też w doświad­
czalnictwie (G. Both 1969, s. 560-573) i trudno wytyczyć między nimi wyraźną granicę.
Podsumowując dotychczasowe rozważania wypada podkreślić, że W. G. Cochran (1977,
s. 343) zastanawiał się głównie nad optymalną liczebnością n 1 oraz n2 , P. S. R. S. Rao (1981)
badał efektywność omawianych estymatorów, S. Khan i T. P. Tripathi (1967, s. 42--48)
rozważali problem losowania dwufazowego dla estymacji współczynnika regresji wielorakiej.
C. Bose (1943, s. 330) omawia problem pobierania drugiej próby niezależnie od wcześniejszej.
Podobne zagadnienia stały się przedmiotem zainteresowania (B. D. Tikkiwał 1960,
s. 131-138) oraz P. S. R. S. Rao (1972, s. 473--476, 1975, s. 140-146, 1975, s. 839-845)
i wielu innych. Problem jest szeroki, należy tedy zainteresowanych odesłać do literatury.