Steczkowski_1998_10. Wielofazowe losowanie proby
Transkrypt
Steczkowski_1998_10. Wielofazowe losowanie proby
Rozdział X Wielofazowe losowanie próby 10.1. Wprowadzenie w zagadnienie W tym rozdziale zostanie podana informacja w związku z doborem próby, wyodręb nianiem warstw lub zespołów, a przede wszystkim z efektywnością dokonanych szacunków. Jeżeli takiej informacji brak, to relatywnie tanim i najpoprawniejszym postępowaniem będzie jej uzyskanie na drodze losowania wielofazowego. Losowanie wielofazowe (multi-phase sampling) polega na tym, że w pierwszej fazie pobiera się dużą liczebnie próbę (czasem zwaną próbą matką), a z niej z kolei losuje się niezależnie od siebie jedną lub wiele- ma się rozumieć- mniej liczebnych podprób. Próba pierwotna służy oszacowaniu dodatkowej zmiennej Y, podpróba zaś z następnej fazy oszacowaniu parametru zasadniczej zmiennej X, podlegającej badaniu. Nic nie stoi na przeszkodzie, aby tych faz było więcej niż dwie, ale w praktyce rzadko wychodzi się poza próbę dwufazową (two-phase sample; double sample), która polega na losowaniu najpierw próby pierwotnej, aby w następnym losowaniu uznać otrzymaną próbę za zbiorowość generalną, z której w kolejnej fazie pobiera się próbę wtórną (podpróbę). Różnica między losowaniem wielostopniowym oraz wielofazowym polega przede wszystkim na tym, że w tym ostatnim przypadku musimy mieć do dyspozycji pełny operat losowania. Decyzja, aby posłużyć się omawianym rodzajem próby, zależy więc od tego, jak wzrośnie koszt badań w stosunku do wzrostu efektywności oszacowania wybranego parametru badanej zmiennej losowej X. Losowanie dwufazowe zaproponował J. Neyman (1938, s. 101-116). D. S. Robson (1952, s. 203-215) oraz D. S. Robson, A. J. King (1953) rozciągnęli tę procedurę na losowanie wielofazowe. K. P. Srinath (1971, s. 583-586) z kolei rozwiązał problem optymalnego rozmieszczenia omawianej próby. W końcu J. N. K. Rao (1973, s. 125-133) zmodyfikował i zdefiniował, pod różnymi warunkami, wariancję tego rodzaju estymatorów. 10.2. Estymator ilorazowy i regresyJny w losowaniu dwufazowym W sytuacji gdy nie jest znana średnia zmiennej dodatkowej (Y) i nie może być użyty estymator ilorazowy (zgodnie z tym, co zostało pokazane w punkcie 9.2) dla oszacowania parametru zmiennej badanej X należy zastosować postępowanie jak w schemacie A. Schemat A - szacowanie średniej arytmetycznej, losowanie bezzwrotne w obu fazach, estymator ilorazowy. Zbiorowość generalna składa się z N jednostek badania. Zmienna Y jest 347 uwzględniona w obu fazach badania, a zmienna X tylko w drugiej fazie. W wyniku pomiaru otrzymujemy wartości X; oraz Y; (i = l, ... , N) w zbiorowości generalnej, oraz w próbie Y(l) i (i = l, ... , n 1 ) w fazie pierwszej, zaś x(Zli Y<ZJi (i = l, ... , n 2 ) w fazie drugiej. W tych warunkach zgodnym, ale obciążonym estymatorem ilorazowym średniej arytmetycznej flx (zmiennej X) w zbiorowości generalnej jest - - Yt Xz _ _ Xu = Xz-=- = -=-Yt = wyt, Yz gdzie: Y1 to średnia (10.1) Y2 z próby pierwotnej (I faza); x2 , y2 to średnie z próby wtórnej (II faza); Xz w=-. (10.2) Y2 Gdy n 2 jest podpróbą przybliżona n1 , wówczas l 2- 2 s (x; 1 ):::::: -(sx+w 22 Sy ~ wariancja wynosi l nt -2wsx)+-(2wsyx-w 22 Sy), (10.3a) lub inaczej (10.3b) gdzie (10.4) jeśli jednak n1 oraz n2 są niezależne, to (10.5) Różnica między (10.4) i (10.5) staje się mało znacząca, gdy n 1 jest dużo większe od n 2 (n 1 ~ n 2 ). Pokazuje to Daroga Singh i inni (1986, s. 272-275). Gdy nie jest znana średnia zmiennej dodatkowej (Y) użycie estymatara regresyjnego przedstawia schemat B. Schemat B - szacowanie średniej arytmetycznej, losowanie bezzwrotne w obu fazach, estymator regresyjny. W identycznych warunkach, jak w schemacie A, zgodnym, lecz obciążonym estymatorem regresyjnym średniej arytmetycznej flx w zbiorowości generalnej jest (10.6) gdzie współczynnik regresji zmiennej X względem zmiennej Y w drugiej fazie badania ma postać: n2 I b (x(2)i-.Xz)(Y(z)i-Yz) = ' - - 1 =n-z- - ' 1 " - - - - - - - - - - = r~. sY I (y(2)i- Yz) i= 1 (10.7) 348 Jeżeli liczebność próby n 2 jest dostatecznie a jego wariancja wynosi duża, to obciążenie estymatara jest niewielkie, (10.8a) lub inaczej (10.8b) gdzie (10.9) 2 Sy l ~ - 2 =nz-l~ (y(2)i-yz) ' (10.10) i= 1 n2 L (X z(i)- .XzHY(Z)i- Yz) (10.11) Schemat C -liczebność próby i podpróby dla schematu B. Za L. Kishem (1965, s. 441) można przyjąć, że (10.12) gdzie: C - ogólne koszty zmienne; c 1 - koszt badania jednostki w próbie pierwotnej o liczebności n 1 (I faza); c 2 - koszt badanej jednostki w podpróbie wtórnej o liczebności n 2 (II faza). Losowanie dwufazowe ma sens przede wszystkim wtedy, gdy koszt jednostkowy badania zjawisk przewidzianych w pierwszej fazie jest relatywnie niski, a zjawisk badanych w drugiej fazie - relatywnie wysoki. Tak więc c 1 < c 2 , gdy n 1 > n2 . Dla funkcji kosztów (10.12) wariancja estymatora D 2 (x,) będzie najmniejsza, gdy: c (10.13) (10.14) Przykład 10.1 zaczerpnięty z pracy: R. Zasępa (1983, s. 109). Decydując się na próbę dwufazową dokonuje się oceny średniej arytmetycznej zbiorowości generalnej ze względu na zmienną X. W każdej fazie zastosowano losowanie bezzwrotne. Na pokrycie ogólnych kosztów zmiennych przeznaczono 106 tys. zł. Jednostkowy koszt badania w pierwszej fazie wynosi c 1 = 16 zł, a w drugiej fazie c2 = 900 zł. Jak wielką próbę trzeba pobrać w każdej fazie, gdy wie się, że korelacje między zmienną X a dodatkową zmienną Y, którą zamierzamy badać w fazie pierwszej, wynosi r = 0,8? 349 Stosując wzór (10.13) otrzymujemy 106000 n1 = 16+900· J J l-0,8 2 --· 0,8 2 Do pierwszej próby w pierwszej fazie powinno badania. Zgodnie z wzorem (10.14) = 1000. 16 900 się wylosować bezzwrotnie 1000 jednostek J J16 2 l-0,8 - · -=100 0,8 2 900 . Z próby pierwotnej do próby wtórnej w drugiej fazie należy wylosować bezzwrotnie 100 jednostek badania. n 2 =1000· Sięgnijmy razjeszcze do przykładu z książki Daroga Singh i inni (1986, s. 278-283). Tam też można znaleźć przykład wykorzystania w próbie dwufazowej estymatara różnicowego (1986, s. 270---272). Przykład 10.2. Przeprowadzono badania nad wydajnością plonów ryżu w stanie Uttar Pradesh (Indie) pobierając losowo po 40 "garstek" ryżu świeżego (z poletek o rozmiarze 1/100 akra). Podpróba pobrana z próby pierwotnej wyniosła 20 garstek. Rozróżniono dwie zmienne: X oznaczającą plon ryżu wysuszonego (w kg) oraz zmienną dodatkową Y będącą plonem ryżu świeżego (w kg) zebranego w polu. Należy: - oszacować przeciętny plon na akr ryżu wysuszonego oraz obliczyć wariancję estymatora, uwzględniając przy tym informację dodatkową, · - jeżeli koszt otrzymania garstek ryżu suchego jest 1,5 raza większy w stosunku do ryżu świeżego, to jaka będzie optymalna liczebność próby przy przyjętej efektywności oszacowania? W tablicy 10.1. po wylosowaniu próby pierwotnej (od l do 40) wylosowano z niej podpróbę (od 21 do 40) i dopiero potem uporządkowano dane nadając im odpowiednią numerację. Tablica 10.1 Dane wyjściowe Waga Próba Nr "garstki"' Świeży i ryż ryż (kg) y, (kg) x, Suszony Nr "garstki" Świeży ryż (kg) Y1 l 2 3 4 5 l 2 3 4 5 6 7 8 9 16.8 12.7 18.8 13.9 11.3 10.9 12.5 17.4 14.1 15.2 11.8 17.5 12.5 10.4 10.1 11.2 15.8 13.0 21 22 23 24 25 26 27 28 29 8.7 11.6 11.5 14.4 17.8 8.4 8.7 14.6 12.1 350 l 2 3 4 5 10 11.9 13.4 13.5 8.3 13.7 14.6 14.5 17.1 14.5 11.4 14.0 10.8 12.3 12.4 7.6 12.5 13.3 13.5 16.2 13.5 10.3 12.8 30 31 32 33 34 35 36 37 38 39 40 7.9 8.9 11.1 13.0 10.5 14.2 12.7 11.9 15.5 17.1 10.9 11 12 13 14 15 16 17 18 19 20 Estymator ilorazowy w losowaniu dwufazowym: Zgodnie z wzorem (10.1) 252,7 x2 = -20- = 12635· ' ' 513,8 40 - Y- = - - = 12 845. l ' 276,3 Yz=20; ' l xil = 13. 765 (12,635. 12,845) = 11.78 (100 kg/akr). Wariancję tego estymatara oblicza się zgodnie z wzorem (103b) w= 12' 635 = 09178 13,765 ' ' s; = 119 [3,296, 49-20 (12,63WJ = 5,45, s;= _!_[3906,73-20(13,76WJ = 6,15 19 sly = s2 (:Xu) = A więc 1 19 [3588,19- 20 (12,635) (13,765)] = 5,77. (_.!.._- _.!.._) [5,45 + (0,9178) 2 . 6,15-2.0,9178. 5,77 +_.!.._ 5. 55] = 20 40 40 odchylenie standardowe wyniesie s (xil) = Jo,1363 (10 4 ) = 36,9 kg/akr. Jeżeli dodatkowa informacja zostałaby pominięta (ryż świeży), :X = 12,635 (100 kg/akr) oraz 2 5,45 4 s (x)=-=027·10. 23 ' to 0,1363 ·104 . 351 Tak więc efektywność estymatara z dodatkową bez niej wyniesie e (.X, X u) o27 ·10 4 = ( 0,{ 363 ·l04 informacją w porównaniu z szacowaniem ) l · 100 = 98,91% Estymator regresyjny w losowaniu dwustopniowym: Zgodnie z wzorem (10.6) otrzymamy: r = 5·77 x1 = Wariancję = flTs~ 0·9966· r2 = , 0,9933; l - r 2 = 0,0067, 12,635 + 0,9381 (12,845 -13,765) = 11,77 (100 kg/akr). tego estymatara oblicza s 2 (x 1) się zgodnie z wzorem (10.8b): l l = 20 (5,45 · 0,0067) + 40 (5,45 · 0,9933) = 0,1372 ·104 • W tym przypadku odchylenie standardowe estymatara wyniesie s(x1) = JO,l372 (10 4 ) = 37,04. estymacja średniej arytmetycznej, losowanie dwufazowe warstwowe ze W dużej części przypadków najbardziej efektywne jest następujące postępowanie. Badana jest zmienna X. W pierwszej fazie przy losowaniu próby pierwotnej stosuje się losowanie bezzwrotne. Następnie otrzymaną próbę pierwotną dzieli się na l warstw z zastosowaniem alokacji proporcjonalnej. Z każdej h-tej warstwy (h = l, ... , l) Schemat D - zmieniającą się liczebnością. l losuje się nh jednostek badania, tworząc w ten sposób próbę wtórną o liczebności n 2 = L nh. h- l W takich warunkach nieobciążonym estymatorem generalnej jest statystyka: średniej arytmetycznej J1 zbiorowości l __ Ln(l)h _ xwxh, (10.15) nl h= l której wariancję szacuje się za pomocą wyrażenia: l 2s~ l s 2(-xw) -_ L[n(l)hJ - - -+nl nh nl h= l L l h= l n(l)h(-xh-xw _ )2 , -nl (10.16) gdzie: xh oraz s~ oblicza się dla warstw w próbie wtórnej (II faza) zgodnie z wzorami (5.16) i (5.18). Podobne postępowanie dla alokacji optymalnej pokazuje L. Kish (1965, s. 444). L. Kish zwraca też uwagę, że przy wykorzystaniu losowania dwufazowego można tworzyć wiele bardziej skomplikowanych schematów, np. przez połączenie go z losowaniem wielostopniowym, warstwowym itp. (L. Kish 1965, s. 444-446, Daraga Singh i inni 1986, s. 262-270). A. Stuart (1983, s. 55-58) przedstawia sytuację, w której nie można powarstwować zbiorowości generalnej ze względu na interesującą badacza dziedzinę. W takim przypadku utworzył on wstępne warstwy i w ich obrębie dokonał losowania. Następnie w tak otrzymanych próbach w obrębie warstw uwzględnił tylko te jednostki, które należą do interesującej go dziedziny (domeny), (M. Tin i inni 1972, s. 913-916, N. J. Purcell i inni 1979). 352 Przykład 10.3. Chcemy dowiedzieć się, jakie jest zużycie elektryczności w gospodarstwach domowych (odczytanie stanu licznika). Przed pobraniem próby gospodarstwa domowe można podzielić na poszczególne warstwy ze względu na przynależność do regionu. Pozwala to np. odpowiedzieć na pytanie, jak się zmienia zużycie elektryczności 1ze względu na zmiany klimatyczne w poszczególnych regionach. Nic nam to jednak nie powie o tym, jak zużycie elektryczności kształtuje się np. ze względu na liczbę członków gospodarstwa domowego (co jest istotnym czynnikiem dla badanego zjawiska). Struktura gospodarstw domowych pod tym względem nie jest jednak znana i nie można pogrupować ich ze względu na tę dziedzinę. Dlatego też pobrano podpróby z poszczególnych warstw (regionów) i w ich obrębie, dysponując już informacją z próby, utworzono dziedziny, które wynikają z koncepcji badań. Wielkość podpróby zmienia się zależnie od dziedziny w poszczególnych warstwach, gdyż uwzględnia się tylko te jednostki, które do danej dziedziny należą. Jak wiele jednostek gubi się, zależy od rozmiarów uwzględnia nych dziedzin. W rozpatrywanym przypadku będą to rozmiary poszczególnych grup gospodarstw domowych. Na jednym krańcu dziedzina pokrywa się prawie dokładnie ze zbiorowością generalną. Na drugim krańcu leży dziedzina stanowiąca bardzo małą część zbiorowości generalnej. W każdym z tych przypadków strata efektywności oszacowania będzie bardzo różna. Przykład numeryczny znajduje się w pracy A. Stuarta (1983, s. 56-58). Patrz też: M. Tin, T. Toe (1972), S. W. Sinclair (1986). Schemat E Nawiązując do losowanie dwufazowe przy zróżnicowanych prawdopodobieństwach wyboru. rozdziału VII rozpatrzmy z kolei zagadnienie, gdzie zmienna Y nadal dodatkową i służy podniesieniu efektywności oszacowania któregoś reprezentuje informację parametru zmiennej X. Jak wcześniej wspomniano dodatkową informację uzyskuje się na drodze losowania dwufazowego zgodnie z propozycją, jaką przedstawił Des Raj (1964, s. 900--902) a także D. Singh i B. D. Singh (1965, s. 45-67). Próba pierwotna o liczebności n 1 zostaje wylosowana ze zbiorowości generalnej w losowaniu nieograniczonym (próba prosta). Zmienna pomocnicza Y zostaje pomierzona na jednostkach wylosowanych do próby pierwotnej, w efekcie czego otrzymuje się wartości Y l i (i= l, ... , n 1 ). Następnie z próby tej pobiera się w losowaniu ze zwracaniem przy zróżnicowanych prawdopodobieństwach wyboru jednostek do próby podpróbę o liczebności n 2 i dokonuje się pomiaru zarówno zmiennej losowej X, jak i pomocniczej Y i otrzymuje odpowiednio wartości x 2 ; oraz Yzi dla i = l, ... , n 2 . W tych warunkach nieobciążonym estymatorem flx w zbiorowości generalnej będzie: (10.17) gdzie prawdopodobieństwo wyboru P; Y; =Y a dla i= l, ... ,n 2 oraz (10.18) 353 Nieobciążonym estymatorem wariancji tego oszacowania D 2 (x 2P) będzie s2 (x_ 2 ) P = n~ [L" (xi) - (L" -xi) (n -l) Pi Pi l 2 2 2 2 i= 1 2 ] + ( -1 - -1) ni 1 N n 2 (ni -l) · i= 1 Zasępa (1983, s. 108 i 113) oraz Daroga Singh i inni (1986, s. 277-278 i 284-286) próby ni w pierwszej fazie oraz liczebności n 2 w drugiej fazie badań. Patrz też J. N. K. Rao i inni (1977, s. 579-584). R. podają procedurę określania liczebności Schemat F - losowanie z powtórnym wyborem. Wspomnieć trzeba, że do omawianej grupy procedur zaliczyć można technikę zwaną losowaniem z powtórnym wyborem (capture-recapture sampling). Często nie jest znana liczebność zbiorowości generalnej (N), szczególnie, gdy ta jest bardzo mobilna, a jednocześnie zamknięta w pewnych granicach (ryby w stawie, zwierzyna łowna w lesie, ludność w granicach państwowych itp). Występują wtedy trudności z ustaleniem odpowiedniej liczebności próby. W takiej sytuacji można zastosować pewne postępowanie zaczerpnięte z nauk biologicznych, a szczególnie z ekologii (M. Doggan) i inni 1969). Znana jest liczebność M jednostek w pewien sposób wyróżnionych w danej zbiorowości generalnej. Dochodzi się do niej przez pobranie próby losowej o liczebności M i specjalne, trwałe ich oznakowanie (w przypadku zwierząt przez obrączkowanie lub kolczykowanie). Następnie te zaznaczone jednostki zwraca się do zbiorowości, z której zostały pobrane. Po pewnym czasie, którego okres zależy od ruchliwości badanych jednostek, powtórnie pobiera się próbę o liczebności n. Przypuśćmy, że w próbie tej znalaz- ło się m oznakowanych jednostek, stąd ich frakcja w tej próbie wyniesie ~. Przyjmując, podobna frakcja wystąpi w zwracania, jak ze zwracaniem: że zbiorowości M N generalnej uzna m -;::::- a n się, że n tak w losowaniu bez (10.20) stąd A M N=-n m , (10.21) które to wyrażenie jest nieobciążonym estymatorem liczebności zbiorowości generalnej zarówno w przypadku wystąpienia rozkładu dwumianowego (patrz pkt. 2.2.2), jak i hipergeometrycznego (patrz pkt. 2.2.3). Wariancja tego estymatara jest niewymierna, choć czasem określa się ją wzorem (10.22) Są to rozwiązania zaproponowane przed laty przez G. G. J. Petersona (1896, s. 1-48) oraz P. C. Lincolna (1930). 23 - J. Steczkowski, Metoda reprezentacyjna... 354 Bardziej wnikliwe dociekania wymagają posłużenia się bardziej finezyjnymi procedurami. W tej sprawie patrz pkt. 12.2 oraz M. T. Boswell i inni (1988, s. 469--488), A. N. Arnason i inni (1980), C. D. Cowan i inni (1980). Jest tam również opisana tzw. próba składana (composite sampling), którą tworzy się poprzez pobranie wielu niezależnych od siebie prób, a następnie fizyczne wymieszanie ich ze sobą. Przede wszystkim chodzi tu o zmniejszenie kosztu uzyskiwania tego rodzaju prób, np. w badaniu wody pod względem chemicznym czy biologicznym, a także w statystycznej kontroli jakości, szczególnie produktów bezkształtnych (C. A. Rhode 1976, s. 273-281, M. T. Boswell i inni 1987). Poruszony problem losowania wielofazowego spotyka się też w doświad czalnictwie (G. Both 1969, s. 560-573) i trudno wytyczyć między nimi wyraźną granicę. Podsumowując dotychczasowe rozważania wypada podkreślić, że W. G. Cochran (1977, s. 343) zastanawiał się głównie nad optymalną liczebnością n 1 oraz n2 , P. S. R. S. Rao (1981) badał efektywność omawianych estymatorów, S. Khan i T. P. Tripathi (1967, s. 42--48) rozważali problem losowania dwufazowego dla estymacji współczynnika regresji wielorakiej. C. Bose (1943, s. 330) omawia problem pobierania drugiej próby niezależnie od wcześniejszej. Podobne zagadnienia stały się przedmiotem zainteresowania (B. D. Tikkiwał 1960, s. 131-138) oraz P. S. R. S. Rao (1972, s. 473--476, 1975, s. 140-146, 1975, s. 839-845) i wielu innych. Problem jest szeroki, należy tedy zainteresowanych odesłać do literatury.