materiały nr 2
Transkrypt
materiały nr 2
Bibliografia: Aczel A.D., Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, 2005 Bracha, Cz. (1996), Teoretyczne podstawy metody reprezentacyjnej, Wydawnictwo Naukowe PWN, Warszawa. Särndal, C.E., Swensson, B. i Wretman J. (1992), Model Assisted Survey Sampling, SpringerVerlag. Losowanie warstwowe Podział populacji przed losowaniem na warstwy przeprowadzany jest w następujących przypadkach: • jeŜeli wyniki badania naleŜy uogólnić najpierw na podpopulacje (np. województwa, regiony gospodarcze, grupy społeczne), a dopiero potem na całą populację. • gdy nie do wszystkich jednostek populacji moŜna zastosować takie same metody zbierania informacji lub nie moŜna zastosować takiego samego schematu losowania. • pewne praktyczne aspekty związane np. z brakiem odpowiedzi, są róŜne w róŜnych podpopulacjach. Wiadomo ogólnie, iŜ w grupie emerytów odsetek braków odpowiedzi w większości badaniach ankietowych jest mniejszy niŜ w grupie aktywnie pracujących. Podobnie, w róŜnych podpopulacjach spotykamy róŜne moŜliwości posiadania informacji o tak zwanych cechach dodatkowych, które mogą być wykorzystane do estymacji. • jeŜeli będziemy losowali z N-elementowej populacji n-elementową próbę za pomocą klasycznego losowania prostego bez zwracania (bez podziału na warstwy), to kaŜda z N prób ma takie same szanse wylosowania. MoŜe się zatem zdarzyć, Ŝe próba n będzie niereprezentatywna, tzn. taka, w której pewne jednostki nie występują, mimo Ŝe udział takich jednostek w populacji jest znaczny. • warstwowanie populacji przeprowadza się równieŜ, ze względu na precyzję szacunku, w przypadku, gdy populacja jest niejednorodna ze względu na badaną cechę. Idea losowania warstwowego. Dzielimy N-elementową populację U = {u1 , u 2 ,..., u N } na H H rozłącznych podpopulacji, zwanych warstwami. Mamy więc U = U U h . Liczebność całej h =1 H populacji populacji N moŜe być przedstawiona jako N = ∑ N h , gdzie Nh określa liczebność h =1 h-tej warstwy. Z kaŜdej warstwy Uh losujemy próbę Sh zgodnie z pewnym planem losowania w taki sposób, Ŝe losowanie w jednej warstwie jest niezaleŜne od losowań w pozostałych warstwach. Cała próba S jest więc sumą prób w poszczególnych warstwach S = S1 ∪ S 2 ∪ ... ∪ S H . Liczebność całej próby n moŜe być zatem przedstawiona jako H n = ∑ n h , gdzie nh -liczebność próby w h-tej warstwie. h =1 Twierdzenie 1 Dla losowania warstwowego, gdzie w warstwach losujemy nh elementowe próby, h=1,2,...,H zgodnie ze schematem losowania prostego bez zwracania estymator postaci H yW = ∑ Wh y Sh , h =1 gdzie y S h - średnia badanej cechy Y z próby Sh pobranej z h-tej warstwy jest nieobciąŜonym estymatorem średniej badanej cechy w populacji yU , a jego wariancja wyraŜa się wzorem 2 n h SU h D ( yW ) = ∑ W 1 − , h =1 N h nh H 2 2 h gdzie SU2 h = 1 ( y k − yU h ) 2 jest wariancją badanej cechy w h-tej warstwie ∑ N h − 1 k∈U h Wh = Nh - wagi dla h-tej warstwy; iloraz liczebności h-tej warstwy przez liczebność N całej populacji Twierdzenie 2 JeŜeli próba losowana jest w sposób proporcjonalny, tzn. liczebności próby w h-tej warstwie wynoszą nh = Nh ⋅ n = Wh ⋅ n , N gdzie n- liczebność całej próby, wówczas estymator warstwowy wartości średniej w całej populacji badanej cechy Y jest równowaŜny zwykłej średniej z całej próby, tzn. waŜenie jest niepotrzebne, a wariancja tej średniej wyraŜa się wzorem: D 2 ( yW - n 1 H 2 ) = 1 − ∑ Wh SU h . prop N n h =1 • Próba reprezentatywna • Kiedy i po co zaburza się proporcjonalność? Brak formalnej definicji w statystyce matematycznej (Neyman: alokacja optymalna nie jest zazwyczaj alokacją proporcjonalną) - Zasępa (1972) próbę reprezentatywną opisywał w sposób następujący: „ Szacując jakiś parametr populacji na podstawie badania częściowego (wyrywkowego) uzyskujemy z reguły inny wynik niŜ ten, jaki prawdopodobnie dostalibyśmy z badania pełnego. JeŜeli róŜnica pomiędzy tymi wynikami mieści się w dopuszczalnych granicach, mówimy, Ŝe precyzja szacunku (oszacowania) jest wystarczająca. JeŜeli ponadto moŜemy to samo powiedzieć o szacunkach wszystkich badanych parametrów populacji, skłonni jesteśmy twierdzić, Ŝe precyzja próby jest wystarczająca, a samą próbę nazywać reprezentatywną Tego rodzaju pojęcie reprezentatywności próby jest, rzecz jasna, pojęciem względnym i zaleŜy od Ŝądań stawianych dopuszczalnej precyzji szacunku.” - Często pod pojęciem próby reprezentatywnej mamy na myśli próbę: o której struktura ze względu na najwaŜniejsze (wybrane, podstawowe, badane) cechy statystyczne odpowiada strukturze populacji - próba „reprezentatywna ze względu na”. o dobraną w sposób nie prowadzący do powstania błędu systematycznego. o Dobraną w sposób losowy i o odpowiedniej liczebności. Przykład (zaczerpnięty z Aczel 2005) Sondaż opinii publicznej przez Literary Digest w 1936 przed wyborami prezydenckimi. Kandydaci: o republikański gubernator stanu Kansas, Alfred M. Landon o urzędujący prezydent Franklin Delano Roosvelt. Próba projektowana: 10 mln osób. Nazwiska wyborców włączone do próby: wzięte z książek telefonicznych, rejestrów samochodów i spisu prenumeratorów Digest. Próba zbadana: 2,3 mln osób uprawnionych do głosowania (pomniejszona wskutek braków odpowiedzi). Według sondażu Digest: o gubernator Landon zwycięża w wyborach stosunkiem głosów elektorskich 370 do 161, o wygrywa w 32 na 48 stanów o licząc głosy wyborców pokonuje Roosvelta w stosunku 4 do 3. Faktyczne rezultaty wyborów: Franklin Delano Roosvelt ponownie zostaje wybrany na prezydenta najznaczniejszą większością głosów, zarówno wyborców, jak i elektorów, od chwili gdy Stany Zjednoczone stały się niezależnym państwem. o Roosvelt wygrywa stosunkiem głosów elektorskich 523 do 8 głosów o Landon wygrywa tylko w 2 stanach, Roosvelt w 46. Alokacja próby między warstwy Alokacja proporcjonalna nh = Nh ⋅ n = Wh ⋅ n N Alokacja optymalna n hopt = n ⋅ Wh S yU h H ∑Wh S yU h = n⋅ h =1 N h S yU h H ∑N h =1 h S yU h Alokacja „optymalna” przy zastosowaniu cechy dodatkowej ZałóŜmy, Ŝe X jest cechą dodatkową, silnie skorelowaną z Y i odchylenia standardowe S xU h są znane n hopt X = n ⋅ Wh S xU h H ∑W S h =1 h xU h = n⋅ N h S xU h H ∑N h =1 h S xU h Alokacja proporcjonalna do wartości globalnej badanej cechy Alokacja proporcjonalna do wartości globalnej cechy dodatkowej