Próbkowanie
Transkrypt
Próbkowanie
Wykład 4 Próbkowanie i rozkłady próbkowe Populacja a próba Średnia z próbyy na ogół różni się od wartości oczekiwanej µ=EY (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera. µ = średnia w populacji, µ=EY, wartość oczekiwana zmiennej Y σ = odchylenie standardowe w populacji, σ =(Var Y)1/2, pierwiastek kwadratowy wariancji zmiennej Y, Var Y=E(Y-µ)2 ...i inne. Statystyki z próby są estymatorami, służą do oceny parametrów całej populacji. Średnia z próby jest estymatorem wartości oczekiwanej. Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s2 są estymatorami odpowiednich parametrów w populacji: σ i σ2=Var Y. Próbkowanie Jak wybrać prostą próbę losową: Prosta próba losowa: Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem. Wybory poszczególnych osobników są od siebie niezależne. Mechanizm losujący, np.: Przyznajemy numer każdemu osobnikowi Zapisujemy numery na kulach Mieszamy kule w urnie Losujemy kule=numery=osobników, tyle razy, ile wynosi rozmiar próby Do losowania możemy również użyć komputera lub gotowej tablicy liczb (numerów) losowych (zob. dalej). Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy) Dziennikarka Ann Landers spytała swoich czytelników „Gdybyście mogli zacząć jeszcze raz: czy mielibyście znowu dzieci?” Odpisało prawie 10,000 czytelników i 70% powiedziało: Nie! Populacja: wszyscy rodzice w USA 1 Przykład 1 (Ochotnicy) cd. Przykład 2 Próba: pewna część populacji, która zdecydowała się odpisać, n=10,000. Czasopismo Newsday przeprowadziło „statystycznie zaplanowaną” ankietę, w której 91% z 1,373 przepytanych rodziców odpowiedziało: Tak! Ochotnicy: bardzo zła reprezentatywność (badanie bezwartościowe). Przewidywanie wyników wyborów prezydenckich w USA, 1936: Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących) Odpowiedziało 2.4 miliona: Przewidywanie: Landon 57%, Roosevelt 43% Wynik wyborów: Roosevelt 62%, Landon 38% Uwagi: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945; Wielki Kryzys: 1929-1933 Przyczyny błędu Literary Digest: Obciążenie w próbkowaniu Złe (dyskryminujące) próbkowanie Obciążenie w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby. Losowy wybór elementów do próby zwykle eliminuje takie obciążenie. Użyto książek telefonicznych, list członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów Brak odpowiedzi Tylko 24% odpowiedziało (niemal wyłącznie Republikanie) Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób. Warianty losowego wyboru: Stratyfikacja Dzielimy populację na pod-populacje podobnych jednostek (warstwy) i oddzielnie próbkujemy w każdej warstwie. Przykłady studenci warstw: & studentki grupy zawodowe regiony geograficzne Warianty losowego wyboru cd.: Próbkowanie wielostopniowe • Przykład: Badanie w USA dotyczące struktury zatrudnienia. Ankietuje się około 60.000 gospodarstw domowych co miesiąc. • Poziom 1: losowa próba z 3,000 counties • Poziom 2: losowa próba reprezentująca powiaty w każdym wybranym county • Poziom 3: losowa próba reprezentująca gminy w każdym wybranym powiecie • Poziom 4: losowa próba gospodarstw domowych w każdej wybranej gminie 2 Rozkłady próbkowe Rozważmy populację o pewnym rozkładzie, np.: normalnym N(µ, σ), lub dwupunktowym, np. P(Y=sukces)=p, P(Y=porażka)=1-p Parametry populacji: µ i σ, lub p. Bierzemy próbę o rozmiarze n z populacji. Wynik: y1, … yn, lub y = sumaryczna liczba sukcesów. Obliczamy estymatory y i s , lub Jak bardzo estymatory mogą sią różnić od prawdziwych parametrów ? Co się stanie, jeżeli wylosujemy inną próbę? Otrzymamy inne wartości y i s, lub p̂ Interesuje nas rozkład (próbkowy) y ,s, p̂ . p̂ Gdy n jest duże, estymatory są na ogół bliskie parametrom które estymują. Meta-eksperyment Rozkłady próbkowe, cd. Wyobraźmy sobie, że powtarzamy eksperyment wiele razy Interesuje nas rozkład wszystkich możliwych do uzyskania wartości y , s lub p̂ . Taki rozkład będziemy nazywali rozkładem próbkowym estymatora. Zwykle próbkujemy tylko raz. Rozkłady próbkowe można obliczyć teoretycznie. Wyobraźmy sobie wielokrotne powtarzanie próbkowania. Za każdym razem liczymy y . Możemy o tym myśleć jak o nowym eksperymencie w którym obserwacjami są średnie. Rozkład próbkowy dla średniej z rozkładu normalnego Próba o rozmiarze n z populacji normalnej Obserwujemy średnią próbkową Jak daleko od µ może być y ? Odpowiemy na to pytanie znajdując rozkład próbkowy y . Jaki będzie rozkład (histogram) tych średnich ? FAKT 1 : Suma dwóch zmiennych niezależnych o rozkładzie normalnym ma rozkład normalny. FAKT 2 : Jeżeli X ma rozkład normalny to Y=aX+b, gdzie a ≠ 0, ma również rozkład normalny. ZADANIE: Oblicz rozkład Y . 3 Histogramy średnich z rozkładu standardowego normalnego Rozmiary pojedynczych prób n=1 and n=50. Liczba powtórzeń eksperymentu N=1000. Rozwiązanie: Przykład: Y ~ N(30, 6). Sprawdzenie: Bierzemy 10 próbek o rozmiarze n = 9: y s y s Rozkład Y ma wartość oczekiwaną= i odchylenie standardowe SD= Oczekujemy, że średnia próbkowa: 29.89 32.27 31.19 30.86 28.68 5.74 5.01 6.06 6.25 6.31 29.60 30.02 31.19 29.84 30.27 6.83 3.81 5.13 4.82 4.90 Z p-stwem 0.95 będzie w odległości nie większej niż 1.96 SD od µ, tzn. pomiędzy ..... a ...... Z p-stwem 0.8 będzie w odległości nie większej niż 1.28 SD od µ, tzn. pomiędzy 27.4 a 32.6. … 0.68 … 1 SD … tzn. pomiędzy 28 a 32. Nieobciążoność, Zgodność Estymator Tn parametru θ jest nieobciążony jeżeli E(Tn)= θ. Estymator Tn parametru θ jest zgodny, jeżeli dla każdego ε >0 P(|Tn - θ| > ε) dąży do 0 gdy liczba obserwacji n dąży do nieskończoności. Niech X będzie liczbą tych próbek (z 10) dla których średnie różnią się od µ o nie więcej niż 1 SD. Podaj rozkład X. 4 Własności średniej z próby 5