Próbkowanie

Transkrypt

Próbkowanie
Wykład 4
Próbkowanie i rozkłady próbkowe
Populacja a próba
Średnia z próbyy na ogół różni się od wartości
oczekiwanej µ=EY (średniej w populacji), ale w miarę
wzrostu rozmiaru próby różnica między tymi
wielkościami zwykle dąży do zera.
µ = średnia w populacji, µ=EY, wartość
oczekiwana zmiennej Y
σ = odchylenie standardowe w populacji,
σ =(Var Y)1/2, pierwiastek kwadratowy
wariancji zmiennej Y, Var Y=E(Y-µ)2
...i inne.
Statystyki z próby są estymatorami, służą
do oceny parametrów całej populacji.
Średnia z próby jest estymatorem wartości oczekiwanej.
Podobnie próbkowe odchylenie standardowe s i
wariancja próbkowa s2 są estymatorami odpowiednich
parametrów w populacji: σ i σ2=Var Y.
Próbkowanie
Jak wybrać prostą próbę losową:
Prosta próba losowa:
Każdy
osobnik z populacji może być wybrany
z tym samym prawdopodobieństwem.
Wybory
poszczególnych osobników są od
siebie niezależne.
Mechanizm losujący, np.:
Przyznajemy numer każdemu osobnikowi
Zapisujemy numery na kulach
Mieszamy kule w urnie
Losujemy kule=numery=osobników, tyle razy, ile
wynosi rozmiar próby
Do losowania możemy również użyć komputera lub
gotowej tablicy liczb (numerów) losowych (zob. dalej).
Gdy rozmiar populacji nie jest ustalony lub nie mamy
dostępu do wszystkich osobników, zadanie jest dużo
trudniejsze.
Błędy w póbkowaniu, cd,
Przykład 1 (Ochotnicy)
Dziennikarka Ann Landers spytała swoich
czytelników „Gdybyście mogli zacząć jeszcze raz: czy mielibyście znowu dzieci?”
Odpisało prawie 10,000 czytelników i 70%
powiedziało: Nie!
Populacja: wszyscy rodzice w USA
1
Przykład 1 (Ochotnicy) cd.
Przykład 2
Próba: pewna część populacji, która
zdecydowała się odpisać, n=10,000.
Czasopismo Newsday przeprowadziło
„statystycznie zaplanowaną” ankietę, w
której 91% z 1,373 przepytanych rodziców
odpowiedziało: Tak!
Ochotnicy: bardzo zła reprezentatywność
(badanie bezwartościowe).
Przewidywanie wyników wyborów prezydenckich
w USA, 1936:
Literary Digest wysłało kwestionariusze do 10
milionów ludzi (25% głosujących)
Odpowiedziało 2.4 miliona:
Przewidywanie: Landon 57%, Roosevelt 43%
Wynik wyborów: Roosevelt 62%, Landon 38%
Uwagi: F.D. Roosevelt, Partia Demokratyczna,
prezydent w latach 1933-1945; Wielki Kryzys:
1929-1933
Przyczyny błędu Literary Digest:
Obciążenie w próbkowaniu
Złe (dyskryminujące) próbkowanie
Obciążenie w próbkowaniu występuje, gdy
mamy do czynienia z systematycznym błędem
faworyzującym pewną część populacji. W
przypadku takiego obciążenia nie pomoże nawet
duży rozmiar próby.
Losowy wybór elementów do próby zwykle
eliminuje takie obciążenie.
Użyto
książek telefonicznych, list
członkowskich klubów, listy zamówień
pocztowych, listy właścicieli pojazdów
Brak odpowiedzi
Tylko
24% odpowiedziało (niemal wyłącznie
Republikanie)
Uwaga: George Gallup przewidział poprawnie na
podstawie reprezentatywnej próbki 50 000 osób.
Warianty losowego wyboru:
Stratyfikacja
Dzielimy populację na pod-populacje
podobnych jednostek (warstwy) i
oddzielnie próbkujemy w każdej warstwie.
Przykłady
studenci
warstw:
& studentki
grupy zawodowe
regiony geograficzne
Warianty losowego wyboru cd.:
Próbkowanie wielostopniowe
•
Przykład: Badanie w USA dotyczące struktury
zatrudnienia. Ankietuje się około 60.000 gospodarstw
domowych co miesiąc.
• Poziom 1: losowa próba z 3,000 counties
• Poziom 2: losowa próba reprezentująca powiaty w
każdym wybranym county
• Poziom 3: losowa próba reprezentująca gminy w
każdym wybranym powiecie
• Poziom 4: losowa próba gospodarstw domowych w
każdej wybranej gminie
2
Rozkłady próbkowe
Rozważmy populację o pewnym rozkładzie, np.:
normalnym N(µ, σ), lub
dwupunktowym, np. P(Y=sukces)=p, P(Y=porażka)=1-p
Parametry populacji: µ i σ, lub p.
Bierzemy próbę o rozmiarze n z populacji. Wynik:
y1, … yn, lub
y = sumaryczna liczba sukcesów.
Obliczamy estymatory
y
i s , lub
Jak bardzo estymatory mogą sią różnić od
prawdziwych parametrów ?
Co się stanie, jeżeli wylosujemy inną próbę?
Otrzymamy inne wartości y i s, lub p̂
Interesuje nas rozkład (próbkowy) y ,s, p̂ .
p̂
Gdy n jest duże, estymatory są na ogół bliskie
parametrom które estymują.
Meta-eksperyment
Rozkłady próbkowe, cd.
Wyobraźmy sobie, że powtarzamy
eksperyment wiele razy
Interesuje nas rozkład wszystkich możliwych
do uzyskania wartości y , s lub p̂ .
Taki rozkład będziemy nazywali rozkładem
próbkowym estymatora.
Zwykle próbkujemy tylko raz.
Rozkłady próbkowe można obliczyć
teoretycznie.
Wyobraźmy sobie wielokrotne powtarzanie
próbkowania. Za każdym razem liczymy y .
Możemy o tym myśleć jak o nowym
eksperymencie w którym obserwacjami są
średnie.
Rozkład próbkowy dla średniej z
rozkładu normalnego
Próba o rozmiarze n z populacji normalnej
Obserwujemy średnią próbkową
Jak daleko od µ może być y
?
Odpowiemy na to pytanie znajdując rozkład
próbkowy y .
Jaki będzie rozkład (histogram) tych
średnich ?
FAKT 1 : Suma dwóch zmiennych
niezależnych o rozkładzie normalnym ma
rozkład normalny.
FAKT 2 : Jeżeli X ma rozkład normalny to
Y=aX+b, gdzie a ≠ 0, ma również rozkład
normalny.
ZADANIE: Oblicz rozkład Y .
3
Histogramy średnich z rozkładu standardowego normalnego
Rozmiary pojedynczych prób n=1 and n=50.
Liczba powtórzeń eksperymentu N=1000.
Rozwiązanie:
Przykład: Y ~ N(30, 6).
Sprawdzenie:
Bierzemy 10 próbek o rozmiarze n = 9:
y
s
y
s
Rozkład Y ma wartość oczekiwaną=
i odchylenie standardowe SD=
Oczekujemy, że średnia próbkowa:
29.89
32.27
31.19 30.86
28.68
5.74
5.01
6.06
6.25
6.31
29.60
30.02
31.19
29.84
30.27
6.83
3.81
5.13
4.82
4.90
Z
p-stwem 0.95 będzie w odległości nie
większej niż 1.96 SD od µ, tzn. pomiędzy .....
a ......
Z p-stwem 0.8 będzie w odległości nie
większej niż 1.28 SD od µ, tzn. pomiędzy 27.4
a 32.6.
… 0.68 … 1 SD … tzn. pomiędzy 28 a 32.
Nieobciążoność, Zgodność
Estymator Tn parametru θ jest
nieobciążony jeżeli E(Tn)= θ.
Estymator Tn parametru θ jest zgodny,
jeżeli dla każdego ε >0 P(|Tn - θ| > ε) dąży
do 0 gdy liczba obserwacji n dąży do
nieskończoności.
Niech X będzie liczbą tych próbek (z 10)
dla których średnie różnią się od µ o nie
więcej niż 1 SD.
Podaj rozkład X.
4
Własności średniej z próby
5