n - E-SGH
Transkrypt
n - E-SGH
Badania sondażowe Estymacja parametrów Minimalna liczebność próby Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa 1 Estymacja parametrów 2 Cel badania sondażowego to określenie wartości wybranych parametrów populacji generalnej Parametry najczęściej szacowane: Średnia (np. średnie wydatki miesięczne firm w Polsce na telefony komórkowe) Frakcja (np. odsetek firm w Polsce mających zarejestrowane telefony komórkowe) Wartość globalna (np. liczba telefonów komórkowych posiadanych przez firmy w Polsce) Mediana (np. wielkość miesięcznych wydatków firm na telefony komórkowe dzieląca zbiorowość na dwie równe części) Wariancja (np. zróżnicowanie wielkości miesięcznych wydatków firm na telefony komórkowe) Współczynnik korelacji Współczynnik regresji liniowej (np. zależność między liczbą telefonów komórkowych w firmie a średnim miesięcznym wynagrodzeniem pracownika) 3 Estymacja parametrów Statystyka – funkcja rzeczywista zbudowana na wynikach z próby n-elementowej Tn Q - Estymator parametru wyliczany jest na podstawie próby, jest to statystyka pozwalająca ustalić wartość szacowanego parametru, np. średnia: 1 n Tn = X n = ∑ X i n i =1 - Wartość szacowanego parametru w populacji µ CEL: ustalić wartość parametru Q obliczając Tn 4 Własności estymatorów Tn - Estymator parametru wyliczany na podstawie próby powinien być: zgodny (w miarę zwiększania liczebności próby wariancja estymatora maleje) 1. lim E (Tn ) − Q = 0 n→∞ 2. oraz lim D 2 (Tn ) = 0 n→∞ nieobciążony (nie wykazuje tendencji do ocen zaniżonych lub zawyżonych) E (Tn ) = Q 3. najefektywniejszy – o najmniejszej wariancji D 2 (Tn ) = E [Tn − E (Tn )] = min 2 5 Błąd systematyczny estymatora Obciążenie estymatora – gdy estymator wykazuje tendencje do ocen zaniżonych lub zawyżonych B = E (Tn ) − Q Obciążenia zazwyczaj nie da się wyznaczyć ponieważ w praktyce badań sondażowych nie znamy wartości rzeczywistej szacowanego parametru. 6 Błędy w badaniach ilościowych Nie da się ustalić wielkości błędu całkowitego! BŁĘDY W BADANIACH ILOŚCIOWYCH Losowe Nielosowe gdy próba jest losowana (konsekwencja decyzji o losowaniu) każdy rodzaj próby (czynnik ludzki) Błąd losowy Tylko poziom błędu losowego jesteśmy w stanie określić liczbowo i porównywać! Błędy pokrycia Błędy treści Struktury Pomiaru Wyboru Analizy Braku reakcji Interpretacji Zagubienia Odrzucenie Zbiorowość Zbiorowość zdefiniowana badana Prawda Wynik badania 7 Błędy statystyczne w badaniach ilościowych Błędy statystyczne (nie uwzględniają błędów wynikających z czynnika ludzkiego, których nie da się oszacować liczbowo odzwierciedlają tylko błąd możliwy do opisania za pomocą formuł statystycznych) Losowe Nielosowe (analizy) (efektywność) tzw. systematyczne (prawdopodobieństwo wystąpienia błędu jest funkcją malejącą liczebności próby „n”) (pomiary wykonane w tych samych warunkach wykazują błąd o stałej wartości) Wariancja estymatora (sampling errors – błąd próby) - Technika losowania (estymator i jego wariancja) - Liczebność próby precyzja Obciążenie estymatora (bias – obciążenie estymatora) - Dobór estymatora trafność 8 Niska precyzja jest wynikiem błędu losowego Niska trafność jest wynikiem błędu systematycznego Wysoka precyzja i wysoka trafność Niska precyzja, wysoka trafność Wysoka precyzja Niska trafność 60 9 Całkowity błąd oceny Błąd średniokwadratowy określa błąd statystyczny pomiaru wynikający: ze zróżnicowania cechy w populacji z obciążenia estymatora MSE (Tn ) = E (Tn − Q) 2 = D 2 (Tn ) + B 2 Efektywność estymatora Obciążenie estymatora Jeśli posługujemy się estymatorem nieobciążonym całkowity błąd z próby sprowadza się do wariancji estymatora. 10 J.Steczkowski – str. 89 Estymacja punktowa polega na uznaniu za wartość parametru oceny jego estymatora z próby losowej Tn o jakości estymatora mówi ocena zróżnicowania wartości jakie może przyjmować, czyli odchylenie standardowe estymatora – tzw. średni błąd szacunku D(Tn ) którego przybliżenie jesteśmy w stanie obliczyć i oznaczamy SE (Tn ) miarą jakości wnioskowania za pomocą wybranego estymatora jest tzw. błąd względny SE (Tn ) ˆ v = V (Tn ) = Tn Ten typ estymacji pozwala na ustalenie wartości estymatora i jego błędu 11 Standardowy błąd szacunku Błędy losowe małe i duże • • •• • • • • • • Lepiej! Wyniki są mniej zróżnicowane • • • • • • Gorzej! Wyniki są bardziej zróżnicowane. Zakres rozrzutu jest miarą efektywności wnioskowania na podstawie próby. Jest to tzw. standardowy błąd szacunku (SE) reguły jego obliczania są znane. 65 12 Standardowy błąd szacunku SE (Tn ) Jest funkcją zróżnicowania w populacji (z populacji bardziej jednorodnej otrzymujemy próby dające mniejsze błędy) Jest funkcją rozmiarów próby (duża próba daje błąd mniejszy niż mała próba) Jest funkcją techniki losowania (dodatkowa informacja pozwala zastosować bardziej efektywne techniki losowania) 13 Estymacja punktowa Założenie: próba prosta (losową bez zwracania) Jeśli estymator wartości przeciętnej jest w postaci średniej to jego błąd szacunku wyraża się wzorem: SE ( X ) = S n S – jest odchyleniem standardowym badanego zjawiska w próbie Estymator wskaźnika struktury w postaci frakcji: SE ( p ) = p ( p − 1) n p – wskaźnik struktury badanego zjawiska w próbie 14 Estymacja przedziałowa jest to konstrukcja przedziału liczbowego, który z określonym z góry prawdopodobieństwem (1 − α ) zawiera nieznaną wartość szacowanego parametru Q P{ Tn − Q ≤ d } = 1 − α Rozkłady dokładne lub graniczne niektórych estymatorów Tn są nam znane – wyznaczane są z rozkładów cechy lub na mocy twierdzeń granicznych. Ten typ estymacji pozwala na ustalenie minimalnej liczebności próby 15 Wiarygodność i dokładność szacunku CEL: ustalić wartość parametru Q na podstawie Tn z dopuszczalnym prawdopodobieństwem popełnienia błędu z określoną dokładnością -d P{ Tn − Q ≤ d } = 1 − α DOKŁADNOŚĆ (dopuszczalny błąd oceny) 2d to długość przedziału ufności α WIARYGODNOŚĆ (współczynnik ufności) prawdopodobieństwo pokrycia parametru przez przedział P{Tn − d ≤ Q ≤ Tn + d } = 1 − α Zwiększanie wiarygodności powoduje pogorszenie dokładności. Pogorszenie wiarygodności zwiększa dokładność oszacowania. 16 Estymacja przedziałowa - próba prosta (1) Szacowanie wartości przeciętnej m za pomocą średniej: Średnia: X w próbie jest zgodnym i nieobciążonym estymatorem wartości przeciętnej w populacji. E ( X ) = m 1 n X = ∑ Xi n i =1 Dla dużej próby rozkład średniej Xi X wartość cechy dla jednostki i - P{X − uα D( X ) < m < X + uα D( X )} = 1 − α D( X ) = σ n ( ) jest w przybliżeniu normalny N E( X ), D( X ) E (S 2 ) = σ 2 P{X − uα SE ( X ) < m < X + uα SE ( X )} = 1 − α S S P X − uα < m < X + uα = 1−α n n uα - wartość odczytana z tablic rozkładu N(0,1) S2 - wariancja cechy w próbie – nieobciążony estymator wariancji cechy w populacji 17 Estymacja przedziałowa - próba prosta (2) Szacowanie wskaźnika struktury w za pomocą frakcji: Frakcja: p w próbie jest zgodnym i nieobciążonym estymatorem wskaźnika struktury „w” w populacji. E ( p ) = w n p=∑ i =1 pi n pi = 1 jednostka posiada wyróżniona cechę pi = 0 -jeżeli Dla dużej próby rozkład frakcji p -jeżeli jednostka nie posiada wyróżnionej cechę jest w przybliżeniu normalny N (E( p), D( p)) P{p − uα D( p) < w < p + uα D( p)} = 1 − α D( p) = w(1 − w) n E ( S 2 ) = E [ p (1 − p )] = w(1 − w) P{p − uα SE ( p) < w < p + uα SE ( p )} = 1 − α P p − uα p (1 − p) < w < p + uα n p(1 − p ) = 1−α n uα - wartość odczytana z tablic rozkładu N(0,1) p(1-p) - wariancja cechy w próbie – nieobciążony estymator wariancji cechy w populacji 18 Estymacja punktowa i przedziałowa Estymacja punktowa Pozwala na określenie wartości estymatora oraz jego średniego błędu Estymacja przedziałowa Pozwala na określenie przedziału w jakim znajduje się wartość parametru oraz precyzji tego oszacowania 19 Dokładność szacunku PRZYKŁAD PRZYKŁAD – przedział ufności dla wartości oczekiwanej Próba: 198 samochodów marki RENAULT Cel badania: przeciętne zużycie paliwa na wyznaczonej trasie o długości 100 km. Wynik badania: x = 6,9 litra. Dotychczasowe doświadczenie: zużycie paliwa ma rozkład normalny o odchyleniu standardowym = 2,8 litra Szacowanie wartości przeciętnej za pomocą średniej: σ σ P X − uα < m < X + uα = 1−α n n α1 = 0,05 1 − α1 = 0,95 α 2 = 0,1 1 − α 2 = 0,90 2,8 2,8 P6,9 − 1,96 < m < 6,9 + 1,96 = 0,95 198 198 P{6,51 < m < 7,29} = 0,95 d1 = 0,39 2,8 2,8 P6,9 − 1,64 < m < 6,9 + 1,64 = 0,90 198 198 P{6,57 < m < 7,23} = 0,90 d 2 = 0,33 20 Minimalna liczebność próby 21 Szacowanie minimalnej liczebności próby PROBLEM: Wyznaczyć minimalną liczebność próby tak, aby przy założonym współczynniku ufności (1 − α ) , poziom dokładności d nie został przekroczony. P{Tn − d ≤ Q ≤ Tn + d } = 1 − α σ σ P X − uα < m < X + uα = 1−α n n d = uα σ n ⇒ n = uα 2 σ2 d 2 Chcemy, aby: 1 − α = 0,95 d = 0,39 Próba powinna liczyć: 2,82 n = 1,96 ≈ 198 0,39 2 2 22 Badanie pilotażowe Służy między innymi: doprecyzowaniu liczebności próby w badaniu reprezentacyjnym (oceny poziomów i zakresu zmienności dla najważniejszych zjawisk będących przedmiotem pomiaru) ustaleniu łatwości dotarcia do poszczególnych grup respondentów Zasady ustalania liczebności próby badania pilotażowego: do badania reprezentacyjnego dobór losowy ok. 5% przyszłej badanej próby przeważnie jest to od 30 do 130 jednostek 23 Minimalna wielkość próby próba prosta – losowanie ze zwracaniem Szacowanie wartości przeciętnej za pomocą średniej: Gdy wariancja cechy jest znana: 2 uα σ 2 n= d2 uα - wartość odczytana z tablic rozkładu normalnego N(0,1) dla założonego α Gdy wariancja cechy nie jest znana: 1 n0 S = ( xi − x ) 2 ∑ n0 − 1 i =1 2 n0 – wielkość próby pilotażowej W przypadku gdy badanie pilotażowe nie mogło być przeprowadzone: S2 – oszacowanie wariancji badanej cechy na podstawie próby pilotażowej Wariancja cechy w populacji może być przybliżona wielkością: tα - wartość odczytana z tablic rozkładu t-Studenta o n0-1 stopniach swobody 2 tα S 2 n= d2 n0<50 2 ( X − X ) min S 2 = max 16 Wartości max i min są określane ekspercko. 2 uα S 2 n= d2 24 n0>50 Minimalna wielkość próby próba prosta – losowanie ze zwracaniem Szacowanie wskaźnika struktury za pomocą frakcji: Gdy rząd wielkości szacowanej frakcji jest znany 2 u w(1 − w) n= α d2 uα - wartość odczytana z tablic rozkładu normalnego N(0,1) dla założonego α Gdy rząd wielkości szacowanej frakcji nie jest znany p – oszacowanie frakcji badanej cechy na podstawie próby pilotażowej tα 2 - wartość odczytana z tablic rozkładu t-Studenta o n0-1 stopniach swobody u p (1 − p ) n= α d2 2 t p (1 − p ) n= α d2 W przypadku gdy badanie pilotażowe nie mogło być przeprowadzone: Wyznaczane jest p, w którym funkcja p(1-p) przyjmuje maximum: p = 0,5 p (1 − p) = 0,25 25 Minimalna wielkość próby losowanie bez zwracania Estymatory w losowaniu zależnym (bez zwracania) mają wariancje określone innymi wzorami niż w losowaniu ze zwracaniem i wariancje te są mniejsze. Szacowanie wartości przeciętnej za pomocą średniej: Korekta ze względu na inne prawdopodobieństwo wylosowania jednostki do próby d = uα S n N −n ⇒ N −1 n= N ( N − 1)d 2 1+ 2 uα S 2 Szacowanie wskaźnika struktury za pomocą frakcji: d = uα N p (1 − p ) N − n n = ⋅ ⇒ ( N − 1)d 2 n N −1 1+ 2 uα p (1 − p ) Liczebność próby wyliczana z uwzględnieniem losowania zależnego jest zazwyczaj mniejsza niż wyznaczana z wzoru dla próby prostej. Modyfikacja ta nie ma zasadniczego znaczenia przy dużych populacjach. 26 Minimalna wielkość próby losowanie bez zwracania - w warstwach Poprawia precyzję oszacowania Wiąże się z tzw. alokacją jednostek między warstwy: alokacja równomierna alokacja proporcjonalna alokacja Neymana (uwzględnia wariancje w warstwach) Alokacja proporcjonalna Dla estymatora w postaci średniej: l N ⋅ ∑ N h Sh n= 2 h =1 l d2 2 N + ∑ N h Sh 2 uα h =1 2 Dla estymatora w postaci frakcji: l d – oczekiwana precyzja szacunku Sh – przewidywane na podstawie badania pilotażowego odchylenie standardowe cechy w warstwie h ph – przewidywane na podstawie badania pilotażowego wskaźnik struktury w warstwie h N ⋅ ∑ N h ph (1 − ph ) h =1 n= 2 N2 l d + ∑ N h ph (1 − ph ) 2 uα h =1 nh = Nh n - liczebność próby w N warstwie h 27 Minimalna wielkość próby losowanie w warstwach, proporcjonalne Populacja - N = 25 000 sklepów ogólnospożywczych w mieście X Maksymalny błąd szacunku d = 3% Współczynnik ufności 1 − α = 0,95 Szacowany jest w - odsetek sklepów reklamujących swoje towary w prasie Warstwy: 5 wg poziomu sprzedaży za ubiegły rok Próba pilotażowa – n0 = 125 sklepów l N ⋅ ∑ N h ph (1 − ph ) h Nh ph Nh ph (1- ph) nh 1 4 000 0,05 190 77 2 7 000 0,1 630 136 3 6 000 0,1 540 116 4 5 000 0,3 1 050 97 5 3 000 0,2 480 58 25 000 0,14 2 890 484 losowanie ze zwracaniem bez próby pilotażowej: n= h =1 2 l 2 d N + ∑ N h ph (1 − ph ) 2 uα h =1 uα = 1,96 nh = = 484 Nh n N 2 u p (1 − p ) = 536 p = 0,14 ⇒ n = α 2 d 2 uα p(1 − p) p = 0,5 ⇒ n = = 1067 d2 28 Minimalna wielkość próby losowanie w warstwach, alokacja Neymana (uwzględnia zróżnicowanie w warstwach) Populacja - N = 25 000 sklepów ogólnospożywczych w mieście X Maksymalny błąd szacunku d = 3% Współczynnik ufności 1 − α = 0,95 Szacowany jest w - odsetek sklepów reklamujących swoje towary w prasie Warstwy: l=5 wg poziomu sprzedaży za ubiegły rok Próba pilotażowa – n0 = 125 sklepów 2 l ∑ N h ph (1 − ph ) n = h =12 = nh h Nh ph l 2 d N + ∑ N h ph (1 − ph ) 48 2 1 4 000 0,05 uα h =1 2 7 000 0,1 116 3 6 000 0,1 100 4 5 000 0,3 127 5 3 000 0,2 66 25 000 nh = N h ph (1 − ph ) ∑N h 457 n ph (1 − ph ) h =1 457 uα = 1,96 29 Minimalna wielkość próby www.cem.pl / PORADNIK / wielkość próby W kontekście jakiego doboru można używać tego typu narzędzi? W kontekście jakiego typu cech można używać tego typu narzędzi? 30 Dobór próby PROJEKT ZALICZENIOWY NR 2 Analiza wyników na podstawie badania pilotażowego Ustalenie schematu losowania Wyznaczenie minimalnej liczebność próby Wykorzystanie SPSS Complex Samples jako narzędzia do losowania próby 31