n - E-SGH

Transkrypt

n - E-SGH
Badania sondażowe
Estymacja parametrów
Minimalna liczebność próby
Agnieszka Zięba
Zakład Badań Marketingowych
Instytut Statystyki i Demografii
Szkoła Główna Handlowa
1
Estymacja parametrów
2
Cel badania sondażowego
to określenie wartości wybranych parametrów populacji generalnej
Parametry najczęściej szacowane:
Średnia
(np. średnie wydatki miesięczne firm w Polsce na telefony komórkowe)
Frakcja
(np. odsetek firm w Polsce mających zarejestrowane telefony komórkowe)
Wartość globalna
(np. liczba telefonów komórkowych posiadanych przez firmy w Polsce)
Mediana
(np. wielkość miesięcznych wydatków firm na telefony komórkowe dzieląca zbiorowość na
dwie równe części)
Wariancja
(np. zróżnicowanie wielkości miesięcznych wydatków firm na telefony komórkowe)
Współczynnik korelacji
Współczynnik regresji liniowej
(np. zależność między liczbą telefonów komórkowych w firmie a średnim miesięcznym
wynagrodzeniem pracownika)
3
Estymacja parametrów
Statystyka – funkcja rzeczywista zbudowana na wynikach
z próby n-elementowej
Tn
Q
- Estymator parametru wyliczany jest na podstawie
próby, jest to statystyka pozwalająca ustalić wartość
szacowanego parametru, np. średnia:
1 n
Tn = X n = ∑ X i
n i =1
- Wartość szacowanego parametru w populacji
µ
CEL: ustalić wartość parametru Q obliczając Tn
4
Własności estymatorów
Tn
- Estymator parametru wyliczany na podstawie próby
powinien być:
zgodny (w miarę zwiększania liczebności próby
wariancja estymatora maleje)
1.
lim E (Tn ) − Q = 0
n→∞
2.
oraz
lim D 2 (Tn ) = 0
n→∞
nieobciążony (nie wykazuje tendencji do ocen
zaniżonych lub zawyżonych)
E (Tn ) = Q
3.
najefektywniejszy – o najmniejszej wariancji
D 2 (Tn ) = E [Tn − E (Tn )] = min
2
5
Błąd systematyczny estymatora
Obciążenie estymatora – gdy estymator wykazuje
tendencje do ocen zaniżonych lub zawyżonych
B = E (Tn ) − Q
Obciążenia zazwyczaj nie da się wyznaczyć ponieważ w
praktyce badań sondażowych nie znamy wartości rzeczywistej
szacowanego parametru.
6
Błędy w badaniach ilościowych
Nie da się ustalić wielkości błędu całkowitego!
BŁĘDY W BADANIACH ILOŚCIOWYCH
Losowe
Nielosowe
gdy próba jest losowana
(konsekwencja decyzji o losowaniu)
każdy rodzaj próby
(czynnik ludzki)
Błąd losowy
Tylko poziom błędu losowego
jesteśmy w stanie określić
liczbowo i porównywać!
Błędy pokrycia
Błędy treści
Struktury
Pomiaru
Wyboru
Analizy
Braku reakcji
Interpretacji
Zagubienia
Odrzucenie
Zbiorowość Zbiorowość
zdefiniowana badana
Prawda
Wynik
badania
7
Błędy statystyczne w badaniach ilościowych
Błędy statystyczne
(nie uwzględniają błędów wynikających z czynnika ludzkiego, których nie da się oszacować liczbowo
odzwierciedlają tylko błąd możliwy do opisania za pomocą formuł statystycznych)
Losowe
Nielosowe (analizy)
(efektywność)
tzw. systematyczne
(prawdopodobieństwo wystąpienia błędu
jest funkcją malejącą liczebności próby „n”)
(pomiary wykonane w tych samych
warunkach wykazują błąd o stałej wartości)
Wariancja estymatora
(sampling errors – błąd próby)
- Technika losowania
(estymator i jego wariancja)
- Liczebność próby
precyzja
Obciążenie estymatora
(bias – obciążenie estymatora)
- Dobór estymatora
trafność
8
Niska precyzja jest wynikiem błędu losowego
Niska trafność jest wynikiem błędu systematycznego
Wysoka precyzja
i wysoka trafność
Niska precyzja,
wysoka trafność
Wysoka precyzja
Niska trafność
60
9
Całkowity błąd oceny
Błąd średniokwadratowy określa błąd statystyczny pomiaru wynikający:
ze zróżnicowania cechy w populacji
z obciążenia estymatora
MSE (Tn ) = E (Tn − Q) 2 = D 2 (Tn ) + B 2
Efektywność
estymatora
Obciążenie
estymatora
Jeśli posługujemy się estymatorem nieobciążonym
całkowity błąd z próby sprowadza się do wariancji estymatora.
10
J.Steczkowski – str. 89
Estymacja punktowa
polega na uznaniu za wartość parametru oceny jego estymatora z próby losowej
Tn
o jakości estymatora mówi ocena zróżnicowania wartości jakie może przyjmować,
czyli odchylenie standardowe estymatora – tzw. średni błąd szacunku
D(Tn ) którego przybliżenie jesteśmy w stanie obliczyć i oznaczamy SE (Tn )
miarą jakości wnioskowania za pomocą wybranego estymatora jest tzw. błąd
względny
SE (Tn )
ˆ
v = V (Tn ) =
Tn
Ten typ estymacji pozwala na ustalenie wartości estymatora i jego błędu
11
Standardowy błąd szacunku
Błędy losowe małe i duże
•
• ••
•
•
•
• • •
Lepiej!
Wyniki są mniej
zróżnicowane
•
•
•
•
•
•
Gorzej!
Wyniki są bardziej
zróżnicowane.
Zakres rozrzutu jest miarą efektywności
wnioskowania na podstawie próby.
Jest to tzw. standardowy błąd szacunku
(SE) reguły jego obliczania są znane.
65
12
Standardowy błąd szacunku
SE (Tn )
Jest funkcją zróżnicowania w populacji
(z populacji bardziej jednorodnej otrzymujemy próby dające mniejsze błędy)
Jest funkcją rozmiarów próby
(duża próba daje błąd mniejszy niż mała próba)
Jest funkcją techniki losowania
(dodatkowa informacja pozwala zastosować bardziej efektywne techniki losowania)
13
Estymacja punktowa
Założenie: próba prosta (losową bez zwracania)
Jeśli estymator wartości przeciętnej jest w postaci
średniej to jego błąd szacunku wyraża się wzorem:
SE ( X ) =
S
n
S – jest odchyleniem standardowym
badanego zjawiska w próbie
Estymator wskaźnika struktury w postaci frakcji:
SE ( p ) =
p ( p − 1)
n
p – wskaźnik struktury badanego
zjawiska w próbie
14
Estymacja przedziałowa
jest to konstrukcja przedziału liczbowego, który z określonym z góry
prawdopodobieństwem (1 − α ) zawiera nieznaną wartość szacowanego
parametru Q
P{ Tn − Q ≤ d } = 1 − α
Rozkłady dokładne lub graniczne niektórych estymatorów Tn są nam
znane – wyznaczane są z rozkładów cechy lub na mocy twierdzeń
granicznych.
Ten typ estymacji pozwala na ustalenie minimalnej liczebności próby
15
Wiarygodność i dokładność szacunku
CEL: ustalić wartość parametru Q na podstawie Tn
z dopuszczalnym prawdopodobieństwem popełnienia błędu z określoną dokładnością -d
P{ Tn − Q ≤ d } = 1 − α
DOKŁADNOŚĆ
(dopuszczalny błąd oceny)
2d to długość przedziału ufności
α
WIARYGODNOŚĆ
(współczynnik ufności)
prawdopodobieństwo pokrycia
parametru przez przedział
P{Tn − d ≤ Q ≤ Tn + d } = 1 − α
Zwiększanie wiarygodności powoduje pogorszenie dokładności.
Pogorszenie wiarygodności zwiększa dokładność oszacowania.
16
Estymacja przedziałowa - próba prosta (1)
Szacowanie wartości przeciętnej m za pomocą średniej:
Średnia: X w próbie jest zgodnym i nieobciążonym estymatorem
wartości przeciętnej w populacji. E ( X ) = m
1 n
X = ∑ Xi
n i =1
Dla dużej próby rozkład średniej
Xi
X
wartość cechy
dla jednostki i
-
P{X − uα D( X ) < m < X + uα D( X )} = 1 − α
D( X ) =
σ
n
(
)
jest w przybliżeniu normalny N E( X ), D( X )
E (S 2 ) = σ 2
P{X − uα SE ( X ) < m < X + uα SE ( X )} = 1 − α
S
S 

P  X − uα
< m < X + uα
 = 1−α
n
n

uα
- wartość odczytana z
tablic rozkładu N(0,1)
S2 - wariancja cechy w próbie –
nieobciążony estymator
wariancji cechy w populacji
17
Estymacja przedziałowa - próba prosta (2)
Szacowanie wskaźnika struktury w za pomocą frakcji:
Frakcja: p w próbie jest zgodnym i nieobciążonym estymatorem
wskaźnika struktury „w” w populacji. E ( p ) = w
n
p=∑
i =1
pi
n
pi = 1
jednostka posiada
wyróżniona cechę
pi = 0
-jeżeli
Dla dużej próby rozkład frakcji p
-jeżeli
jednostka nie
posiada wyróżnionej cechę
jest w przybliżeniu normalny N (E( p), D( p))
P{p − uα D( p) < w < p + uα D( p)} = 1 − α
D( p) =
w(1 − w)
n
E ( S 2 ) = E [ p (1 − p )] = w(1 − w)
P{p − uα SE ( p) < w < p + uα SE ( p )} = 1 − α

P  p − uα

p (1 − p)
< w < p + uα
n
p(1 − p ) 
 = 1−α
n

uα - wartość odczytana z
tablic rozkładu N(0,1)
p(1-p) - wariancja cechy w próbie
– nieobciążony estymator
wariancji cechy w populacji
18
Estymacja punktowa i przedziałowa
Estymacja punktowa
Pozwala na określenie wartości estymatora
oraz jego średniego błędu
Estymacja przedziałowa
Pozwala na określenie przedziału w jakim znajduje się
wartość parametru oraz precyzji tego oszacowania
19
Dokładność szacunku
PRZYKŁAD
PRZYKŁAD – przedział ufności dla wartości oczekiwanej
Próba: 198 samochodów marki RENAULT
Cel badania: przeciętne zużycie paliwa na wyznaczonej trasie o długości 100 km.
Wynik badania:
x
= 6,9 litra.
Dotychczasowe doświadczenie: zużycie paliwa ma rozkład normalny o odchyleniu
standardowym = 2,8 litra
Szacowanie wartości przeciętnej za pomocą średniej:
σ
σ 

P  X − uα
< m < X + uα
 = 1−α
n
n

α1 = 0,05
1 − α1 = 0,95
α 2 = 0,1
1 − α 2 = 0,90
2,8
2,8 

P6,9 − 1,96
< m < 6,9 + 1,96
 = 0,95
198
198


P{6,51 < m < 7,29} = 0,95
d1 = 0,39
2,8
2,8 

P6,9 − 1,64
< m < 6,9 + 1,64
 = 0,90
198
198 

P{6,57 < m < 7,23} = 0,90
d 2 = 0,33
20
Minimalna liczebność próby
21
Szacowanie minimalnej liczebności próby
PROBLEM: Wyznaczyć minimalną liczebność próby tak, aby przy założonym
współczynniku ufności (1 − α ) , poziom dokładności d nie został przekroczony.
P{Tn − d ≤ Q ≤ Tn + d } = 1 − α
σ
σ 

P  X − uα
< m < X + uα
 = 1−α
n
n

d = uα
σ
n
⇒ n = uα
2
σ2
d
2
Chcemy, aby:
1 − α = 0,95
d = 0,39
Próba powinna liczyć:
2,82
n = 1,96
≈ 198
0,39 2
2
22
Badanie pilotażowe
Służy między innymi:
doprecyzowaniu liczebności próby w badaniu reprezentacyjnym
(oceny poziomów i zakresu zmienności dla najważniejszych
zjawisk będących przedmiotem pomiaru)
ustaleniu łatwości dotarcia do poszczególnych grup respondentów
Zasady ustalania liczebności próby badania pilotażowego:
do badania reprezentacyjnego dobór losowy
ok. 5% przyszłej badanej próby
przeważnie jest to od 30 do 130 jednostek
23
Minimalna wielkość próby
próba prosta – losowanie ze zwracaniem
Szacowanie wartości przeciętnej za pomocą średniej:
Gdy wariancja cechy jest znana:
2
uα σ 2
n=
d2
uα - wartość odczytana z tablic rozkładu
normalnego N(0,1) dla założonego α
Gdy wariancja cechy nie jest znana:
1 n0
S =
( xi − x ) 2
∑
n0 − 1 i =1
2
n0 – wielkość próby pilotażowej
W przypadku gdy badanie pilotażowe
nie mogło być przeprowadzone:
S2 – oszacowanie wariancji badanej cechy
na podstawie próby pilotażowej
Wariancja cechy w populacji może
być przybliżona wielkością:
tα - wartość odczytana z tablic rozkładu
t-Studenta o n0-1 stopniach swobody
2
tα S 2
n=
d2
n0<50
2
(
X
−
X
)
min
S 2 = max
16
Wartości max i min są określane
ekspercko.
2
uα S 2
n=
d2
24
n0>50
Minimalna wielkość próby
próba prosta – losowanie ze zwracaniem
Szacowanie wskaźnika struktury za pomocą frakcji:
Gdy rząd wielkości szacowanej frakcji jest znany
2
u w(1 − w)
n= α
d2
uα
- wartość odczytana z tablic rozkładu
normalnego N(0,1) dla założonego α
Gdy rząd wielkości szacowanej frakcji nie jest znany
p – oszacowanie frakcji badanej
cechy na podstawie próby pilotażowej
tα
2
- wartość odczytana z tablic rozkładu
t-Studenta o n0-1 stopniach swobody
u p (1 − p )
n= α
d2
2
t p (1 − p )
n= α
d2
W przypadku gdy badanie pilotażowe
nie mogło być przeprowadzone:
Wyznaczane jest p, w którym funkcja
p(1-p) przyjmuje maximum:
p = 0,5
p (1 − p) = 0,25
25
Minimalna wielkość próby
losowanie bez zwracania
Estymatory w losowaniu zależnym (bez zwracania) mają wariancje określone
innymi wzorami niż w losowaniu ze zwracaniem i wariancje te są mniejsze.
Szacowanie wartości przeciętnej za pomocą średniej:
Korekta ze względu na inne
prawdopodobieństwo wylosowania
jednostki do próby
d = uα
S
n
N −n
⇒
N −1
n=
N
( N − 1)d 2
1+
2
uα S 2
Szacowanie wskaźnika struktury za pomocą frakcji:
d = uα
N
p (1 − p ) N − n
n
=
⋅
⇒
( N − 1)d 2
n
N −1
1+ 2
uα p (1 − p )
Liczebność próby wyliczana z uwzględnieniem losowania zależnego jest zazwyczaj
mniejsza niż wyznaczana z wzoru dla próby prostej.
Modyfikacja ta nie ma zasadniczego znaczenia przy dużych populacjach.
26
Minimalna wielkość próby
losowanie bez zwracania - w warstwach
Poprawia precyzję oszacowania
Wiąże się z tzw. alokacją jednostek między warstwy:
alokacja równomierna
alokacja proporcjonalna
alokacja Neymana (uwzględnia wariancje w warstwach)
Alokacja proporcjonalna
Dla estymatora w postaci średniej:
l
N ⋅ ∑ N h Sh
n=
2
h =1
l
d2
2
N
+ ∑ N h Sh
2
uα
h =1
2
Dla estymatora w postaci frakcji:
l
d – oczekiwana precyzja szacunku
Sh – przewidywane na podstawie
badania pilotażowego odchylenie
standardowe cechy w warstwie h
ph – przewidywane na podstawie
badania pilotażowego wskaźnik
struktury w warstwie h
N ⋅ ∑ N h ph (1 − ph )
h =1
n=
2
N2
l
d
+ ∑ N h ph (1 − ph )
2
uα
h =1
nh =
Nh
n - liczebność próby w
N
warstwie h
27
Minimalna wielkość próby
losowanie w warstwach, proporcjonalne
Populacja - N = 25 000 sklepów ogólnospożywczych w mieście X
Maksymalny błąd szacunku d = 3%
Współczynnik ufności 1 − α = 0,95
Szacowany jest w - odsetek sklepów reklamujących swoje towary w prasie
Warstwy: 5 wg poziomu sprzedaży za ubiegły rok
Próba pilotażowa – n0 = 125 sklepów
l
N ⋅ ∑ N h ph (1 − ph )
h
Nh
ph
Nh ph (1- ph)
nh
1
4 000
0,05
190
77
2
7 000
0,1
630
136
3
6 000
0,1
540
116
4
5 000
0,3
1 050
97
5
3 000
0,2
480
58
25 000
0,14
2 890
484
losowanie ze zwracaniem bez próby pilotażowej:
n=
h =1
2
l
2 d
N
+ ∑ N h ph (1 − ph )
2
uα
h =1
uα = 1,96
nh =
=
484
Nh
n
N
2
u p (1 − p )
= 536
p = 0,14 ⇒ n = α
2
d
2
uα p(1 − p)
p = 0,5 ⇒ n =
= 1067
d2
28
Minimalna wielkość próby
losowanie w warstwach, alokacja Neymana
(uwzględnia zróżnicowanie w warstwach)
Populacja - N = 25 000 sklepów ogólnospożywczych w mieście X
Maksymalny błąd szacunku d = 3%
Współczynnik ufności 1 − α = 0,95
Szacowany jest w - odsetek sklepów reklamujących swoje towary w prasie
Warstwy: l=5 wg poziomu sprzedaży za ubiegły rok
Próba pilotażowa – n0 = 125 sklepów
2
 l

 ∑ N h ph (1 − ph ) 

n =  h =12
=
nh
h
Nh
ph
l
2 d
N
+ ∑ N h ph (1 − ph )
48
2
1
4 000
0,05
uα
h =1
2
7 000
0,1
116
3
6 000
0,1
100
4
5 000
0,3
127
5
3 000
0,2
66
25 000
nh =
N h ph (1 − ph )
∑N
h
457
n
ph (1 − ph )
h =1
457
uα = 1,96
29
Minimalna wielkość próby
www.cem.pl / PORADNIK / wielkość próby
W kontekście jakiego doboru można używać tego typu narzędzi?
W kontekście jakiego typu cech można używać tego typu narzędzi?
30
Dobór próby
PROJEKT ZALICZENIOWY NR 2
Analiza wyników na podstawie badania pilotażowego
Ustalenie schematu losowania
Wyznaczenie minimalnej liczebność próby
Wykorzystanie SPSS Complex Samples jako narzędzia do
losowania próby
31