Badania sondażowe6(4). - E-SGH

Transkrypt

Badania sondażowe6(4). - E-SGH
Badania sondażowe
Braki danych
Konstrukcja wag
Agnieszka Zięba
Zakład Badań Marketingowych
Instytut Statystyki i Demografii
Szkoła Główna Handlowa
1
Błędy braku odpowiedzi
Całkowity
brak odpowiedzi
Częściowy
brak odpowiedzi
(UNIT nonresponse)
(ITEM nonresponse)
– wywiadu nie udzielono
– wywiadu udzielono
– nie uzyskano żadnej informacji
– nie uzyskano częściowej informacji
Powody:
Respondent jest nieosiągalny
Respondent jest niedostępny
Powody:
Respondent odmówił udzielenia
wywiadu
Kwestionariusz zaginął
RESPONSE RATE – wskaźnik odpowiedzi
Odmowa udzielenia odpowiedzi
(pytania drażliwe)
„Nie pamiętam” (pytania szczegółowe,
wymagające obliczeń)
„Nie wiem”
2
Sposoby radzenia sobie z brakami danych:
w trakcie badania:
DOLOSOWYWANIE dodatkowych jednostek do badania
Konstrukcja PRÓB REZERWOWYCH: posługiwanie się dodatkowymi
jednostkami w miarę nieuzyskiwania odpowiedzi.
po przeprowadzeniu badania:
WAŻENIE – założenie: osoby od których nie uzyskano odpowiedzi nie różnią
się przeciętnie w swoich poglądach od przeciętnej opinii osób od których
odpowiedzi uzyskano
IMPUTACJA – zastępowanie braków danych:
- na podstawie innych źródeł – różnice pomiędzy jednostkami które udzieliły a
które nie udzieliły odpowiedzi są uwzględniane
- na podstawie danych informacji w próbie – różnice są uwzględniane bądź nie
3
Konsekwencje występowania braków danych
PRZYKŁAD:
Badanie percepcji profilów muzycznych młodych mieszkańców miast
Założenia: próba 1000 elementowa odzwierciedlająca strukturę populacji wg płci
i grup wiekowych.
POPULACJA:
PRÓBA:
Struktura ludności
Grupy
wieku
15-19
20-29
30-39
Ogółem
płeć
Kwoty w próbie
Razem
kobiety
mężczyźni
10,5%
10,9%
12,6%
płeć
Razem
kobiety
mężczyźni
21,4%
105
109
214
11,5%
24,1%
104
95
199
20,2%
20,0%
40,3%
202
200
403
22,2%
23,5%
45,7%
184
194
378
20,0%
18,3%
38,3%
200
183
383
11,1%
19,1%
30,2%
92
158
250
50,7%
49,3%
100,0%
507
493
1000
45,9%
54,1%
380
447
827
Identyfikacja zakresu deformacji próby z powodu błędów nielosowych jest możliwa dzięki
cechom metryczkowym, według których próba była konstruowana.
4
Zastępowanie braków danych
IMPUTACJA – braki pojedynczych odpowiedzi
dedukcyjna
deterministyczna
stochastyczna
uwzględniająca
mechanizm liczb
losowych
wprowadzenie wartości umownych
średnie
np. dane na temat populacji
zaczerpnięte z innych źródeł
lub z danych z próby
cold-deck
hot-deck
na podstawie
innych badań lub
symulacji
podobieństwo
obiektów
Imputacja jednej wartości lub imputacja wielu wartości (wieloraka)
5
Zastępowanie braków danych
PRZYKŁAD:
Tabela 1. Wielkość miejscowości, z której pochodzili respondenci
liczba braków
odpowiedzi
liczba jednostek
w grupie
miejsce zamieszkania
trudno
powiedzieć
odmowa
pozycyjny
wskaźnik braków
danych
71
428
wieś
10%
6%
17%
24
165
miasto poniżej 19 999
mieszkańców
5%
11%
16%
25
143
od 20 000 do 49 999
2%
8%
10%
26
120
od 50 000 do 99 999
1%
21%
22%
27
263
od 100 000 do 499 999
1%
19%
20%
28
187
miasto 500 tys.
mieszkańców i więcej
6%
22%
28%
6
Zastępowanie braków danych
PRZYKŁAD c.d.
Tabela 2. Średni miesięczny dochód respondenta
analiza pełnych
przypadków
liczba obserwacji
imputacja
średniej ogólnej
imputacja średniej
w grupach
1060,0
1 305,0
1 305,0
245,0
0,0
0,0
1 175,5
1 175,5
1 187,6
30,2
24,6
24,8
odchylenie standardowe
984,3
887,0
895,4
pierwszy kwartyl
660,0
706,2
706,2
mediana
1 000,0
1 100,0
1 000,0
trzeci kwartyl
1 400,0
1 276,1
1 400,0
liczba braków danych
średnia
standardowy błąd szacunku średniej
7
Zastępowanie braków danych w SPSS
8
Zastępowanie braków danych w SPSS
1. Średnia z wartości zaobserwowanych
2. Średnia z zaobserwowanych wartości sąsiednich – z podaniem które
to są wartości sąsiednie
3. Mediana z zaobserwowanych wartości sąsiednich – z podaniem które
to są wartości sąsiednie
4. Interpolacja liniowa – na podstawie wartości obserwowanej stojącej
przed brakiem i wartości obserwowanej stojącej po braku
5. Trend liniowy – dane dostępne w serii traktowane są jako trend
liniowy, w miejsce braku wstawiane są wartości przewidywane na
podstawie trendu
9
Przyczyny ważenia danych
Technika losowania
Odmowy odpowiedzi
Dostosowywanie reprezentatywności ze względu
na różne cechy (poststratyfikacja)
10
Przyczyny ważenia danych
Technika losowania
Odmowy odpowiedzi
Dostosowywanie reprezentatywności ze względu
na różne cechy (poststratyfikacja)
11
Ważenie
Polega na zmianie struktury próby tak, aby odzwierciedlała strukturę
populacji według tych cech które były podstawą doboru próby.
Musi być stosowane jeśli próba nie jest samoważąca się (losowanie
inne niż proste, systematyczne, proporcjonalne).
W przypadku procedur ograniczonego doboru losowego każda próba
może być reprezentatywna dla populacji, jeśli każdemu elementowi z
próby przypisze się prawdopodobieństwo znalezienia się w próbie.
12
Konstrukcja wag
N - liczebność populacji
n - liczebność próby
N i - liczebność populacji w klasie i
ni - liczebność w próbie w klasie i
Wagi duże - populacyjne
Ni
Wi =
ni
k
n = ∑ ni
i =1
k
N = ∑ Ni
i =1
Wagi małe – dla próby
Ni n
wi =
⋅
ni N
13