Badania sondażowe6(4). - E-SGH
Transkrypt
Badania sondażowe6(4). - E-SGH
Badania sondażowe Braki danych Konstrukcja wag Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa 1 Błędy braku odpowiedzi Całkowity brak odpowiedzi Częściowy brak odpowiedzi (UNIT nonresponse) (ITEM nonresponse) – wywiadu nie udzielono – wywiadu udzielono – nie uzyskano żadnej informacji – nie uzyskano częściowej informacji Powody: Respondent jest nieosiągalny Respondent jest niedostępny Powody: Respondent odmówił udzielenia wywiadu Kwestionariusz zaginął RESPONSE RATE – wskaźnik odpowiedzi Odmowa udzielenia odpowiedzi (pytania drażliwe) „Nie pamiętam” (pytania szczegółowe, wymagające obliczeń) „Nie wiem” 2 Sposoby radzenia sobie z brakami danych: w trakcie badania: DOLOSOWYWANIE dodatkowych jednostek do badania Konstrukcja PRÓB REZERWOWYCH: posługiwanie się dodatkowymi jednostkami w miarę nieuzyskiwania odpowiedzi. po przeprowadzeniu badania: WAŻENIE – założenie: osoby od których nie uzyskano odpowiedzi nie różnią się przeciętnie w swoich poglądach od przeciętnej opinii osób od których odpowiedzi uzyskano IMPUTACJA – zastępowanie braków danych: - na podstawie innych źródeł – różnice pomiędzy jednostkami które udzieliły a które nie udzieliły odpowiedzi są uwzględniane - na podstawie danych informacji w próbie – różnice są uwzględniane bądź nie 3 Konsekwencje występowania braków danych PRZYKŁAD: Badanie percepcji profilów muzycznych młodych mieszkańców miast Założenia: próba 1000 elementowa odzwierciedlająca strukturę populacji wg płci i grup wiekowych. POPULACJA: PRÓBA: Struktura ludności Grupy wieku 15-19 20-29 30-39 Ogółem płeć Kwoty w próbie Razem kobiety mężczyźni 10,5% 10,9% 12,6% płeć Razem kobiety mężczyźni 21,4% 105 109 214 11,5% 24,1% 104 95 199 20,2% 20,0% 40,3% 202 200 403 22,2% 23,5% 45,7% 184 194 378 20,0% 18,3% 38,3% 200 183 383 11,1% 19,1% 30,2% 92 158 250 50,7% 49,3% 100,0% 507 493 1000 45,9% 54,1% 380 447 827 Identyfikacja zakresu deformacji próby z powodu błędów nielosowych jest możliwa dzięki cechom metryczkowym, według których próba była konstruowana. 4 Zastępowanie braków danych IMPUTACJA – braki pojedynczych odpowiedzi dedukcyjna deterministyczna stochastyczna uwzględniająca mechanizm liczb losowych wprowadzenie wartości umownych średnie np. dane na temat populacji zaczerpnięte z innych źródeł lub z danych z próby cold-deck hot-deck na podstawie innych badań lub symulacji podobieństwo obiektów Imputacja jednej wartości lub imputacja wielu wartości (wieloraka) 5 Zastępowanie braków danych PRZYKŁAD: Tabela 1. Wielkość miejscowości, z której pochodzili respondenci liczba braków odpowiedzi liczba jednostek w grupie miejsce zamieszkania trudno powiedzieć odmowa pozycyjny wskaźnik braków danych 71 428 wieś 10% 6% 17% 24 165 miasto poniżej 19 999 mieszkańców 5% 11% 16% 25 143 od 20 000 do 49 999 2% 8% 10% 26 120 od 50 000 do 99 999 1% 21% 22% 27 263 od 100 000 do 499 999 1% 19% 20% 28 187 miasto 500 tys. mieszkańców i więcej 6% 22% 28% 6 Zastępowanie braków danych PRZYKŁAD c.d. Tabela 2. Średni miesięczny dochód respondenta analiza pełnych przypadków liczba obserwacji imputacja średniej ogólnej imputacja średniej w grupach 1060,0 1 305,0 1 305,0 245,0 0,0 0,0 1 175,5 1 175,5 1 187,6 30,2 24,6 24,8 odchylenie standardowe 984,3 887,0 895,4 pierwszy kwartyl 660,0 706,2 706,2 mediana 1 000,0 1 100,0 1 000,0 trzeci kwartyl 1 400,0 1 276,1 1 400,0 liczba braków danych średnia standardowy błąd szacunku średniej 7 Zastępowanie braków danych w SPSS 8 Zastępowanie braków danych w SPSS 1. Średnia z wartości zaobserwowanych 2. Średnia z zaobserwowanych wartości sąsiednich – z podaniem które to są wartości sąsiednie 3. Mediana z zaobserwowanych wartości sąsiednich – z podaniem które to są wartości sąsiednie 4. Interpolacja liniowa – na podstawie wartości obserwowanej stojącej przed brakiem i wartości obserwowanej stojącej po braku 5. Trend liniowy – dane dostępne w serii traktowane są jako trend liniowy, w miejsce braku wstawiane są wartości przewidywane na podstawie trendu 9 Przyczyny ważenia danych Technika losowania Odmowy odpowiedzi Dostosowywanie reprezentatywności ze względu na różne cechy (poststratyfikacja) 10 Przyczyny ważenia danych Technika losowania Odmowy odpowiedzi Dostosowywanie reprezentatywności ze względu na różne cechy (poststratyfikacja) 11 Ważenie Polega na zmianie struktury próby tak, aby odzwierciedlała strukturę populacji według tych cech które były podstawą doboru próby. Musi być stosowane jeśli próba nie jest samoważąca się (losowanie inne niż proste, systematyczne, proporcjonalne). W przypadku procedur ograniczonego doboru losowego każda próba może być reprezentatywna dla populacji, jeśli każdemu elementowi z próby przypisze się prawdopodobieństwo znalezienia się w próbie. 12 Konstrukcja wag N - liczebność populacji n - liczebność próby N i - liczebność populacji w klasie i ni - liczebność w próbie w klasie i Wagi duże - populacyjne Ni Wi = ni k n = ∑ ni i =1 k N = ∑ Ni i =1 Wagi małe – dla próby Ni n wi = ⋅ ni N 13