Narzędzia pomiarowe w badaniach społeczno
Transkrypt
Narzędzia pomiarowe w badaniach społeczno
Narzędzia pomiarowe w badaniach społeczno-ekonomicznych Adam Sagan Uniwersytet Ekonomiczny w Krakowie Plan zajęć 1. 2. 3. 4. 5. 6. Budowa narzędzia pomiaru, pytania kwestionariuszowe, skale proste i złożone COARSE, wskaźniki, skale i indeksy, modele pomiarowe Ocena wymiarowości skali (analiza korespondencji, analiza głównych składowych, analiza czynnikowa) Klasyczna teoria testu i rzetelność skal równoległych Konfirmacyjna analiza czynnikowa, modelowe ujęcie rzetelności Teoria reakcji na pozycję, modele Rascha i Birnbauma Literatura 1. 2. 3. Konarski, R., Modelowanie równań strukturalnych, PWN 2010 Kline, R., Principles of Structural Equation Modeling, 2005 Trafność i rzetelność testów psychologicznych, red. J. Brzeziński, GWP Warszawa 2005 Techniki gromadzenia danych w badaniach ankietowych 1. 2. Techniki bezpośrednie - Wywiad kwestionariuszowy: technika standaryzowana, w której badacz otrzymuje dane od respondenta w procesie bezpośredniego komunikowania się (aktywna rola ankieterów) Techniki pośrednie: - Ankieta: technika standaryzowana, w której badacz otrzymuje dane od respondenta w procesie komunikowania się pisemnego (aktywna rola respondentów) Techniki gromadzenia danych Proces budowy kwestionariusza Badania ankietowe - gromadzenie danych 1. 2. 3. 4. Rodzaje pytań - pytania o fakty i pytania o opinie Interakcja respondent - ankieter: 1/ zrozumienie pytania, 2/ odtworzenie istotnych informacji, 3/ zwerbalizowanie odpowiedzi, 4/ wyrażenie intencji udzielenia odpowiedzi na pytanie ) Pytania o fakty: udzielenie informacji na temat faktów i zachowania → problem identyfikacji wartości prawdziwej odpowiedzi. Pytania o opinie: udzielenie odpowiedzi na temat postaw i stanów emocjonalnych, sądów wartościujących Błędy w odpowiedziach Two priests, a Dominican and a Jesuit, are discussing whether it is a sin to smoke and pray at the same time. After failing to reach a conclusion, each goes off to consult his respective superior. The next week they meet again. The Dominican says, “Well, what did your superior say?” The Jesuit responds, “He said it was all right.” “That’s funny,” the Dominican replies. “My superior said it was a sin.” The Jesuit says, “What did you ask him?” The Dominican replies, “I asked him if it was all right to smoke while praying.” “Oh,” says the Jesuit. “I asked my superior if it was all right to pray while smoking.” Błędy w odpowiedziach 1. 2. 3. 4. 5. 6. Założenie wiedzy respondenta - słownictwo w pytaniach powinno być zrozumiałe dla respondentów bez stosowania żargonu badawczego Wieloznaczność pytań - niespójność w interpretacji pytań przez respondentów (np. “Czy jesteś zadowolony z urządzeń rekreacyjnych na naszym osiedlu?” Pytania sugerujące - ukierunkowywanie odpowiedzi respondentów (np. “Większość lekarzy podkreśla, że palenie papierosów jest przyczyną raka. Czy się z tym zgadzasz?” , “W jakim stopniu jesteś za prawem kobiet do aborcji: a/ w bardzo małym, b/ małym, c/ dużym, d/ bardzo dużym” → 100% badanych jest za prawem do aborcji. Pytania podwójne - double-barreled requests - pytania dotyczące jednocześnie wielu kwestii (np. “Czy uważasz, że ludzie powinni mniej jeść i więcej ćwiczyć?”) Pytania negatywne - pytania zawierające przeczenia (np. “Czy jesteś przeciwny zakazowi stosowania nieekologicznych pieców”) Pytania hipotetyczne - pytania o wyobrażeniowe kwestie (np. Jeżeli byłbyś prezydentem Polski, w jaki sposób obniżyłbyś przestępczość?” Format odpowiedzi 1. 2. 3. 4. 5. 6. Pytania otwarte - swobodne wyrażanie własnych odpowiedzi, Pytania zamknięte - zawiera listę odpowiedzi, z której respondent wybiera prawidłową odpowiedź, Pytania otwarte logicznie i otwarte formalnie - pytania zadawane w sposób otwarty i mające otwarty zakres odpowiedzi (np. “Co sądzisz o wprowadzeniu zakazu jazdy w pasach bezpieczeństwa w samochodzie?”) Pytania otwarte logicznie i zamknięte formalnie - pytania zadawane w sposób zamknięty lecz mające otwarty zakres odpowiedzi (np. Który z poniższych czynników ma największy wpływ na zadowolenie ze studiów: a/ jakość posiłków, b/ uroda wykładowców, c/ czytelność slajdów”) Pytania zamknięte logicznie i zamknięte formalne – pytania zadawane w sposób zamknięty i mające zamknięty zakres odpowiedzi (np. “Czy masz a/ mniej niż 20 lat, b/ 20 lat i więcej”’) Pytania zamknięte logicznie i otwarte formalne - pytania zadawane w sposób otwarty lecz mające zamknięty zakres odpowiedzi (np. “Ile masz lat?”’) Błędy w odpowiedziach 1. 2. 3. 4. 5. 6. 7. Błąd zakresu - podanie odpowiedzi spoza zakresu odpowiedzi prawdziwych (np. wiek 324 lata) Błąd spójności - niespójność w odpowiedziach na kilka pytań (np. osoba lat 8 podaje status “wdowiec”) Błąd przejścia - pominięcie istotnych pytań z powodu nie uwzględnienia reguł przejść w kwestionariuszu (np. odpowiadanie na pytania przez niepalącego dotyczące palenia papierosów) Efekty pierwszeństwa i świeżości - tendencja do wybierania odpowiedzi na górze (efekt pierwszeństwa) i na dole listy odpowiedzi (efekt świeżości) w kafeteriach Efekt mimikry - tendencja do wybierania odpowiedzi środkowych na listach uporządkowanych mierzących intensywność cech Błąd teleskopii - kompresja czasu - “pamiętanie” zdarzeń “wcześniej” niż zdarzyło się to w rzeczywistości. Błąd teleskopii występuje najczęściej w krótkich interwałach czasowych Odpowiedzi fantomowe - “pamiętanie” zdarzeń, które nigdy nie miały miejsca Pytania z nieokreślonym układem odniesienia 1. 2. 3. Do you think the government should give money to workers who are unemployed for a limited length of time until they can find another job? (Yes 63%) It has been proposed that unemployed workers with dependents be given up to $25 per week by the government for as many as 26 weeks during one year while they are out of work and looking for a job. Do you favor or oppose this plan? (Favor 46%) Would you be willing to pay higher taxes to give people up to $25 a week for 26 weeks if they fail to find satisfactory jobs? (Yes 34%) Odpowiedzi na pytania drażliwe Czy zabiłeś swoją żonę?” 1. Pytania wprost - “Czy zdarzyło Ci się zabić swoją żonę?” 2. Sortowanie kart - “Z podanych kolejno kart wybierz numer z odpowiedzią prawdziwą:” 1/ Naturalna śmierć, 2/ Zabiłem ją z premedytacją 3/ Niechcący zabiłem ją 3. Powszechność zachowań -”Jak wiadomo powszechnie zwykle wiele osób zabija swoje żony. Czy zdarzyło się Panu zabić własną również?” 4. Uogólniony inny -”Czy zna Pan kogoś, kto zabił swoją żonę? A jak to było w Pana przypadku? Czy też tak samo? 5. Technika urny wyborczej - W naszych badaniach szanujemy prywatność i anonimowość odpowiedzi. Proszę zaznaczyć odpowiedź na powyższe pytanie i wrzucić zalakowaną kopertę do urny” 6. Technika szczerość za szczerość - “Powiem Panu szczerze, ja bym zrobił tak samo, teraz popatrzmy sobie w oczy i szczerze w prostych żołnierskich słowach powiedz stary...’zabiłeś swoją żonę?” Kolejność odpowiedzi 1. Funneling - określenie logicznej struktury odpowiedzi - od pytań ogólnych, prostych, dotyczących faktów, do pytań szczegółowych złożonych dotyczących opinii i wartości 2. Efekt spójności - dążenie do udzielania spójnych odpowiedzi na poszczególne pytania, blokowanie podobnych zagadnień 3. Efekt nastawienia - priming effect - pozytywna lub negatywna odpowiedź na kluczowe pytanie z bloku ma wpływ na odpowiedzi na kolejne pytania 4. Efekt uczenia się - odpowiedzi na pytania wcześniejsze mają wpływ na odpowiedzi na pytania w dalszej części kwestionariusza: “Koszty utrzymania Parlamentu Europejskiego przez przeciętnego Kowalskiego to ok 100 zlotych” Pytanie: “Czy jesteś za zwiększeniem liczby członków Parlamentu Europejskiego?” “Liczba członków Parlamentu Europejskiego z Polski wynosi tylko 20 osób” Pytanie: “Czy jesteś za zwiększeniem liczby członków Parlamentu Europejskiego?” Obciążenie odpowiedzi 1. Społecznie pożądane reakcje (Socially Desirable Responses) tendencja do ukazywania siebie w lepszym świetle ze względu na normy kulturowe 2. Wymiary: 1. Zarządzanie wrażeniami (tworzenie obrazu siebie) 2. Podnoszenie obrazu siebie (nadmierne zaufanie dla siebie) 3. Response set (nastawienie odpowiedzi): odpowiedzi na pytania społecznie wrażliwe, gdzie normy społeczne zniekształcają indywidualne opinie (np. relacje rasowe lub płciowe) → rola czynników sytuacyjnych 4. Response style (styl odpowiedzi): stabilna psychologiczna tendencja do odpowiadania na wszystkie pytania w kwestionariuszu → rola czynników psychologicznych Rodzaje skal Budowa narzędzia pomiaru - COARSE Rossitera Construct Object Attribute Rater – Scale Enumeration COARSE 1. Definicja konstruktu – opis badanego zjawiska w kontekście: 1. Obiektu 2. Cech 3. Badacza 2. Klasyfikacja obiektów: 1. Konkretny jednostkowy (Cola) 2. Abstrakcyjny kolektywny (napoje) 3. Abstrakcyjny ideacyjny (naród) 3. Klasyfikacja cech: 1. Konkretne (intencje zakupu) 2. Abstrakcyjne /formatywne/ (status) 3. Abstrakcyjne refleksyjne (postawa) 4. Identyfikacja badanych: 1. Indywidualni 2. Grupy 3. Eksperci Etapy budowy skali 1. Refleksywnej (skali) 1. Definicja konstruktu 2. Wybór procedury skalowania 3. Dobór stwierdzeń 4. Analiza dyskryminacji pozycji 5. Ocena wymiarowości i rzetelności 6. Ocena trafności i porównywalności międzykulturowej 2. Formatywnej (indeksu) 1. Określenie dziedziny konstruktu 2. Dobór wskaźników 3. Ocena współliniowości wskaźników 4. Ocena trafności zewnętrznej (korelacji z zewnętrznym kryterium) Skala Likerta – pozycje równoległe Skala Guttmana– pozycje skumulowane Model pomiarowy CFA - wskaźniki refleksyjne 1. 2. 3. 4. 5. 6. 7. Model czynnikowy Nadmiarowe Wyjaśniane przez model Jednorodne wewnętrznie Losowy dobór z populacji pozycji Nie ma problemu współliniowości Tworzą skalę Model pomiarowy CFA - wskaźniki refleksyjne 1. Zmienna ukryta: kontrola zależności między zmiennymi obserwowalnymi Model pomiaru ze wskaźnikami refleksywnymi 1. Zmienna ukryta: prawdziwa wartość oczekiwana jest wartością średnią dla zmiennej obserwowalnej w bardzo wielu (nieskończonej liczbie) powtarzalnych prób pomiaru Zmienna ukryta - niedeterministyczna funkcja wskaźników 1. Zmienna ukryta: zmienna w systemie liniowych równań strukturalnych; jeżeli równania nie mogą być w taki sposób przekształcone, że wyrażają w pełni zmienną ukrytą jako wyłącznie kombinację (liniową) zmiennych obserwowalnych Poziomy równoległości wskaźników 1. Ściśle równoległe (strict parallel) 2. Równoległe (parallel) 3. Względnie równoważne (τ - equivalent) 4. Jednorodne (congeneric) Model pomiarowy wskaźników refleksywnych Konfirmacyjna analiza czynnikowa (CFA) Skumulowany charakter skali Guttmana 1. Analiza tabeli Guttmana 1. Współczynnik odtwarzalności: E - liczba błędów w tabeli Guttmana N - liczba wszystkich wyborów na skali. Jest to iloczyn liczby pozycji i liczby respondentów. 2. Współczynnik skalarności: Emax – liczba błędów krańcowych 2 Skala Guttmana jest skalą monotoniczną jeżeli współczynnik odtwarzalności jest większy od 0.8 a współczynnik skalarności jest większy od 0.6 Analiza błędów skali Guttmana Normalizacja i standaryzacja skali Analiza wymiarowości skali 1. 2. 3. 4. Analiza głównych składowych (Principal Component Analysis), Analiza korespondencji (Correspondence Analysis), Eksploracyjna analiza czynnikowa (Factor Analysis) Konfirmacyjna analiza czynnikowa (Confirmatory Factor Analysis) Ocena wymiarowości skali Metody oceny wymiarowości Analiza głównych składowych 1. 2. 3. 4. 5. Dekompozycja macierzy korelacji lub kowariancji w układzie o mniejszej liczbie wymiarów Wymiar: ważona liniowa kombinacja zmiennych Zastosowanie metody SVD do analizy symetrycznej macierzy korelacji/kowariancji (EVD) Uzyskanie prostej i nie skorelowanej struktury danych Zmienne i przypadki aktywne definiują przestrzeń wielowymiarową a zmienne i przypadki pasywne (dodatkowe) są rzutowane na zredukowaną przestrzeń Procedura analizy głównych składowych Wartości własne 1. 2. 3. 4. 5. Wartości własne są kwadratem wartości osobliwych Wartości własne określają zakres wyjaśnianej wariancji zmiennych pierwotnych Suma wartości własnych jest równa całkowitej wariancji wszystkich zmiennych Wartości własne kolejnych składowych są monotonicznie malejące Liczba składowych (wymiarów) jest równa liczbie zmiennych pierwotnych (W = k) Ładunki czynnikowe 1. 2. 3. 4. Współczynniki korelacji między główną składową a zmienną pierwotną Suma kwadratów ładunków czynnikowych = wartość własna Kwadraty ładunków czynnikowych określają dyskryminację składowej przez zmienną Ładunki czynnikowe stanowią wagi w liniowej kombinacji zmiennych Ładunki czynnikowe 1. 2. Rotacja składowych w PCA jest zawsze ortogonalna Rotacja ma na celu poprawę interpretacji składowych w przekroju zmiennych lub zmiennych w przekroju składowych 3. Typy rotacji: 1. Varimax - maksymalizuje wartości ładunków w przekroju składowych i ułatwia interpretacje składowych 2. Quartimax - maksymalizuje wartości ładunków w przekroju zmiennych i ułatwia interpretację zmiennych 3. Biquartimax - jednocześnie maksymalizuje wartości ładunków w przekroju zmiennych i składowych 4. Equamax - ważona rotacja Biquartimax 4. Rotacja pozwala na uzyskanie prostej struktury danych (wysokich ładunków dla jednych składowych i niskich dla innych w przekroju zmiennych, jednoznaczne przypisanie zmiennych dl składowych bez tzw, ładunków krzyżowych) Wartości czynnikowe 1. 2. 3. 4. 5. Wartości czynnikowe są współrzędnymi obiektów (obserwacji) w przekroju składowych Wartości czynnikowe są podstawą budowy indeksów i skal czynnikowych Wartości czynnikowe są standaryzowanymi ocenami respondentów w przekroju składowych (średnia = 0, wariancja = 1) Wartości czynnikowe są standaryzowanymi wartościami metrycznych danych surowych ważonych ładunkami czynnikowymi Metody obliczania wartości czynnikowych: 1. Regresyjna: (najczęściej stosowana) FS = X(std) ×λ×θ 2. Bartletta 3. Andersona - Rubina: wartości czynnikowe są ortogonalne Analiza korespondencji 1. 2. 3. 4. 5. 6. 7. 8. 9. Analiza głównych składowych danych nominalnych (kategorialnych) Analiza złożonych tabel kontyngencji (n x k) Analiza tabel wielodzielczych (n x k x h x g) Analiza tabel danych wymiarowo jednorodnych (te same jednostki miary) i nieujemnych Dekompozycja według wartości osobliwych macierzy reszt standaryzowanych statystyki χ2 Wieloraka analiza korespondencji tabeli Burta Skalowanie optymalne - analiza homogeniczności (HOMALS) Skalowanie dualne wierszy i kolumn tabeli kontyngencji (dual scaling) Analiza skal Guttmana (diagnoza efektu podkowy) Procedura analizy korespondencji Dekompozycja SVD 1. 2. 3. 4. 5. Wartości własne są kwadratem wartości osobliwych Wartości własne określają zakres wyjaśnianej bezwładności tabeli kontyngencji (chi2/N) Suma wartości własnych jest równa całkowitej bezwładności tabeli kontyngencji Wartości własne kolejnych wymiarów są monotonicznie malejące Liczba wymiarów jest równa mniejszej wielkości z liczby kolumn - 1 lub liczby wierszy - 1 (W = min (k - 1, w - 1)) Tabela danych Profile wierszy i kolumn Mapa korespondencji Barycentryczny układ współrzędnych Redukcja wymiarowości 1. 2. 3. 4. 5. Dekompozycja całkowitej bezwładności w układzie o małej liczbie wymiarów (2-3), w której wzajemne położenie profili jest jak najbliższe ich położeniu w układzie o k(min) - 1 wymiarach Kryterium redukcji: maksymalizacja bezwładności profili w optymalnej liczbie wymiarów Wartość własna każdej osi głównej jest równa wyjaśnianej bezwładności profili względem tej osi Pierwsza oś główna przechodzi w taki sposób, że maksymalizuje wyjaśnianą bezwładność profili, druga oś jest prostopadła do pierwszej i maksymalizuje bezwładność profili w tym kierunku Bezwładność profili wzdłuż danej osi głównej jest zwana bezwładnością główną. Jest to ważona średnia odległości χ2 od środka ciężkości do projekcji danego profilu na daną oś. Bezwładność względna i kwadrat cosinusa 1. 2. 3. Zakres bezwładności tabeli wyjaśniany przez każdy z wymiarów Suma kwadratów bezwładności = wartość własna Kwadraty bezwładności określają dyskryminację wymiaru przez daną aktywną kategorię wiersza lub kolumny tabeli 1. Korelacja między aktywną lub pasywną kategorią tabeli a wymiarem 2. Suma kwadratów cosinusa = jakość odwzorowania profilu wierszy lub kolumny tabeli przez punkt w układzie współrzędnych Analiza wymiarów 1. 2. 3. (1) Wkład absolutny punktu w bezwładność główną osi →identyfikacja punktów, które „przyciągają” osie i mają największy wkład w orientacje osi: wskazuje stopień w jakim geometryczna orientacja osi jest określana przez punkt (wymiar jest definiowany przez punkt) (2) Relatywny wkład osi w bezwładność punktu →ocena położenia punktów na osi i stopień reprezentacji na osi (kwadrat cosinusa – korelacja punktu i osi głównej): wskazuje stopień, w jakim profil jest opisywany przez wymiar (punkt jest wyjaśniany przez wymiar) W interpretacji wyników analizy korespondencji należy zawsze uwzględnić (1) i (2) Jakość reprezentacji 1. 2. 3. 4. Jakość reprezentacji punktu w zredukowanym układzie współrzędnych Stosunek kwadratu odległości punktu od początku układu współrzędnych w wybranej liczbie wymiarów do kwadratu odległości punktu od początku układu w maksymalnej liczbie wymiarów Suma kwadratów cosinusów w przekroju wymiarów Cosinus kąta między wektorami równa się korelacji tetrachorycznej. Interpretacja osi głównych 1. Kategorie opisujące daną oś mogą należeć do różnych zmiennych, których bezwładność związana z daną osią jest duża, z czego jedna kategoria powinna być związana z półosią wartości dodatnich a druga - z półosią wartości ujemnych 2. Obydwie strony osi są opisane za pomocą różnych kategorii tej samej zmiennej. 3. Wartości własne a kształt układu: 1. (W1 = W2 = W3): sferyczny 2. (W1 = W2) >> W3: soczewkowy 3. W1 >> (W1 = W2): cygara 4. Wariancja osi głównej jest wariancją projekcji punktów kategorii na oś Interpretacja wymiarów w analizie korespondencji Porównanie punktów wierszowych i kolumnowych Analiza korespondencji skal ocen - dublowanie danych Biplot Wieloraka analiza korespondencji 1. 2. 3. 4. 5. Analiza korespondencji wielodzielczych tabel kontyngencji (k x m x n. . . ) Dane wejściowe w postaci tabeli Burta Liczba wymiarów w MCA = K - Q Wariancja układu: średnia kwadratów odległości od punktów do ich środka ciężkości (punktu średniego) Suma wartości własnych = wariancja układu: (K/ Q) −1 Tabela Burta 1. 2. Macierz Burta - symetryczna macierz blokowa na głównej przekątnej znajdują się macierze diagonalne z wartościami brzegowymi. Elementy pozadiagonalne to tablice kontyngencji między parami zmiennych. Analiza korespondencji macierzy Burta Analiza czynnikowa 1. 2. 3. 4. Identyfikacja ukrytych zmiennych (wymiarów) wyjaśniających maksymalną ilość wariancji wspólnej w strukturze macierzy korelacji (kowariancji) Zmienne ukryte (wymiary) mogą być ortogonalne lub skorelowane Zasoby zmienności wspólnej są szacowane na podstawie metody największej wiarygodności (ML) Metoda ML pozwala na ocenę dopasowania modelu czynnikowego do danych Dekompozycja wariancji Wartości własne 1. 2. 3. 4. 5. Wartości własne są szacowane na podstawie zakresu wariancji wspólnej (np. jako kwadrat korelacji wielorakiej) Wartości własne określają zakres wyjaśnianej wariancji wspólnej (kowariancji) zmiennych pierwotnych Suma wartości własnych jest równa wariancji wspólnej zmiennych Wartości własne kolejnych składowych są monotonicznie malejące Liczba czynników jest równa liczbie nieujemnych wartości własnych i zawsze mniejsza od liczby zmiennych pierwotnych Ładunki czynnikowe 1. 2. 3. 4. Współczynniki regresji między czynnikiem a zmienną pierwotną (mogą być większe od jedności) Suma kwadratów ładunków czynnikowych = wartość własna Kwadraty ładunków czynnikowych określają dyskryminację zmiennej przez czynnik Ładunki czynnikowe stanowią wagi w liniowej kombinacji czynników wspólnych wyjaśniających daną zmienną Rotacja czynników 1. 2. Rotacja w FA może być ortogonalna lub ukośna Rotacja ma na celu poprawę interpretacji czynników w przekroju zmiennych lub zmiennych w przekroju czynników 3. Typy rotacji ortogonalnej 1. Varimax 2. Quartimax 3. Biquartimax 4. Equamax 4. Typy rotacji ukośnej 1. Promax 2. Oblimin 3. Geomin 4. Hierarchiczna analiiza czynników ukośnych (STATISTICA) 5. Rotacja w FA pozwala na uzyskanie jednoznacznego rozwiązania czynnikowego w porównaniu do rozwiązania bez rotacji (factor indeterminacy) Analiza wiarygodności skal Trafność i rzetelność skali Podstawowe równanie teorii testu Przypadkowy błąd pomiaru Ep 1. 2. 3. 4. Ep jest różnicą między X a T Ep jest związany z błędem standardowym pomiaru Gdybyśmy mieli wiele prób to X jest statystyką z próby a T średnią z X w przekroju wszystkich prób (wartością oczekiwaną) Błąd standardowy X jest odchyleniem standardowym X w przekroju wszystkich prób Rzetelność skali 1. 2. Korelacja między skalami równoległymi = rx1,x2 Stosunek wariancji wyniku prawdziwego do ogólnej wariancji skali 3. Założenia: 1. cov(t,e) = 0 2. var(e) = 0 Rzetelność skali Likerta 1. 2. 3. 4. 5. 6. Wartość prawdziwa odpowiedzi na skali jest to średnia z wartości obserwowanych z nieskończenie wielu powtarzanych pomiarów; Wartości prawdziwe oraz składowe błędu losowego pomiaru z danej populacji są od siebie niezależne Szacowana rzetelność skali jest mierzona, na podstawie wariancji wyników prawdziwych i zależy od charakterystyk próby (lub populacji). Skale te nazywa się często skalami zależnymi od próby/populacji; Składowe błędu dla różnych pozycji są niezależne od siebie; Proces wyboru pozycji do całej skali oparty jest na macierzy korelacji. Relacja pomiędzy X a T jest liniowa. Rzetelność skali Likerta 1. Analiza rzetelności 1. Test-retest 2. Metoda testów równoległych 3. Metoda połówkowa 4. Współczynnik α - Cronbacha 5. Współczynnik KR - 20 Alfa Cronbacha 1. Współczynnik ten jest dolną granicą estymatora rzetelności skali, przy założeniu, że: 1. składowe błędu pomiaru są nie skorelowane (skala jest stosowana w tym samym miejscu i czasie i nie istnieje wpływ reakcji na jedne pozycje w skali na odpowiedzi na inne pozycje), 2. skala jest jednowymiarowa, czyli wszystkie pozycje skali są odzwierciedleniem jednego i tego samego czynnika systematycznego oraz źródło błędów losowych jest jedno i to samo, 3. wszystkie współczynniki relacji zmiennych obserwowalnych z wynikiem prawdziwym są dla każdej pozycji takie same Interpretacja alfa Cronbacha 1. 2. 3. 4. 5. 6. Średnia wszystkich rzetelności połówkowych Dolna granica rzetelności skali (GLB) Wskaźnik nasycenia pierwszego czynnika Rzetelność τ - ekwiwalentnych wskaźników Uogólnienie wskaźnika rzetelności KR-20 Miara wewnętrznej spójności skali (nie jednowymiarowości) 1. Skale jednowymiarowe mogą mieć zróżnicowaną wysokość współczynnika Cronbacha (niską) 2. Skale wielowymiarowe mogą mieć wysoką wartość współczynnika Cronbacha Alfa Cronbacha Poprawka na tłumienie 1. Skale o niskiej rzetelności mają niskie obserwowane korelacje nawet jeżeli prawdziwa korelacja między nimi jest wysoka (korelacja jest tłumiona przez niską rzetelność tych skal) Parcels (paczkowanie) 1. Parcels (paczkowanie) – suma lub średnia kilku pozycji skal jako wskaźnik zmiennej ukrytej 2. Metody tworzenia: hierarchiczna konfirmacyjna analiza czynnikowa (CFA) 1. Paczka jako czynnik 1 rzędu a zmienna ukryta jako czynnik 2 rzędu 2. Paczka jako suma najwyższych ładunków czynników 1 rzędu 3. Zalety parcelingu: 1. Wyższa rzetelność pomiaru 2. Zmniejszenie liczby wskaźników 3. Rozkład bardziej zbliżony do normalnego w przypadku skośnych rozkładów pozycji indywidualnych CFA - charakter danych wejściowych 1. Macierz kowariancji – teoria statystyczna SEM jest oparta na własnościach macierzy kowariancji →modelowanie struktur kowariancyjnych (CSA): 1. jeżeli skala pomiaru wskaźników jest interpretowalna, 2. jeżeli model jest wielogrupowy 3. jeżeli występują relacje nieliniowe i interakcje między zmiennymi ukrytymi 2. Macierze kowariancji, w których stosunek maksymalnej do minimalnej wariancji wynosi 10 są źle wyskalowane (ill-scaled matrix?) - należy je przeskalować np. pomnożyć przez stałą 3. Zmienne są inwariantne skalowo jeżeli wartości funkcji rozbieżności są takie same niezależnie od skali pomiaru zmiennej (metoda ML) CFA - charakter danych wejściowych 1. Macierz kowariancji: 1. Jeżeli model jest „wolny od skali pomiaru” 2. Brak inwariancji skalowej - wyniki estymacji zależą od skali pomiaru; w odtworzonej macierzy korelacji wartości na przekątnej są <1 3. Jeżeli stosowana jest właściwa estymacja statystyczna (→ SEPATH →Statistica): nieliniowe ograniczenia na parametry modelu w celu uzyskania modelu niezmienniczego skalowo (Browne). Wprowadzenie nieliniowych ograniczeń na parametry modelu i ograniczona optymalizacja Browna prowadzi do modelu inwariantnego skalowo. 4. jeżeli model jest jednogrupowy bez interakcji Skalowanie zmiennej ukrytej Identyfikacja modelu - stopnie swobody 1. 2. 3. Stopnie swobody = liczba danych (nieredundantnych wartości macierzy kowariancji) - liczba estymowanych parametrów modelu „Stopnie swobody są jak przeszkody na wyścigach konnych, im więcej stopni swobody, tym więcej ograniczeń (przeszkód) w modelu, stąd jeżeli rozwiązanie modelu jest poprawne dla większej liczby stopni swobody (przeskoczy więcej przeszkód), tym jesteśmy bardziej zadowoleni z wyniku”. Rozwiązanie modelu ze stopniami swobody = 0, to bieg po prostej – nigdy się nie przewrócimy (model zawsze jest idealny)”. (Schumacker) Stopnie swobody stanowią odpowiadają stopniom „falsyfikowalności” modelu. Im większa liczba stopni swobody, tym większe prawdopodobieństwo falsyfikacji ; Sukces →brak falsyfikacji przy dużej liczbie stopni swobody Ograniczenia nałożone na parametry modelu 1. Modele nasycone: modele ze zerową liczbą stopni swobody (SS) – liczba parametrów jest taka sama jak liczba danych 2. Modele nadidentyfikowane: modele z dodatnią liczbą stopni swobody. Im wyższa liczba SS, tym więcej wolnych parametrów i prostszy model – brzytwa Ockhama: brak falsyfikacji modeli z dużą liczbą stopni swobody 3. Ograniczenia: 1. równości parametrów (b1 = b2) 2. równości w grupach (b1A = b1B ) 3. proporcjonalności (b1 = 2 × b2) 4. nierówności (b1 >1) 5. nieliniowości (b2 = b1^2) Identyfikacja modelu pomiarowego 1. Niedoidentyfikacja modelu 2. Identyfikacja: 3. Nadidentyfikacja: Estymacja modelu 1. 2. Celem procedury jest uzyskanie szacunków parametrów, które odtwarzają macierz wariancji-kowariancji zakładaną przez model (Σ(θ)), której wartości są możliwie najbliższe wartościom macierzy wariancji-kowariancji zmiennych obserwowalnych (S). Proces estymacji wykorzystuje odpowiednią funkcję rozbieżności (lub dopasowania) w celu minimalizacji różnicy między (Σ(θ)) a S Dopasowanie modelu Estymacja i ocena modelu Proces estymacji Metody estymacji Dobroć dopasowania 1. Test χ2 hipotezy zerowej, że reszty standaryzowane macierzy empirycznej i teoretycznej (odtworzonej przez model) wynoszą 0, tzn., że ograniczenia nałożone na model teoretyczny są trafne 2. Założenia: 1. Zmienne obserwowane mają rozkład normalny 2. Analizowana jest macierz kowariancji 3. Próba jest duża: przy bardzo dużych próbach nasza ufność, że macierze są równe rośnie, ale istotność różnic może być niewielka; 4. Przy małych próbach nie można poprawnie diagnozować nawet dużych różnic miedzy macierzami 5. Testowane jest doskonałe dopasowanie H0 : S = Σ(θ) Rozkład obserwacji odbiegający od normalnego 1. Założenie wielowymiarowego rozkładu normalnego przy estymacji ML, gdy inny rozkład (kurtoza i skośność): 1. 2. 3. 2. 3. 4. Inflacja statystyki χ 2 (zbyt wysoka wartość) Niedoszacowanie innych wskaźników dopasowania (zbyt niskie) Niedoszacowanie błędów standardowych (zbyt małe - zwiększone ryzyko popełnienia błędu I rodzaju) Inna metoda estymacji: (ADF/WLS/AGLS (SEPATH, AMOS, LISREL/PRELIS EQS), eliptyczna itp Korekta statystyki Chi-Kwadrat (częstsze rozwiązanie): χ 2 Satorry-Bentlera z korekcyjnym czynnikiem skalującym (SCF) (MLM, MLMV Mplus, EQS) Inne procedury: 1. 2. 3. Bootstrapping (empiryczny rozkład z dużej próby losowej) Parceling (sumowanie lub uśrednianie wskaźników zmiennych ukrytych przy założeniu jednowymiarowości) Transformacja danych (np. logarytmiczna przy skośności) Skale Likerta 1. Traktowanie skali Likerta jako skali metrycznej (ciągłej) powoduje: 1. Tłumienie współczynnika korelacji Pearsona (jest niższy niż w przypadku odpowiedniej skali ciągłej), 2. Niedoszacowanie błędów standardowych i 3. Inflację statystyki Chi-Kwadrat gdy skala ma mniej niż 5 kategorii i pozycje mają dużą skośność (opozycyjnie zorientowaną) 2. Jeżeli rozkład odpowiedzi w skali Likerta jest zbliżony do normalnego: 1. liczba kategorii ma niewielki wpływ na dopasowanie modelu 2. ładunki czynnikowe i korelacje między czynnikami są jedynie w małym stopniu niedoszacowane 3. Statystyka Chi-Kwadrat jest najsilniej obciążona przy zastosowaniu binarnych wskaźników (skal typu „tak”-”nie”) 4. Obciążenie parametrów jest znaczne w przypadku efektu „podłogi i sufitu” przy skalach Likerta (pseudoczynniki ekstremalnych odpowiedzi) Dopasowanie modelu Podstawowa miara dopasowania modelu : χ2 = Fml (N-1) /LISREL/ , χ2 = Fml (N) /Mplus/ F – wartość funkcji rozbieżności (suma kwadratów różnic między wejściową macierzą danych a macierzą odtworzoną przez model) N – liczebność próby losowej Fml (N) ma rozkład χ2 jeżeli model jest prawidłowy i zmienne mają rozkład normalny 1. Im mniejsza wartość χ2, tym lepsze dopasowanie modelu 2. Im mniejsza wartość p tym większe prawdopodobieństwo odrzucenia Ho: S=Σ 3. Im większa próba, tym większe χ2 i prawdopodobieństwo odrzucenia Ho 4. 5. Χ2 silnie zależy od liczebności próby Założenia wielowymiarowej normalności rozkładu zmiennych nie są często spełniane Dopasowanie modelu 1. 2. 3. 4. Jeżeli model nie ma błędów specyfikacji, to poprawnie odtwarza macierz kowariancji w populacji, stąd: dla poprawnego modelu S = Σ(θ) i S −Σ(θ) = 0 Jeżeli próba jest duża, to macierz kowariancji z próby S dąży asymptotycznie do macierzy kowariancji w populacji S stąd: S = Σ i S −Σ = 0 Jeżeli model nie ma błędów specyfikacji, to wzrost próby powoduje wzrost wartości (N) i spadek (F) i tym samym znoszenie się efektów dla (N) x (F) Jeżeli model ma błędy specyfikacji, to błędnie odtwarza macierz kowariancji w populacji, stąd dla niepoprawnego modelu S = Σ(θ) i S −Σ(θ) 6= 0 i wzrost próby powoduje silny wzrost (N), lecz nieznaczny spadek (F) i tym samym (F) x (N) rośnie silnie wraz z N Wskaźniki dopasowania modelu 1. 2. 3. 4. Absolutne/resztowe: testują dopasowanie modelu do danych Przyrostowe: testują dopasowanie modelu do modelu bazowego (np. zakładającego brak korelacji między zmiennymi →model zerowy lub niezależny) Populacyjne/niecentralne: testują stopień rozbieżności dopasowania modelu do danych populacyjnych Predykcyjne: porównują dopasowanie modelu do innych ekwiwalentnych modeli (najczęściej w nich „zagnieżdżonych”) Rodzaje wskaźników dopasowania Wskaźniki absolutne 1. Wartość funkcji rozbieżności: 2. Standaryzowane c2 3. Indeks dobroci dopasowania GFI 0 – brak dopasowania , 1 – doskonałe dopasowanie Wskaźniki przyrostowe Wskaźniki populacyjne (błąd aproksymacji) 1. 2. Średniokwadratowy pierwiastek błędu aproksymacji – stopień dopasowania modelu do danych z populacji przy optymalnym doborze parametrów. Pierwiastek z wskaźnika niecentralności populacji przez stopnie swobody = RMSEA 0 – doskonałe dopasowanie 0.05 – bliskie dopasowanie 0.08 – rozsądne dopasowanie >0.1 – brak dopasowania Porównanie modeli 1. 2. 3. Modele zagnieżdżone: 1/ podzbiór modeli wynikających z danego modelu, 2/ modele o mniejszej liczbie parametrów, 3/ modele po wyeliminowaniu pewnych ścieżek z modelu podstawowego Modele o mniejszej liczbie parametrów są zawsze „gorsze” od modeli z większą liczbą parametrów ale za to prostsze Problem? O ile gorsze? Analiza istotności różnic Δ χ2 oraz różnic Δ DF Wskaźniki informacyjne 1. Kryterium informacyjne Akaike 2. Bayesowskie kryterium informacyjne 3. Indeks oceny krzyżowej Browna-Cudecka Parametry modelu 1. 2. 3. 4. Parametry niestandaryzowane: Parametry standaryzowane (wariancjami zmiennych ukrytych (M=0.00, SD=1.00, przy oryginalnej metryce wskaźników): Parametry kompletnie standaryzowane (wariancjami zmiennych ukrytych i wariancjami wskaźników : M=0.00 SD=1.00): Parametry kompletnie standaryzowane z kowariantami (wariancjami zmiennych ukrytych , wskaźników i kowariant ilościowych: M=0.00 SD=1.00): Czynnikowa ocena rzetelności Model czynnikowy a rzetelność skali Teoria reakcji na pozycje (IRT) 1. 2. 3. 4. 5. Probabilistyczna teoria testu: prawdopodobieństwo reakcji na stwierdzenie jest funkcją cechy ukrytej („zdolności”) i parametrów pozycji (“trudności”) Cecha ukryta jest jednowymiarowa Zasada lokalnej niezależności – dla danej wartości cechy ukrytej, każda para pozycji jest statystycznie niezależna – reakcje na pozycje zależą tylko od cechy ukrytej (complete latent space) P(U1,U2,...Un |θ) = P(U1 |θ),P(U2 |θ)...P(Un |θ) Inwariancja parametrów pozycji i osób – parametry pozycji nie zależą od poziomu zdolności i parametry osób nie zależą od charakteru pozycji Cecha ukryta jest szacowana na podstawie modelu Teoria reakcji na pozycję Model jednoparametryczny (Rascha) Model dwuparametryczny (Birnbauma) Model trójparametryczny (Birnbauma) Podejścia do szacowania modeli IRT 1. Oszacowanie parametrów trudności i dyskryminacji: 1. Ocena prawdopodobieństw wzorów reakcji na pozycje (podejście klasyczne) (Bilog, Multilog) – modele 1, 2 i 3 parametryczne 2. Na podstawie teorii progów (thresholds) i modelu czynnikowego (item factor analysis, categorical factor analysis) (Mplus) – modele 1 i 2 parametryczne