Narzędzia pomiarowe w badaniach społeczno

Komentarze

Transkrypt

Narzędzia pomiarowe w badaniach społeczno
Narzędzia pomiarowe w
badaniach
społeczno-ekonomicznych
Adam Sagan
Uniwersytet Ekonomiczny w
Krakowie
Plan zajęć
1.
2.
3.
4.
5.
6.
Budowa narzędzia pomiaru, pytania kwestionariuszowe, skale proste i złożone
COARSE, wskaźniki, skale i indeksy, modele pomiarowe
Ocena wymiarowości skali (analiza korespondencji, analiza głównych
składowych, analiza czynnikowa)
Klasyczna teoria testu i rzetelność skal równoległych
Konfirmacyjna analiza czynnikowa, modelowe ujęcie rzetelności
Teoria reakcji na pozycję, modele Rascha i Birnbauma
Literatura
1.
2.
3.
Konarski, R., Modelowanie równań strukturalnych, PWN 2010
Kline, R., Principles of Structural Equation Modeling, 2005
Trafność i rzetelność testów psychologicznych, red. J. Brzeziński, GWP
Warszawa 2005
Techniki gromadzenia danych w badaniach
ankietowych
1.
2.
Techniki bezpośrednie - Wywiad kwestionariuszowy: technika standaryzowana,
w której badacz otrzymuje dane od respondenta w procesie bezpośredniego
komunikowania się (aktywna rola ankieterów)
Techniki pośrednie: - Ankieta: technika standaryzowana, w której badacz
otrzymuje dane od respondenta w procesie komunikowania się pisemnego
(aktywna rola respondentów)
Techniki gromadzenia danych
Proces budowy kwestionariusza
Badania ankietowe - gromadzenie danych
1.
2.
3.
4.
Rodzaje pytań - pytania o fakty i pytania o opinie
Interakcja respondent - ankieter: 1/ zrozumienie pytania, 2/ odtworzenie
istotnych informacji, 3/ zwerbalizowanie odpowiedzi, 4/ wyrażenie intencji
udzielenia odpowiedzi na pytanie )
Pytania o fakty: udzielenie informacji na temat faktów i zachowania → problem
identyfikacji wartości prawdziwej odpowiedzi.
Pytania o opinie: udzielenie odpowiedzi na temat postaw i stanów
emocjonalnych, sądów wartościujących
Błędy w odpowiedziach
Two priests, a Dominican and a Jesuit, are discussing whether it is a sin to smoke and pray at the
same time. After failing to reach a conclusion, each goes off to consult his respective superior. The
next week they meet again.
The Dominican says, “Well, what did your superior say?”
The Jesuit responds, “He said it was all right.”
“That’s funny,” the Dominican replies. “My superior said it was a
sin.”
The Jesuit says, “What did you ask him?”
The Dominican replies, “I asked him if it was all right to smoke
while praying.”
“Oh,” says the Jesuit. “I asked my superior if it was all right to
pray while smoking.”
Błędy w odpowiedziach
1.
2.
3.
4.
5.
6.
Założenie wiedzy respondenta - słownictwo w pytaniach powinno być
zrozumiałe dla respondentów bez stosowania żargonu badawczego
Wieloznaczność pytań - niespójność w interpretacji pytań przez respondentów
(np. “Czy jesteś zadowolony z urządzeń rekreacyjnych na naszym osiedlu?”
Pytania sugerujące - ukierunkowywanie odpowiedzi respondentów (np.
“Większość lekarzy podkreśla, że palenie papierosów jest przyczyną raka. Czy
się z tym zgadzasz?” , “W jakim stopniu jesteś za prawem kobiet do aborcji: a/
w bardzo małym, b/ małym, c/ dużym, d/ bardzo dużym” → 100% badanych
jest za prawem do aborcji.
Pytania podwójne - double-barreled requests - pytania dotyczące jednocześnie
wielu kwestii (np. “Czy uważasz, że ludzie powinni mniej jeść i więcej
ćwiczyć?”)
Pytania negatywne - pytania zawierające przeczenia (np. “Czy jesteś przeciwny
zakazowi stosowania nieekologicznych pieców”)
Pytania hipotetyczne - pytania o wyobrażeniowe kwestie (np. Jeżeli byłbyś
prezydentem Polski, w jaki sposób obniżyłbyś przestępczość?”
Format odpowiedzi
1.
2.
3.
4.
5.
6.
Pytania otwarte - swobodne wyrażanie własnych odpowiedzi,
Pytania zamknięte - zawiera listę odpowiedzi, z której respondent wybiera
prawidłową odpowiedź,
Pytania otwarte logicznie i otwarte formalnie - pytania zadawane w sposób
otwarty i mające otwarty zakres odpowiedzi (np. “Co sądzisz o wprowadzeniu
zakazu jazdy w pasach bezpieczeństwa w samochodzie?”)
Pytania otwarte logicznie i zamknięte formalnie - pytania zadawane w sposób
zamknięty lecz mające otwarty zakres odpowiedzi (np. Który z poniższych
czynników ma największy wpływ na zadowolenie ze studiów: a/ jakość
posiłków, b/ uroda wykładowców, c/ czytelność slajdów”)
Pytania zamknięte logicznie i zamknięte formalne – pytania zadawane w
sposób zamknięty i mające zamknięty zakres odpowiedzi (np. “Czy masz a/
mniej niż 20 lat, b/ 20 lat i więcej”’)
Pytania zamknięte logicznie i otwarte formalne - pytania zadawane w sposób
otwarty lecz mające zamknięty zakres odpowiedzi (np. “Ile masz lat?”’)
Błędy w odpowiedziach
1.
2.
3.
4.
5.
6.
7.
Błąd zakresu - podanie odpowiedzi spoza zakresu odpowiedzi prawdziwych (np.
wiek 324 lata)
Błąd spójności - niespójność w odpowiedziach na kilka pytań (np. osoba lat 8
podaje status “wdowiec”)
Błąd przejścia - pominięcie istotnych pytań z powodu nie uwzględnienia reguł
przejść w kwestionariuszu (np. odpowiadanie na pytania przez niepalącego
dotyczące palenia papierosów)
Efekty pierwszeństwa i świeżości - tendencja do wybierania odpowiedzi na
górze (efekt pierwszeństwa) i na dole listy odpowiedzi (efekt świeżości) w
kafeteriach
Efekt mimikry - tendencja do wybierania odpowiedzi środkowych na listach
uporządkowanych mierzących intensywność cech
Błąd teleskopii - kompresja czasu - “pamiętanie” zdarzeń “wcześniej” niż
zdarzyło się to w rzeczywistości. Błąd teleskopii występuje najczęściej w
krótkich interwałach czasowych
Odpowiedzi fantomowe - “pamiętanie” zdarzeń, które nigdy nie miały miejsca
Pytania z nieokreślonym układem odniesienia
1.
2.
3.
Do you think the government should give money to workers who are unemployed
for a limited length of time until they can find another job? (Yes 63%)
It has been proposed that unemployed workers with dependents be given up to
$25 per week by the government for as many as 26 weeks during one year while
they are out of work and looking for a job. Do you favor or oppose this plan?
(Favor 46%)
Would you be willing to pay higher taxes to give people up to $25 a week for 26
weeks if they fail to find satisfactory jobs? (Yes 34%)
Odpowiedzi na pytania drażliwe
Czy zabiłeś swoją żonę?”
1. Pytania wprost - “Czy zdarzyło Ci się zabić swoją żonę?”
2. Sortowanie kart - “Z podanych kolejno kart wybierz numer z odpowiedzią
prawdziwą:” 1/ Naturalna śmierć, 2/ Zabiłem ją z premedytacją 3/ Niechcący
zabiłem ją
3. Powszechność zachowań -”Jak wiadomo powszechnie zwykle wiele osób zabija
swoje żony. Czy zdarzyło się Panu zabić własną również?”
4. Uogólniony inny -”Czy zna Pan kogoś, kto zabił swoją żonę? A jak to było w Pana
przypadku? Czy też tak samo?
5. Technika urny wyborczej - W naszych badaniach szanujemy prywatność i
anonimowość odpowiedzi. Proszę zaznaczyć odpowiedź na powyższe pytanie i
wrzucić zalakowaną kopertę do urny”
6. Technika szczerość za szczerość - “Powiem Panu szczerze, ja bym zrobił tak
samo, teraz popatrzmy sobie w oczy i szczerze w prostych żołnierskich słowach
powiedz stary...’zabiłeś swoją żonę?”
Kolejność odpowiedzi
1.
Funneling - określenie logicznej struktury odpowiedzi - od pytań ogólnych,
prostych, dotyczących faktów, do pytań szczegółowych złożonych dotyczących
opinii i wartości
2. Efekt spójności - dążenie do udzielania spójnych odpowiedzi na poszczególne
pytania, blokowanie podobnych zagadnień
3. Efekt nastawienia - priming effect - pozytywna lub negatywna odpowiedź na
kluczowe pytanie z bloku ma wpływ na odpowiedzi na kolejne pytania
4. Efekt uczenia się - odpowiedzi na pytania wcześniejsze mają wpływ na
odpowiedzi na pytania w dalszej części kwestionariusza:
“Koszty utrzymania Parlamentu Europejskiego przez przeciętnego Kowalskiego to
ok 100 zlotych”
Pytanie: “Czy jesteś za zwiększeniem liczby członków Parlamentu Europejskiego?”
“Liczba członków Parlamentu Europejskiego z Polski wynosi tylko 20 osób”
Pytanie: “Czy jesteś za zwiększeniem liczby członków Parlamentu Europejskiego?”
Obciążenie odpowiedzi
1.
Społecznie pożądane reakcje (Socially Desirable Responses) tendencja do
ukazywania siebie w lepszym świetle ze względu na normy kulturowe
2. Wymiary:
1. Zarządzanie wrażeniami (tworzenie obrazu siebie)
2. Podnoszenie obrazu siebie (nadmierne zaufanie dla siebie)
3. Response set (nastawienie odpowiedzi): odpowiedzi na pytania społecznie
wrażliwe, gdzie normy społeczne zniekształcają indywidualne opinie (np.
relacje rasowe lub płciowe) → rola czynników sytuacyjnych
4. Response style (styl odpowiedzi): stabilna psychologiczna tendencja do
odpowiadania na wszystkie pytania w kwestionariuszu → rola czynników
psychologicznych
Rodzaje skal
Budowa narzędzia pomiaru - COARSE Rossitera
Construct Object Attribute Rater –
Scale Enumeration
COARSE
1.
Definicja konstruktu – opis badanego zjawiska w kontekście:
1. Obiektu
2. Cech
3. Badacza
2. Klasyfikacja obiektów:
1. Konkretny jednostkowy (Cola)
2. Abstrakcyjny kolektywny (napoje)
3. Abstrakcyjny ideacyjny (naród)
3. Klasyfikacja cech:
1. Konkretne (intencje zakupu)
2. Abstrakcyjne /formatywne/ (status)
3. Abstrakcyjne refleksyjne (postawa)
4. Identyfikacja badanych:
1. Indywidualni
2. Grupy
3. Eksperci
Etapy budowy skali
1.
Refleksywnej (skali)
1. Definicja konstruktu
2. Wybór procedury skalowania
3. Dobór stwierdzeń
4. Analiza dyskryminacji pozycji
5. Ocena wymiarowości i rzetelności
6. Ocena trafności i porównywalności międzykulturowej
2. Formatywnej (indeksu)
1. Określenie dziedziny konstruktu
2. Dobór wskaźników
3. Ocena współliniowości wskaźników
4. Ocena trafności zewnętrznej (korelacji z zewnętrznym kryterium)
Skala Likerta – pozycje równoległe
Skala Guttmana– pozycje skumulowane
Model pomiarowy CFA - wskaźniki refleksyjne
1.
2.
3.
4.
5.
6.
7.
Model czynnikowy
Nadmiarowe
Wyjaśniane przez model
Jednorodne wewnętrznie
Losowy dobór z populacji pozycji
Nie ma problemu współliniowości
Tworzą skalę
Model pomiarowy CFA - wskaźniki refleksyjne
1.
Zmienna ukryta: kontrola zależności między zmiennymi obserwowalnymi
Model pomiaru ze wskaźnikami refleksywnymi
1.
Zmienna ukryta: prawdziwa wartość oczekiwana jest wartością średnią dla
zmiennej obserwowalnej w bardzo wielu (nieskończonej liczbie) powtarzalnych
prób pomiaru
Zmienna ukryta - niedeterministyczna funkcja
wskaźników
1.
Zmienna ukryta: zmienna w systemie liniowych równań strukturalnych; jeżeli
równania nie mogą być w taki sposób przekształcone, że wyrażają w pełni
zmienną ukrytą jako wyłącznie kombinację (liniową) zmiennych
obserwowalnych
Poziomy równoległości wskaźników
1.
Ściśle równoległe (strict parallel)
2.
Równoległe (parallel)
3.
Względnie równoważne (τ - equivalent)
4.
Jednorodne (congeneric)
Model pomiarowy wskaźników refleksywnych
Konfirmacyjna analiza czynnikowa (CFA)
Skumulowany charakter skali Guttmana
1.
Analiza tabeli Guttmana
1. Współczynnik odtwarzalności:
E - liczba błędów w tabeli Guttmana
N - liczba wszystkich wyborów na skali. Jest to iloczyn liczby pozycji i liczby
respondentów.
2. Współczynnik skalarności:
Emax – liczba błędów krańcowych
2 Skala Guttmana jest skalą monotoniczną jeżeli współczynnik odtwarzalności jest
większy od 0.8 a współczynnik skalarności jest większy od 0.6
Analiza błędów skali Guttmana
Normalizacja i standaryzacja skali
Analiza wymiarowości skali
1.
2.
3.
4.
Analiza głównych składowych (Principal Component Analysis),
Analiza korespondencji (Correspondence Analysis),
Eksploracyjna analiza czynnikowa (Factor Analysis)
Konfirmacyjna analiza czynnikowa (Confirmatory Factor Analysis)
Ocena wymiarowości skali
Metody oceny wymiarowości
Analiza głównych składowych
1.
2.
3.
4.
5.
Dekompozycja macierzy korelacji lub kowariancji w układzie o mniejszej liczbie
wymiarów
Wymiar: ważona liniowa kombinacja zmiennych
Zastosowanie metody SVD do analizy symetrycznej macierzy
korelacji/kowariancji (EVD)
Uzyskanie prostej i nie skorelowanej struktury danych
Zmienne i przypadki aktywne definiują przestrzeń wielowymiarową a zmienne i
przypadki pasywne (dodatkowe) są rzutowane na zredukowaną przestrzeń
Procedura analizy głównych składowych
Wartości własne
1.
2.
3.
4.
5.
Wartości własne są kwadratem wartości osobliwych
Wartości własne określają zakres wyjaśnianej wariancji zmiennych
pierwotnych
Suma wartości własnych jest równa całkowitej wariancji wszystkich zmiennych
Wartości własne kolejnych składowych są monotonicznie malejące
Liczba składowych (wymiarów) jest równa liczbie zmiennych pierwotnych (W =
k)
Ładunki czynnikowe
1.
2.
3.
4.
Współczynniki korelacji między główną składową a zmienną pierwotną
Suma kwadratów ładunków czynnikowych = wartość własna
Kwadraty ładunków czynnikowych określają dyskryminację składowej przez
zmienną
Ładunki czynnikowe stanowią wagi w liniowej kombinacji zmiennych
Ładunki czynnikowe
1.
2.
Rotacja składowych w PCA jest zawsze ortogonalna
Rotacja ma na celu poprawę interpretacji składowych w przekroju zmiennych lub
zmiennych w przekroju składowych
3. Typy rotacji:
1. Varimax - maksymalizuje wartości ładunków w przekroju składowych i ułatwia
interpretacje składowych
2. Quartimax - maksymalizuje wartości ładunków w przekroju zmiennych i ułatwia
interpretację zmiennych
3. Biquartimax - jednocześnie maksymalizuje wartości ładunków w przekroju
zmiennych i składowych
4. Equamax - ważona rotacja Biquartimax
4. Rotacja pozwala na uzyskanie prostej struktury danych (wysokich ładunków dla
jednych składowych i niskich dla innych w przekroju zmiennych, jednoznaczne
przypisanie zmiennych dl składowych bez tzw, ładunków krzyżowych)
Wartości czynnikowe
1.
2.
3.
4.
5.
Wartości czynnikowe są współrzędnymi obiektów (obserwacji) w przekroju
składowych
Wartości czynnikowe są podstawą budowy indeksów i skal czynnikowych
Wartości czynnikowe są standaryzowanymi ocenami respondentów w przekroju
składowych (średnia = 0, wariancja = 1)
Wartości czynnikowe są standaryzowanymi wartościami metrycznych danych
surowych ważonych ładunkami czynnikowymi
Metody obliczania wartości czynnikowych:
1. Regresyjna: (najczęściej stosowana) FS = X(std) ×λ×θ
2. Bartletta
3. Andersona - Rubina: wartości czynnikowe są ortogonalne
Analiza korespondencji
1.
2.
3.
4.
5.
6.
7.
8.
9.
Analiza głównych składowych danych nominalnych (kategorialnych)
Analiza złożonych tabel kontyngencji (n x k)
Analiza tabel wielodzielczych (n x k x h x g)
Analiza tabel danych wymiarowo jednorodnych (te same jednostki miary) i
nieujemnych
Dekompozycja według wartości osobliwych macierzy reszt standaryzowanych
statystyki χ2
Wieloraka analiza korespondencji tabeli Burta
Skalowanie optymalne - analiza homogeniczności (HOMALS)
Skalowanie dualne wierszy i kolumn tabeli kontyngencji (dual scaling)
Analiza skal Guttmana (diagnoza efektu podkowy)
Procedura analizy korespondencji
Dekompozycja SVD
1.
2.
3.
4.
5.
Wartości własne są kwadratem wartości osobliwych
Wartości własne określają zakres wyjaśnianej bezwładności tabeli
kontyngencji (chi2/N)
Suma wartości własnych jest równa całkowitej bezwładności tabeli
kontyngencji
Wartości własne kolejnych wymiarów są monotonicznie malejące
Liczba wymiarów jest równa mniejszej wielkości z liczby kolumn - 1 lub liczby
wierszy - 1 (W = min (k - 1, w - 1))
Tabela danych
Profile wierszy i kolumn
Mapa korespondencji
Barycentryczny układ współrzędnych
Redukcja wymiarowości
1.
2.
3.
4.
5.
Dekompozycja całkowitej bezwładności w układzie o małej liczbie wymiarów
(2-3), w której wzajemne położenie profili jest jak najbliższe ich położeniu w
układzie o k(min) - 1 wymiarach
Kryterium redukcji: maksymalizacja bezwładności profili w optymalnej liczbie
wymiarów
Wartość własna każdej osi głównej jest równa wyjaśnianej bezwładności profili
względem tej osi
Pierwsza oś główna przechodzi w taki sposób, że maksymalizuje wyjaśnianą
bezwładność profili, druga oś jest prostopadła do pierwszej i maksymalizuje
bezwładność profili w tym kierunku
Bezwładność profili wzdłuż danej osi głównej jest zwana bezwładnością
główną. Jest to ważona średnia odległości χ2 od środka ciężkości do projekcji
danego profilu na daną oś.
Bezwładność względna i kwadrat cosinusa
1.
2.
3.
Zakres bezwładności tabeli wyjaśniany przez każdy z wymiarów
Suma kwadratów bezwładności = wartość własna
Kwadraty bezwładności określają dyskryminację wymiaru przez daną aktywną
kategorię wiersza lub kolumny tabeli
1. Korelacja między aktywną lub pasywną kategorią tabeli a wymiarem
2. Suma kwadratów cosinusa = jakość odwzorowania profilu wierszy lub kolumny
tabeli przez punkt w układzie współrzędnych
Analiza wymiarów
1.
2.
3.
(1) Wkład absolutny punktu w bezwładność główną osi →identyfikacja
punktów, które „przyciągają” osie i mają największy wkład w orientacje osi:
wskazuje stopień w jakim geometryczna orientacja osi jest określana przez
punkt (wymiar jest definiowany przez punkt)
(2) Relatywny wkład osi w bezwładność punktu →ocena położenia punktów na
osi i stopień reprezentacji na osi (kwadrat cosinusa – korelacja punktu i osi
głównej): wskazuje stopień, w jakim profil jest opisywany przez wymiar (punkt
jest wyjaśniany przez wymiar)
W interpretacji wyników analizy korespondencji należy zawsze uwzględnić (1) i
(2)
Jakość reprezentacji
1.
2.
3.
4.
Jakość reprezentacji punktu w zredukowanym układzie współrzędnych
Stosunek kwadratu odległości punktu od początku układu współrzędnych w
wybranej liczbie wymiarów do kwadratu odległości punktu od początku układu
w maksymalnej liczbie wymiarów
Suma kwadratów cosinusów w przekroju wymiarów
Cosinus kąta między wektorami równa się korelacji tetrachorycznej.
Interpretacja osi głównych
1.
Kategorie opisujące daną oś mogą należeć do różnych zmiennych, których
bezwładność związana z daną osią jest duża, z czego jedna kategoria powinna
być związana z półosią wartości dodatnich a druga - z półosią wartości
ujemnych
2. Obydwie strony osi są opisane za pomocą różnych kategorii tej samej zmiennej.
3. Wartości własne a kształt układu:
1. (W1 = W2 = W3): sferyczny
2. (W1 = W2) >> W3: soczewkowy
3. W1 >> (W1 = W2): cygara
4. Wariancja osi głównej jest wariancją projekcji punktów kategorii na oś
Interpretacja wymiarów w analizie
korespondencji
Porównanie punktów wierszowych i
kolumnowych
Analiza korespondencji skal ocen - dublowanie
danych
Biplot
Wieloraka analiza korespondencji
1.
2.
3.
4.
5.
Analiza korespondencji wielodzielczych tabel kontyngencji (k x m x n. . . )
Dane wejściowe w postaci tabeli Burta
Liczba wymiarów w MCA = K - Q
Wariancja układu: średnia kwadratów odległości od punktów do ich środka
ciężkości (punktu średniego)
Suma wartości własnych = wariancja układu: (K/ Q) −1
Tabela Burta
1.
2.
Macierz Burta - symetryczna macierz blokowa na głównej przekątnej znajdują
się macierze diagonalne z wartościami brzegowymi. Elementy pozadiagonalne
to tablice kontyngencji między parami zmiennych.
Analiza korespondencji macierzy Burta
Analiza czynnikowa
1.
2.
3.
4.
Identyfikacja ukrytych zmiennych (wymiarów) wyjaśniających maksymalną
ilość wariancji wspólnej w strukturze macierzy korelacji (kowariancji)
Zmienne ukryte (wymiary) mogą być ortogonalne lub skorelowane
Zasoby zmienności wspólnej są szacowane na podstawie metody największej
wiarygodności (ML)
Metoda ML pozwala na ocenę dopasowania modelu czynnikowego do danych
Dekompozycja wariancji
Wartości własne
1.
2.
3.
4.
5.
Wartości własne są szacowane na podstawie zakresu wariancji wspólnej (np.
jako kwadrat korelacji wielorakiej)
Wartości własne określają zakres wyjaśnianej wariancji wspólnej (kowariancji)
zmiennych pierwotnych
Suma wartości własnych jest równa wariancji wspólnej zmiennych
Wartości własne kolejnych składowych są monotonicznie malejące
Liczba czynników jest równa liczbie nieujemnych wartości własnych i zawsze
mniejsza od liczby zmiennych pierwotnych
Ładunki czynnikowe
1.
2.
3.
4.
Współczynniki regresji między czynnikiem a zmienną pierwotną (mogą być
większe od jedności)
Suma kwadratów ładunków czynnikowych = wartość własna
Kwadraty ładunków czynnikowych określają dyskryminację zmiennej przez
czynnik
Ładunki czynnikowe stanowią wagi w liniowej kombinacji czynników wspólnych
wyjaśniających daną zmienną
Rotacja czynników
1.
2.
Rotacja w FA może być ortogonalna lub ukośna
Rotacja ma na celu poprawę interpretacji czynników w przekroju zmiennych lub
zmiennych w przekroju czynników
3. Typy rotacji ortogonalnej
1. Varimax
2. Quartimax
3. Biquartimax
4. Equamax
4. Typy rotacji ukośnej
1. Promax
2. Oblimin
3. Geomin
4. Hierarchiczna analiiza czynników ukośnych (STATISTICA)
5. Rotacja w FA pozwala na uzyskanie jednoznacznego rozwiązania czynnikowego w
porównaniu do rozwiązania bez rotacji (factor indeterminacy)
Analiza wiarygodności skal
Trafność i rzetelność skali
Podstawowe równanie teorii testu
Przypadkowy błąd pomiaru Ep
1.
2.
3.
4.
Ep jest różnicą między X a T
Ep jest związany z błędem standardowym pomiaru
Gdybyśmy mieli wiele prób to X jest statystyką z próby a T średnią z X w
przekroju wszystkich prób (wartością oczekiwaną)
Błąd standardowy X jest odchyleniem standardowym X w przekroju wszystkich
prób
Rzetelność skali
1.
2.
Korelacja między skalami równoległymi = rx1,x2
Stosunek wariancji wyniku prawdziwego do ogólnej wariancji skali
3.
Założenia:
1. cov(t,e) = 0
2. var(e) = 0
Rzetelność skali Likerta
1.
2.
3.
4.
5.
6.
Wartość prawdziwa odpowiedzi na skali jest to średnia z wartości
obserwowanych z nieskończenie wielu powtarzanych pomiarów;
Wartości prawdziwe oraz składowe błędu losowego pomiaru z danej populacji
są od siebie niezależne
Szacowana rzetelność skali jest mierzona, na podstawie wariancji wyników
prawdziwych i zależy od charakterystyk próby (lub populacji). Skale te nazywa
się często skalami zależnymi od próby/populacji;
Składowe błędu dla różnych pozycji są niezależne od siebie;
Proces wyboru pozycji do całej skali oparty jest na macierzy korelacji.
Relacja pomiędzy X a T jest liniowa.
Rzetelność skali Likerta
1.
Analiza rzetelności
1. Test-retest
2. Metoda testów równoległych
3. Metoda połówkowa
4. Współczynnik α - Cronbacha
5. Współczynnik KR - 20
Alfa Cronbacha
1.
Współczynnik ten jest dolną granicą estymatora rzetelności skali, przy
założeniu, że:
1. składowe błędu pomiaru są nie skorelowane (skala jest stosowana w tym
samym miejscu i czasie i nie istnieje wpływ reakcji na jedne pozycje w skali
na odpowiedzi na inne pozycje),
2. skala jest jednowymiarowa, czyli wszystkie pozycje skali są
odzwierciedleniem jednego i tego samego czynnika systematycznego oraz
źródło błędów losowych jest jedno i to samo,
3. wszystkie współczynniki relacji zmiennych obserwowalnych z wynikiem
prawdziwym są dla każdej pozycji takie same
Interpretacja alfa Cronbacha
1.
2.
3.
4.
5.
6.
Średnia wszystkich rzetelności połówkowych
Dolna granica rzetelności skali (GLB)
Wskaźnik nasycenia pierwszego czynnika
Rzetelność τ - ekwiwalentnych wskaźników
Uogólnienie wskaźnika rzetelności KR-20
Miara wewnętrznej spójności skali (nie jednowymiarowości)
1. Skale jednowymiarowe mogą mieć zróżnicowaną wysokość współczynnika
Cronbacha (niską)
2. Skale wielowymiarowe mogą mieć wysoką wartość współczynnika
Cronbacha
Alfa Cronbacha
Poprawka na tłumienie
1.
Skale o niskiej rzetelności mają niskie obserwowane korelacje nawet jeżeli
prawdziwa korelacja między nimi jest wysoka (korelacja jest tłumiona przez
niską rzetelność tych skal)
Parcels (paczkowanie)
1.
Parcels (paczkowanie) – suma lub średnia kilku pozycji skal jako wskaźnik
zmiennej ukrytej
2. Metody tworzenia: hierarchiczna konfirmacyjna analiza czynnikowa (CFA)
1. Paczka jako czynnik 1 rzędu a zmienna ukryta jako czynnik 2 rzędu
2. Paczka jako suma najwyższych ładunków czynników 1 rzędu
3. Zalety parcelingu:
1. Wyższa rzetelność pomiaru
2. Zmniejszenie liczby wskaźników
3. Rozkład bardziej zbliżony do normalnego w przypadku skośnych rozkładów
pozycji indywidualnych
CFA - charakter danych wejściowych
1.
Macierz kowariancji – teoria statystyczna SEM jest oparta na własnościach
macierzy kowariancji →modelowanie struktur kowariancyjnych (CSA):
1. jeżeli skala pomiaru wskaźników jest interpretowalna,
2. jeżeli model jest wielogrupowy
3. jeżeli występują relacje nieliniowe i interakcje między zmiennymi ukrytymi
2. Macierze kowariancji, w których stosunek maksymalnej do minimalnej
wariancji wynosi 10 są źle wyskalowane (ill-scaled matrix?) - należy je
przeskalować np. pomnożyć przez stałą
3. Zmienne są inwariantne skalowo jeżeli wartości funkcji rozbieżności są takie
same niezależnie od skali pomiaru zmiennej (metoda ML)
CFA - charakter danych wejściowych
1.
Macierz kowariancji:
1. Jeżeli model jest „wolny od skali pomiaru”
2. Brak inwariancji skalowej - wyniki estymacji zależą od skali pomiaru; w
odtworzonej macierzy korelacji wartości na przekątnej są <1
3. Jeżeli stosowana jest właściwa estymacja statystyczna (→ SEPATH
→Statistica): nieliniowe ograniczenia na parametry modelu w celu
uzyskania modelu niezmienniczego skalowo (Browne). Wprowadzenie
nieliniowych ograniczeń na parametry modelu i ograniczona optymalizacja
Browna prowadzi do modelu inwariantnego skalowo.
4. jeżeli model jest jednogrupowy bez interakcji
Skalowanie zmiennej ukrytej
Identyfikacja modelu - stopnie swobody
1.
2.
3.
Stopnie swobody = liczba danych (nieredundantnych wartości macierzy
kowariancji) - liczba estymowanych parametrów modelu
„Stopnie swobody są jak przeszkody na wyścigach konnych, im więcej stopni
swobody, tym więcej ograniczeń (przeszkód) w modelu, stąd jeżeli rozwiązanie
modelu jest poprawne dla większej liczby stopni swobody (przeskoczy więcej
przeszkód), tym jesteśmy bardziej zadowoleni z wyniku”. Rozwiązanie modelu
ze stopniami swobody = 0, to bieg po prostej – nigdy się nie przewrócimy (model
zawsze jest idealny)”. (Schumacker)
Stopnie swobody stanowią odpowiadają stopniom „falsyfikowalności” modelu.
Im większa liczba stopni swobody, tym większe prawdopodobieństwo
falsyfikacji ; Sukces →brak falsyfikacji przy dużej liczbie stopni swobody
Ograniczenia nałożone na parametry modelu
1.
Modele nasycone: modele ze zerową liczbą stopni swobody (SS) – liczba
parametrów jest taka sama jak liczba danych
2. Modele nadidentyfikowane: modele z dodatnią liczbą stopni swobody. Im
wyższa liczba SS, tym więcej wolnych parametrów i prostszy model – brzytwa
Ockhama: brak falsyfikacji modeli z dużą liczbą stopni swobody
3. Ograniczenia:
1. równości parametrów (b1 = b2)
2. równości w grupach (b1A = b1B )
3. proporcjonalności (b1 = 2 × b2)
4. nierówności (b1 >1)
5. nieliniowości (b2 = b1^2)
Identyfikacja modelu pomiarowego
1.
Niedoidentyfikacja modelu
2.
Identyfikacja:
3.
Nadidentyfikacja:
Estymacja modelu
1.
2.
Celem procedury jest uzyskanie szacunków parametrów, które odtwarzają
macierz wariancji-kowariancji zakładaną przez model (Σ(θ)), której wartości
są możliwie najbliższe wartościom macierzy wariancji-kowariancji zmiennych
obserwowalnych (S).
Proces estymacji wykorzystuje odpowiednią funkcję rozbieżności (lub
dopasowania) w celu minimalizacji różnicy między (Σ(θ)) a S
Dopasowanie modelu
Estymacja i ocena modelu
Proces estymacji
Metody estymacji
Dobroć dopasowania
1.
Test χ2 hipotezy zerowej, że reszty standaryzowane macierzy empirycznej i
teoretycznej (odtworzonej przez model) wynoszą 0, tzn., że ograniczenia
nałożone na model teoretyczny są trafne
2. Założenia:
1. Zmienne obserwowane mają rozkład normalny
2. Analizowana jest macierz kowariancji
3. Próba jest duża: przy bardzo dużych próbach nasza ufność, że macierze są
równe rośnie, ale istotność różnic może być niewielka;
4. Przy małych próbach nie można poprawnie diagnozować nawet dużych
różnic miedzy macierzami
5. Testowane jest doskonałe dopasowanie H0 : S = Σ(θ)
Rozkład obserwacji odbiegający od
normalnego
1.
Założenie wielowymiarowego rozkładu normalnego przy estymacji ML, gdy inny
rozkład (kurtoza i skośność):
1.
2.
3.
2.
3.
4.
Inflacja statystyki χ 2 (zbyt wysoka wartość)
Niedoszacowanie innych wskaźników dopasowania (zbyt niskie)
Niedoszacowanie błędów standardowych (zbyt małe - zwiększone ryzyko
popełnienia błędu I rodzaju)
Inna metoda estymacji: (ADF/WLS/AGLS (SEPATH, AMOS, LISREL/PRELIS EQS),
eliptyczna itp
Korekta statystyki Chi-Kwadrat (częstsze rozwiązanie): χ 2 Satorry-Bentlera z
korekcyjnym czynnikiem skalującym (SCF) (MLM, MLMV Mplus, EQS)
Inne procedury:
1.
2.
3.
Bootstrapping (empiryczny rozkład z dużej próby losowej)
Parceling (sumowanie lub uśrednianie wskaźników zmiennych ukrytych przy
założeniu jednowymiarowości)
Transformacja danych (np. logarytmiczna przy skośności)
Skale Likerta
1.
Traktowanie skali Likerta jako skali metrycznej (ciągłej) powoduje:
1. Tłumienie współczynnika korelacji Pearsona (jest niższy niż w przypadku
odpowiedniej skali ciągłej),
2. Niedoszacowanie błędów standardowych i
3. Inflację statystyki Chi-Kwadrat gdy skala ma mniej niż 5 kategorii i pozycje
mają dużą skośność (opozycyjnie zorientowaną)
2. Jeżeli rozkład odpowiedzi w skali Likerta jest zbliżony do normalnego:
1. liczba kategorii ma niewielki wpływ na dopasowanie modelu
2. ładunki czynnikowe i korelacje między czynnikami są jedynie w małym
stopniu niedoszacowane
3. Statystyka Chi-Kwadrat jest najsilniej obciążona przy zastosowaniu binarnych
wskaźników (skal typu „tak”-”nie”)
4. Obciążenie parametrów jest znaczne w przypadku efektu „podłogi i sufitu” przy
skalach Likerta (pseudoczynniki ekstremalnych odpowiedzi)
Dopasowanie modelu
Podstawowa miara dopasowania modelu : χ2 = Fml (N-1) /LISREL/ , χ2 = Fml (N)
/Mplus/ F – wartość funkcji rozbieżności (suma kwadratów różnic między
wejściową macierzą danych a macierzą odtworzoną przez model)
N – liczebność próby losowej
Fml (N) ma rozkład χ2 jeżeli model jest prawidłowy i zmienne mają rozkład
normalny
1. Im mniejsza wartość χ2, tym lepsze dopasowanie modelu
2. Im mniejsza wartość p tym większe prawdopodobieństwo odrzucenia Ho: S=Σ
3. Im większa próba, tym większe χ2 i prawdopodobieństwo odrzucenia Ho
4.
5.
Χ2 silnie zależy od liczebności próby
Założenia wielowymiarowej normalności rozkładu zmiennych nie są często
spełniane
Dopasowanie modelu
1.
2.
3.
4.
Jeżeli model nie ma błędów specyfikacji, to poprawnie odtwarza macierz
kowariancji w populacji, stąd: dla poprawnego modelu S = Σ(θ) i S −Σ(θ) = 0
Jeżeli próba jest duża, to macierz kowariancji z próby S dąży asymptotycznie do
macierzy kowariancji w populacji S stąd: S = Σ i S −Σ = 0
Jeżeli model nie ma błędów specyfikacji, to wzrost próby powoduje wzrost
wartości (N) i spadek (F) i tym samym znoszenie się efektów dla (N) x (F)
Jeżeli model ma błędy specyfikacji, to błędnie odtwarza macierz kowariancji w
populacji, stąd dla niepoprawnego modelu S = Σ(θ) i S −Σ(θ) 6= 0 i wzrost
próby powoduje silny wzrost (N), lecz nieznaczny spadek (F) i tym samym (F) x
(N) rośnie silnie wraz z N
Wskaźniki dopasowania modelu
1.
2.
3.
4.
Absolutne/resztowe: testują dopasowanie modelu do danych
Przyrostowe: testują dopasowanie modelu do modelu bazowego (np.
zakładającego brak korelacji między zmiennymi →model zerowy lub
niezależny)
Populacyjne/niecentralne: testują stopień rozbieżności dopasowania modelu
do danych populacyjnych
Predykcyjne: porównują dopasowanie modelu do innych ekwiwalentnych modeli
(najczęściej w nich „zagnieżdżonych”)
Rodzaje wskaźników dopasowania
Wskaźniki absolutne
1.
Wartość funkcji rozbieżności:
2.
Standaryzowane c2
3.
Indeks dobroci dopasowania GFI
0 – brak dopasowania ,
1 – doskonałe dopasowanie
Wskaźniki przyrostowe
Wskaźniki populacyjne (błąd aproksymacji)
1.
2.
Średniokwadratowy pierwiastek błędu aproksymacji – stopień dopasowania
modelu do danych z populacji przy optymalnym doborze parametrów.
Pierwiastek z wskaźnika niecentralności populacji przez stopnie swobody =
RMSEA
0 – doskonałe dopasowanie
0.05 – bliskie dopasowanie
0.08 – rozsądne dopasowanie
>0.1 – brak dopasowania
Porównanie modeli
1.
2.
3.
Modele zagnieżdżone: 1/ podzbiór modeli wynikających z danego modelu, 2/
modele o mniejszej liczbie parametrów, 3/ modele po wyeliminowaniu pewnych
ścieżek z modelu podstawowego
Modele o mniejszej liczbie parametrów są zawsze „gorsze” od modeli z większą
liczbą parametrów ale za to prostsze
Problem? O ile gorsze? Analiza istotności różnic Δ χ2 oraz różnic Δ DF
Wskaźniki informacyjne
1.
Kryterium informacyjne Akaike
2.
Bayesowskie kryterium informacyjne
3.
Indeks oceny krzyżowej Browna-Cudecka
Parametry modelu
1.
2.
3.
4.
Parametry niestandaryzowane:
Parametry standaryzowane (wariancjami zmiennych ukrytych (M=0.00,
SD=1.00, przy oryginalnej metryce wskaźników):
Parametry kompletnie standaryzowane (wariancjami zmiennych ukrytych i
wariancjami wskaźników : M=0.00 SD=1.00):
Parametry kompletnie standaryzowane z kowariantami (wariancjami
zmiennych ukrytych , wskaźników i kowariant ilościowych: M=0.00 SD=1.00):
Czynnikowa ocena rzetelności
Model czynnikowy a rzetelność skali
Teoria reakcji na pozycje (IRT)
1.
2.
3.
4.
5.
Probabilistyczna teoria testu: prawdopodobieństwo reakcji na stwierdzenie jest
funkcją cechy ukrytej („zdolności”) i parametrów pozycji (“trudności”)
Cecha ukryta jest jednowymiarowa
Zasada lokalnej niezależności – dla danej wartości cechy ukrytej, każda para
pozycji jest statystycznie niezależna – reakcje na pozycje zależą tylko od cechy
ukrytej (complete latent space) P(U1,U2,...Un |θ) = P(U1 |θ),P(U2 |θ)...P(Un
|θ)
Inwariancja parametrów pozycji i osób – parametry pozycji nie zależą od
poziomu zdolności i parametry osób nie zależą od charakteru pozycji
Cecha ukryta jest szacowana na podstawie modelu
Teoria reakcji na pozycję
Model jednoparametryczny (Rascha)
Model dwuparametryczny (Birnbauma)
Model trójparametryczny (Birnbauma)
Podejścia do szacowania modeli IRT
1.
Oszacowanie parametrów trudności i dyskryminacji:
1. Ocena prawdopodobieństw wzorów reakcji na pozycje (podejście
klasyczne) (Bilog, Multilog) – modele 1, 2 i 3 parametryczne
2. Na podstawie teorii progów (thresholds) i modelu czynnikowego (item
factor analysis, categorical factor analysis) (Mplus) – modele 1 i 2
parametryczne

Podobne dokumenty