Program z abstraktami - Katowickie Spotkania Psychometryczne

Transkrypt

KATOWICKIE SPOTKANIA
PSYCHOMETRYCZNE
„Teraźniejszość i przyszłość
psychometrii”
Katowice, 7-8 X 2015
KOMITET PROGRAMOWY
dr hab. Zbigniew Spendel (przewodniczący)
prof. zw. dr hab. Jerzy Brzeziński
dr hab. Jan Cieciuch
prof. zw. dr hab. Elżbieta Hornowska
dr. hab. prof. UG Roman Konarski
prof. dr hab. Władysław Jacek Paluchowski
dr hab. Romuald Polczyk
prof. zw. dr hab. Bogdan Zawadzki
KOMITET ORGANIZACYJNY
dr hab. Zbigniew Spendel (przewodniczący)
mgr Maria Chełkowska (sekretarz)
mgr Maria Flakus
mgr Magdalena Hyla
mgr Aneta Kałmuk
PRZYDATNE INFORMACJE
1
WIFI – z przyczyn technicznych hasło do sieci WiFi będzie
zmieniać się co 8 godzin. Aktualne hasła będą się
znajdowały w Rejestracji.
MIEJSCE OBRAD I BANKIETU
2
PROGRAM
Dzień pierwszy (7 października 2015 r.)
(Centrum Informacji Naukowej i Biblioteka Akademicka, ul.
Bankowa 11a, Katowice)
9:00 – 10:00 – rejestracja uczestników
10:00 – 10:15 – uroczyste otwarcie konferencji, powitanie
uczestników
10:15 – 11:15 – wykład plenarny 1:
10:15
–
11:00
–
Bogdan
Zawadzki
(Uniwersytet
Warszawski) – Ogólny Czynnik Osobowości
11:00 – 11:15 – dyskusja
11:15 – 12:15 – sesja tematyczna 1: Modele cech
ukrytych
w
badaniach
edukacyjnych,
(moderatorzy: Jan Cieciuch, Uniwersytet
część
1
Kardynała
Stefana Wyszyńskiego; Artur Pokropek, Instytut Badań
Edukacyjnych)
11:15 – 11:45 – Artur Pokropek (Instytut Badań
Edukacyjnych) – Wprowadzenie. Modele diagnostyczne
3
11:45 – 12:00 – Filip Kulon (Instytut Badań Edukacyjnych)
– Modele analizy efektu oceniającego
12:00 – 12:15 – Bartosz Kondratek, Paulina Skórska
(Instytut
Badań
funkcjonowanie
Edukacyjnych)
pozycji
testowych
–
Zróżnicowane
jako
narzędzie
umożliwiające wykrycie zaburzeń założonej struktury
wymiarowej testu
12:15 – 12:45 – przerwa kawowa
12:45 – 13:45 – sesja tematyczna 1: Modele cech
ukrytych
w
badaniach
edukacyjnych,
(moderatorzy: Jan Cieciuch, Uniwersytet
część
2
Kardynała
Stefana Wyszyńskiego; Artur Pokropek, Instytut Badań
Edukacyjnych)
12:45 – 13:00 – Henryk Szaleniec (Instytut Badań
Edukacyjnych)
– Wykorzystanie modelowania IRT do
łączenia wyników z rożnych narzędzi testowych na
przykładzie egzaminów zewnętrznych
13:00 – 13:15 – Karolina Świst (Instytut Badań
Edukacyjnych) – Zastosowanie skalowania wertykalnego
do
oceny
przyrostu
umiejętności
polskich uczniów
4
matematycznych
13:15 – 13:30 – Paulina Skórska (Instytut Badań
Edukacyjnych)
–
Możliwości
wykorzystania
modeli
mieszanek IRT do identyfikowania uczniów o niskiej
motywacji testowej
13:30 – 13:45 – dyskusja
13:45 – 14:45 – przerwa obiadowa
14:45 – 15:30 – Jan Cieciuch (Uniwersytet Kardynała
Stefana Wyszyńskiego) – Problem równoważności
pomiaru (measurement invariance) we współczesnej
psychometrii.
Opowieść
o
jabłkach,
śliwkach
i
kwaśnych winogronach
15:30 – 15:45 – dyskusja
15:45
–
17:00
–
sesja
tematyczna
2:
Testy
psychologiczne w teorii i praktyce (moderator: Romuald
Polczyk, Uniwersytet Jagielloński)
15:45 – 16:00 – Oleg Gorbaniuk, Magdalena Kolańska
(Katolicki Uniwersytet Lubelski) – Wykorzystanie metod
badania osobowości w badaniach marketingowych
5
16:00 – 16:15 – Małgorzata Górnik-Durose, Łukasz Jach
(Uniwersytet Śląski) – Zwodniczy urok (zbyt) pięknych
konceptualizacji (na przykładzie badań replikacyjnych nad
kołowym modelem celów życiowych)
16:15 – 16:30 – Grzegorz Szopiński, Magdalena Kolańska
(Uniwersytet Adama Mickiewicza) – Wykorzystanie metod
projekcyjnych w obszarze zarządzania zasobami ludzkimi
16:30 – 16:45 – Bartosz Wojciechowski (Uniwersytet
Śląski) –
Psychologiczna
zastosowaniem
analiza treści
algorytmów
decyzyjnych
zeznań z
(drzew
klasyfikacyjnych i regresyjnych)
16:45 – 17:00 – dyskusja
17:30 – 18:30 – sesja tematyczna 3: Nowe techniki
diagnostyczne – aspekt konstrukcyjny (moderator:
Bogdan Zawadzki, Uniwersytet Warszawski)
17:30 – 17:45 – Paweł Kleka (Uniwersytet Adama
Mickiewicza) – Metodologia skracania kwestionariuszy
17:45 –
18:00 –
Barbara Ciżkowicz
(Uniwersytet
Kazimierza Wielkiego) – Przydatność Klasycznej Teorii
Testu i IRT w konstrukcji testów
6
18:00 – 18:15 – Krzysztof Kasparek, Marek Muszyński
(Uniwersytet Jagielloński) – „Prawda nie leży po środku”:
problem właściwego skalowania wartości środkowych
w skalach szacunkowych
18:15 – 18:30 – dyskusja
20:00 – 2:00 – uroczysta kolacja i bankiet (Sky Bar, Qubus
Hotel, ul. Uniwersytecka 13, Katowice)
Dzień drugi (8 października 2015 r.)
(Centrum Informacji Naukowej i Biblioteka Akademicka, ul.
Bankowa 11a, Katowice)
9:30 – otwarcie konferencji
9:30 – 10:15 – Roman Konarski (Uniwersytet Gdański) –
Modele pomiarowe jako silne modele przyczynowe
10:15 – 10:30 - dyskusja
10:30 – 11:15 – sesja tematyczna 4: Zastosowanie
zaawansowanych metod statystycznych w konstrukcji
testów, część 1 (moderator: Artur Pokropek, Instytut
Badań Edukacyjnych)
7
10:30 – 10:45 – Karolina Świst (Instytut Badań
Edukacyjnych) – Detekcja (nie)porównywalności wyników
ze względu na wiek – na przykładzie skróconej wersji
Kwestionariusza Portretów Wartości (PVQ-21) Shaloma
Schwartza
10:45 – 11:00 – Grzegorz Humenny, Paweł Grygiel
(Instytut
Badań
Edukacyjnych)
–
Zastosowanie
eksploracyjnych modeli równań strukturalnych z rotacją
celową
struktury
w
analizie
międzygrupowej
czynnikowej.
Przykład
niezmienności
kwestionariusza
„Postrzeganej Integracji Społecznej”
11:00 – 11:15
– Paulina Skórska, Maciej Koniewski,
Przemysław Majkut (Instytut Badań Edukacyjnych) –
Zróżnicowanie funkcjonowania zadań między różnymi
wersjami testu z wykorzystaniem Testlet Response Theory
11:45 – 12:45 – sesja tematyczna 4: Zastosowanie
zaawansowanych metod statystycznych w konstrukcji
testów, część 2 (moderator: Artur Pokropek, Instytut
8
11:45 – 12:00 – Tomasz Żółtak (Instytut Badań
Edukacyjnych) – Analiza własności psychometrycznych
testu w heterogenicznych populacjach przy pomocy
wielopoziomowej analizy czynnikowej
12:00 – 12:15 – Bartosz Kondratek – Jednowymiarowe
analizy IRT z wykorzystaniem pakietu uirt dla Stata
12:15 – 12:30 – Aleksandra Jasińska-Maciążek, Anna
Hawrot
(Instytut
inwariancji
Badań
pomiarowej
Edukacyjnych)
w
badaniu
–
Analiza
podłużnym
na
przykładzie testu inteligencji
12:30 – 12:45 – dyskusja
13:00 – 14:00 – sesja plakatowa:

Maria Chełkowska, Maria Flakus, Aneta Kałmuk
(Uniwersytet Śląski) – Polska adaptacja Skali
podatności na nudę. Ujęcie wielowymiarowe

Irena
Pilch,
(Uniwersytet
Lidia
Baran,
Śląski)
–
Magdalena
Implicit
Hyla
Relational
Assessment Procedure – pomiar postaw utajonych
oparty na czasie reakcji
9

Przemysław Majkut, Gabriela Czarnek, Piotr Dragon
(Instytut Badań Edukacyjnych) – Metody skracania
skal psychologicznych z wykorzystaniem metod IRT

Agata
Chudzicka-Czupała,
Damian
Grabowski
(Uniwersytet Śląski) – Jedno- i wielowymiarowe
podejście w badaniach etyki pracy. Ocena Trafności
Czynnikowej i Rzetelności skali Protestanckiej Etyki
Pracy Mirelsa i Garretta

Mateusz Blukacz, Aleksandra Tokarz (Uniwersytet
Jagielloński) – Porównanie użyteczności Klasycznej
Teorii Testów i modelowania Item Response Theory
w doskonaleniu uniwersyteckiego testu wiadomości
14:00 – 15:00 – przerwa obiadowa
15:00 – 16:30 – dyskusja panelowa: Teoretyczne i
praktyczne
konsekwencje
(moderator:
Zbigniew
(s)formułowania
Spendel,
uczestnicy:
Brzeziński, Roman Konarski, Romuald Polczyk)
16:30 – zakończenie konferencji
10
IRT
Jerzy
ABSTRAKTY WYSTĄPIEŃ I POSTERÓW
(w kolejności zgodnej z programem konferencji)
Modele diagnostyczne
Artur Pokropek (Instytut Badań Edukacyjnych)
W najpopularniejszych modelach cech ukrytych,
stosowanych
w
pomiarze
edukacyjnym,
psychologicznym i w badaniach socjologicznych,
przyjmuje się założenie, że mierzona cecha ma
charakter ciągły, często też jednowymiarowy – tak jak
w przypadku klasycznych modeli teorii odpowiedzi na
pozycje testowe (item response theory, IRT). Założenia
najpopularniejszych modeli nie zawsze jednak muszą
okazać się wystarczające wobec teorii stojącej za
zadawanymi przez badaczy pytaniami. Klasyczne
modele pomiarowe nie zawsze są wystarczająco dobrze
dopasowane do danych. Analizy cech ukrytych często
wykazują empirycznie, że posiadają więcej niż jeden
wymiar. Stąd wziął się rozwój wielowymiarowych
modeli IRT i konfirmacyjnej analizy czynnikowej.
Badana cecha ukryta nie musi też mieć charakteru
ciągłego. Od lat czterdziestych XX wieku rozwijane są
modele klas ukrytych, u których podstaw leży założenie
o nominalnym charakterze cech ukrytych. Modele
diagnostyczne to szeroka gama konfirmacyjnych
modeli pomiarowych, które łączą założenie o
wielowymiarowości cechy ukrytej z założeniem o jej
nieciągłym charakterze. Modele te zawdzięczają swą
11
nazwę praktycznym zastosowaniom, które najczęściej
skupiają się na diagnostycznych, a nie różnicujących
aspektach pomiaru.
W prezentacji szczegółowo opisany zostanie jeden z
modeli
diagnostycznych:
DINA
a
następnie
przedstawione zostanie jego zastosowanie na polskich
danych uzyskanych na egzaminie gimnazjalnym w
części
matematyczno-przyrodniczej.
Prezentacja
wskaże korzyści płynące z nowego podejścia jak
również problemy związane z jego implementacją dla
diagnozy edukacyjnej.
Modele analizy efektu oceniającego
Filip Kulon (Instytut Badań Edukacyjnych)
Ocenianie jakiejś cechy przez ludzi powoduje wariancję
ocen niezwiązaną z mierzoną cechą. Wariancja ta
pochodzi w głównej mierze od oceniającego i zbiorczo
nazywana jest efektem oceniającego. Jest to
immanentna cecha oceniania i można jedynie dążyć do
jej minimalizacji. Najczęściej wyróżnia się cztery typy
efektu
oceniającego:
(1)
efekt
halo,
(2)
łagodność/surowość, (3) zniekształcenia skali i (4)
precyzję oceniania.
Efekt halo objawia się przyznawaniem przez
oceniającego oceny na podstawie innej cechy niż
mierzona. W zależności od korelacji obydwu cech,
można uznać ten typ efektu za błąd systematyczny lub
losowy. Łagodność/surowość to systematyczne
przyznawanie ocen wyższych/niższych niż rzeczywisty
poziom mierzonej cechy. Zniekształcenia skali
12
zawierają wszelkie modyfikacje skali, jak np. jej
ograniczenie czy używanie kategorii skrajnych
(ekstremizm)
i
mają
charakter
błędów
systematycznych. Precyzja oceniania wiąże się z
rzetelnością pomiaru i losowym składnikiem błędu.
Często zgodność ocen jest utożsamiana z rzetelnością
pomiaru, jednakże nie jest ona wymagana w celu
osiągnięcia wysokiej rzetelności oceniania.
Oprócz omówienia poszczególnych typów efektu
oceniającego, zaprezentowane zostaną metody jego
pomiaru, z których większość bazuje na wielokrotnych
ocenach. Proste wskaźniki zgodności (kappa) czy
korelacji wewnątrzklasowej nie dostarczają informacji
o
poszczególnych
typach
efektów.
Bardziej
skomplikowane metody można podzielić na te oparte
na teorii uniwersalizacji i dekompozycji wariancji oraz
na teorii odpowiedzi na pozycje testowe (item response
theory, IRT). Wśród tych drugich na szczególną uwagę
zasługuje hierarchiczny model efektu oceniającego
oparty na teorii detekcji sygnałów (hierarchical rater
model with signal detection theory, HRM-SDT).
Pozwala on na szacowanie łagodności/surowości,
zniekształceń skali oraz precyzji oceniania.
Poprzez oparcie HRM-SDT na teorii odpowiedzi na
pozycje testowe możliwe jest szacowanie efektów
oceniającego bez użycia wielokrotnych ocen. Można
tego dokonać, gdy do oszacowania cechy ukrytej
mierzonej poprzez oceny zastosujemy równolegle
pozycje testowe oceniane automatycznie. Taki model
może być szczególnie przydatny w edukacji, gdzie
13
najczęściej oprócz ocen wystawianych przez
nauczycieli czy egzaminatorów, używane są zadania
zamknięte.
Zróżnicowane funkcjonowanie pozycji testowych jako
narzędzie umożliwiające wykrycie zaburzeń założonej
struktury wymiarowej testu
Bartosz Kondratek, Paulina Skórska (Instytut Badań
Edukacyjnych)
Ze zróżnicowanym funkcjonowaniem pozycji testowej
(differential item functioning, DIF) mamy do czynienia,
gdy osoby o tym samym poziomie mierzonej przez test
cechy, ale należące do różnych grup, charakteryzują się
różnym rozkładem odpowiedzi na rozpatrywaną
pozycję testową. Występowanie DIF informuje o tym,
że oprócz mierzonej testem cechy istnieją jakieś
dodatkowe czynniki warunkujące sposób odpowiadania
na daną pozycję testową, które jednocześnie są
współzmienne z przynależnością grupową. Dzięki
temu, analizy DIF stanowią cenne narzędzie do oceny
trafności wewnętrznej testu.
Zaprezentowane zostanie wykorzystanie analizy DIF w
oparciu o wielogrupowe modele teorii odpowiedzi na
pozycje testowe (item response theory, IRT) i
specyficzne dla tego rozwiązania miary wielkości
efektu DIF. Na przykładzie wyników ze sprawdzianu z
roku 2014 zostanie zilustrowana zależność między
błędnie przyjętym założeniem o jednowymiarowości
badanego konstruktu, a wynikami analizy DIF ze
względu na płeć uczniów.
14
Wykorzystanie modelowania IRT do łączenia
wyników z rożnych narzędzi testowych na przykładzie
egzaminów zewnętrznych
Henryk Szaleniec (Instytut Badań Edukacyjnych)
Podczas analizy danych zebranych z wykorzystaniem
testów do pomiaru ukrytych zmiennych częstokroć
stajemy przed problemem sprowadzania do wspólnej
skali wyników uzyskanych za pomocą różnych narzędzi
badających takie same lub zbliżone umiejętności.
Szczególnym wyzwaniem jest wyrażenie wyników na
wspólnej skali, gdy dane uzyskane za pomocą różnych
narzędzi są zebrane w grupach osób mogących różnić
się rozkładem ukrytych zmiennych, które podlegają
pomiarowi. Przykładem może być próba wyrażenia na
wspólnej skali wyników egzaminów zewnętrznych
przeprowadzanych w Polsce począwszy od 2012 roku.
W wystąpieniu przedstawione zostaną, na przykładzie
sprawdzianu przeprowadzanego w szóstej klasie szkoły
podstawowej, rozwiązania zastosowane w latach 20112014 w Instytucie Badań Edukacyjnych do zrównania
wyników egzaminów zewnętrznych (sprawdzian,
egzamin gimnazjalny i matura). W szczególności
przedstawione zostaną: podstawowe założenia, które
muszą być spełnione w procedurze zrównywania,
zastosowany plan łączenia wyników testowania w
różnych latach i wielogrupowy model IRT, który został
dopasowany do danych z wykorzystaniem algorytmu
EM.
Zaprezentowane zostaną również zrównane
wyniki sprawdzianu począwszy od roku 2002 do 2013,
15
wyrażone w skali standardowej o średniej 100 i
odchyleniu standardowym 15, odniesione do roku
2012, który został przyjęty jako referencyjny. Wyniki te
zagregowane do poziomu szkół, gmin, powiatów,
województw i kraju są powszechnie dostępne dla
wszystkich zainteresowanych, w tym badaczy, pod
adresem pwe.ibe.edu.pl.
Zastosowanie skalowania wertykalnego do oceny
przyrostu umiejętności matematycznych polskich
uczniów
Karolina Świst (Instytut Badań Edukacyjnych)
Matematyczne umiejętności ucznia zależą od
skumulowanych efektów nauczania matematyki na
poprzednich etapach edukacji (IBE, 2011). Jednak do tej
pory, w polskim systemie edukacji nie określono
sposobu oszacowania średniego postępu uczniów
między progami kształcenia. Tradycyjne metody
badania zmian poziomu cechy ukrytej takie jak analiza
trendów czasowych czy latentnych krzywych
rozwojowych (latent growth modeling), wymagają
podłużnych planów badawczych. Przedstawiona w
niniejszym referacie metoda skalowania wertykalnego
pozwala ocenić przyrost umiejętności ucznia bez
konieczności
prowadzenia
czasochłonnego
i
kosztownego badania podłużnego. Przeprowadzenie
tego
typu
procedury
wymaga
spełnienia
niezmienniczości mierzonych umiejętności pomiędzy
kolejnymi etapami edukacyjnymi, co jest założeniem
praktycznie niemożliwym do spełnienia. W niniejszym
16
referacie
przedstawiono
zastosowanie
metody
podwójnego czynnika (bi-factor model) do oceny
przyrostu poziomu umiejętności matematycznych
uczniów na podstawie danych zebranych przez Zespół
Analiz
Osiągnięć
Uczniów
Instytutu
Badań
Edukacyjnych. Model podwójnego czynnika pozwala
na odseparowanie specyficznej dla danych egzaminów
części wariancji i przeprowadzenie łączenia na
pozostałej części, wspólnej dla różnych testów.
Przedstawiono ocenę dopasowania tego typu modelu
oraz analizę uzyskanych skal wertykalnych poprzez
oszacowanie średniego przyrostu cechy ukrytej
(umiejętności
matematycznych),zróżnicowania
przyrostu
umiejętności
matematycznych
czy
przemieszczenia
się
rozkładów
umiejętności
matematycznych. Wyniki są pierwszym krokiem
prowadzącym do uzyskania rzetelnej informacji o
przyroście umiejętności matematycznych uczniów w
polskich szkołach.
Możliwości wykorzystania modeli mieszanek IRT do
identyfikowania uczniów o niskiej motywacji testowej
Paulina Skórska (Instytut Badań Edukacyjnych)
Szacowanie umiejętności uczniów, bez uwzględnienia
poziomu ich motywacji, może prowadzić
do
problemów z trafnością wnioskowania (Messick,
17
1989;
1995). Wyłączenie z analiz danych
niezmotywowanych uczniów prowadzi do utraty
informacji. Dlatego lepszym rozwiązaniem jest
uwzględnienie informacji o obniżonej motywacji
uczniów w modelu. Jednym ze sposobów na to jest
wykorzystanie modeli mieszanek IRT. Modele
mieszanek IRT (mixture IRT models) łączą ze sobą
dwa rodzaje modeli wykorzystywanych w pomiarach
cechy ukrytej: modelowanie w ramach teorii
odpowiedzi na pozycje testowe (Item Response
Theory, IRT) oraz analizę klas ukrytych (latent class
analysis, LCA). Pozwalają na wykrycie klas ukrytych
uczniów odpowiadających na pytania testowe w sposób
jakościowo różny oraz sprawdzenie, do jakiego stopnia
uwzględnienie informacji o motywacji uczniów wpływa
na ich przynależność do konkretnych klas.
Celem wystąpienia jest przedstawienie zastosowania
modeli mieszanek IRT do wykrycia
uczniów
niezmotywowanych oraz ocena adekwatności tej
metody. Dane będące podstawą analiz zostały zebrane
przez Zespół Analiz Osiągnięć Uczniów IBE w 2014 r.
(losowa próba uczniów gimnazjum, n=1617). Do
pomiaru motywacji wykorzystano kwestionariusz
motywacji polskiej wersji Skali Opinii Uczniów (Sundre,
2007), przetłumaczonej za zgodą autorki. Wpływ
motywacji testowej był analizowany w kontekście
umiejętności matematycznych uczniów. Ocena
możliwości zastosowania modeli mieszanek IRT
opierała się na: a) porównaniu dobroci dopasowania
modelu IRT w porównaniu do klasycznego modelu IRT;
18
b) możliwości interpretacji klas ukrytych w kategoriach
motywacji testowej oraz c) weryfikacji stopnia, do
jakiego dodatkowa zmienna (SOS) pozwala przewidzieć
przynależność do danej klasy ukrytej.
Wyniki wskazują, że wykorzystanie modeli mieszanek
IRT do wykrywania niezmotywowanych uczniów może
stanowić punkt wyjścia do analiz mających na celu
zwiększenie trafności wnioskowania na podstawie
rozwiązywanych przez uczniów testów umiejętności.
Modele mieszanek IRT można więc wykorzystywać do
walidacji innych metod – określenia spójności ich
wyników z wynikami miar samoopisowych, ale także
miar zachowania uczniów (np. analiza czasów reakcji
(RTE) w kontekście liczby opuszczonych w teście zadań
otwartych).
Wykorzystanie metod badania osobowości w
badaniach marketingowych
Oleg Gorbaniuk, Magdalena Kolańska (Katolicki Uniwersytet
Lubelski)
Już w latach 50-tych ubiegłego wieku definiowano
marki poprzez ich osobowość (Martineau, 1958), a lata
60-te to początek badań nad zbieżnością obrazu siebie
z wizerunkiem użytkownika marki lub wizerunkiem
marki (Dolich, 1969;Hamm, Candiff,, 1969; Grubb,
Grathwoll 1967). Początek tych rozważań stanowiło
19
zagadnienie atrakcyjności interpersonalnej (Byrne,
1961), które postuluje, że ludzie preferują i darzą
większą sympatią osoby, które uważają za podobne do
siebie. Wyniki te przeniesiono na grunt psychologii
zachowań konsumenckich i sformułowano założenie,
iż konsumenci preferują marki, które w ich odbiorze są
podobne do nich samych (Grubb, Stern, 1971).
Założenie to potwierdziły liczne badania (Heath, Scott,
1998; Dennison, Shepherd, 1995; Chang, 2002; Chon,
Olsen,1991; Helgeson, Supphellen, 2004; Jamal, 2004;
Chebat, Hedli, Sirgy, 2009).
Główną przesłanką teorii kongruencji jest to, iż
zwiększenie podobieństwa (czyli zbieżności własnego
obrazu siebie i obrazu marki/jej typowego
użytkownika)
zwiększa
prawdopodobieństwo
pozytywnego działania (np. zakupu) w odniesieniu do
tej marki (Gould, 1991; Graeff 1996; Sirgy, 1982, 1986;
Yu i in.,2013).
W przypadku kongruencji możemy wskazywać na dwa
główne sposoby jej pomiaru: pośredni i bezpośredni.
Pomiar pośredni charakteryzuje najpierw opisanie cech
typowego użytkownika marki za pomocą skali a
następnie opisanie obrazu siebie za pomocą tej skali i
porównanie tych wyników (Gorbaniuk, Stachoń, 2011;
Birdwell, 1968; Dolich, 1969; Grubb & Grathwhohl,
1967; Sirgy, 1986, Gould, 1991; Graeff, 1996; Sirgy,
1982, 1986; Sutherland i in., 2004). W tego typu
badaniach wykorzystuje się skale (1) tworzone ad hoc –
ale czasochłonne (Gorbaniuk, Stachoń, 2011) (2) skale
do badania osobowości człowieka (Caprara i in., 1998;
20
Ferrandi, Valette-Florence 2002), (3) skale do badania
osobowości marki: np. skala Poddar, Donthu i Wei
(2009), skala Aaker (1996) – wykorzystane w wielu
badaniach (O’Cass, Grace, 2008; Buresti, Rosenberg,
2006;Lam, Ahearne, Mullins, Hayati, Schillewaert,
2013).
Zwodniczy urok (zbyt) pięknych konceptualizacji (na
przykładzie badań replikacyjnych nad kołowym
modelem celów życiowych)
Małgorzata Górnik-Durose, Łukasz Jach (Uniwersytet Śląski)
Podczas wystąpienia zostaną zaprezentowane wyniki
badań replikacyjnych dotyczących odtwarzania się w
warunkach polskich kołowej struktury celów
życiowych, badanych przy pomocy osadzonego w teorii
autodeterminacji kwestionariusza Aspiration Index
(Grouzet i wsp., 2005). Choć autorzy oryginalnej wersji
narzędzia przedstawiają aspiracje życiowe jako
właściwości psychologiczne tworzące identyczny układ
niezależnie od kontekstu kulturowego (15 prób; łączne
n = 1854 osoby), proponowanej przez nich struktury
czynnikowej nie udało się odtworzyć w żadnej z
dziewięciu polskich prób badawczych (łączne n=1762
osoby). Co więcej, w warunkach polskich część skal
badających poszczególne cele życiowe konsekwentnie
wykazywała się niesatysfakcjonującym poziomem
spójności wewnętrznej. W kontekście atrakcyjnego dla
potencjalnych użytkowników narzędzia (11 skal
pozostających do siebie w określonych relacjach i
ułożonych na dwóch wymiarach) oraz braku innych
21
prób replikacji wyników badań Grouzeta i
współpracowników, przy jednoczesnym częstym
powoływaniu się na ich pracę w innych publikacjach
(322 cytowania do końca stycznia 2015 r. wg bazy
GoogleScholar), autorzy
stawiają pytania o
przydatność
urzekających
estetyką
modeli
wypracowywanych w ramach popularnych koncepcji
teoretycznych oraz sposoby postępowania w sytuacji,
gdy próby adaptowania narzędzi nie
przynoszą
satysfakcjonujących efektów.
Wykorzystanie metod projekcyjnych w obszarze
zarządzania zasobami ludzkimi
Grzegorz Szopiński (Uniwersytet Adama Mickiewicza)
Metody projekcyjne towarzyszą psychologii niemal od
początku jej istnienia jako dyscypliny naukowej.
Większość z nich jest raczej kojarzona z psychologią
kliniczną i przede wszystkim w tym obszarze były one
przedmiotem kontrowersji. Były one również
stosowane w badaniach z zakresu zarządzania
zasobami ludzkimi, w szczególności w obszarze
rekrutacji i selekcji pracowników. Niniejsza praca
stanowi przegląd badań empirycznych dotyczących
możliwości wykorzystania metod projekcyjnych w tej
dziedzinie. Wykorzystano w niej taksonomię,
zaproponowaną prze Lindzeya i powtórzoną przez
Lilienfelda,
dzielącą
metody
projekcyjne
na
asocjacyjne, konstrukcyjne, aranżacyjne i oparte na
uzupełnianiu. Pierwsza z nich dotyczy przede
wszystkim testu plam atramentowych Rorschacha. Jego
22
uwarunkowania
oraz
historyczne
i
przyszłe
zastosowania w dziedzinie zasobów ludzkich zostały
szczegółowo
omówione.
Spośród
metod
konstrukcyjnych szczególną uwagę poświęcono
szeroko stosowanemu testowi apercepcji tematycznej.
W dalszej części pracy omówione zostały metody
uzupełniania zdań oraz test Tomkina-Horna. Finalna
część pracy poświęcona jest wskazaniom praktycznym
oraz ograniczeniom dotyczącym stosowania metod
projekcyjnych przez specjalistów z zakresu zasobów
ludzkich.
Psychologiczna
analiza
treści
zeznań
z
zastosowaniem algorytmów decyzyjnych (drzew
klasyfikacyjnych i regresyjnych)
Bartosz Wojciechowski (Uniwersytet Śląski)
Drzewa klasyfikacyjne są szeroko wykorzystywane w
różnych dziedzinach nauk stosowanych, tak
odmiennych jak medycyna, nauki komputerowe, czy
botanika. Pozwalają na ustalenie, czy dany przypadek
przynależy do określonego zbioru, na podstawie
wyników pomiaru jednej albo kilku zmiennych. Celem
analizy z wykorzystaniem drzewa klasyfikacyjnego jest
uzyskanie
możliwie
najbardziej
trafnego
przewidywania - stworzenie takiego algorytmu
decyzyjnego, który pozwoli na prawidłowe zaliczenie
określonego przypadku, do właściwej kategorii.
Psychologiczna
analiza
treści
zeznań
z
wykorzystaniem kryteriów treściowych Statement
Validity
Assessment
umożliwia
prawidłową
23
klasyfikację 65,67% zeznań prawdziwych i 64% zeznań
fałszywych, analiza treściowa zeznań z zastosowaniem
kryteriów treściowych Reality Monitoring prowadziła w
badanej grupie do 55,41% prawidłowych klasyfikacji
(54,61% zeznań prawdziwych i 59.25% zeznań
fałszywych), a zastosowanie Modelu Wielozmiennowej
Analizy Zeznań Świadków Dorosłych pozwalało na
prawidłową klasyfikację w 89,86% przypadków, przy
czym wskaźnik prawidłowych klasyfikacji dla zeznań
prawdziwych wyniósł 96,87%, ale dla zeznań
fałszywych wynosił już tylko 45%.
Analiza zeznania z zastosowaniem kryteriów
treściowych Statement Validity Assessment według
uzyskanego algorytmu pozwala na prawidłową
klasyfikację 100% zeznań prawdziwych i 84% zeznań
fałszywych. W przypadku zastosowania kryteriów
treściowych Reality Monitoring i oparcia decyzji o
zakwalifikowaniu relacji świadka do określonej
kategorii na wskazaniach algorytmu, można
przewidywać, że prawidłowa klasyfikacja nastąpi w
odniesieniu do 99,22% zeznań prawdziwych i 96,30%
zeznań fałszywych. Stworzony z pomocą analizy drzew
klasyfikacyjnych algorytm, wymagający porównania
wyników oceny dziewięcioma kryteriami MASAM,
pozwala na prawidłową klasyfikację wszystkich (100%)
zeznań prawdziwych i niemal każdego (90%) z
poddanych analizie zeznań fałszywych.
Wykorzystanie drzew klasyfikacyjnych pozwala także
na obiektywizację rezultatów analizy treściowej, a
uzyskane
algorytmy
decyzyjne
dostarczają
24
precyzyjnych wskazówek co do tego, w jaki sposób
wyniki analizy treściowej przeprowadzonej z
zastosowaniem kryteriów SVA, RM lub MASAM,
powinny zostać zinterpretowane.
Metodologia skracania kwestionariuszy
Paweł Kleka (Uniwersytet Adama Mickiewicza)
Korzystanie
ze
skróconych
wersji
narzędzi
pomiarowych w psychologii można uznać za
uzasadnione praktycznie i teoretycznie. Motywy
skracania związane są głównie ze skróceniem czasu
badania oraz zmniejszeniem nakładów finansowych.
Często też pojawia się potrzeba użycia krótkich wersji,
gdy plan badawczy przewiduje zastosowanie całej
baterii testów, która w wersji kompletnej mogłaby być
zbyt obciążająca lub gdy trzeba stosować wersje
równoległe przy pomiarze wielokrotnym. Używając
krótszych wersji można też bardziej dostosować czas
badania do możliwości poznawczych i emocjonalnych
uczestników badań, a także zróżnicować stawiane
przednimi zadania.
Psychologowie stosujący kwestionariusze mogą ulec
pokusie, aby skrócone wersje narzędzi opierać na
swojej intuicji, zaniedbując przy tym wymogi
metodologiczne. Skrócone formy nie są poddawane
wnikliwej analizie psychometrycznej, ponieważ
zakłada się, że trafność i rzetelność narzędzia pełnego
zapewnia
dobre
parametry
także
narzędziu
pochodnemu – jest to niczym nie uzasadnione
założenie, ponieważ skrócone narzędzie ma takie same
25
szanse być lepsze, gorsze jak i takie same pod względem
parametrów trafności i rzetelności. Podobnie błędnym
założeniem jest zgoda na niższy poziom rzetelności
tylko dlatego, że narzędzie skrócone jest krótsze. Chcę
zaproponować procedurę skracania kwestionariuszy
badawczych, pokazać możliwą empiryczną ewaluację
skróconych wersji oraz rozważyć zalety i wady różnych
metod skracania, zarówno od strony teoretycznej jak i
na przykładzie analiz statystycznych.
Przydatność Klasycznej Teorii Testu i IRT w
konstrukcji testów
Barbara Ciżkowicz (Uniwersytet Kazimierza Wielkiego)
W psychometrii powszechnie stosowanym modelem
statystycznym jest Klasyczna Teoria Testu (KTT). Jej
niewątpliwą zaletą jest brak rygorystycznych założeń
oraz łatwość interpretacji wyników. Stosowane w niej
wskaźniki są intuicyjnie zrozumiałe. W KTT kluczowym
poję-ciem jest wynik prawdziwy. Jednak wynik ten jest
zależny zarówno od testu, jak i od próby badawczej.
Stanowi to istotne ograniczenie. Jednocześnie w
psychometrii rozwijane są inne podejścia teoretyczne.
Należą do nich modele cechy latentnej (latent trait
model, LTM), którego szczególnym przypadkiem jest
model wyniku zadania testowego (item response
theory, IRT). W tym podejściu teoretycznym poziom
umiejętności jest pojęciem fundamentalnym, a
nieliniowy związek między poziomem umiejętności a
prawdopodobieństwem prawidłowej odpowiedzi na
zadanie testowe jest inwariantny względem próby oraz
26
testu. Na etapie konstrukcji testu stwarza to
możliwości niedostępne w podejściu klasycznym,
zapewniające większą precyzję pomiaru. Dotyczy to
głownie możliwości konstrukcji testów o ściśle
określonych charakterystykach.
Na wstępie przedstawione zostaną założenia
teoretyczne modelu
KTT i modelu IRT. oraz
porównane klasyczne i probabilistyczne miary jakości
zadania i jakości testu. Na przykładzie pokazane
zostaną różnice w jakości testu wynikające z
zastosowania metody zgodności wewnętrznej i funkcji
informacyjnej do szacowania błędu pomiaru.
„Prawda nie leży po środku”: problem właściwego
skalowania
wartości
środkowych
w
skalach
szacunkowych
Krzysztof Kasparek, Marek Muszyński (Uniwersytet
Jagielloński)
Skale szacunkowe (np. typu Likerta) są jednym z
najbardziej rozpowszechnionych narzędzi badawczych
w naukach społecznych (Stacey, 2013). O ich
popularności decyduje stosunkowa prostota i wygoda
użycia, tak po stronie badacza, jak i badanych. Metoda
ta ma również swoje wady- zbiera się dane będące
subiektywnymi interpretacjami badanych, którzy mogą
kłamać, kierować się aprobatą społeczną (Edwards,
1957) lub ulegać zniekształceniom poznawczym. Jest
również wrażliwa na stosowanie przez badanych stylów
27
odpowiedzi, czyli odpowiadanie na pytania zawsze w
ten sam sposób, niezależnie od ich treści (Paulhus,
1991). Najczęściej opisywane style odpowiedzi to
(nad)używanie odpowiedzi skrajnych (extreme
response style) oraz (nad)używanie odpowiedzi
środkowych
(Pokropek,
2014).
Nadużywanie
odpowiedzi środkowej może świadczyć nie tyle o
neutralnym stosunku badanych do tematu, co o chęci
uniknięcia odpowiadania na pytanie, np. z powodu
braku jego zrozumienia lub poczucia, że „mnie to nie
dotyczy” (Khorramdel i van Davier, 2014; Kulas,
Stachowski i Haynes, 2008). Brak uwzględnienia
powyższych zagrożeń w analizie danych zebranych za
pomocą skal szacunkowych może poważnie zagrozić
trafności analiz.
Celem
wystąpienia
jest
prezentacja
metod
pozwalających
na
identyfikację
respondentów
traktujących odpowiedzi środkowe, jako synonim
odpowiedzi „nie wiem” oraz krótkie omówienie metod
umożliwiających kontrolowanie efektów wywołanych
przez
style
odpowiedzi.
W
wystąpieniu
zaprezentowane zostaną skutki jakie dla wyników
badań niesie eliminacja respondentów nadużywających
odpowiedzi środkowych. W tym celu posłużono się
konfirmacyjną analizą klas ukrytych (Moors, Kieruj i
Vermunt, 2014) oraz dekonstrukcją skali szacunkowej
za pomocą wielomianowych drzew decyzyjnych
(multinomial processing trees; Bockenholt, 2012;
Pokropek, 2014). Wpływ stylów odpowiedzi na wyniki
poszczególnych
pozycji
w
kwestionariuszu
28
zilustrowany zostanie za pomocą modeli z rodziny
teorii odpowiedzi na pozycje testową dla danych
politomicznych (polytomous item-response theory;
Ostini i Nering, 2006). Dane, które posłużyły do
ilustracji wyżej opisanych problemów pochodziły z
badania dotyczącego zadowolenia z jakości życia
mieszkańców jednego z największych miast w Polsce.
Detekcja (nie)porównywalności wyników ze względu
na wiek – na przykładzie skróconej wersji
Kwestionariusza Portretów Wartości (PVQ-21)
Shaloma Schwartza
Karolina Świst (Instytut Badań Edukacyjnych)
Mierzenie cech ukrytych opiera się na zadawaniu tych
samych pytań respondentom przy apriorycznym
założeniu, że interpretacja docelowego konstruktu nie
zmienia się wraz z, wiekiem jednostki oraz
zachodzącym jakościowymi zmianami rozwojowymi
(np. w strukturze osobowości, spowodowanych co raz
większym przystosowaniem się do pełnionych ról
społecznych). Nie uwzględnia się także faktu, że w
różnych kohortach wiekowych, znaczenie mierzonego
konstruktu może być diametralnie inne – np. ze
względu na dorastanie w różnych warunkach
społecznych, politycznych i ekonomicznych. W
29
niniejszym
referacie
przedstawię
analizę
porównywalności
ze względu na wiek wyników
uzyskanych w skróconej wersji Kwestionariusza
Portretów Wartości (PVQ-21) Shaloma Schwartza
(2007). Skala ta jest wykorzystywana między innymi w
Europejskim
Sondażu
Społecznym.
W
celu
wyeliminowania innych źródeł nieporównywalności,
analiza zostanie przeprowadzona wyłącznie dla danych
z Polski. Testowanie porównywalności ze względu na
wiek odbędzie się przy pomocy następujących metod,
wywodzących się zarówno z Klasycznej Teorii Testów
(KTT) jak i teorii reakcji na pozycję testową (item
response theory, IRT): korelacji jej wyników z wiekiem,
testowania inwariancji pomiaru przy pomocy
wielogrupowej analizy czynnikowej (multigroup
confirmatory factor analysis, MCFA), oraz detekcji
zróżnicowanego funkcjonowania pozycji testowej
(differential item functioning, DIF) ze względu na wiek.
Niniejsze analizy pomogą odpowiedzieć na pytanie czy
zasadne jest raportowanie wyników dotyczących
wyznawanych wartości bez wzięcia pod uwagę
odmiennej
specyfiki
pomiaru
związanej
z
przynależnością do różnych grup wiekowych.
Zastosowanie
eksploracyjnych
modeli
równań
strukturalnych z rotacją celową w analizie
międzygrupowej
niezmienności
struktury
czynnikowej. Przykład kwestionariusza „Postrzeganej
Integracji Społecznej”
30
Grzegorz Humenny, Paweł Grygiel (Instytut Badań
Edukacyjnych)
Celem wystąpienia jest przedstawienie możliwości
wykorzystania eksploracyjnych modeli równań
strukturalnych z rotacją celową, zakładających
występowanie struktury hierarchicznej do testowania
międzygrupowej
niezmienności
(inwariancji)
pomiarowej.
Eksploracyjne modele równań strukturalnych (ESEM)
są sposobem analiz struktury latentnej łączącej
elementy eksploracyjne (EFA) oraz konfirmacyjne
(CFA). W odróżnieniu od modeli CFA zakładają
dysponowanie jedynie częściową wiedzą na temat
relacji zachodzących między zmiennymi latentnymi a
wskaźnikami. W połączeniu z rotacją celową (target
rotation) umożliwiają wprowadzenie do modelu
warunków wstępnych (np. co do wielkości ładunków
czynnikowych), mogących ulegać zmianom w trakcie
estymacji. W efekcie prowadzi to do mniej obarczonego
szacowania parametrów struktury latentnej. Istotne, że
w odróżnieniu od modeli “czysto” konfirmacyjnych
umożliwiają one uwzględnienie występowania tzw.
ładunków krzyżowych (crossloadings).
Współczesne badania psychometryczne wskazują, że
modele te mogą być z sukcesem stosowane w analizie
specyficznych typów struktury latentnej, tj. (1) modeli
wyższego rzędu (higher-order) i/lub (2) podwójnego
czynnika (bi-factor). Oba zakładają, że zmienność
wskaźników można podzielić na część: (1) wspólną dla
wszystkich pozycji; (2) specyficzną jedynie dla ich
31
części. Przy czym, o ile w modelach wyższego rzędu to,
co wspólne dla wszystkich wskaźników jest
estymowane jako część wspólna czynników niższego
rzędu, o tyle w modelach podwójnego czynnika
najpierw wyłączana jest wspólna zmienność dla
wszystkich wskaźników, a następnie estymowana
wariancja wspólna jedynie dla części zmiennych
obserwowalnych.
Przeprowadzone analizy koncentrować się będą na: (1)
wskazaniu optymalnego
modelu pomiarowego
kwestionariusza “Postrzeganej Integracji Społecznej”
oraz (2) weryfikacji stabilności (niezmienności)
zaproponowanego rozwiązania pomiędzy dwoma
kolejnymi rocznikami uczniów klas trzecich szkół
podstawowych. W analizach wykorzystane zostaną
dane pochodzące z dwóch dużych ogólnopolskich
badań zrealizowanych
przez Instytut Badań
Edukacyjnych, tj. (1) Edukacyjnej Wartości Dodanej
(EWD); (2) Szkolnych Uwarunkowań Efektywności
Kształcenia (SUEK).
Testowanie modeli przeprowadzone zostanie przy
pomocy pakietu Mplus, w oparciu o macierz korelacji
polichorycznej oraz estymator WLSMV (ważonych
najmniejszych kwadratów ze skorygowaną średnią i
wariancją).
Zróżnicowanie
funkcjonowania
zadań
między
różnymi wersjami testu z wykorzystaniem Testlet
Response Theory
32
Paulina Skórska, Maciej Koniewski, Przemysław Majkut
(Instytut Badań Edukacyjnych)
Standaryzowane
testy
osiągnięć
edukacyjnych
stanowią istotny element polskiego systemu oświaty.
W celu zapobiegania oszukiwaniu na egzaminie przez
odpisywanie od siebie przez uczniów, egzaminy
przeprowadzane są w dwóch wersjach. Obie wersje
zawierają takie same zadania, jednak różnią się
sekwencją odpowiedzi w zadaniach zamkniętych
wielokrotnego wyboru. Celem prezentowanych analiz
jest ocena zróżnicowanego funkcjonowania zadań
między wersjami testu. Analizowano zadania z arkusza
wersji A i B egzaminu gimnazjalnego z historii i wiedzy
o społeczeństwie z 2013 r. Dane pochodziły z arkuszy
odpowiedzi uczniów z województw lubelskiego,
małopolskiego i podkarpackiego (n=81545). W celu
detekcji DIF wykorzystano test Mantel-Haenshela,
regresję logistyczną oraz standaryzację. Wyniki analiz
wskazują na istotne różnice w funkcjonowaniu zadań
między wersjami A i B testu w sytuacji, gdy w jednej
wiązce zadań prawidłowa odpowiedź jest oznaczona
zawsze tym samym symbolem, np. A, A, A. W takiej
sytuacji poprawna odpowiedź na dwa z nich obniża
szansę na poprawną odpowiedź na trzecie zadanie w
wiązce o 27 do 52%, przy kontroli poziomu
umiejętności ucznia. Szansa udzielenia poprawnej
odpowiedzi na trzecie zadanie w wiązce jest niższa w
przypadku zadań o większej trudności. Przedstawiono
wyjaśnienie tego zjawiska w odniesieniu do złudzenia
gracza (Gambler’s fallacy), złamania założeń o lokalnej
33
niezależności odpowiedzi na zadania oraz metody
pozwalające na szacowanie parametrów modelu z
uwzględnieniem wzajemnej zależności zadań w
wiązkach (Testlet Response Theory).
Analiza własności psychometrycznych testu w
heterogenicznych
populacjach
przy
pomocy
wielopoziomowej analizy czynnikowej
Tomasz Żółtak (Instytut Badań Edukacyjnych)
Konfirmacyjna analiza czynnikowa, w różnych
odmianach, jest jedną z klasycznych metod
wykorzystywanych do analizy własności testów
psychometrycznych. Korzystając z niej, tradycyjnie
zakłada się, że modelowane zależności pomiędzy
mierzonym
konstruktem
a
zmiennymi
obserwowalnymi, opisującymi reakcje badanych na
zadania testowe, przebiegają w ten sam sposób w
ramach całej badanej grupy (populacji). Założenie to
nie zawsze jest jednak słuszne, gdyż właściwości
psychometryczne testu same w sobie mogą
systematycznie różnicować się zarówno ze względu na
indywidualne cechy badanych, jak też ze względu na
wpływ zjawisk o charakterze grupowym. Z tym drugim
zjawiskiem możemy mieć do czynienia zwłaszcza
wtedy, gdy badana zbiorowość (próba) w oczywisty
sposób składa się z grup, stanowiących istotny kontekst
funkcjonowania jednostek, jak na przykład szkoła czy
klasa w przypadku badań edukacyjnych.
W niniejszym referacie opisany zostanie sposób
modelowania takiego wpływu pogrupowania na
34
własności psychometryczne testu, z wykorzystaniem
metody wielopoziomowej analizy czynnikowej.
Możliwości i ograniczenia tej metody oraz sposób
interpretacji wyników zaprezentowane zostaną w
kontekście
innych
sposobów
modelowania
zróżnicowania własności psychometrycznych testu:
analizy
zróżnicowania
funkcjonowania
zadań
testowych (Differential Item Functioning) przy pomocy
modeli wielogrupowej analizy czynnikowej oraz
wieloaspektowego modelu Rascha. Zasygnalizowane
zostaną również możliwości wykorzystania metod
wielopoziomowych
w
modelowaniu
równań
strukturalnych (SEM). Na potrzeby ilustracji
empirycznej wykorzystane zostaną dane z badań
edukacyjnych, obejmujące szeroko wykorzystywane
testy psychologiczne: Test Matryc Ravena oraz
Inwentarz Stanu i Cechy Lęku.
Jednowymiarowe analizy IRT z wykorzystaniem
pakietu uirt dla Stata
Bartosz Kondratek (Instytut Badań Edukacyjnych)
Zaprezentowany zostanie autorski program uirt
(unidimensional item response theory models)
działający w środowisku Stata, który umożliwia
przeprowadzanie
szeregu
analiz
w
ramach
jednowymiarowych modeli teorii odpowiedzi na
pozycje testowe (item response theory, IRT). Modele
IRT rozdzielają właściwości badanych osób od
właściwości pozycji testowych i stały się ważnym
elementem przeprowadzanych współcześnie badań
35
nad cechami ukrytymi zarówno w psychologii jak i
edukacji. Analizy oparte na IRT są nieocenione na
etapie konstrukcji narzędzi, ale również na etapie
wnioskowania o poziomie badanych cech, zwłaszcza,
gdy badanie odbywa się przy zmiennej ekspozycji
pozycji testowych, jak to ma miejsce np. w
komputerowym
testowaniu
adaptatywnym
(computerized adaptive testing, CAT).
Program uirt szacuje parametry jednowymiarowych
modeli IRT zarówno dla pozycji testowych ocenianych
dwupunktowo (1pl, 2pl, 3pl), jak i wielopunktowo (grm,
pcm, gpcm). Obsługuje modele wielogrupowe oraz
pozwala na przeprowadzenie analizy zróżnicowanego
funkcjonowania pozycji testowych (differential item
functioning, DIF). Oprócz oszacowań punktowych
mierzonej testem zmiennej ukrytej, program uirt
pozwala także na generowanie tzw. wartości możliwych
(plausible values, PVs), wykorzystywanych w celu
uwzględnienia informacji o nierzetelności pomiaru w
późniejszych analizach statystycznych. Analiza
dopasowania w ramach programu uirt jest
przeprowadzana w sposób graficzny, z wykorzystaniem
PV do grupowania badanych osób w przedziały
zmiennej ukrytej.
Podstawowa funkcjonalność programu uirt zostanie
zilustrowana z wykorzystaniem prawdziwych oraz
symulacyjnych danych. Przeprowadzone zostanie
również porównanie działania uirt w zestawieniu
wbudowanym do Stata 14 modułem do analiz IRT, a
także z programem Parscale 4.0.
36
Analiza
inwariancji
pomiarowej
w
badaniu
podłużnym na przykładzie testu inteligencji
Aleksandra Jasińska-Maciążek, Anna Hawrot (Instytut
Oszacowanie zmiany nasilenia cechy ukrytej wymaga
przyjęcia założenia, że w różnych punktach czasowych
mierzymy ten sam konstrukt wyrażony na tej samej
skali. Nawet wykorzystane tego samego narzędzia nie
uprawomocnia nas do przyjęcia tego założenia bez
wcześniejszej weryfikacji inwariancji pomiaru. Jeśli nie
jest ona zachowana, wyciąganie wniosków z
porównania wyników dwóch pomiarów może być
nieuzasadnione.
Dodatkowo badając cechę, która rozwija się w czasie,
należy dostosować narzędzie do jej poziomu w
momencie badania w celu uniknięcia efektu sufitowego
lub podłogowego testu. W tym celu najczęściej
wykorzystuje się narzędzia z pulą pozycji
powtarzanych w obu pomiarach, które pozwolą
zdefiniować wspólną skalę (tzw. pozycje kotwiczące),
oraz pozycji unikalnych dla danego momentu pomiaru
odpowiednio łatwiejszych i trudniejszych.
W referacie omówiona zostanie metoda testowania
inwariancji dwukrotnego pomiaru w schemacie
badania podłużnego. Wykorzystano dane 5924 uczniów
ze 150 gimnazjów z całej Polski, zebrane w toku
badania podłużnego EWD w gimnazjach. W badaniu
wykonano dwa pomiary inteligencji uczniów (w
pierwszej i trzeciej klasie) za pomocą Testów Matryc
37
Ravena (TMR). W pierwszej klasie wykorzystano TMR
w wersji Standard. Okazał się on łatwy, dlatego w
trzeciej klasie uczniowie wypełnili 3 serie TMR w wersji
Standard oraz 24 pozycje serii II TMR w wersji dla
Zaawansowanych. Pozwoliło to uniknąć efektu
sufitowego oraz umożliwiło wyrażenie wyników na
wspólnej skali.
Przed oszacowaniem przyrostów inteligencji zbadano
inwariancję pomiaru zadań kotwiczących. Wyniki
analiz pokazały konieczność przyjęcia modelu z
częściową inwariancją, gdyż nie wszystkie pozycje
okazały się ekwiwalentne.
W referacie omówione zostaną ograniczenia
testowania inwariancji pomiaru w schemacie badania
podłużnego z wykorzystaniem testów z pulą zadań
kotwiczących. Przedyskutowane zostaną także
konsekwencje braku inwariancji niektórych pozycji dla
interpretacji wyników TMR z powtórzonych pomiarów.
Polska adaptacja Skali podatności na nudę. Ujęcie
wielowymiarowe
Maria Chełkowska, Maria Flakus, Aneta Kałmuk
(Uniwersytet Śląski)
Do
najpowszechniej
stosowanych
narzędzi
psychometrycznych służących do pomiaru nudy należy
Skala podatności na nudę (The Boredom Proneness
Scale - BPS) autorstwa Farmera i Sundberga (1986). Na
chwilę obecną narzędzie to uznać należy za jedyne
badające nudę sensu stricto (Vodanovich 2003).
Badania prowadzone przy użyciu BPS wskazują, że
38
podatność
na
nudę
jest
konstruktem
wieloczynnikowym (Vodanovich 2003). W wielu
pracach odnaleźć można dowody na pięcioczynnikową
(Gordon i in., 1997; Vodanovich, Kass, 1990) , a nawet
ośmioczynnikową (Vodanovich, Watt, Piotrowski,
1997) strukturę podatności na nudę. Literatura
wskazuje także na możliwość istnienia rozwiązań
dwuczynnikowych (Ahmed, 1990; Gana, Akremi, 1998;
Vodanovich, Wallace, Kass, 2005). Autorki prezentują
wyniki badań, prowadzonych przy użyciu polskiej
adaptacji BPS, skoncentrowane na poszukiwaniu
struktury czynnikowej podatności na nudę w populacji
polskiej.
Implicit Relational Assessment Procedure – pomiar
postaw utajonych oparty na czasie reakcji
Irena Pilch, Lidia Baran, Magdalena Hyla (Uniwersytet
Śląski)
Rosnąca wiedza na temat nieświadomego odbierania
przez człowieka bodźców z otoczenia (Wróbel, 2001)
prowadzi do zwiększającego się zainteresowania
możliwościami pomiaru procesów poznawczych
przebiegających na poziomie utajonym. Jednym z
obszarów badań, należących do tej sfery są analizy
dotyczące postaw utajonych - introspekcyjnie
niezidentyfikowanych lub identyfikowanych nietrafnie
(Greenwald, Banaji, 1995), które wpływają na
zachowanie.
Dominującą metodą wykorzystywaną w Polsce do
pomiaru postaw utajonych jest Test Utajonych
39
Skojarzeń (Implicit Association Test, IAT; Greenwald,
McGhee, Schwartz, 1998), czyli komputerowa metoda
opierająca się na pomiarze czasu dopasowania
obiektów do konkretnych atrybutów określanego jako
siła skojarzenia. Alternatywną metodą umożliwiającą
pomiar procesów przebiegających na poziomie
nieświadomym, niestosowaną dotychczas w Polsce,
jest Implicit Relational Assessment Procedure (IRAP;
Barnes-Holmes i in., 2006), której podstawy
teoretyczne oparte są na Teorii Ram Relacyjnych
(Relational Frame Theory, RFT; Hayes, Barnes-Holmes,
Roche, 2001).
Celem prezentacji jest przedstawienie podstaw metody
IRAP, zaprezentowanie wyglądu ekranów testowych,
sposobu doboru wykorzystywanych w badaniu bodźców
oraz obliczania i interpretacji wyników. Prezentacja
umożliwi zapoznanie się z nową metodą pomiaru
postaw utajonych oraz pierwszymi doniesieniami z
badań przeprowadzonych z jej wykorzystaniem w
polskich warunkach kulturowych.
Metody
skracania
skal
psychologicznych
z
wykorzystaniem metod IRT
Przemysław Majkut, Gabriela Czarnek, Piotr Dragon
(Instytut Badań Edukacyjnych)
Teoria odpowiadania na pozycje testowe (Item
Response Theory, IRT) jest coraz częściej
wykorzystywana do konstrukcji skal psychologicznych.
W naszej prezentacji skupimy się jednak na
wykorzystaniu IRT do skracania już istniejących skal
40
psychologicznych na przykładzie Skali Potrzeby
Poznawczego Domknięcia (Need for Cognitive Closure,
NFC).
Skala NFC (Webster & Kruglanski, 1994; polska wersja
Kossowskiej, 2003) jest jedną z najpopularniejszych
miar zamkniętości umysłowej w psychologii
społecznej. Składają się na nią 32 pozycje testowe, w
których osoby badane proszone są o ustosunkowanie
się do podanych twierdzeń na 6-stopniowej skali
Likerta. W kilku opublikowanych badaniach, autorzy
używali wybranych pozycji testowych bez podawania
przyczyn takich zabiegów (np.
Keller, 2005;
Kemmelmeier, 2010; Lynch, Neteme, Spiller i Zammit,
2010). Niedawno, polska wersja skali NFC doczekała się
skróconej wersji, której dokonano na podstawie
wyników
konfirmacyjnej
analizy
czynnikowej
(Kossowska, Trejtowicz, & Hanusz, 2012). Celem
naszego badania było porównanie parametrów
skracania skal za pomocą konfirmacyjnej analizy
czynnikowej oraz metod IRT: jedno- oraz
wielowymiarowej.
Jedno- i wielowymiarowe podejście w badaniach etyki
pracy. Ocena Trafności Czynnikowej i Rzetelności
skali Protestanckiej Etyki Pracy Mirelsa i Garretta
Agata Chudzicka-Czupała, Damian Grabowski (Uniwersytet
Śląski)
Referat przedstawia wyniki badań nad podstawowymi
własnościami psychometrycznymi polskiej wersji Skali
Protestanckiej Etyki Pracy (SPEP) Herberta Mirelsa i
41
Jamesa Garreta, a dokładniej nad jej trafnością czynnikową
oraz rzetelnością. Twórcy skali przyjęli, że etyka pracy jest
jednym wymiarem. Tymczasem wyniki badań z jej
zastosowaniem wyraźnie pokazują, że jest to zmienna
wielowymiarowa, a SPEP jawi się jako skala obejmująca
cztery lub pięć wymiarów. Autorzy artykułu przedstawiają
rezultaty serii czynnikowych analiz konfirmacyjnych oraz
czynnikowej analizy eksploracyjnej, wykonanych na
danych pochodzących z badań 880 pracowników. Analizy
te potwierdziły wielowymiarowy charakter SPEP i
dowiodły, że struktura narzędzia jest czteroczynnikowa.
Cztery podskale otrzymane w ramach SPEP charakteryzują
się
jednak
słabą
rzetelnością,
wynikającą
z
wieloznaczności niektórych stwierdzeń, co obniża wartość
wielowymiarowej wersji SPEP i nie pozwala jej stosować do
pomiaru wielu wymiarów etyki pracy.
Porównanie użyteczności Klasycznej Teorii Testów i
modelowania Item Response Theory w doskonaleniu
uniwersyteckiego testu wiadomości
Mateusz Blukacz, Aleksandra Tokarz (Uniwersytet
Jagielloński)
Celem referatu jest przedstawienie psychometrii w
kształceniu akademickim, nie jako przedmiotu
nauczania, ale narzędzia kontrolującego jego jakość.
Testy wiadomości są najpopularniejszą metodą
sprawdzenia wiedzy studentów na poziomie
kształcenia akademickiego, aby jednak mogły być
uważane za miarodajne,
wymagają obiektywnej
ewaluacji. Dowodów ich wartości pomiarowej można
42
dostarczyć przeprowadzając analizę psychometryczną
w modelu Klasycznej Teorii Testów lub Item Response
Theory (IRT). Oba podejścia mają swoje mocne i słabe
strony, ale modelowanie IRT oferuje większe
możliwości analityczne, które znajdują specyficzne
zastosowanie w kompleksowej i pogłębionej ocenie
kształcenia. Ilustracją tych stwierdzeń jest analiza
wyników egzaminu (testu wiadomości) z przedmiotu
kanonicznego na I roku psychologii.
Problemy
adaptacji
kulturowej
testów
przeznaczonych do badania uzależnienia od Internetu
Katarzyna Kaliszewska-Czeremska (Uniwersytet Adama
Mickiewicza)
Celem proponowanego referatu jest próba ukazania
trudności na jakie napotyka współczesny badacz
podejmujący się kulturowej adaptacji narzędzi
stosowanych w diagnozie dwóch zjawisk – uzależnienia
od Internetu oraz Internet Gaming Disorder.
Proponowany temat wydaje się o tyle interesujący, że
dotyka kilku ważnych i złożonych
kwestii
psychometrycznych. Z jednej strony będą to problemy
związane stricte z procedurą kulturowej adaptacji
narzędzi wraz z jej prawidłowościami: w tym z
wyborem optymalnej strategii adaptacji, kontekstem
kulturowym w którym pracują narzędzia czy
normalizacją.
Z drugiej strony, obie omawiane grupy narzędzi
stosowane są głównie w Internecie, co stanowi
dodatkową zmienną istotną dla omawianego
zagadnienia. Wymaga bowiem wzięcia pod uwagę
43
osobliwości związanych z realizacją badań online, wraz
z całą złożonością tego procesu. W tej perspektywie
szczególnej uwagi wymaga m.in. kwestia protokołu
badań, czy doboru próby. Niemniej jednak problemami
szczególnie istotnym wydają się tu etyczne i prawne
aspekty prowadzonych badań. Nabierają one przy tym
nowego kolorytu, kiedy prace adaptacyjne – tak jak w
zespołach, w których miała okazję pracować autorka są
prowadzone
równolegle
przez
członków
międzynarodowego zespołu badawczego, a celem prac
jest
dokonanie
porównań
o
charakterze
międzykulturowym.
W trakcie wystąpienia poruszone zostaną wymienione
problemy teoretyczne oraz praktyczne, wraz z
ukazaniem
realnych
przykładów
obrazujących
poruszane kwestie.
44

Program z abstraktami - Katowickie Spotkania Psychometryczne

Transkrypt

Podobne dokumenty

Textbausteine Arbeitsanleitung