Program z abstraktami - Katowickie Spotkania Psychometryczne
Transkrypt
Program z abstraktami - Katowickie Spotkania Psychometryczne
KATOWICKIE SPOTKANIA PSYCHOMETRYCZNE „Teraźniejszość i przyszłość psychometrii” Katowice, 7-8 X 2015 KOMITET PROGRAMOWY dr hab. Zbigniew Spendel (przewodniczący) prof. zw. dr hab. Jerzy Brzeziński dr hab. Jan Cieciuch prof. zw. dr hab. Elżbieta Hornowska dr. hab. prof. UG Roman Konarski prof. dr hab. Władysław Jacek Paluchowski dr hab. Romuald Polczyk prof. zw. dr hab. Bogdan Zawadzki KOMITET ORGANIZACYJNY dr hab. Zbigniew Spendel (przewodniczący) mgr Maria Chełkowska (sekretarz) mgr Maria Flakus mgr Magdalena Hyla mgr Aneta Kałmuk PRZYDATNE INFORMACJE 1 WIFI – z przyczyn technicznych hasło do sieci WiFi będzie zmieniać się co 8 godzin. Aktualne hasła będą się znajdowały w Rejestracji. MIEJSCE OBRAD I BANKIETU 2 PROGRAM Dzień pierwszy (7 października 2015 r.) (Centrum Informacji Naukowej i Biblioteka Akademicka, ul. Bankowa 11a, Katowice) 9:00 – 10:00 – rejestracja uczestników 10:00 – 10:15 – uroczyste otwarcie konferencji, powitanie uczestników 10:15 – 11:15 – wykład plenarny 1: 10:15 – 11:00 – Bogdan Zawadzki (Uniwersytet Warszawski) – Ogólny Czynnik Osobowości 11:00 – 11:15 – dyskusja 11:15 – 12:15 – sesja tematyczna 1: Modele cech ukrytych w badaniach edukacyjnych, (moderatorzy: Jan Cieciuch, Uniwersytet część 1 Kardynała Stefana Wyszyńskiego; Artur Pokropek, Instytut Badań Edukacyjnych) 11:15 – 11:45 – Artur Pokropek (Instytut Badań Edukacyjnych) – Wprowadzenie. Modele diagnostyczne 3 11:45 – 12:00 – Filip Kulon (Instytut Badań Edukacyjnych) – Modele analizy efektu oceniającego 12:00 – 12:15 – Bartosz Kondratek, Paulina Skórska (Instytut Badań funkcjonowanie Edukacyjnych) pozycji testowych – Zróżnicowane jako narzędzie umożliwiające wykrycie zaburzeń założonej struktury wymiarowej testu 12:15 – 12:45 – przerwa kawowa 12:45 – 13:45 – sesja tematyczna 1: Modele cech ukrytych w badaniach edukacyjnych, (moderatorzy: Jan Cieciuch, Uniwersytet część 2 Kardynała Stefana Wyszyńskiego; Artur Pokropek, Instytut Badań Edukacyjnych) 12:45 – 13:00 – Henryk Szaleniec (Instytut Badań Edukacyjnych) – Wykorzystanie modelowania IRT do łączenia wyników z rożnych narzędzi testowych na przykładzie egzaminów zewnętrznych 13:00 – 13:15 – Karolina Świst (Instytut Badań Edukacyjnych) – Zastosowanie skalowania wertykalnego do oceny przyrostu umiejętności polskich uczniów 4 matematycznych 13:15 – 13:30 – Paulina Skórska (Instytut Badań Edukacyjnych) – Możliwości wykorzystania modeli mieszanek IRT do identyfikowania uczniów o niskiej motywacji testowej 13:30 – 13:45 – dyskusja 13:45 – 14:45 – przerwa obiadowa 14:45 – 15:45 – wykład plenarny 2: 14:45 – 15:30 – Jan Cieciuch (Uniwersytet Kardynała Stefana Wyszyńskiego) – Problem równoważności pomiaru (measurement invariance) we współczesnej psychometrii. Opowieść o jabłkach, śliwkach i kwaśnych winogronach 15:30 – 15:45 – dyskusja 15:45 – 17:00 – sesja tematyczna 2: Testy psychologiczne w teorii i praktyce (moderator: Romuald Polczyk, Uniwersytet Jagielloński) 15:45 – 16:00 – Oleg Gorbaniuk, Magdalena Kolańska (Katolicki Uniwersytet Lubelski) – Wykorzystanie metod badania osobowości w badaniach marketingowych 5 16:00 – 16:15 – Małgorzata Górnik-Durose, Łukasz Jach (Uniwersytet Śląski) – Zwodniczy urok (zbyt) pięknych konceptualizacji (na przykładzie badań replikacyjnych nad kołowym modelem celów życiowych) 16:15 – 16:30 – Grzegorz Szopiński, Magdalena Kolańska (Uniwersytet Adama Mickiewicza) – Wykorzystanie metod projekcyjnych w obszarze zarządzania zasobami ludzkimi 16:30 – 16:45 – Bartosz Wojciechowski (Uniwersytet Śląski) – Psychologiczna zastosowaniem analiza treści algorytmów decyzyjnych zeznań z (drzew klasyfikacyjnych i regresyjnych) 16:45 – 17:00 – dyskusja 17:00 – 17:30 – przerwa kawowa 17:30 – 18:30 – sesja tematyczna 3: Nowe techniki diagnostyczne – aspekt konstrukcyjny (moderator: Bogdan Zawadzki, Uniwersytet Warszawski) 17:30 – 17:45 – Paweł Kleka (Uniwersytet Adama Mickiewicza) – Metodologia skracania kwestionariuszy 17:45 – 18:00 – Barbara Ciżkowicz (Uniwersytet Kazimierza Wielkiego) – Przydatność Klasycznej Teorii Testu i IRT w konstrukcji testów 6 18:00 – 18:15 – Krzysztof Kasparek, Marek Muszyński (Uniwersytet Jagielloński) – „Prawda nie leży po środku”: problem właściwego skalowania wartości środkowych w skalach szacunkowych 18:15 – 18:30 – dyskusja 20:00 – 2:00 – uroczysta kolacja i bankiet (Sky Bar, Qubus Hotel, ul. Uniwersytecka 13, Katowice) Dzień drugi (8 października 2015 r.) (Centrum Informacji Naukowej i Biblioteka Akademicka, ul. Bankowa 11a, Katowice) 9:30 – otwarcie konferencji 9:30 – 10:30 – wykład plenarny 3: 9:30 – 10:15 – Roman Konarski (Uniwersytet Gdański) – Modele pomiarowe jako silne modele przyczynowe 10:15 – 10:30 - dyskusja 10:30 – 11:15 – sesja tematyczna 4: Zastosowanie zaawansowanych metod statystycznych w konstrukcji testów, część 1 (moderator: Artur Pokropek, Instytut Badań Edukacyjnych) 7 10:30 – 10:45 – Karolina Świst (Instytut Badań Edukacyjnych) – Detekcja (nie)porównywalności wyników ze względu na wiek – na przykładzie skróconej wersji Kwestionariusza Portretów Wartości (PVQ-21) Shaloma Schwartza 10:45 – 11:00 – Grzegorz Humenny, Paweł Grygiel (Instytut Badań Edukacyjnych) – Zastosowanie eksploracyjnych modeli równań strukturalnych z rotacją celową struktury w analizie międzygrupowej czynnikowej. Przykład niezmienności kwestionariusza „Postrzeganej Integracji Społecznej” 11:00 – 11:15 – Paulina Skórska, Maciej Koniewski, Przemysław Majkut (Instytut Badań Edukacyjnych) – Zróżnicowanie funkcjonowania zadań między różnymi wersjami testu z wykorzystaniem Testlet Response Theory 11:15 – 11:45 – przerwa kawowa 11:45 – 12:45 – sesja tematyczna 4: Zastosowanie zaawansowanych metod statystycznych w konstrukcji testów, część 2 (moderator: Artur Pokropek, Instytut Badań Edukacyjnych) 8 11:45 – 12:00 – Tomasz Żółtak (Instytut Badań Edukacyjnych) – Analiza własności psychometrycznych testu w heterogenicznych populacjach przy pomocy wielopoziomowej analizy czynnikowej 12:00 – 12:15 – Bartosz Kondratek – Jednowymiarowe analizy IRT z wykorzystaniem pakietu uirt dla Stata 12:15 – 12:30 – Aleksandra Jasińska-Maciążek, Anna Hawrot (Instytut inwariancji Badań pomiarowej Edukacyjnych) w badaniu – Analiza podłużnym na przykładzie testu inteligencji 12:30 – 12:45 – dyskusja 12:45 – 13:15 – przerwa kawowa 13:00 – 14:00 – sesja plakatowa: Maria Chełkowska, Maria Flakus, Aneta Kałmuk (Uniwersytet Śląski) – Polska adaptacja Skali podatności na nudę. Ujęcie wielowymiarowe Irena Pilch, (Uniwersytet Lidia Baran, Śląski) – Magdalena Implicit Hyla Relational Assessment Procedure – pomiar postaw utajonych oparty na czasie reakcji 9 Przemysław Majkut, Gabriela Czarnek, Piotr Dragon (Instytut Badań Edukacyjnych) – Metody skracania skal psychologicznych z wykorzystaniem metod IRT Agata Chudzicka-Czupała, Damian Grabowski (Uniwersytet Śląski) – Jedno- i wielowymiarowe podejście w badaniach etyki pracy. Ocena Trafności Czynnikowej i Rzetelności skali Protestanckiej Etyki Pracy Mirelsa i Garretta Mateusz Blukacz, Aleksandra Tokarz (Uniwersytet Jagielloński) – Porównanie użyteczności Klasycznej Teorii Testów i modelowania Item Response Theory w doskonaleniu uniwersyteckiego testu wiadomości 14:00 – 15:00 – przerwa obiadowa 15:00 – 16:30 – dyskusja panelowa: Teoretyczne i praktyczne konsekwencje (moderator: Zbigniew (s)formułowania Spendel, uczestnicy: Brzeziński, Roman Konarski, Romuald Polczyk) 16:30 – zakończenie konferencji 10 IRT Jerzy ABSTRAKTY WYSTĄPIEŃ I POSTERÓW (w kolejności zgodnej z programem konferencji) Modele diagnostyczne Artur Pokropek (Instytut Badań Edukacyjnych) W najpopularniejszych modelach cech ukrytych, stosowanych w pomiarze edukacyjnym, psychologicznym i w badaniach socjologicznych, przyjmuje się założenie, że mierzona cecha ma charakter ciągły, często też jednowymiarowy – tak jak w przypadku klasycznych modeli teorii odpowiedzi na pozycje testowe (item response theory, IRT). Założenia najpopularniejszych modeli nie zawsze jednak muszą okazać się wystarczające wobec teorii stojącej za zadawanymi przez badaczy pytaniami. Klasyczne modele pomiarowe nie zawsze są wystarczająco dobrze dopasowane do danych. Analizy cech ukrytych często wykazują empirycznie, że posiadają więcej niż jeden wymiar. Stąd wziął się rozwój wielowymiarowych modeli IRT i konfirmacyjnej analizy czynnikowej. Badana cecha ukryta nie musi też mieć charakteru ciągłego. Od lat czterdziestych XX wieku rozwijane są modele klas ukrytych, u których podstaw leży założenie o nominalnym charakterze cech ukrytych. Modele diagnostyczne to szeroka gama konfirmacyjnych modeli pomiarowych, które łączą założenie o wielowymiarowości cechy ukrytej z założeniem o jej nieciągłym charakterze. Modele te zawdzięczają swą 11 nazwę praktycznym zastosowaniom, które najczęściej skupiają się na diagnostycznych, a nie różnicujących aspektach pomiaru. W prezentacji szczegółowo opisany zostanie jeden z modeli diagnostycznych: DINA a następnie przedstawione zostanie jego zastosowanie na polskich danych uzyskanych na egzaminie gimnazjalnym w części matematyczno-przyrodniczej. Prezentacja wskaże korzyści płynące z nowego podejścia jak również problemy związane z jego implementacją dla diagnozy edukacyjnej. Modele analizy efektu oceniającego Filip Kulon (Instytut Badań Edukacyjnych) Ocenianie jakiejś cechy przez ludzi powoduje wariancję ocen niezwiązaną z mierzoną cechą. Wariancja ta pochodzi w głównej mierze od oceniającego i zbiorczo nazywana jest efektem oceniającego. Jest to immanentna cecha oceniania i można jedynie dążyć do jej minimalizacji. Najczęściej wyróżnia się cztery typy efektu oceniającego: (1) efekt halo, (2) łagodność/surowość, (3) zniekształcenia skali i (4) precyzję oceniania. Efekt halo objawia się przyznawaniem przez oceniającego oceny na podstawie innej cechy niż mierzona. W zależności od korelacji obydwu cech, można uznać ten typ efektu za błąd systematyczny lub losowy. Łagodność/surowość to systematyczne przyznawanie ocen wyższych/niższych niż rzeczywisty poziom mierzonej cechy. Zniekształcenia skali 12 zawierają wszelkie modyfikacje skali, jak np. jej ograniczenie czy używanie kategorii skrajnych (ekstremizm) i mają charakter błędów systematycznych. Precyzja oceniania wiąże się z rzetelnością pomiaru i losowym składnikiem błędu. Często zgodność ocen jest utożsamiana z rzetelnością pomiaru, jednakże nie jest ona wymagana w celu osiągnięcia wysokiej rzetelności oceniania. Oprócz omówienia poszczególnych typów efektu oceniającego, zaprezentowane zostaną metody jego pomiaru, z których większość bazuje na wielokrotnych ocenach. Proste wskaźniki zgodności (kappa) czy korelacji wewnątrzklasowej nie dostarczają informacji o poszczególnych typach efektów. Bardziej skomplikowane metody można podzielić na te oparte na teorii uniwersalizacji i dekompozycji wariancji oraz na teorii odpowiedzi na pozycje testowe (item response theory, IRT). Wśród tych drugich na szczególną uwagę zasługuje hierarchiczny model efektu oceniającego oparty na teorii detekcji sygnałów (hierarchical rater model with signal detection theory, HRM-SDT). Pozwala on na szacowanie łagodności/surowości, zniekształceń skali oraz precyzji oceniania. Poprzez oparcie HRM-SDT na teorii odpowiedzi na pozycje testowe możliwe jest szacowanie efektów oceniającego bez użycia wielokrotnych ocen. Można tego dokonać, gdy do oszacowania cechy ukrytej mierzonej poprzez oceny zastosujemy równolegle pozycje testowe oceniane automatycznie. Taki model może być szczególnie przydatny w edukacji, gdzie 13 najczęściej oprócz ocen wystawianych przez nauczycieli czy egzaminatorów, używane są zadania zamknięte. Zróżnicowane funkcjonowanie pozycji testowych jako narzędzie umożliwiające wykrycie zaburzeń założonej struktury wymiarowej testu Bartosz Kondratek, Paulina Skórska (Instytut Badań Edukacyjnych) Ze zróżnicowanym funkcjonowaniem pozycji testowej (differential item functioning, DIF) mamy do czynienia, gdy osoby o tym samym poziomie mierzonej przez test cechy, ale należące do różnych grup, charakteryzują się różnym rozkładem odpowiedzi na rozpatrywaną pozycję testową. Występowanie DIF informuje o tym, że oprócz mierzonej testem cechy istnieją jakieś dodatkowe czynniki warunkujące sposób odpowiadania na daną pozycję testową, które jednocześnie są współzmienne z przynależnością grupową. Dzięki temu, analizy DIF stanowią cenne narzędzie do oceny trafności wewnętrznej testu. Zaprezentowane zostanie wykorzystanie analizy DIF w oparciu o wielogrupowe modele teorii odpowiedzi na pozycje testowe (item response theory, IRT) i specyficzne dla tego rozwiązania miary wielkości efektu DIF. Na przykładzie wyników ze sprawdzianu z roku 2014 zostanie zilustrowana zależność między błędnie przyjętym założeniem o jednowymiarowości badanego konstruktu, a wynikami analizy DIF ze względu na płeć uczniów. 14 Wykorzystanie modelowania IRT do łączenia wyników z rożnych narzędzi testowych na przykładzie egzaminów zewnętrznych Henryk Szaleniec (Instytut Badań Edukacyjnych) Podczas analizy danych zebranych z wykorzystaniem testów do pomiaru ukrytych zmiennych częstokroć stajemy przed problemem sprowadzania do wspólnej skali wyników uzyskanych za pomocą różnych narzędzi badających takie same lub zbliżone umiejętności. Szczególnym wyzwaniem jest wyrażenie wyników na wspólnej skali, gdy dane uzyskane za pomocą różnych narzędzi są zebrane w grupach osób mogących różnić się rozkładem ukrytych zmiennych, które podlegają pomiarowi. Przykładem może być próba wyrażenia na wspólnej skali wyników egzaminów zewnętrznych przeprowadzanych w Polsce począwszy od 2012 roku. W wystąpieniu przedstawione zostaną, na przykładzie sprawdzianu przeprowadzanego w szóstej klasie szkoły podstawowej, rozwiązania zastosowane w latach 20112014 w Instytucie Badań Edukacyjnych do zrównania wyników egzaminów zewnętrznych (sprawdzian, egzamin gimnazjalny i matura). W szczególności przedstawione zostaną: podstawowe założenia, które muszą być spełnione w procedurze zrównywania, zastosowany plan łączenia wyników testowania w różnych latach i wielogrupowy model IRT, który został dopasowany do danych z wykorzystaniem algorytmu EM. Zaprezentowane zostaną również zrównane wyniki sprawdzianu począwszy od roku 2002 do 2013, 15 wyrażone w skali standardowej o średniej 100 i odchyleniu standardowym 15, odniesione do roku 2012, który został przyjęty jako referencyjny. Wyniki te zagregowane do poziomu szkół, gmin, powiatów, województw i kraju są powszechnie dostępne dla wszystkich zainteresowanych, w tym badaczy, pod adresem pwe.ibe.edu.pl. Zastosowanie skalowania wertykalnego do oceny przyrostu umiejętności matematycznych polskich uczniów Karolina Świst (Instytut Badań Edukacyjnych) Matematyczne umiejętności ucznia zależą od skumulowanych efektów nauczania matematyki na poprzednich etapach edukacji (IBE, 2011). Jednak do tej pory, w polskim systemie edukacji nie określono sposobu oszacowania średniego postępu uczniów między progami kształcenia. Tradycyjne metody badania zmian poziomu cechy ukrytej takie jak analiza trendów czasowych czy latentnych krzywych rozwojowych (latent growth modeling), wymagają podłużnych planów badawczych. Przedstawiona w niniejszym referacie metoda skalowania wertykalnego pozwala ocenić przyrost umiejętności ucznia bez konieczności prowadzenia czasochłonnego i kosztownego badania podłużnego. Przeprowadzenie tego typu procedury wymaga spełnienia niezmienniczości mierzonych umiejętności pomiędzy kolejnymi etapami edukacyjnymi, co jest założeniem praktycznie niemożliwym do spełnienia. W niniejszym 16 referacie przedstawiono zastosowanie metody podwójnego czynnika (bi-factor model) do oceny przyrostu poziomu umiejętności matematycznych uczniów na podstawie danych zebranych przez Zespół Analiz Osiągnięć Uczniów Instytutu Badań Edukacyjnych. Model podwójnego czynnika pozwala na odseparowanie specyficznej dla danych egzaminów części wariancji i przeprowadzenie łączenia na pozostałej części, wspólnej dla różnych testów. Przedstawiono ocenę dopasowania tego typu modelu oraz analizę uzyskanych skal wertykalnych poprzez oszacowanie średniego przyrostu cechy ukrytej (umiejętności matematycznych),zróżnicowania przyrostu umiejętności matematycznych czy przemieszczenia się rozkładów umiejętności matematycznych. Wyniki są pierwszym krokiem prowadzącym do uzyskania rzetelnej informacji o przyroście umiejętności matematycznych uczniów w polskich szkołach. Możliwości wykorzystania modeli mieszanek IRT do identyfikowania uczniów o niskiej motywacji testowej Paulina Skórska (Instytut Badań Edukacyjnych) Szacowanie umiejętności uczniów, bez uwzględnienia poziomu ich motywacji, może prowadzić do problemów z trafnością wnioskowania (Messick, 17 1989; 1995). Wyłączenie z analiz danych niezmotywowanych uczniów prowadzi do utraty informacji. Dlatego lepszym rozwiązaniem jest uwzględnienie informacji o obniżonej motywacji uczniów w modelu. Jednym ze sposobów na to jest wykorzystanie modeli mieszanek IRT. Modele mieszanek IRT (mixture IRT models) łączą ze sobą dwa rodzaje modeli wykorzystywanych w pomiarach cechy ukrytej: modelowanie w ramach teorii odpowiedzi na pozycje testowe (Item Response Theory, IRT) oraz analizę klas ukrytych (latent class analysis, LCA). Pozwalają na wykrycie klas ukrytych uczniów odpowiadających na pytania testowe w sposób jakościowo różny oraz sprawdzenie, do jakiego stopnia uwzględnienie informacji o motywacji uczniów wpływa na ich przynależność do konkretnych klas. Celem wystąpienia jest przedstawienie zastosowania modeli mieszanek IRT do wykrycia uczniów niezmotywowanych oraz ocena adekwatności tej metody. Dane będące podstawą analiz zostały zebrane przez Zespół Analiz Osiągnięć Uczniów IBE w 2014 r. (losowa próba uczniów gimnazjum, n=1617). Do pomiaru motywacji wykorzystano kwestionariusz motywacji polskiej wersji Skali Opinii Uczniów (Sundre, 2007), przetłumaczonej za zgodą autorki. Wpływ motywacji testowej był analizowany w kontekście umiejętności matematycznych uczniów. Ocena możliwości zastosowania modeli mieszanek IRT opierała się na: a) porównaniu dobroci dopasowania modelu IRT w porównaniu do klasycznego modelu IRT; 18 b) możliwości interpretacji klas ukrytych w kategoriach motywacji testowej oraz c) weryfikacji stopnia, do jakiego dodatkowa zmienna (SOS) pozwala przewidzieć przynależność do danej klasy ukrytej. Wyniki wskazują, że wykorzystanie modeli mieszanek IRT do wykrywania niezmotywowanych uczniów może stanowić punkt wyjścia do analiz mających na celu zwiększenie trafności wnioskowania na podstawie rozwiązywanych przez uczniów testów umiejętności. Modele mieszanek IRT można więc wykorzystywać do walidacji innych metod – określenia spójności ich wyników z wynikami miar samoopisowych, ale także miar zachowania uczniów (np. analiza czasów reakcji (RTE) w kontekście liczby opuszczonych w teście zadań otwartych). Wykorzystanie metod badania osobowości w badaniach marketingowych Oleg Gorbaniuk, Magdalena Kolańska (Katolicki Uniwersytet Lubelski) Już w latach 50-tych ubiegłego wieku definiowano marki poprzez ich osobowość (Martineau, 1958), a lata 60-te to początek badań nad zbieżnością obrazu siebie z wizerunkiem użytkownika marki lub wizerunkiem marki (Dolich, 1969;Hamm, Candiff,, 1969; Grubb, Grathwoll 1967). Początek tych rozważań stanowiło 19 zagadnienie atrakcyjności interpersonalnej (Byrne, 1961), które postuluje, że ludzie preferują i darzą większą sympatią osoby, które uważają za podobne do siebie. Wyniki te przeniesiono na grunt psychologii zachowań konsumenckich i sformułowano założenie, iż konsumenci preferują marki, które w ich odbiorze są podobne do nich samych (Grubb, Stern, 1971). Założenie to potwierdziły liczne badania (Heath, Scott, 1998; Dennison, Shepherd, 1995; Chang, 2002; Chon, Olsen,1991; Helgeson, Supphellen, 2004; Jamal, 2004; Chebat, Hedli, Sirgy, 2009). Główną przesłanką teorii kongruencji jest to, iż zwiększenie podobieństwa (czyli zbieżności własnego obrazu siebie i obrazu marki/jej typowego użytkownika) zwiększa prawdopodobieństwo pozytywnego działania (np. zakupu) w odniesieniu do tej marki (Gould, 1991; Graeff 1996; Sirgy, 1982, 1986; Yu i in.,2013). W przypadku kongruencji możemy wskazywać na dwa główne sposoby jej pomiaru: pośredni i bezpośredni. Pomiar pośredni charakteryzuje najpierw opisanie cech typowego użytkownika marki za pomocą skali a następnie opisanie obrazu siebie za pomocą tej skali i porównanie tych wyników (Gorbaniuk, Stachoń, 2011; Birdwell, 1968; Dolich, 1969; Grubb & Grathwhohl, 1967; Sirgy, 1986, Gould, 1991; Graeff, 1996; Sirgy, 1982, 1986; Sutherland i in., 2004). W tego typu badaniach wykorzystuje się skale (1) tworzone ad hoc – ale czasochłonne (Gorbaniuk, Stachoń, 2011) (2) skale do badania osobowości człowieka (Caprara i in., 1998; 20 Ferrandi, Valette-Florence 2002), (3) skale do badania osobowości marki: np. skala Poddar, Donthu i Wei (2009), skala Aaker (1996) – wykorzystane w wielu badaniach (O’Cass, Grace, 2008; Buresti, Rosenberg, 2006;Lam, Ahearne, Mullins, Hayati, Schillewaert, 2013). Zwodniczy urok (zbyt) pięknych konceptualizacji (na przykładzie badań replikacyjnych nad kołowym modelem celów życiowych) Małgorzata Górnik-Durose, Łukasz Jach (Uniwersytet Śląski) Podczas wystąpienia zostaną zaprezentowane wyniki badań replikacyjnych dotyczących odtwarzania się w warunkach polskich kołowej struktury celów życiowych, badanych przy pomocy osadzonego w teorii autodeterminacji kwestionariusza Aspiration Index (Grouzet i wsp., 2005). Choć autorzy oryginalnej wersji narzędzia przedstawiają aspiracje życiowe jako właściwości psychologiczne tworzące identyczny układ niezależnie od kontekstu kulturowego (15 prób; łączne n = 1854 osoby), proponowanej przez nich struktury czynnikowej nie udało się odtworzyć w żadnej z dziewięciu polskich prób badawczych (łączne n=1762 osoby). Co więcej, w warunkach polskich część skal badających poszczególne cele życiowe konsekwentnie wykazywała się niesatysfakcjonującym poziomem spójności wewnętrznej. W kontekście atrakcyjnego dla potencjalnych użytkowników narzędzia (11 skal pozostających do siebie w określonych relacjach i ułożonych na dwóch wymiarach) oraz braku innych 21 prób replikacji wyników badań Grouzeta i współpracowników, przy jednoczesnym częstym powoływaniu się na ich pracę w innych publikacjach (322 cytowania do końca stycznia 2015 r. wg bazy GoogleScholar), autorzy stawiają pytania o przydatność urzekających estetyką modeli wypracowywanych w ramach popularnych koncepcji teoretycznych oraz sposoby postępowania w sytuacji, gdy próby adaptowania narzędzi nie przynoszą satysfakcjonujących efektów. Wykorzystanie metod projekcyjnych w obszarze zarządzania zasobami ludzkimi Grzegorz Szopiński (Uniwersytet Adama Mickiewicza) Metody projekcyjne towarzyszą psychologii niemal od początku jej istnienia jako dyscypliny naukowej. Większość z nich jest raczej kojarzona z psychologią kliniczną i przede wszystkim w tym obszarze były one przedmiotem kontrowersji. Były one również stosowane w badaniach z zakresu zarządzania zasobami ludzkimi, w szczególności w obszarze rekrutacji i selekcji pracowników. Niniejsza praca stanowi przegląd badań empirycznych dotyczących możliwości wykorzystania metod projekcyjnych w tej dziedzinie. Wykorzystano w niej taksonomię, zaproponowaną prze Lindzeya i powtórzoną przez Lilienfelda, dzielącą metody projekcyjne na asocjacyjne, konstrukcyjne, aranżacyjne i oparte na uzupełnianiu. Pierwsza z nich dotyczy przede wszystkim testu plam atramentowych Rorschacha. Jego 22 uwarunkowania oraz historyczne i przyszłe zastosowania w dziedzinie zasobów ludzkich zostały szczegółowo omówione. Spośród metod konstrukcyjnych szczególną uwagę poświęcono szeroko stosowanemu testowi apercepcji tematycznej. W dalszej części pracy omówione zostały metody uzupełniania zdań oraz test Tomkina-Horna. Finalna część pracy poświęcona jest wskazaniom praktycznym oraz ograniczeniom dotyczącym stosowania metod projekcyjnych przez specjalistów z zakresu zasobów ludzkich. Psychologiczna analiza treści zeznań z zastosowaniem algorytmów decyzyjnych (drzew klasyfikacyjnych i regresyjnych) Bartosz Wojciechowski (Uniwersytet Śląski) Drzewa klasyfikacyjne są szeroko wykorzystywane w różnych dziedzinach nauk stosowanych, tak odmiennych jak medycyna, nauki komputerowe, czy botanika. Pozwalają na ustalenie, czy dany przypadek przynależy do określonego zbioru, na podstawie wyników pomiaru jednej albo kilku zmiennych. Celem analizy z wykorzystaniem drzewa klasyfikacyjnego jest uzyskanie możliwie najbardziej trafnego przewidywania - stworzenie takiego algorytmu decyzyjnego, który pozwoli na prawidłowe zaliczenie określonego przypadku, do właściwej kategorii. Psychologiczna analiza treści zeznań z wykorzystaniem kryteriów treściowych Statement Validity Assessment umożliwia prawidłową 23 klasyfikację 65,67% zeznań prawdziwych i 64% zeznań fałszywych, analiza treściowa zeznań z zastosowaniem kryteriów treściowych Reality Monitoring prowadziła w badanej grupie do 55,41% prawidłowych klasyfikacji (54,61% zeznań prawdziwych i 59.25% zeznań fałszywych), a zastosowanie Modelu Wielozmiennowej Analizy Zeznań Świadków Dorosłych pozwalało na prawidłową klasyfikację w 89,86% przypadków, przy czym wskaźnik prawidłowych klasyfikacji dla zeznań prawdziwych wyniósł 96,87%, ale dla zeznań fałszywych wynosił już tylko 45%. Analiza zeznania z zastosowaniem kryteriów treściowych Statement Validity Assessment według uzyskanego algorytmu pozwala na prawidłową klasyfikację 100% zeznań prawdziwych i 84% zeznań fałszywych. W przypadku zastosowania kryteriów treściowych Reality Monitoring i oparcia decyzji o zakwalifikowaniu relacji świadka do określonej kategorii na wskazaniach algorytmu, można przewidywać, że prawidłowa klasyfikacja nastąpi w odniesieniu do 99,22% zeznań prawdziwych i 96,30% zeznań fałszywych. Stworzony z pomocą analizy drzew klasyfikacyjnych algorytm, wymagający porównania wyników oceny dziewięcioma kryteriami MASAM, pozwala na prawidłową klasyfikację wszystkich (100%) zeznań prawdziwych i niemal każdego (90%) z poddanych analizie zeznań fałszywych. Wykorzystanie drzew klasyfikacyjnych pozwala także na obiektywizację rezultatów analizy treściowej, a uzyskane algorytmy decyzyjne dostarczają 24 precyzyjnych wskazówek co do tego, w jaki sposób wyniki analizy treściowej przeprowadzonej z zastosowaniem kryteriów SVA, RM lub MASAM, powinny zostać zinterpretowane. Metodologia skracania kwestionariuszy Paweł Kleka (Uniwersytet Adama Mickiewicza) Korzystanie ze skróconych wersji narzędzi pomiarowych w psychologii można uznać za uzasadnione praktycznie i teoretycznie. Motywy skracania związane są głównie ze skróceniem czasu badania oraz zmniejszeniem nakładów finansowych. Często też pojawia się potrzeba użycia krótkich wersji, gdy plan badawczy przewiduje zastosowanie całej baterii testów, która w wersji kompletnej mogłaby być zbyt obciążająca lub gdy trzeba stosować wersje równoległe przy pomiarze wielokrotnym. Używając krótszych wersji można też bardziej dostosować czas badania do możliwości poznawczych i emocjonalnych uczestników badań, a także zróżnicować stawiane przednimi zadania. Psychologowie stosujący kwestionariusze mogą ulec pokusie, aby skrócone wersje narzędzi opierać na swojej intuicji, zaniedbując przy tym wymogi metodologiczne. Skrócone formy nie są poddawane wnikliwej analizie psychometrycznej, ponieważ zakłada się, że trafność i rzetelność narzędzia pełnego zapewnia dobre parametry także narzędziu pochodnemu – jest to niczym nie uzasadnione założenie, ponieważ skrócone narzędzie ma takie same 25 szanse być lepsze, gorsze jak i takie same pod względem parametrów trafności i rzetelności. Podobnie błędnym założeniem jest zgoda na niższy poziom rzetelności tylko dlatego, że narzędzie skrócone jest krótsze. Chcę zaproponować procedurę skracania kwestionariuszy badawczych, pokazać możliwą empiryczną ewaluację skróconych wersji oraz rozważyć zalety i wady różnych metod skracania, zarówno od strony teoretycznej jak i na przykładzie analiz statystycznych. Przydatność Klasycznej Teorii Testu i IRT w konstrukcji testów Barbara Ciżkowicz (Uniwersytet Kazimierza Wielkiego) W psychometrii powszechnie stosowanym modelem statystycznym jest Klasyczna Teoria Testu (KTT). Jej niewątpliwą zaletą jest brak rygorystycznych założeń oraz łatwość interpretacji wyników. Stosowane w niej wskaźniki są intuicyjnie zrozumiałe. W KTT kluczowym poję-ciem jest wynik prawdziwy. Jednak wynik ten jest zależny zarówno od testu, jak i od próby badawczej. Stanowi to istotne ograniczenie. Jednocześnie w psychometrii rozwijane są inne podejścia teoretyczne. Należą do nich modele cechy latentnej (latent trait model, LTM), którego szczególnym przypadkiem jest model wyniku zadania testowego (item response theory, IRT). W tym podejściu teoretycznym poziom umiejętności jest pojęciem fundamentalnym, a nieliniowy związek między poziomem umiejętności a prawdopodobieństwem prawidłowej odpowiedzi na zadanie testowe jest inwariantny względem próby oraz 26 testu. Na etapie konstrukcji testu stwarza to możliwości niedostępne w podejściu klasycznym, zapewniające większą precyzję pomiaru. Dotyczy to głownie możliwości konstrukcji testów o ściśle określonych charakterystykach. Na wstępie przedstawione zostaną założenia teoretyczne modelu KTT i modelu IRT. oraz porównane klasyczne i probabilistyczne miary jakości zadania i jakości testu. Na przykładzie pokazane zostaną różnice w jakości testu wynikające z zastosowania metody zgodności wewnętrznej i funkcji informacyjnej do szacowania błędu pomiaru. „Prawda nie leży po środku”: problem właściwego skalowania wartości środkowych w skalach szacunkowych Krzysztof Kasparek, Marek Muszyński (Uniwersytet Jagielloński) Skale szacunkowe (np. typu Likerta) są jednym z najbardziej rozpowszechnionych narzędzi badawczych w naukach społecznych (Stacey, 2013). O ich popularności decyduje stosunkowa prostota i wygoda użycia, tak po stronie badacza, jak i badanych. Metoda ta ma również swoje wady- zbiera się dane będące subiektywnymi interpretacjami badanych, którzy mogą kłamać, kierować się aprobatą społeczną (Edwards, 1957) lub ulegać zniekształceniom poznawczym. Jest również wrażliwa na stosowanie przez badanych stylów 27 odpowiedzi, czyli odpowiadanie na pytania zawsze w ten sam sposób, niezależnie od ich treści (Paulhus, 1991). Najczęściej opisywane style odpowiedzi to (nad)używanie odpowiedzi skrajnych (extreme response style) oraz (nad)używanie odpowiedzi środkowych (Pokropek, 2014). Nadużywanie odpowiedzi środkowej może świadczyć nie tyle o neutralnym stosunku badanych do tematu, co o chęci uniknięcia odpowiadania na pytanie, np. z powodu braku jego zrozumienia lub poczucia, że „mnie to nie dotyczy” (Khorramdel i van Davier, 2014; Kulas, Stachowski i Haynes, 2008). Brak uwzględnienia powyższych zagrożeń w analizie danych zebranych za pomocą skal szacunkowych może poważnie zagrozić trafności analiz. Celem wystąpienia jest prezentacja metod pozwalających na identyfikację respondentów traktujących odpowiedzi środkowe, jako synonim odpowiedzi „nie wiem” oraz krótkie omówienie metod umożliwiających kontrolowanie efektów wywołanych przez style odpowiedzi. W wystąpieniu zaprezentowane zostaną skutki jakie dla wyników badań niesie eliminacja respondentów nadużywających odpowiedzi środkowych. W tym celu posłużono się konfirmacyjną analizą klas ukrytych (Moors, Kieruj i Vermunt, 2014) oraz dekonstrukcją skali szacunkowej za pomocą wielomianowych drzew decyzyjnych (multinomial processing trees; Bockenholt, 2012; Pokropek, 2014). Wpływ stylów odpowiedzi na wyniki poszczególnych pozycji w kwestionariuszu 28 zilustrowany zostanie za pomocą modeli z rodziny teorii odpowiedzi na pozycje testową dla danych politomicznych (polytomous item-response theory; Ostini i Nering, 2006). Dane, które posłużyły do ilustracji wyżej opisanych problemów pochodziły z badania dotyczącego zadowolenia z jakości życia mieszkańców jednego z największych miast w Polsce. Detekcja (nie)porównywalności wyników ze względu na wiek – na przykładzie skróconej wersji Kwestionariusza Portretów Wartości (PVQ-21) Shaloma Schwartza Karolina Świst (Instytut Badań Edukacyjnych) Mierzenie cech ukrytych opiera się na zadawaniu tych samych pytań respondentom przy apriorycznym założeniu, że interpretacja docelowego konstruktu nie zmienia się wraz z, wiekiem jednostki oraz zachodzącym jakościowymi zmianami rozwojowymi (np. w strukturze osobowości, spowodowanych co raz większym przystosowaniem się do pełnionych ról społecznych). Nie uwzględnia się także faktu, że w różnych kohortach wiekowych, znaczenie mierzonego konstruktu może być diametralnie inne – np. ze względu na dorastanie w różnych warunkach społecznych, politycznych i ekonomicznych. W 29 niniejszym referacie przedstawię analizę porównywalności ze względu na wiek wyników uzyskanych w skróconej wersji Kwestionariusza Portretów Wartości (PVQ-21) Shaloma Schwartza (2007). Skala ta jest wykorzystywana między innymi w Europejskim Sondażu Społecznym. W celu wyeliminowania innych źródeł nieporównywalności, analiza zostanie przeprowadzona wyłącznie dla danych z Polski. Testowanie porównywalności ze względu na wiek odbędzie się przy pomocy następujących metod, wywodzących się zarówno z Klasycznej Teorii Testów (KTT) jak i teorii reakcji na pozycję testową (item response theory, IRT): korelacji jej wyników z wiekiem, testowania inwariancji pomiaru przy pomocy wielogrupowej analizy czynnikowej (multigroup confirmatory factor analysis, MCFA), oraz detekcji zróżnicowanego funkcjonowania pozycji testowej (differential item functioning, DIF) ze względu na wiek. Niniejsze analizy pomogą odpowiedzieć na pytanie czy zasadne jest raportowanie wyników dotyczących wyznawanych wartości bez wzięcia pod uwagę odmiennej specyfiki pomiaru związanej z przynależnością do różnych grup wiekowych. Zastosowanie eksploracyjnych modeli równań strukturalnych z rotacją celową w analizie międzygrupowej niezmienności struktury czynnikowej. Przykład kwestionariusza „Postrzeganej Integracji Społecznej” 30 Grzegorz Humenny, Paweł Grygiel (Instytut Badań Edukacyjnych) Celem wystąpienia jest przedstawienie możliwości wykorzystania eksploracyjnych modeli równań strukturalnych z rotacją celową, zakładających występowanie struktury hierarchicznej do testowania międzygrupowej niezmienności (inwariancji) pomiarowej. Eksploracyjne modele równań strukturalnych (ESEM) są sposobem analiz struktury latentnej łączącej elementy eksploracyjne (EFA) oraz konfirmacyjne (CFA). W odróżnieniu od modeli CFA zakładają dysponowanie jedynie częściową wiedzą na temat relacji zachodzących między zmiennymi latentnymi a wskaźnikami. W połączeniu z rotacją celową (target rotation) umożliwiają wprowadzenie do modelu warunków wstępnych (np. co do wielkości ładunków czynnikowych), mogących ulegać zmianom w trakcie estymacji. W efekcie prowadzi to do mniej obarczonego szacowania parametrów struktury latentnej. Istotne, że w odróżnieniu od modeli “czysto” konfirmacyjnych umożliwiają one uwzględnienie występowania tzw. ładunków krzyżowych (crossloadings). Współczesne badania psychometryczne wskazują, że modele te mogą być z sukcesem stosowane w analizie specyficznych typów struktury latentnej, tj. (1) modeli wyższego rzędu (higher-order) i/lub (2) podwójnego czynnika (bi-factor). Oba zakładają, że zmienność wskaźników można podzielić na część: (1) wspólną dla wszystkich pozycji; (2) specyficzną jedynie dla ich 31 części. Przy czym, o ile w modelach wyższego rzędu to, co wspólne dla wszystkich wskaźników jest estymowane jako część wspólna czynników niższego rzędu, o tyle w modelach podwójnego czynnika najpierw wyłączana jest wspólna zmienność dla wszystkich wskaźników, a następnie estymowana wariancja wspólna jedynie dla części zmiennych obserwowalnych. Przeprowadzone analizy koncentrować się będą na: (1) wskazaniu optymalnego modelu pomiarowego kwestionariusza “Postrzeganej Integracji Społecznej” oraz (2) weryfikacji stabilności (niezmienności) zaproponowanego rozwiązania pomiędzy dwoma kolejnymi rocznikami uczniów klas trzecich szkół podstawowych. W analizach wykorzystane zostaną dane pochodzące z dwóch dużych ogólnopolskich badań zrealizowanych przez Instytut Badań Edukacyjnych, tj. (1) Edukacyjnej Wartości Dodanej (EWD); (2) Szkolnych Uwarunkowań Efektywności Kształcenia (SUEK). Testowanie modeli przeprowadzone zostanie przy pomocy pakietu Mplus, w oparciu o macierz korelacji polichorycznej oraz estymator WLSMV (ważonych najmniejszych kwadratów ze skorygowaną średnią i wariancją). Zróżnicowanie funkcjonowania zadań między różnymi wersjami testu z wykorzystaniem Testlet Response Theory 32 Paulina Skórska, Maciej Koniewski, Przemysław Majkut (Instytut Badań Edukacyjnych) Standaryzowane testy osiągnięć edukacyjnych stanowią istotny element polskiego systemu oświaty. W celu zapobiegania oszukiwaniu na egzaminie przez odpisywanie od siebie przez uczniów, egzaminy przeprowadzane są w dwóch wersjach. Obie wersje zawierają takie same zadania, jednak różnią się sekwencją odpowiedzi w zadaniach zamkniętych wielokrotnego wyboru. Celem prezentowanych analiz jest ocena zróżnicowanego funkcjonowania zadań między wersjami testu. Analizowano zadania z arkusza wersji A i B egzaminu gimnazjalnego z historii i wiedzy o społeczeństwie z 2013 r. Dane pochodziły z arkuszy odpowiedzi uczniów z województw lubelskiego, małopolskiego i podkarpackiego (n=81545). W celu detekcji DIF wykorzystano test Mantel-Haenshela, regresję logistyczną oraz standaryzację. Wyniki analiz wskazują na istotne różnice w funkcjonowaniu zadań między wersjami A i B testu w sytuacji, gdy w jednej wiązce zadań prawidłowa odpowiedź jest oznaczona zawsze tym samym symbolem, np. A, A, A. W takiej sytuacji poprawna odpowiedź na dwa z nich obniża szansę na poprawną odpowiedź na trzecie zadanie w wiązce o 27 do 52%, przy kontroli poziomu umiejętności ucznia. Szansa udzielenia poprawnej odpowiedzi na trzecie zadanie w wiązce jest niższa w przypadku zadań o większej trudności. Przedstawiono wyjaśnienie tego zjawiska w odniesieniu do złudzenia gracza (Gambler’s fallacy), złamania założeń o lokalnej 33 niezależności odpowiedzi na zadania oraz metody pozwalające na szacowanie parametrów modelu z uwzględnieniem wzajemnej zależności zadań w wiązkach (Testlet Response Theory). Analiza własności psychometrycznych testu w heterogenicznych populacjach przy pomocy wielopoziomowej analizy czynnikowej Tomasz Żółtak (Instytut Badań Edukacyjnych) Konfirmacyjna analiza czynnikowa, w różnych odmianach, jest jedną z klasycznych metod wykorzystywanych do analizy własności testów psychometrycznych. Korzystając z niej, tradycyjnie zakłada się, że modelowane zależności pomiędzy mierzonym konstruktem a zmiennymi obserwowalnymi, opisującymi reakcje badanych na zadania testowe, przebiegają w ten sam sposób w ramach całej badanej grupy (populacji). Założenie to nie zawsze jest jednak słuszne, gdyż właściwości psychometryczne testu same w sobie mogą systematycznie różnicować się zarówno ze względu na indywidualne cechy badanych, jak też ze względu na wpływ zjawisk o charakterze grupowym. Z tym drugim zjawiskiem możemy mieć do czynienia zwłaszcza wtedy, gdy badana zbiorowość (próba) w oczywisty sposób składa się z grup, stanowiących istotny kontekst funkcjonowania jednostek, jak na przykład szkoła czy klasa w przypadku badań edukacyjnych. W niniejszym referacie opisany zostanie sposób modelowania takiego wpływu pogrupowania na 34 własności psychometryczne testu, z wykorzystaniem metody wielopoziomowej analizy czynnikowej. Możliwości i ograniczenia tej metody oraz sposób interpretacji wyników zaprezentowane zostaną w kontekście innych sposobów modelowania zróżnicowania własności psychometrycznych testu: analizy zróżnicowania funkcjonowania zadań testowych (Differential Item Functioning) przy pomocy modeli wielogrupowej analizy czynnikowej oraz wieloaspektowego modelu Rascha. Zasygnalizowane zostaną również możliwości wykorzystania metod wielopoziomowych w modelowaniu równań strukturalnych (SEM). Na potrzeby ilustracji empirycznej wykorzystane zostaną dane z badań edukacyjnych, obejmujące szeroko wykorzystywane testy psychologiczne: Test Matryc Ravena oraz Inwentarz Stanu i Cechy Lęku. Jednowymiarowe analizy IRT z wykorzystaniem pakietu uirt dla Stata Bartosz Kondratek (Instytut Badań Edukacyjnych) Zaprezentowany zostanie autorski program uirt (unidimensional item response theory models) działający w środowisku Stata, który umożliwia przeprowadzanie szeregu analiz w ramach jednowymiarowych modeli teorii odpowiedzi na pozycje testowe (item response theory, IRT). Modele IRT rozdzielają właściwości badanych osób od właściwości pozycji testowych i stały się ważnym elementem przeprowadzanych współcześnie badań 35 nad cechami ukrytymi zarówno w psychologii jak i edukacji. Analizy oparte na IRT są nieocenione na etapie konstrukcji narzędzi, ale również na etapie wnioskowania o poziomie badanych cech, zwłaszcza, gdy badanie odbywa się przy zmiennej ekspozycji pozycji testowych, jak to ma miejsce np. w komputerowym testowaniu adaptatywnym (computerized adaptive testing, CAT). Program uirt szacuje parametry jednowymiarowych modeli IRT zarówno dla pozycji testowych ocenianych dwupunktowo (1pl, 2pl, 3pl), jak i wielopunktowo (grm, pcm, gpcm). Obsługuje modele wielogrupowe oraz pozwala na przeprowadzenie analizy zróżnicowanego funkcjonowania pozycji testowych (differential item functioning, DIF). Oprócz oszacowań punktowych mierzonej testem zmiennej ukrytej, program uirt pozwala także na generowanie tzw. wartości możliwych (plausible values, PVs), wykorzystywanych w celu uwzględnienia informacji o nierzetelności pomiaru w późniejszych analizach statystycznych. Analiza dopasowania w ramach programu uirt jest przeprowadzana w sposób graficzny, z wykorzystaniem PV do grupowania badanych osób w przedziały zmiennej ukrytej. Podstawowa funkcjonalność programu uirt zostanie zilustrowana z wykorzystaniem prawdziwych oraz symulacyjnych danych. Przeprowadzone zostanie również porównanie działania uirt w zestawieniu wbudowanym do Stata 14 modułem do analiz IRT, a także z programem Parscale 4.0. 36 Analiza inwariancji pomiarowej w badaniu podłużnym na przykładzie testu inteligencji Aleksandra Jasińska-Maciążek, Anna Hawrot (Instytut Badań Edukacyjnych) Oszacowanie zmiany nasilenia cechy ukrytej wymaga przyjęcia założenia, że w różnych punktach czasowych mierzymy ten sam konstrukt wyrażony na tej samej skali. Nawet wykorzystane tego samego narzędzia nie uprawomocnia nas do przyjęcia tego założenia bez wcześniejszej weryfikacji inwariancji pomiaru. Jeśli nie jest ona zachowana, wyciąganie wniosków z porównania wyników dwóch pomiarów może być nieuzasadnione. Dodatkowo badając cechę, która rozwija się w czasie, należy dostosować narzędzie do jej poziomu w momencie badania w celu uniknięcia efektu sufitowego lub podłogowego testu. W tym celu najczęściej wykorzystuje się narzędzia z pulą pozycji powtarzanych w obu pomiarach, które pozwolą zdefiniować wspólną skalę (tzw. pozycje kotwiczące), oraz pozycji unikalnych dla danego momentu pomiaru odpowiednio łatwiejszych i trudniejszych. W referacie omówiona zostanie metoda testowania inwariancji dwukrotnego pomiaru w schemacie badania podłużnego. Wykorzystano dane 5924 uczniów ze 150 gimnazjów z całej Polski, zebrane w toku badania podłużnego EWD w gimnazjach. W badaniu wykonano dwa pomiary inteligencji uczniów (w pierwszej i trzeciej klasie) za pomocą Testów Matryc 37 Ravena (TMR). W pierwszej klasie wykorzystano TMR w wersji Standard. Okazał się on łatwy, dlatego w trzeciej klasie uczniowie wypełnili 3 serie TMR w wersji Standard oraz 24 pozycje serii II TMR w wersji dla Zaawansowanych. Pozwoliło to uniknąć efektu sufitowego oraz umożliwiło wyrażenie wyników na wspólnej skali. Przed oszacowaniem przyrostów inteligencji zbadano inwariancję pomiaru zadań kotwiczących. Wyniki analiz pokazały konieczność przyjęcia modelu z częściową inwariancją, gdyż nie wszystkie pozycje okazały się ekwiwalentne. W referacie omówione zostaną ograniczenia testowania inwariancji pomiaru w schemacie badania podłużnego z wykorzystaniem testów z pulą zadań kotwiczących. Przedyskutowane zostaną także konsekwencje braku inwariancji niektórych pozycji dla interpretacji wyników TMR z powtórzonych pomiarów. Polska adaptacja Skali podatności na nudę. Ujęcie wielowymiarowe Maria Chełkowska, Maria Flakus, Aneta Kałmuk (Uniwersytet Śląski) Do najpowszechniej stosowanych narzędzi psychometrycznych służących do pomiaru nudy należy Skala podatności na nudę (The Boredom Proneness Scale - BPS) autorstwa Farmera i Sundberga (1986). Na chwilę obecną narzędzie to uznać należy za jedyne badające nudę sensu stricto (Vodanovich 2003). Badania prowadzone przy użyciu BPS wskazują, że 38 podatność na nudę jest konstruktem wieloczynnikowym (Vodanovich 2003). W wielu pracach odnaleźć można dowody na pięcioczynnikową (Gordon i in., 1997; Vodanovich, Kass, 1990) , a nawet ośmioczynnikową (Vodanovich, Watt, Piotrowski, 1997) strukturę podatności na nudę. Literatura wskazuje także na możliwość istnienia rozwiązań dwuczynnikowych (Ahmed, 1990; Gana, Akremi, 1998; Vodanovich, Wallace, Kass, 2005). Autorki prezentują wyniki badań, prowadzonych przy użyciu polskiej adaptacji BPS, skoncentrowane na poszukiwaniu struktury czynnikowej podatności na nudę w populacji polskiej. Implicit Relational Assessment Procedure – pomiar postaw utajonych oparty na czasie reakcji Irena Pilch, Lidia Baran, Magdalena Hyla (Uniwersytet Śląski) Rosnąca wiedza na temat nieświadomego odbierania przez człowieka bodźców z otoczenia (Wróbel, 2001) prowadzi do zwiększającego się zainteresowania możliwościami pomiaru procesów poznawczych przebiegających na poziomie utajonym. Jednym z obszarów badań, należących do tej sfery są analizy dotyczące postaw utajonych - introspekcyjnie niezidentyfikowanych lub identyfikowanych nietrafnie (Greenwald, Banaji, 1995), które wpływają na zachowanie. Dominującą metodą wykorzystywaną w Polsce do pomiaru postaw utajonych jest Test Utajonych 39 Skojarzeń (Implicit Association Test, IAT; Greenwald, McGhee, Schwartz, 1998), czyli komputerowa metoda opierająca się na pomiarze czasu dopasowania obiektów do konkretnych atrybutów określanego jako siła skojarzenia. Alternatywną metodą umożliwiającą pomiar procesów przebiegających na poziomie nieświadomym, niestosowaną dotychczas w Polsce, jest Implicit Relational Assessment Procedure (IRAP; Barnes-Holmes i in., 2006), której podstawy teoretyczne oparte są na Teorii Ram Relacyjnych (Relational Frame Theory, RFT; Hayes, Barnes-Holmes, Roche, 2001). Celem prezentacji jest przedstawienie podstaw metody IRAP, zaprezentowanie wyglądu ekranów testowych, sposobu doboru wykorzystywanych w badaniu bodźców oraz obliczania i interpretacji wyników. Prezentacja umożliwi zapoznanie się z nową metodą pomiaru postaw utajonych oraz pierwszymi doniesieniami z badań przeprowadzonych z jej wykorzystaniem w polskich warunkach kulturowych. Metody skracania skal psychologicznych z wykorzystaniem metod IRT Przemysław Majkut, Gabriela Czarnek, Piotr Dragon (Instytut Badań Edukacyjnych) Teoria odpowiadania na pozycje testowe (Item Response Theory, IRT) jest coraz częściej wykorzystywana do konstrukcji skal psychologicznych. W naszej prezentacji skupimy się jednak na wykorzystaniu IRT do skracania już istniejących skal 40 psychologicznych na przykładzie Skali Potrzeby Poznawczego Domknięcia (Need for Cognitive Closure, NFC). Skala NFC (Webster & Kruglanski, 1994; polska wersja Kossowskiej, 2003) jest jedną z najpopularniejszych miar zamkniętości umysłowej w psychologii społecznej. Składają się na nią 32 pozycje testowe, w których osoby badane proszone są o ustosunkowanie się do podanych twierdzeń na 6-stopniowej skali Likerta. W kilku opublikowanych badaniach, autorzy używali wybranych pozycji testowych bez podawania przyczyn takich zabiegów (np. Keller, 2005; Kemmelmeier, 2010; Lynch, Neteme, Spiller i Zammit, 2010). Niedawno, polska wersja skali NFC doczekała się skróconej wersji, której dokonano na podstawie wyników konfirmacyjnej analizy czynnikowej (Kossowska, Trejtowicz, & Hanusz, 2012). Celem naszego badania było porównanie parametrów skracania skal za pomocą konfirmacyjnej analizy czynnikowej oraz metod IRT: jedno- oraz wielowymiarowej. Jedno- i wielowymiarowe podejście w badaniach etyki pracy. Ocena Trafności Czynnikowej i Rzetelności skali Protestanckiej Etyki Pracy Mirelsa i Garretta Agata Chudzicka-Czupała, Damian Grabowski (Uniwersytet Śląski) Referat przedstawia wyniki badań nad podstawowymi własnościami psychometrycznymi polskiej wersji Skali Protestanckiej Etyki Pracy (SPEP) Herberta Mirelsa i 41 Jamesa Garreta, a dokładniej nad jej trafnością czynnikową oraz rzetelnością. Twórcy skali przyjęli, że etyka pracy jest jednym wymiarem. Tymczasem wyniki badań z jej zastosowaniem wyraźnie pokazują, że jest to zmienna wielowymiarowa, a SPEP jawi się jako skala obejmująca cztery lub pięć wymiarów. Autorzy artykułu przedstawiają rezultaty serii czynnikowych analiz konfirmacyjnych oraz czynnikowej analizy eksploracyjnej, wykonanych na danych pochodzących z badań 880 pracowników. Analizy te potwierdziły wielowymiarowy charakter SPEP i dowiodły, że struktura narzędzia jest czteroczynnikowa. Cztery podskale otrzymane w ramach SPEP charakteryzują się jednak słabą rzetelnością, wynikającą z wieloznaczności niektórych stwierdzeń, co obniża wartość wielowymiarowej wersji SPEP i nie pozwala jej stosować do pomiaru wielu wymiarów etyki pracy. Porównanie użyteczności Klasycznej Teorii Testów i modelowania Item Response Theory w doskonaleniu uniwersyteckiego testu wiadomości Mateusz Blukacz, Aleksandra Tokarz (Uniwersytet Jagielloński) Celem referatu jest przedstawienie psychometrii w kształceniu akademickim, nie jako przedmiotu nauczania, ale narzędzia kontrolującego jego jakość. Testy wiadomości są najpopularniejszą metodą sprawdzenia wiedzy studentów na poziomie kształcenia akademickiego, aby jednak mogły być uważane za miarodajne, wymagają obiektywnej ewaluacji. Dowodów ich wartości pomiarowej można 42 dostarczyć przeprowadzając analizę psychometryczną w modelu Klasycznej Teorii Testów lub Item Response Theory (IRT). Oba podejścia mają swoje mocne i słabe strony, ale modelowanie IRT oferuje większe możliwości analityczne, które znajdują specyficzne zastosowanie w kompleksowej i pogłębionej ocenie kształcenia. Ilustracją tych stwierdzeń jest analiza wyników egzaminu (testu wiadomości) z przedmiotu kanonicznego na I roku psychologii. Problemy adaptacji kulturowej testów przeznaczonych do badania uzależnienia od Internetu Katarzyna Kaliszewska-Czeremska (Uniwersytet Adama Mickiewicza) Celem proponowanego referatu jest próba ukazania trudności na jakie napotyka współczesny badacz podejmujący się kulturowej adaptacji narzędzi stosowanych w diagnozie dwóch zjawisk – uzależnienia od Internetu oraz Internet Gaming Disorder. Proponowany temat wydaje się o tyle interesujący, że dotyka kilku ważnych i złożonych kwestii psychometrycznych. Z jednej strony będą to problemy związane stricte z procedurą kulturowej adaptacji narzędzi wraz z jej prawidłowościami: w tym z wyborem optymalnej strategii adaptacji, kontekstem kulturowym w którym pracują narzędzia czy normalizacją. Z drugiej strony, obie omawiane grupy narzędzi stosowane są głównie w Internecie, co stanowi dodatkową zmienną istotną dla omawianego zagadnienia. Wymaga bowiem wzięcia pod uwagę 43 osobliwości związanych z realizacją badań online, wraz z całą złożonością tego procesu. W tej perspektywie szczególnej uwagi wymaga m.in. kwestia protokołu badań, czy doboru próby. Niemniej jednak problemami szczególnie istotnym wydają się tu etyczne i prawne aspekty prowadzonych badań. Nabierają one przy tym nowego kolorytu, kiedy prace adaptacyjne – tak jak w zespołach, w których miała okazję pracować autorka są prowadzone równolegle przez członków międzynarodowego zespołu badawczego, a celem prac jest dokonanie porównań o charakterze międzykulturowym. W trakcie wystąpienia poruszone zostaną wymienione problemy teoretyczne oraz praktyczne, wraz z ukazaniem realnych przykładów obrazujących poruszane kwestie. 44