1 Wprowadzenie
Transkrypt
1 Wprowadzenie
Bartosz Kondratek Uniwersytet Ślaski ˛ 1 Wprowadzenie W artykule zostanie dokonana próba zunifikowanego przedstawienia podstaw dwóch podejść teoretycznych, dostarczajacych ˛ statystycznych narzadzi ˛ umożliwiajacych ˛ tworzenie testów, posługiwanie sie˛ nimi oraz interpretacje˛ uzyskiwanych wyników –– klasycznej teorii testów KTT oraz teorii odpowiadania na pozycje testowe (IRT, Item response theory ). Rozważania bed ˛ a˛ ograniczone do przypadku, gdy test mierzy pojedynczy ukryty wymiar (ceche), ˛ a jego pozycje oceniane sa˛ dwukategorialnie (‘0’ oraz ‘1’). Teoria odpowiadania na pozycje testowe jest terminem używanym do określania pewnej rodziny modeli, opisujacych ˛ sposób udzielania przez badane osoby odpowiedzi na poszczególne pozycje testów (itemy ), które łaczy ˛ ze soba˛ kilka podstawowych założeń (Gruijter & van der Kamp, 2002, str. 95). Generalnie rzecz ujmujac, ˛ idea˛ IRT jest stworzenie modelu statystycznego określajacego ˛ rozkład odpowiedzi na pozycje testu w terminach pewnej zmiennej ukrytej Θ, reprezentujacej ˛ poziom mierzonej testem cechy. Cel ten jest osiagni ˛ ety ˛ poprzez wprowadzenie założenia o jednowymiarowości testu, oraz zdefiniowanie rodziny dopuszczalnych w danym modelu krzywych charakterystycznych pozycji testowych opisujacych ˛ zależność rozkładu poszczególnych pozycji przy ustalonym poziomie Θ = θ. Aby oszacować poziom cechy danej osoby, na podstawie udzielonych przez te˛ osobe˛ odpowiedzi, znajduje sie˛ estymator najwiekszej ˛ wiarygodności parametru Θ. Korzystajac ˛ z koncepcji informacji Fishera, możliwe jest dostarczenie lokalnej miary błedu ˛ pomiarowego SEM(Θ = θ) takiego estymatora. Klasyczna teoria testów definiuje poziom mierzonej cechy poprzez wynik prawdziwy T , określony jako odpowiednio warunkowana wartość oczekiwana z sumy poszczególnych odpowiedzi w teście, która˛ to sume˛ oznacza sie˛ X . Błedem ˛ pomiaru w takim układzie jest różnica X oraz T . Zależność X = T + E w celu oszacowania bezwarunkowej wariancji błedu ˛ SEM jest nastepnie ˛ analizowana analogicznie jak w modelu liniowej regresji X wzgledem ˛ T . W ten sposób, jako wartość współczynnika determinacji dla regresji X = T + E , teoria klasyczna wprowadza podstawowy dla opisu precyzji pomiarów dokonywanych testem parametr — współczynnik rzetelności testu. W odróżnieniu od wielu innych opracowań porównujacych ˛ IRT oraz KTT, niniejszy przeglad ˛ rozpocznie sie˛ od przybliżenia pierwszej z wymienionych. Jak sie˛ okaże w wyniku przeprowadzonych rozważań, teoria klasyczna nie dostarcza pełnego modelu statystycznego do opisu obserwowanych w sytuacji badania testowego zmiennych. Rozpoczynajac ˛ od IRT, dla której budowa takiego modelu stanowi punkt wyjścia, możliwe stanie sie˛ precyzyjne wyjaśnienie tego faktu. W szczególności, zakładajac ˛ model IRT wykażemy, że nie może być spełnione założenie o jednorodności wariancji dla regresji X = T + E , co powoduje, że obliczona na podstawie rzetelności wariancja błedu ˛ E jest jedynie wartościa˛ uśredniona˛ po rozkładzie cechy w populacji. W celu wypełnienia luki istniejacej ˛ obecnie na polskim rynku wydawniczym, polegajacej ˛ na braku jakiejkolwiek monografii w pełni poświeconej teorii odpowiadania na pozycje testowe, oprócz określenia samego 76 modelu IRT, znaczna uwaga zostanie skierowana tu na kwestie praktyczne. Miedzy innymi omówiona zostanie estymacja parametrów modelu, porównywanie wyników pochodzacych ˛ z różnych narz˛edzi oraz adaptatywne testowanie komputerowe (CAT). W cz˛eści opisujacej ˛ teorie˛ klasyczna˛ wiele dobrze znanych kwestii zostanie pominietych, ˛ w szczególności problem estymacji współczynnika rzetelności, a nacisk zostanie położony na porównanie tego podejścia z IRT. Aby dokonać porównania miedzy ˛ podejściami tak dalece różniacymi ˛ sie˛ wprowadzona˛ terminologia˛ i stosowanym aparatem statystycznym, konieczne bedzie ˛ stosowanie dość szczegółowego formalizmu matematycznego. Dla ilustracji modelowania statystycznego rozpoczniemy jednak od opisu bardzo prostego eksperymentu polegajacego ˛ na rzucie moneta. ˛ 2 Podstawowe założenia i pojecia ˛ obydwu teorii, modelowanie statystyczne Na poczatek ˛ przeprowadzone zostana˛ pewne ogólne rozważania na temat sytuacji eksperymentalnej, jaka˛ jest badanie narz˛edziem testowym, które doprowadza do zdefiniowania pewnych podstawowych wielkości koniecznych do stworzenia statystycznego modelu takiej sytuacji. Rozważania te bed ˛ a˛ słuszne zarówno dla teorii klasycznej, jak i dla IRT. 2.1 Modelowanie statystyczne na przykładzie rzutu moneta˛ Zaczniemy od przypomnienia podstawowych wiadomości ze statystyki i rachunku prawdopodobieństwa na najprostszym przykładzie rzutu moneta. ˛ Przykład ten, jak sie˛ okaże w dalszej cz˛eści artykułu, wbrew pozorom pozostaje w dużym zwiazku ˛ z rozważana˛ tematyka˛ badania testowego. Przestrzenia˛ probabilistyczna˛ nazywa sie˛ trójk˛e: (Ω, F, P ), (1) gdzie zbiór Ω jest odpowiedzialna˛ za „losowość” rozpatrywanego zjawiska przestrzenia˛ zdarzeń elementarnych, F zawiera podzbiory zbioru Ω, na których to podzbiorach określone jest prawdopodobieństwo P . Zarówno zbiór F , jak i prawdopodobieństwo P musza˛ spełniać pewne założenia1 . Rozpatrzmy przykład pojedynczego rzutu moneta. ˛ Wprowadźmy nastepuj ˛ ace ˛ oznaczenia zdarzeń elementarnych: ‘O’=orzeł, ‘R’=reszka. Przestrzeń zdarzeń elementarnych bedzie ˛ Ω = {O, R}, zbiór F składa sie˛ z wszystkich podzbiorów Ω, czyli {O}, {R}, {O, R} oraz zbioru pustego ∅. Mamy P (∅) = 0 (prawdopodobieństwo zajścia zdarzenia niemożliwego), P ({O, R}) = 1 (prawdopodobieństwo zajścia zdarzenia 1 Mianowicie F musi być σ -ciałem, co sie˛ sprowadza do trzech warunków: Ω∈F A ∈ F =⇒ A0 ∈ F A1 ∈ F, A2 ∈ F, A3 ∈ F, . . . =⇒ A1 ∪ A2 ∪ A3 ∪ · · · ∈ F gdzie A0 = Ω\A jest zdarzeniem przeciwnym do A, natomiast ‘∪’ oznacza sume, ˛ a ‘∩’ (patrz warunek trzeci poniżej) oznacza iloczyn zdarzeń. Prawdopodobieństwo P spełnia natomiast 3 aksjomaty podane przez Kołmogorowa: ∀A∈F ∀A1 ,A2 ,···∈F ;Aj ∩Ak =∅ P (A) 0 P (Ω) = 1 ∞ X P (A1 ∪ A2 ∪ A3 ∪ . . . ) = P (Ak ) k=1 mówiace, ˛ że jest nieujemna, ˛ unormowana˛ oraz σ -addytywna˛ funkcja˛ zbiorów A ∈ F . 77 pewnego) oraz przy założeniu „uczciwości" monety P ({O}) = P ({R}) = konkretna˛ przestrzeń probabilistyczna˛ (Ω, F , P ). 1 2. Zdefiniowaliśmy w pełni Załóżmy jednak, że nie wiemy, czy nasza moneta jest w rzeczywistości „uczciwa" i pragnelibyśmy ˛ to sprawdzić. Zdefiniujmy zmienna˛ losowa: ˛ v : Ω −→ {0, 1}, (2) taka, ˛ że v(O) = 0 oraz v(R) = 1. Rozkład prawdopodobieństwa zmiennej losowej Pv , mówiac ˛ nieformalnie, jest to funkcja wyznaczajaca ˛ prawdopodobieństwo przyjecia ˛ przez zmienna˛ losowa˛ określonych wartości. Pv jest miara˛ prawdopodobieństwa, a zatem powinna być określona na pewnym σ -ciele. Najmniejsze σ -ciało zawierajace ˛ wszystkie wartości przyjmowane przez zmienna˛ v , oznaczmy je poprzez σ(v), jest postaci: σ(v) = {{0}, {1}, {0; 1}, ∅} (3) Rozkład zmiennej Pv jest określony na (3) nastepuj ˛ aco: ˛ Pv (v = 0) = π , Pv (v = 0) = 1−π , Pv (v = 0) = 1, Pv (v = 0) = 0. Widać, że relacja miedzy ˛ miara˛ prawdopodobieństwa Pv , a σ -ciałem generowanym przez zmienna˛ losowa˛ v jest identyczna jak miedzy ˛ P , a F w przestrzeni probabilistycznej (1) opisujacej ˛ rzut moneta˛2 . Dla zmiennej losowej v rozkład prawdopodobieństwa jest w zupełności wyznaczony poprzez jeden tylko parametr π = Pv (v = 1), czyli prawdopodobieństwo wyrzucenia reszki. W zwiazku ˛ z tym, zamiast Pv bedziemy ˛ pisać Pπ . Rozkład taki nazywamy dwupunktowym rozkładem Bernouliego z parametrem π ∈ [0; 1] i możemy go przedstawić za pomoca˛ nastepuj ˛ acego ˛ wzoru: Pπ (v = x) = Pπ (v = 1)x Pπ (v = 0)1−x , (4) gdzie x jest jedna˛ z dwóch możliwych wartości, jaka˛ może przyjac ˛ zmienna v , czyli x ∈ {0, 1}. Jeżeli damy π = 12 , otrzymamy trójk˛e (Ω, σ(v), P 1 ), która stanowi równoważny opis sytuacji pojedyn2 czego rzutu „uczciwa" ˛ moneta, ˛ jaki dostarcza nam odpowiednia przestrzeń probabilistyczna (Ω, F , P ), z ta˛ różnica, ˛ że zamiast prawdopodobieństwa P określonego na zdarzeniach A ∈ F mamy rozkład prawdopodobieństwa P 1 określony na elementach σ(v), czyli odpowiednich podzbiorach liczbowych wartości 2 przyjmowanych przez zmienna˛ losowa˛ v . Jeżeli nie ustalimy wartości parametru π , to trójka (Ω, σ(v), Pπ ) reprezentuje już cała˛ rodzine˛ przestrzeni probabilistycznych różniacych ˛ sie˛ rozkładem prawdopodobieństwa zmiennej v — każda z dopuszczalnych przestrzeni probabilistycznych stanowi alternatywny model zjawiska, polegajacego ˛ na jednokrotnym rzucie moneta. ˛ Niech Ω bedzie ˛ przestrzenia˛ zdarzeń elementarnych, ξ niech bedzie ˛ dowolna˛ zmienna˛ losowa, ˛ σ(ξ) σ ciałem generowanym przez ta˛ zmienna˛ losowa˛ , a Pξ rodzina˛ dopuszczalnych rozkładów prawdopodobieństwa zmiennej ξ . Przy takich oznaczenia, trójk˛e: (Ω, σ(ξ), Pξ ), (5) 2 W niniejszym akapicie zostały poczynione pewne uproszczenia, które dla ścisłości wyjaśnimy. Aby uogólnić przypadek dyskretnej i ciagłej ˛ zmiennej losowej, zmienne losowe definiuje sie˛ tak, żeby przyjmowały wartości na całym zbiorze liczb rzeczywistych; zatem zamiast (2) powinno być: v : Ω −→ R. Prawdopodobieństwo uzyskania przez v jakiejkolwiek wartości spoza zbioru {0; 1} w naszym przypadku jest równe zeru, zatem pominiecie ˛ wartości R\{0; 1} nie powoduje utraty „funkcjonalności" zmiennej v dla celów prowadzonego wywodu. σ -ciało generowane przez pewien zbiór zdarzeń elementarnych jest to najmniejsze σ -ciało zawierajace ˛ elementy tego zbioru. Dla zmiennej v (i każdej innej zmiennej losowej) przyjmujacej ˛ wartości w całej R odpowiednim σ -ciałem jest σ -ciało generowane przez wszystkie otwarte podzbiory R. 78 nazywamy przestrzenia˛ statystyczna. ˛ Trójka taka jest modelem statystycznym możliwych mechanizmów rzadz ˛ acych ˛ zjawiskiem losowym, obserwowanym jako zmienność wartości przyjmowanych poprzez określona˛ zmienna˛ losowa. ˛ W naszym przykładzie bedziemy ˛ mieli P = {Pπ : π ∈ [0; 1]}, gdzie Pπ jest rozkładem zmiennej losowej (2), danym za pomoca˛ wzoru (4). Jeżeli rodzine˛ rozkładów P można opisać za pomoca˛ skończonego zbioru k parametrów przyjmujacych ˛ wartości rzeczywiste, model (5), nazywamy k -wymiarowym modelem parametrycznym; w przeciwnym razie model jest nieparametryczny (Gajek & Kałuszka, 1999, str. 76–77). Dla rzutu moneta˛ mamy zatem jednowymiarowy model parametryczny z parametrem π . Zabieg wprowadzenia do opisu danego zjawiska eksperymentalnego zmiennej losowej umożliwia obliczenie pewnych istotnych liczbowych wartości opisujacych ˛ te˛ zmienna, ˛ jak wartość oczekiwana oraz wariancja. Dla zmiennej losowej dyskretnej ξ , czyli przyjmujacej ˛ z niezerowym prawdopodobieństwem jedynie przeliczalna˛ ilość różnych wartości ξ(ω) = x, wartość oczekiwana jest dana wzorem: X E(ξ) = xP ξ(ω) = x , (6) ω∈Ω co można rozumieć jako średnia˛ z wartości przyjmowanych przez zmienna˛ ξ ważona˛ poprzez prawdopodobieństwo uzyskania tychże wartości. Jeżeli zbiór przyjmowanych przez ξ dyskretnych wartości oznaczymy X , a jej rozkład prawdopodobieństwa jako Pξ , to powyższe można zapisać też bez odwoływania sie˛ do Ω: X E(ξ) = xPξ ξ = x . (7) x∈X Natomiast wariancja jest zdefiniowana jako: 2 D2 (ξ) = E ξ − E(ξ) = X 2 x − E(ξ) Pξ (ξ = x), (8) x∈X czyli jest to średnia z kwadratów odchyleń ξ od wartości oczekiwanej E(ξ), ważona poprzez prawdopodobieństwo uzyskania tychże odchyleń. Dla zmiennej losowej v o rozkładzie Bernouliego (4) wartość oczekiwana bedzie ˛ zatem: Eπ (v) = 1Pπ (v = 1) + 0Pπ (v = 0) = Pπ (v = 1) = π. (9) Wariancje˛ podamy bez wyprowadzania: D2π (v) = π(1 − π) (10) Można sie˛ teraz zatrzymać i zapytać, po co to wszystko. Wróćmy wiec ˛ do pytania, czy moneta jest w rzeczywistości „uczciwa". Przeprowadźmy eksperyment polegajacy ˛ na niezależnym rzucie badana˛ moneta˛ m razy. Zapisujac ˛ wyniki takiego eksperymentu, otrzymamy wektor zer i jedynek ~ x = [x1 , x2 , . . . , xm ] ∈ {0, 1}m . Można taka˛ sytuacje˛ opisać probabilistycznie jako realizacje˛ wektora losowego ~v = [v1 , v2 , . . . , vm ], którego współrz˛edne sa˛ niezależnymi zmiennymi losowymi o takim samym rozkładzie (4). Wektor ~v jest, zatem zmienna˛ losowa˛ określona˛ na przestrzeni produktowej: ~v : |Ω × Ω × · · · × Ω} −→ {0, 1}m {z (11) m razy z rozkładem prawdopodobieństwa równym: ! Pπ (~v = ~x) = Pπ (v1 = x1 )Pπ (v2 = x2 ) . . . Pπ (vm = xm ) = 79 m k π (1 − π)m−k , k (12) gdzie ~ x = [x1 , x2 , . . . , xn ] jest jednym z 2n możliwych do uzyskania wyników takiego eksperymentu, k jest P m ilościa˛ otrzymanych orłów, czyli k = m x , natomiast jest dwumianem Newtona, skad ˛ też nazwa i=1 i k rozkładu — rozkład dwumianowy. Otrzymaliśmy pewna˛ zwiazan ˛ a˛ z (5) przestrzeń statystyczna: ˛ Ω ×Ω× · · · × Ω}, σ(v × v × . . . v , {Pπ : π ∈ [0; 1]} . (13) | {z | {z } m razy m razy Zbiór Ω × Ω × · · · × Ω w tym kontekście można nazwać przestrzenia˛ prób, natomiast pojedyncza realizacja opisanej zmiennej losowej ~v nosi nazwe˛ prostej próby losowej. Z równania (12) widać, że prawdopodobieństwo uzyskania w eksperymencie polegajacym ˛ na m-krotnym rzucie moneta˛ konkretnej realizacji ~ x zależy bezpośrednio od wartości nieznanego parametru π . Dla danego ~ x bedziemy ˛ mieli dla różnych wartości π różne prawdopodobieństwa uzyskania naszego wyniku, co oznacza, że próba losowa niesie pewna˛ informacje˛ na temat parametru π . Dokonany eksperyment pozwala zredukować niepewność co do wartości parametru π , która to wartość przed jego przeprowadzeniem jest z równym prawdopodobieństwem rozłożona po całym przedziale [0;1]. Badajac ˛ „uczciwość” naszej monety można teraz przejść do jednego z dwóch dobrze znanych i pokrewnych rozwiaza ˛ ń wnioskowania statystycznego, tzn. dokonać estymacji nieznanego parametru π lub przetestować hipotez˛e zerowa˛ π = 12 . Pierwsze rozwiazanie ˛ polegałoby na policzeniu średniej arytmetycznej z poszczególnych xi , która jest nieobciażonym ˛ estymatorem wartości oczekiwanej każdej zmiennej loso˛ ac ˛ postać wej3 , czyli zgodnie ze wzorem (9) nieznanego parametru π (estymacja punktowa). Uwzgledniaj rozkładu (13) można by także zbudować przedział, w którym z zadana˛ ufnościa˛ 1 − α wartość π by sie˛ znajdowała (estymacja przedziałowa). Drugie rozwiazanie ˛ polegałoby na podstawieniu do (13) wartości 1 π = 2 i obliczeniu prawdopodobieństwa uzyskania zaobserwowanego w eksperymencie ~x. Jeżeli obliczone prawdopodobieństwo Pπ (~v = ~ x|π = 21 ) byłoby niższe od zadanego poziomu istotności α, hipotez˛e „uczciwości" monety należałoby odrzucić. Oczywiście, czym wieksza ˛ m, zatem ilość niezależnych rzutów, tym wieksza ˛ bedzie ˛ precyzja i pewność dokonywanych wniosków. Powyższy prosty przykład oddaje idee˛ modelowania statystycznego i naświetla korzyści, jakie możne ono przynieść przy analizowaniu zjawisk empirycznych. Do rozkładu (5) nawiażemy ˛ jeszcze w dalszej cz˛eści artykułu. 2.2 Odpowiedzi na pozycje testowe i źródła ich zmienności Przejdźmy teraz do sytuacji eksperymentalnej badania testem. Jest to oczywiście o wiele bardziej skomplikowany problem od omówionego przykładu rzutu moneta, ˛ ale podstawowe zasady pozostaja˛ w tym przypadku takie same. Przypomnijmy, że aby stworzyć model statystyczny (5) zjawiska losowego, wystarczy zdefiniować przestrzeń zdarzeń elementarnych Ω oraz określić na niej pewna˛ zmienna˛ losowa, ˛ której odpowiadałaby jakaś rodzina rozkładów prawdopodobieństwa P tejże zmiennej. Zaczniemy od zdefiniowania „źródła" losowości wyników otrzymywanych w badaniu testowym, czyli Ω, oraz określimy zbiór wartości przyjmowanych przez zmienna˛ losowa. ˛ Najtrudniejszy problem skonstruowania sensownego w kontekście pomiaru rozkładu prawdopodobieństwa zmiennej losowej zostanie zostawiony na koniec. Załóżmy, że mamy test składajacy ˛ sie˛ z n pozycji indeksowanych litera˛ i (zatem i ∈ {1, 2, . . . , n}). Załóżmy również, że dla każdej pozycji istnieja˛ tylko dwie odpowiedzi, jakich można na nie udzielić, które bedziemy ˛ określać jako„odpowiedź błedna" ˛ oraz „odpowiedź poprawna"4 . Wprowadźmy oznaczenie P na populacje˛ osób, z której dobierane bed ˛ a˛ jednostki do badania przy pomocy testu. Do oznaczenia konkretnej osoby pochodzacej ˛ z populacji P bedziemy ˛ używać indeksu j . 3 Precyzyjniej: każdej zmiennej losowej posiadajacej ˛ skończona˛ wartość oczekiwana. ˛ Określenie odpowiedzi w kategoriach poprawna-błedna ˛ jest zasadne jedynie dla testów mierzacych ˛ pewne zdolności. Takie kody słowne bed ˛ a˛ w artykule jednak umownie używane dla określenia ogólnego przypadku pozycji dwukategorialnej, mimo iż w przypadku narz˛edzi badajacych ˛ osobowość, postawy itp. taka klasyfikacja nie ma zbytnio sensu. Zabieg ten jest wprowadzony w celu ułatwienia lektury tekstu. 4 80 Pierwszym źródłem zmienności odpowiedzi na każde pytanie i jest zatem fakt losowania osób z populacji. Jeżeli ustalimy osobe˛ j , to możemy w różnych niezależnych od siebie sytuacjach testowania zaobserwować jednak pewna˛ zmienność udzielanych przez nia˛ odpowiedzi. Dla każdej osoby j odpowiedzi na poszczególne pytania testu wykazuja, ˛ zatem również pewna˛ losowość i, aby móc ja˛ uwzglednić, ˛ do modelu wprowadza sie˛ dodatkowa˛ przestrzeń replikacji (replication space) (Lord & Novick, 1968, str. 47), która˛ oznaczymy symbolem K . Te dwa różne ujecia ˛ odpowiedzi na pozycje testu zostały przez Hollanda (1990, str. 581) nazwane odpowiednio jako interpretacja doboru losowego (random sampling rationale) oraz stochastyczna interpretacja osoby (subject stochastic rationale). W przykładzie pojedynczego rzutu moneta˛ mieliśmy do czynienia z dwoma elementarnymi zdarzeniami losowymi, wyrzucenia orła lub wyrzucenia reszki. W kontekście badania testowego pojedynczej osoby, zdarzenie losowe to dobór osoby j ∈ P z populacji oraz dobór replikacji t ∈ K . Aby móc liczbowo opisać obserwowany przez badacza wynik zdarzenia losowego, w przytoczonym na poczatku ˛ przykładzie monety wprowadzono zmienna˛ losowa˛ (2) o rozkładzie (4). Dla każdej pary (j, t), jedyna˛ obserwowana˛ zmienna˛ jest wektor n udzielonych przez osobe˛ odpowiedzi. Przyporzadkujmy ˛ dla każdej pozycji testu odpowie-dzi ˛ wartość ‘0’. W ten sposób określiliśmy dziedzine˛ oraz zbiór „poprawnej” wartość ‘1’, a odpowiedzi błednej wartości dla zmiennej losowej opisujacej ˛ sytuacje˛ eksperymentalna˛ pojedynczego badania testem osoby losowo wybranej z populacji P : ~u : P × K −→ {0; 1}n . (14) Funkcja ~ u jest n-wymiarowym wektorem losowym ~u = [u1 , u2 , . . . , un ] i nosi nazwe˛ wektora odpowiedzi (response vector, vector of responses). Każda ze współrz˛ednych ui wektora ~ u jest również znienna˛ losowa˛ określona˛ na produktowej przestrzeni zdarzeń elementarnych P × K i przyjmujac ˛ a˛ jedna˛ z dwóch wartości xi ∈ {0; 1}. Zmienna losowa ui nosi dość oczywista˛ nazwe˛ odpowiedzi na pozycje˛ testowa˛ i, od niej właśnie pochodzi nazwa całej rodziny modeli statystycznych, które omawiane sa˛ w niniejszym artykule, czyli teorii odpowiadania na pozycje testowe (item response theory ). Jasne sie˛ w tym momencie również staje, co stanowi główny przedmiot IRT — jest nim budowanie modeli statystycznych stanowiacych ˛ sensowna˛ parametryzacje˛ rozkładu zmiennej (14), w terminach poziomu pewnej ukrytej cechy. 2.3 Rozkład odpowiedzi ustalonej osoby j ∈ P Z (14) wynika, że dla każdego (j, t) ∈ P × K otrzymamy pewna˛ realizacje˛ zmiennej losowej ~ u, która bedzie ˛ długim na n wektorem składajacym ˛ sie˛ z samych zer i jedynek. Możemy to zapisać ~ u(j, t) = ~xj = [x1j , x2j , . . . , xnj ], xij ∈ {0; 1}. Skomplikowany problem zbudowania rozkładu prawdopodobieństwa uzyskania każdej takiej wartości ~ x ograniczmy najpierw do przypadku konkretnej, ustalonej osoby j . W momencie, gdy osoba j zostanie ustalona, zmienność obserwowanych wyników bedzie ˛ zależała jedynie od K . Żeby móc to zapisać w sposób formalny wprowadźmy funkcje˛ V : P × K −→ P określona˛ wzorem: ∀(j,t)∈P×K V (j, t) = j, (15) czyli zwykły rzut przestrzeni zdarzeń elementarnych P×K na K . Funkcja V przyporzadkowuje ˛ każdemu zdarzeniu elementarnemu składajacemu ˛ sie˛ z osoby j oraz replikacji t osobe˛ j . Dla wygody ograniczmy rozważania do odpowiedzi na pojedyncza˛ pozycje, czyli do zmiennej ui . Rozkład odpowiedzi na pozycje˛ i, w zależności od wyróżnionych wartości zmiennej V (czyli ustalonych podpopulacji P ), jest: ui|V : K −→ {0; 1}. (16) W szczególnym, rozważanym teraz przypadku pojedynczej osoby j , rozkład ui|V =j dla uproszczenia oznaczany jest uij . Dla całego wektora odpowiedzi natomiast użyjemy zapisu ~ u|V =j = [u1j , u2j , . . . , unj ] = ~uj . Dla pozycji i oraz osoby j bedziemy ˛ mieli pewne stałe prawdopodobieństwo udzielenia odpowiedzi poprawnej Pui (ui = 1|V = j) = Puij (uij = 1) oraz prawdopodobieństwo udzielenia odpowiedzi błednej ˛ Puij (uij = 0). Obydwa prawdopodobieństwa sumuja˛ sie˛ oczywiście do jedności, zatem do pełnego określenia rozkładu odpowiedzi dla ustalonej pary (i, j) wystarczy znajomość jednej z tych wielkości. Jest to 81 dokładnie taka sama zmienna losowa, jak określona wzorami (4) oraz (5) zmienna rozpatrywana w przytoczonym wcześniej przykładzie monety! Odpowiedź na pojedyncza˛ pozycje˛ i dla ustalonej osoby j ma zatem rozkład dwupunktowy (5) z parametrem πij = Puij (uij = 1), w zwiazku ˛ z czym rozkład ten można zapisać z dolnym indeksem wskazujacym ˛ na zależność od pojedynczego parametru: Pπij . Dwupunktowy rozkład Pπij odpowiedzi osoby j na pytanie i jest dany zgodnie z (5) poprzez: ∀j∈P ∀xij ∈{0;1} Pπij (uij = xij ) = Pπij (uij = 1)xij Pπij (uij = 0)1−xij = = πij xij (1 − πij )1−xij . (17) Dla każdej osoby mamy pewien „prywatny" rozkład zmiennej losowej ui , opisywany pojedynczym parametrem πij = Pπij (uij = 1), a przechodzac ˛ na cały test otrzymamy „prywatny" rozkład zmiennej ~ u, opisywany wektorem parametrów ~ πj = [π1j , π2j , . . . , πnj ]. Zarówno rozkład zmiennej uij , jak i rozkład ~uj , bywaja˛ nazywane rozkładem skłonności (propensity distribution) (Lord & Novick, 1968, str. 47). 2.4 Pomiar Przez pomiar 5 pewnej cechy bed ˛ acej ˛ właściwościa˛ obiektów z określonego zbioru, rozumie sie˛ przyporzadkowanie ˛ tym obiektom wartości liczbowych w taki sposób, żeby odpowiednie relacje zachodzace ˛ miedzy ˛ liczbami odzwierciedlały interesujace ˛ badacza relacje miedzy ˛ obiektami, wynikajace ˛ z posiadanej przez nie cechy. Dla przykładu, mamy cztery poziomy pomiaru wyróżnione przez Stevensa: 1. Skala nominalna. Jeżeli dwa obiekty różnia˛ sie˛ wartościa˛ cechy, to reprezentacja liczbowa ich cechy poprzez pomiar da dwie różne liczby. 2. Skala porzadkowa. ˛ Jeżeli jeden obiekt ma wieksze ˛ nateżenie ˛ danej cechy od drugiego, to pomiar dostarczy odpowiednio liczb: wiekszej ˛ oraz mniejszej. 3. Skala przedziałowa. Jeżeli możliwe jest porównywanie różnicy miedzy ˛ nateżeniem ˛ cechy dwóch obiektów, to pary obiektów o tej samej różnicy nateżenia ˛ cechy, za pomoca˛ pomiaru zostaja˛ odzwierciedlone w pary liczb różniace ˛ sie˛ miedzy ˛ soba˛ o taka˛ sama˛ wartość. 4. Skala ilorazowa. Jeżeli można stwierdzić, że jeden obiekt ma k -krotnie wieksze ˛ nateżenie ˛ cechy od drugiego, to wartości liczbowe dostarczone pomiarem powinny także być zwiazane ˛ ta˛ relacja. ˛ Odnieśmy powyższa˛ definicje˛ pomiaru do naszej sytuacji badania testem. Zakładamy, że istnieje jakaś hipotetyczna zmienna, cecha, której nateżenie ˛ (a zatem można osiagn ˛ ać ˛ przynajmniej drugi poziom pomiaru w wyróżnionej powyżej skali) jest zróżnicowane wśród osób z populacji P . Kolejnym założeniem, postulatem jest, że za pomoca˛ obserwowanej zmiennej ~ u można dokonać jej pomiaru. Dokonać pomiaru, czyli stworzyć pewna˛ liczbowa˛ skale˛ odzwierciedlajac ˛ a˛ relacje zachodzace ˛ miedzy ˛ jednostkami z P ze wzgledu ˛ na nateżenie ˛ interesujacej ˛ nas cechy. 3 Teoria odpowiadania na pozycje testowe 3.1 Jednowymiarowy model IRT. Zmienna ukryta Θ oraz krzywa charakterystyczna pozycji testowej Majac ˛ na wzgledzie ˛ poczynione uwagi na temat pomiaru, idea pomiaru pewnej cechy przy użyciu testu opiera sie˛ na założeniu, że można wprowadzić do stworzonego układu pojedyncza˛6 przyjmujac ˛ a˛ wartości 5 Bardzo dobre opracowanie tematyki pomiaru pewnych cech w naukach społecznych znajduje sie˛ w rozdziale 2 ksiażki ˛ Wprowadzenie do psychologii matematycznej (Coombs et al., 1977). 6 Można rozpatrzyć możliwość wprowadzenia wiekszej ˛ ilości parametrów Θ1 ,..., Θk i zbudować model dla testu mierzacego ˛ wieksz ˛ a˛ ilość cech. W niniejszym artykule rozpatrywany jest jedynie przypadek jednowymiarowy. 82 rzeczywiste zmienna˛ Θ: Θ : P × K −→ R, (18) która pozwalałaby dla każdej osoby j ∈ P określić w sposób jednoznaczny, jakie wartości wektor parametrów π~j przyjmie. Wymagałoby to założenia, po pierwsze: ∀j∈P ∀t,t0 ∈K Θ(j, t) = Θ(j, t0 ) = θj , (19) czyli, że dla każdej osoby j zmienna ma wartość stała˛ θj — w przeciwnym razie nie można byłoby wyznaczyć parametrów πij w sposób jednoznaczny. Nastepnie, ˛ dla każdego pytania i musiałaby istnieć pewna funkcja gi określona na R i przyjmujaca ˛ wartości w przedziale [0; 1]: gi : R −→ [0; 1] (20) w taki sposób, że: ∀j∈P gi (θj ) = Pπij (uij = 1) = πij , (21) co oznacza, że istnieje n funkcji gi umożliwiajacych ˛ przekształcenie wartości przyjmowanej przez zmienna˛ Θ przy warunku V = j (patrz wzór (15)) na odpowiednie parametry πij , które jak wiemy ze wzoru (17), w sposób jednoznaczny wyznaczaja˛ rozkład wektora odpowiedzi danej osoby ~ uj . Zmienna˛ Θ spełniajac ˛ a˛ warunki (18) oraz (19) nazywamy zmienna˛ ukryta˛ (latent trait) (Ellis & van der Woldenberg, 1993, str. 419) i to ona właśnie tworzy kontinuum, skale, ˛ na której dokonany jest pomiaru cechy, stad ˛ w IRT nazywana jest też zdolnościa˛ (ability ). Funkcja gi określona za pomoca˛ (20) oraz (21) nosi natomiast nazwe˛ krzywej charakterystycznej pozycji testowej i (item characteristic curve, w skrócie ICC). Obydwa pojecia ˛ sa˛ fundamentalne dla teorii odpowiadania na pozycje testowe, ponieważ łacznie ˛ określaja˛ jednoznacznie rozkład prawdopodobieństwa dla pojedynczego wektora odpowiedzi (14). Ostatecznie zatem jednowymiarowy model IRT dla pojedynczego wektora odpowiedzi na n dychotomicznych pozycji można zapisać w postaci: P × K , σ(~u), {PΘ,g1 ,g2 ,...,gn : Θ ∈ R, gi ∈ G } , (22) gdzie σ(~ u) jest odpowiednio określonym σ -ciałem zdarzeń elementarnych, natomiast G jest rodzina˛ dopuszczalnych postaci funkcji charakterystycznych pozycji testowych. Rodzina rozkładów prawdopodobieństwa zmiennej ~ u w modelu (22) zależy od pojedynczego parametru Θ (poziomu zdolności wylosowanej w badaniu osoby) oraz od postaci n funkcji gi ∈ G . Jeżeli każda˛ funkcje˛ gi można opisać za pomoca˛ skończonej ilości parametrów, cały model nazywamy parametrycznym modelem IRT, w przeciwnym razie nieparametrycznym modelem IRT. Znajac ˛ postać wszystkich funkcji charakterystycznych, od których zależy rozkład PΘ,g1 ,g2 ,...,gn , czyli po ustaleniu konkretnych {g1 , g2 , . . . , gn }, udzielane przez losowo wybrana˛ osobe˛ j odpowiedzi w teście zależa˛ jedynie od wartości parametru θj , czyli poziomu jej zdolności. Zapisujac ˛ udzielone podczas pojedynczego badania testem odpowiedzi, uzyskamy wektor zer i jedynek ~ xj = [x1j , x2j , . . . , xnj ], xij ∈ {0; 1}. Tak jak w przypadku m-krotnego rzutu moneta, ˛ gdzie na podstawie zaobserwowanego wyniku można było dokonać pewnego wnioskowania na temat wartości nieznanego parametru π , od którego rozkład rzutów według przyjetego ˛ modelu (13) zależał, tak i w naszym przypadku po ustaleniu {g1 , g2 , . . . , gn } możemy wnioskować na podstawie ~ xj przy założeniu modelu (22) co do możliwych wartości parametru Θ dla osoby j . Udzielone w teście odpowiedzi niosa˛ w sobie informacje˛ na temat poziomu zdolności badanej testem osoby. Przez pomiar pewnej cechy za pomoca˛ testu rozumiemy w takim kontekście, zatem estymacje˛ parametru Θ na podstawie zaobserwowanych odpowiedzi ~ x. Analogicznie estymacje˛ parametru π po m-ktornym rzucie moneta˛ można nazwać pomiarem pewnej cechy, która charakteryzuje empirycznie obserwowalne właściwości monety. Ceche˛ ta˛ można by nazwać „stronniczościa" ˛ monety. 83 3.2 Jednowymiarowy monotoniczny model IRT na przykładzie 2PLM Omawiajac ˛ w poprzednim rozdziale jednowymiarowy model IRT, warunek jednowymiarowości opisano poprzez stwierdzenie, że dla każdej pozycji testu i dla każdej osoby wartość zmiennej Θ wystarcza do określenia rozkładu ~ uj , czyli, że θj można jednoznacznie przekształcić w ~πj za pomoca˛ ICC (21). Zanim przejdziemy do konkretnego przykładu modelu IRT, sformułujmy warunek jednowymiarowości wprost w postaci, która nosi nazwe˛ lokalnej niezależności(local independence) (porównaj Ellis & van der Woldenberg, 1993, str. 420): ∀θ∈R ∀~x=[x1 ,...,xn ]∈{0;1}n P~u (~u = ~x|Θ = θ) = n Y Pui (ui = xi |Θ = θ), (23) i=1 gdzie P~u to rozkład prawdopodobieństwa całego wektora odpowiedzi ~ u, a Pui rozkład prawdopodobieństwa odpowiedzi na pytanie i. Powyższy wzór mówi, że w przypadku ustalenia wartości zmiennej Θ, odpowiedzi na poszczególne pozycje testu staja˛ sie˛ statystycznie niezależne. Oznacza to, że Θ jest jedynym czynnikiem odpowiedzialnym za współzmienność wszystkich odpowiedzi w teście — niniejszym ustaliliśmy, że rozważany test jest narz˛edziem jednowymiarowym. Lord i Novick (1968, str. 538) cytujac ˛ Andersona (1959) tak to ujeli ˛ w słowa: . . . wynik (performace) osoby zależy od pojedynczej zmiennej ukrytej, jeżeli przy ustalonej wartości tej zmiennej nie da sie˛ z zachowania tej osoby już niczego wiecej ˛ wywnioskować, co mogłoby przyczynić sie˛ do wytłumaczenia tego wyniku. Idea jest taka, że zmienna ukryta stanowi jedyny istotny czynnik i w momencie, gdy jej wartość zostaje wyznaczona, zachowanie przybiera charakter losowy, w znaczeniu statystycznej niezależności (Anderson, 1959). Rozsadnym ˛ założeniem, jakie można poczynić na temat relacji udzielanych przez badane osoby odpowiedzi ~ u do poziomu cechy, która˛ pragniemy mierzyć jest, aby ze wzrostem jej wartości nie malało prawdopodobieństwo udzielenia poprawnej odpowiedzi na każde pytanie w teście7 . Oczekiwalibyśmy, że ze wzrostem, dajmy na to, poziomu inteligencji zwieksza ˛ sie˛ prawdopodobieństwo poprawnej odpowiedzi na zadanie w teście majacym ˛ inteligencje˛ mierzyć. Oznacza to, że ze wzrostem Θ = θ prawdopodobieństwo P (ui = 1|Θ = θ) nie powinno maleć. Majac ˛ na wzgledzie ˛ (21), takie założenie o monotoniczności możemy zapisać: ∀j,j 0 ∈P ∀i∈{1,2,...,n} θj < θj 0 =⇒ gi (θj ) ¬ gi (θj 0 ), (24) czyli sprowadza sie˛ to do tego, aby krzywe charakterystyczne wszystkich pozycji testu były niemalejace. ˛ Jeżeli Θ spełnia warunki (18) oraz (19), spełnione jest założenie lokalnej niezależności (24), oraz wszystkie ICC (21) spełniaja˛ założenie monotoniczności (24), to otrzymujemy jednowymiarowy monotoniczny model IRT (22). Dalsza specyfikacja modeli IRT zależy już od konkretnej postaci rodziny G krzywych charakterystycznych. Przykładowo, model IRT, w którym każda funkcja gi przyjmuje postać: Pui (ui = 1|Θ = θ) = gi (θ) = g(θ; ai , bi ) = 1 −ai (θ−bi ) 1+e , (25) gdzie e ≈ 2, 718 jest stała˛ Eulera (podstawa logarytmu naturalnego), natomiast ai ∈ (0; +∞) oraz bi ∈ (−∞; +∞), nosi nazwe˛ dwuparametrycznego modelu logistycznego (w skrócie 2PLM). Przykład kilku krzywych w tym modelu jest podany na Rysunku 1. Z rysunku tego widać, że ze wzrostem wartości parametru ai zwieksza ˛ sie˛ „stromość" funkcji gi , natomiast zmiany w wartości parametru bi przesuwaja˛ wykres równolegle wzdłuż osi Θ. 50% prawdopodobieństwo udzielenia poprawnej odpowiedzi przypada 7 Nie wprowadzono dotychczas tego założenia dla ogólności przeprowadzanych rozważań. Niemonotoniczne ICC pojawiaja˛ sie˛ czasem w testach badajacych ˛ postawy (Formann, 1988, str. 45–46). 84 Rysunek 1: Przykład krzywych charakterystycznych w dwuparametrametrycznym modelu logistycznym. Krzywa w kolorze czarnym ma parametry a = 2, b = 0, 5, krzywe czerwone różnia˛ sie˛ od niej dyskryminacja, ˛ natomiast krzywe niebieskie trudnościa. ˛ na wartość Θ = bi , i wartość ta odpowiada także punktowi przegiecia ˛ krzywej gi . Czym wieksza ˛ wartość parametru ai , tym dana pozycja efektywniej bedzie ˛ rozróżniała miedzy ˛ osobami, których zdolność znajduje sie˛ w okolicach wartości bi , czyli tam gdzie funkcja jest najbardziej stroma — dla małych zmian wartości Θ w tym rejonie rozkład odpowiedzi (17) bedzie ˛ ulegał najwiekszym ˛ zmianom. Ze wzrostem wartości parametru bi dla osoby o ustalonym poziomie cechy Θ = θj , osoba ta bedzie ˛ miała coraz mniejsze prawdopodobieństwo udzielenia na dana˛ pozycje˛ odpowiedzi prawidłowej. W zwiazku ˛ z przytoczona˛ interpretacja˛ właściwości parametrów ai oraz bi nosza˛ one nazwy, odpowiednio: parametr dyskryminacji oraz parametr trudności. Jeżeli we wzorze (21) wartość parametru ai zostanie ustalona na ai = 1,to otrzymamy jednoparametryczny model logistyczny (1PLM), zwany również modelem Rascha, który sie˛ odznacza bardzo interesujacymi ˛ właściwościami. Istnieja˛ również modele z wieksz ˛ a˛ ilościa˛ parametrów, na przykład trójparametryczny model logistyczny (3PLM), w którym trzeci parametr został wprowadzony dla modelowania zjawiska „zgadywania” poprawnej odpowiedzi przez osoby o niskim poziomie cechy (dolna asymptota jest powyżej zera), do modelu 3PLM można wprowadzić także dodatkowy parametr niedbałości (carelesness) dla uzyskania krzywych modelujace ˛ pytania, na które osoby o wysokim poziomie cechy czasami nie udzielaja˛ odpowiedzi poprawnej (analogicznie górna asymptota jest poniżej jedności, otrzymujemy 4PLM). Oprócz funkcji logistycznych, w użyciu też sie˛ pojawiaja˛ sie˛ modele oparte na krzywej skumulowanego rozkładu normalnego, czy odpowiednio przekształconej funkcji kosinus. W szczególności krzywa charakterystyczna nie musi wcale być ciagła ˛ — w modelu Mokkena ICC jest funkcja˛ skokowa, ˛ do pewnej wartości równa˛ zero, a powyżej równa˛ 1 (otrzymana z (21) przy ai → +∞). Omówienie modeli stosowanych w IRT oraz różnic miedzy ˛ nimi dostepne ˛ jest w każdej pracy wprowadzajacej ˛ do tematyki IRT, także w innych artykułach w tym wydaniu niniejszego numeru Egzaminu. Wracajac ˛ do przykładu 2PLM, otrzymujemy model IRT: P × K , σ(~u), {PΘ,a1 ,b1 ,a2 ,b2 ,...,an ,bn : Θ ∈ R, ai ∈ (0, +∞), bi ∈ R , (26) czyli model, w którym prawdopodobieństwo zaobserwowania dowolnego ~ u(j, t) = ~x ∈ {0; 1}n jest jednoznacznie wyznaczone przez rozkład prawdopodobieństwa, który zależy od pojedynczego parametru zdolności Θ, oraz 2n parametrów krzywych charakterystycznych danych wzorem (25). Uwzgledniaj ˛ ac ˛ lo- 85 kalna˛ niezależność pozycji (23), postać rozkładu poszczególnej pozycji dla ustalonego poziomu cechy Θ = θ (17) oraz wzór na ICC (25), otrzymujemy nastepuj ˛ ac ˛ a˛ zależność: ∀~x∈{0;1}n P~u (~u = ~x) = PΘ,a1 ,b1 ,a2 ,b2 ,...,an ,bn (~u = ~x) = (23) n Y (17) i=1 n Y (25) i=1 n Y = = = Pui (ui = xi |Θ = θ) = Pui (ui = 1|Θ = θ)xi Pui (ui = 0|Θ = θ)1−xi = g(θ; ai , bi )xi (1 − g(θ; ai , bi ))1−xi . (27) i=1 3.3 Estymacja parametru zdolności Θ dla pojedynczej osoby losowo dobranej z populacji Załóżmy na poczatek, ˛ że znamy postać wszystkich n krzywych charakterystycznych w naszym teście. Kontynuujac ˛ przykład 2PLM (25), oznacza to, że znamy wszystkie wartości ai oraz bi . Rozkład wektora odpowiedzi, ~ u jak widać z (27), bedzie ˛ zależał wtedy jedynie od jednego nieznanego parametru Θ, bed ˛ acego ˛ poziomem cechy badanej testem osoby. Przypomnijmy przykład monety rozpatrywany na poczatku. ˛ Po zarejestrowaniu konfiguracji rzuconych reszek i orłów w m-krotnym rzucie moneta˛ mogliśmy stwierdzić, które wartości nieznanego parametru π były bardziej prawdopodobne od innych8 i dokonać jego estymacji. Podobnie teraz, gdyby zbadać testem pojedyncza˛ osobe˛ j , otrzymamy konkretna˛ realizacje˛ wektora odpowiedzi, czyli ~ xj ∈ {0; 1}n , która bedzie ˛ dla różnych wartości Θ = θj wiazała ˛ sie˛ z różnym prawdopodobieństwem (27). Estymatorem θ̂j nieznanego parametru θj bedzie ˛ ta wielkość Θ, dla której prawdopodobieństwo (27) jest najwieksze. ˛ Estymator θ̂ zdefiniowany w ten sposób nosi nazwe˛ estymatora najwiekszej ˛ wiarygodności i formalnie jest rozwiazaniem ˛ nastepuj ˛ acego ˛ problemu: max θ∈R n Y gi (θ)ui (1 − gi (θ))1−ui (28) i=1 czyli maksymalizacji funkcji rozkładu prawdopodobieństwa po wszystkich możliwych wartościach θ. Zapiszmy maksymalizowana˛ funkcje˛ jako: l(θ; ~u) = n Y gi (θ)ui (1 − gi (θ))1−ui , (29) i=1 przez co podkreślone zostaje, że wartość parametru θ zależy od realizacji wektora losowego ~ u (parametr i zmienna losowa niejako zamieniaja˛ sie˛ miejscami). Funkcja l(θ; ~ u) nosi nazwe˛ funkcji wiarygodności rozważanego eksperymentu (Gajek & Kałuszka, 1999, str. 88). Zamiast maksymalizować bezpośrednio funkcje˛ (29), o wiele łatwiejszym rozwiazaniem ˛ jest maksymalizacja logarytmu naturalnego z tej funkcji: L(θ; ~u) = ln(l(θ; ~u)) = n X i=1 ui ln (gi (θ)) + n X (1 − ui ) ln(1 − gi (θ)), (30) i=1 gdyż, jak widać, zamiast iloczynów ICC, jak to ma miejsce we wzorze na l(θ; ~ u), mamy do czynienia z ich suma. ˛ Z powyższego opisu, aby uzyskać oszacowanie poziomu cechy danej osoby, należy dokonać maksymalizacji dość skomplikowanej funkcji. W przypadku wiekszości ˛ modeli rozwiazanie ˛ nie jest dane bezpośrednio w sposób analityczny i aby wykonać takie zadanie, konieczne jest korzystanie z dość wymagajacych ˛ obliczeniowo iteracyjnych procedur, które byłyby uciażliwe ˛ bez wykorzystania komputerów. 8 86 W tym przypadku wystarczała de facto informacja o ilość reszek — patrz wzór na rozkład dwumianowy (12). 3.4 Kalibracja testu Dodać należy, że w praktyce nie sa˛ znane parametry pozycji testowych, co bardzo komplikuje problem oszacowania parametrów całego modelu. Wektor n odpowiedzi pojedynczej osoby nie dostarcza wystarczajacej ˛ informacji do oszacowania jednocześnie parametru Θ jak i postaci n nieznanych ICC. Podobnie jak w przykładzie z moneta, ˛ gdzie dla oszacowania nieznanej wartości π dokonano m-krotnego rzutu moneta, ˛ aby oszacować parametry modelu IRT badane jest N losowo dobranych z populacji osób. Procedura taka nosi nazwe˛ kalibracji testu (test calibration). Obserwowana˛ zmienna˛ losowa˛ jest już nie realizacja pojedynczego wektora odpowiedzi ~ u, lecz całej macierzy odpowiedzi U = [~u1 × ~u2 × ~uN ], o wymiarach N × n. Jeżeli krzywe charakterystyczne sa˛ dane dwuparametrycznym wzorem (25), to otrzymujemy model statystyczny (Ω, A, P) (5), który zależy od 2n parametrów ICC oraz N parametrów odpowiadajacych ˛ poziomowi cechy poszczególnych osób (porównaj (13)): Ω = (P × K ) × · · · × (P × K ) {z } | N razy (31) A = σ(~|u × ·{z · · × ~u}) N razy P = {PΘ1 ,Θ2 ,...ΘN ,a1 ,b1 ,a2 ,b2 ,...,an ,bn : Θj ∈ R, ai ∈ (0, +∞), bi ∈ R}, ˛ maksymalizacji funkcji, Problem estymacji parametrów tego modelu9 można zapisać jako problem łacznej która zależy od N + 2n nieznanych parametrów: max l(θ1 , θ2 , . . . θN , a1 , b1 , a2 , b2 , . . . , an , bn ; U) = {θj ∈R,bi ∈R, ai ∈(0;+∞)} = max {θj ∈R,bi ∈R, ai ∈(0;+∞)} L(θ1 , θ2 , . . . θN , a1 , b1 , a2 , b2 , . . . , an , bn ; U) (32) Zakładajac ˛ niezależność odpowiedzi poszczególnych osób wzgledem ˛ siebie10 , logarytm funkcji wiarygodności L jest postaci: L(θ1 , θ2 , . . . , θN , a1 , b1 , a2 , b2 , . . . , an , bn ; U) = = N X n X ln g(θj , ai , bi )uij (1 − g(θj , ai , bi ))1−uij = j=1 i=1 = N X n X j=1 i=1 uij ln (g(θj , ai , bi )) + N X n X (1 − uij ) ln(1 − g(θj , ai , bi )). (33) j=1 i=1 Maksymalizacja wyrażenia (33), które zależy jednocześnie od N +2n zmiennych, jest zadaniem tak skomplikowanym obliczeniowo, że w wiekszości ˛ przypadków bez wprowadzania pewnych dodatkowych założeń czy rozwiaza ˛ ń11 , nie dałoby sie˛ go rozwiazać ˛ nawet przy użyciu komputerów. Nie bedziemy ˛ sie˛ tu wgłebiać ˛ w stosowane do tego celu rozwiazania. ˛ Doskonała˛ pozycja˛ omawiajac ˛ a˛ algorytmy stosowane w estymacji parametrów różnych modeli IRT jest ksiażka ˛ Baker & Seock-Ho pod tytułem Item Response Theory. Parameter Estimation Techniques. Przybliżony problem kalibracji testu uwidacznia, dlaczego rozwój teorii odpowiadania na pozycje testowe był tak nierozerwalnie zwiazany ˛ z rozwojem komputerów umożliwiajacych ˛ automatyczne dokonywanie bardzo złożonych obliczeń. Zrozumiałe sie˛ też staje, że stosowanie IRT w praktyce wymaga posiadania odpowiedniego oprogramowania. 9 Co oznacza znalezienie wartości estymatora: [θ̂1 , θ̂2 , . . . θ̂N , â1 , b̂1 , â2 , b̂2 , . . . , ân , b̂n ]. Czyli nieformalnie mówiac, ˛ że badane osoby nie „ściagaj ˛ a" ˛ odpowiedzi od siebie. 11 Jedynie w przypadku modelu Rascha zachodzi jest tak zwana separacja pozycji i osób(separation of items and persons), umożliwiajaca ˛ niezależnie od siebie estymować parametry osób oraz pozycji bez czynienia dodatkowych założeń (Baker & Seock-Ho, 2004, str. 155). 10 87 3.5 Informacja Fishera jako lokalna miara błedu ˛ estymatora nieznanego parametru W poprzednim paragrafie omówiliśmy metody estymacji parametrów modelu IRT. Wzór (28) pokazuje, że estymator poziomu zdolności θ̂ jest funkcja˛ poszczególnych odpowiedzi ui , które sa˛ zmiennymi losowymi. Zmienna˛ losowa˛ jest również i sam estymator cechy, przyjmowane przez niego wartości zależa˛ od konkretnej realizacji ~ x wektora odpowiedzi ~u. Estymator ma zatem specyficzny rozkład, a co za tym idzie wartość oczekiwana˛ i wariancje. ˛ Na przykład, co do wartości oczekiwanej estymatora pożadan ˛ a˛ właściwościa˛ θ̂ byłoby: E(θ̂|θ) = θ (34) czyli, żeby wartość oczekiwana z estymatora pod warunkiem, że prawdziwa wartość parametru jest θ, była równa tej prawdziwej wartości. Mówimy, że estymator spełniajacy ˛ warunek (34) jest nieobciażony. ˛ Znajomość rozkładu estymatora jest konieczna do zbudowania przedziałów ufności, w których na podstawie przeprowadzonego eksperymentu możemy twierdzić, że na zadanym poziomie ufności prawdziwa wartość parametru sie˛ znajduje. W szczególności, jeżeli rozkład estymatora θ̂ dla Θ = θ jest normalny, 2 , to można zbudować (1 − α)100 procentowy z wartościa˛ oczekiwana˛ dana˛ (34) i pewna˛ wariancja˛ σθ̂|θ przedział ufności dla prawdziwej wartości estymatora: q q 2 ; θ̂ + z 2 ), α (θ̂ − z1− α σθ̂|θ σθ̂|θ (35) 1− 2 2 q 2 jest gdzie z1− α jest kwantylem rz˛edu 1 − α2 standardowego rozkładu normalnego N (0, 1). Wartość σθ̂|θ 2 w tym kontekście standardowym błedem ˛ pomiaru zdolności Θ przy założeniu, że jej poziom wynosi θ, czyli jest to bład ˛ warunkowy (conditional standard error of measurement, w skrócie SEM(θ)). Dla estymatora najwiekszej ˛ wiarygodności (28) zdefiniujmy wielkość: ! dL 2 I(θ) = E θ . dθ (36) I(θ) nosi nazwe˛ informacji Fishera o parametrze θ zawarta˛ w obserwacji ~u (Lehmann, 1991, str. 118) i jest miara˛ krzywizny logarytmu funkcji wiarygodności (30) w otoczeniu prawdziwej wartości parametru. Im bardziej logarytm funkcji wiarygodności odpowiadajacej ˛ naszemu eksperymentowi jest w otoczeniu θ „stromy”, tym wieksza ˛ bedzie ˛ wartość I(θ). Jest to zgodne z intuicyjnym pojmowaniem „informacji", które wykorzystywano wcześniej w tym artykule jako miare˛ zdolności danej zmiennej losowej (w tym przypadku estymatora θ̂) do redukowania niepewności co do prawdziwej wartości interesujacego ˛ nas parametru. Wyższe wartości I(θ) bed ˛ a˛ odpowiadały tym rejonom Θ, gdzie szukane maksimum (28) jest bardziej „wyraziste"; dla θ znajdujacych ˛ sie˛ w takim rejonie przyjmowane przez estymator wartości θ̂ bed ˛ a˛ potencjalnie bardziej skupione wokół θ. Rao tak opisuje informacje˛ Fishera (Rao, 1982, str. 343–344): Przez informacje˛ o nieznanym parametrze θ, zawarta˛ w pewnej zmiennej losowej, rozumiemy stopień, w jakim w wyniku obserwacji tej zmiennej zmniejsza sie˛ nasza niewiedza na temat interesujacego ˛ nas parametru. Jeżeli dla każdej wartości parametru istnieje dokładnie jedna wartość zmiennej losowej pojawiajaca ˛ sie˛ z prawdopodobieństwem 1, to odpowiednia zmienna losowa zawiera maksimum informacji. Z drugiej strony, jeżeli dla wszystkich wartości parametru θ zmienna losowa ma taki sam rozkład, zaobserwowane wartości tej zmiennej nie daja˛ żadnych podstaw do wyciagania ˛ wniosków o θ. Czułość zmiennej losowej na zmiany parametru można, wiec ˛ uzasadniać stopniem zmian rozkładu tej zmiennej w wyniku zmian wartości parametru. Informacja Fishera jest funkcja˛ θ (podkreśla to zapis I(θ)), a co za tym idzie pozwala na oszacowanie dokładności uzyskanych estymatorów NW parametru θ w zależności od przyjmowanych przez niego 88 wartości. Możemy sie˛ w zwiazku ˛ z tym spodziewać, że dla niektórych wartości θ dla ustalonego testu oszacowanie estymatorem (28) bedzie ˛ bardziej precyzyjne niż dla innych. Informacja Fishera bardzo ważna˛ właściwość addytywności, przez co rozumie sie˛ fakt, że jeżeli posiadamy informacje o parametrze I1 oraz I2 , pochodzace ˛ z dwóch niezależnych zmiennych losowych ξ1 oraz ξ2 , to informacja zawarta łacznie ˛ w tych dwóch zmiennych bedzie ˛ sie˛ sumować, czyli I = I1 + I2 (Rao, 1982, str. 342). Oczywiście można to uogólnić na n niezależnych zmiennych i otrzymujemy: I(θ) = n X Ii (θ) (37) i=1 Koncepcja informacji jest nam potrzebna ze wzgledu ˛ na dwa zasadnicze twierdzenia. Pierwsze to nierówność informacyjna, mówiaca, ˛ że dla ogólnego przypadku nieobciażonego ˛ estymatora (34)12 zachodzi: 2 σθ̂|θ 1 . I(θ) (38) czyli, że wariancja estymatora od dołu jest ograniczona poprzez odwrotność informacji Fishera. Drugie twierdzenie mówi, że jeżeli estymator θ̂ jest obliczony na podstawie n-elementowej próby losowej, to jego rozkład ze wzrostem n coraz bardziej zbliża sie˛ do rozkładu normalnego o wariancji (Deutsch, 1969, str. 179–185): 2 lim σθ̂|θ = n→∞ 1 , I(θ) (39) czyli, że ze zwiekszaniem ˛ ilości niezależnych obserwacji (u nas bed ˛ a˛ to pytania w teście), nierówność (38) staje sie˛ równościa, ˛ a kształt rozkładu estymatora staje sie˛ normalny. Jeżeli zatem ilość pytań w teście byłaby wystarczajaco ˛ duża, lub dla danego modelu IRT i wartości θ w miejscu „" w (38) pojawiała sie˛ równość13 , uzasadnione byłoby budowanie przedziału ufności (35), przy wartości standardowego błedu ˛ pomiaru danej przez: s SEM (θ) = 1 . I(θ) (40) W ogólnym przypadku modelu IRT dla pozycji ocenianych dychotomicznie (22) z różniczkowalnymi krzywymi charakterystycznymi informacja Fishera jest dana wzorem: I(θ) = n X i=1 dgi (θ) 2 dθ gi (θ)(1 − gi (θ)) , (41) przy czym ze wzgledu ˛ na addytywność informacji Fishera sensowne jest rozpatrywanie pojedynczych składników powyższej sumy: 2 Ii (θ) = 12 dgi dθ (θ) gi (θ)(1 − gi (θ)) . (42) Wzór dla estymatora obciażonego ˛ jest bardziej skomplikowany (Lehmann, 1991, str. 118–122). Estymatory najwiekszej ˛ wiarygodności cechy daja˛ cz˛esto oszacowania obciażone, ˛ zwłaszcza dla skrajnych wartości Θ = θ obcia˛ żenie to bywa istotne. Zagadnienie wpływu wielkości próby oraz poziomu cechy na obciażenie ˛ estymatorów uzyskiwanych za pomoca˛ algorytmu łacznej ˛ estymacji najwiekszej ˛ wiarygodności (Joint maximum likelihood estimation) ˛ estymatorów NW cechy oraz pozycji testowych zbadane zostało w pracy własnej (Kondratek, 2007). Obciażenie jest istotnym problemem, z jakim borykaja˛ sie˛ twórcy różnorakiego programowania do estymacji parametrów IRT. Kwestie˛ tutaj pominieto, ˛ aby nie komplikować wywodu. 13 Nieobciażone ˛ estymatory, których wariacja jest równa informacji Fishera, sa˛ nazywane efektywnymi. Nazwa ta odzwierciedla fakt, że nie można skonstruować estymatora, który miałby mniejsza˛ od nich wariancje, ˛ innymi słowy, estymatory takie wykorzystuja˛ informacje˛ zawarta˛ w obserwowanej zmiennej losowej w sposób maksymalny. 89 Wyrażenie (41) nosi nazwe˛ funkcji informacyjnej testu, a (42) analogicznie funkcji informacyjnej pozycji testowej i daja˛ nam lokalna˛ miare˛ precyzji pomiarów, jaka˛ możemy dokonywać za pomoca˛ całego testu, badź ˛ pojedynczych jego pozycji. Dla modelu 2PLM (25) funkcja informacyjna pozycji i jest dana wzorem: Ii (θ) = a2i gi (θ; ai , bi )(1 − gi (θ; ai , bi )). (43) Zależność miedzy ˛ funkcja˛ informacji testu złożonego z pieciu ˛ typowych itemów 2PLM, a funkcjami informacji tych pozycji przedstawia Rysunek 2. Rysunek 2: Funkcja informacji testu (kolor czerwony) oraz funkcja informacji pieciu ˛ itemów (kolor niebieski) w 2PLM. Parametry ICC zostały wygenerowane niezależnie od siebie z rozkładów normalnych o parametrach (0, 1) dla trudności bi oraz (1.3, 0.32 ) dla dyskryminacji ai . 3.6 Konstrukcja testów, CAT Załóżmy, że posiadamy zbiór n0 pozycji, które zostały w wyniku wcześniejszych badań skalibrowane z odpowiednia˛ dokładnościa˛ do wyliczenia funkcji informacji (41). Fakt, że dysponujemy wyrażeniem na warunkowy bład ˛ pomiaru dla testu utworzonego z takich itemów w postaci pierwiastka odwrotności funkcji informacji testu (41), umożliwia wprowadzenie interesujacych, ˛ optymalnych metod konstrukcji testów. Ogólna zasada, która˛ sie˛ należy kierować, składa sie˛ z dwóch etapów. Pierwszym jest założenie, z jaka˛ dokładnościa˛ i w jakim zakresie pragniemy, aby nasz test mierzył badana˛ ceche. ˛ W etapie tym budujemy zatem docelowa˛ funkcje˛ informacji testu (target test information function). W etapie drugim natomiast, wykorzystujac ˛ nasze n0 itemów dokonujemy wyboru n ¬ n0 itemów tak, żeby n było najmniejsze oraz powstała funkcja informacji testu była nie mniejsza niż docelowa. Relacje miedzy ˛ funkcjami informacji itemów a informacja˛ całego testu ilustruje Rysunek 2. MMimo iż konceptualnie jest to bardzo proste, problem ten stanowi skomplikowane zadanie optymalizacji, którego metody rozwiazywania ˛ wykraczaja˛ poza zakres niniejszego artykułu (Gruijter & van der Kamp, 2002, str. 129–130). Baker wyróżnia nastepuj ˛ ace ˛ rodzaje testów (2001, str. 154): 1. Testy przesiewowe (screening tests); sa˛ to testy skonstruowane tak, aby możliwie mocno dyskryminowały miedzy ˛ osobami powyżej oraz poniżej pewnego ustalonego poziomu Θ = θ0 . I(θ) takiego testu bedzie ˛ sie˛ charakteryzować zdecydowanym wzrostem wartości w pobliżu θ0 , w jej skład bed ˛ a˛ 90 wchodzić pozycje o zbliżonej trudności skupionej wokół wartości cechy bed ˛ acej ˛ obiektem zainteresowania twórcy testu. 2. Testy o szerokim zasiegu ˛ (broad-ranged tests); sa˛ to testy bed ˛ ace ˛ przeciwieństwem poprzednich. Maja˛ na celu badanie cechy możliwie dokładnie w obrebie ˛ szerokiego zakresu wartości Θ, kształt I(θ) jest zatem spłaszczony, a w jego skład wchodza˛ zróżnicowane itemy. 3. Testy o waskim ˛ zasiegu ˛ (peaked tests); sa˛ czymś pośrednim pomiedzy ˛ dwoma wcześniejszymi rodzajami testów. Mierza˛ one ceche˛ zdecydowanie lepiej w pewnym obszarze cechy, lecz nie tak zdecydowanie, jak testy przesiewowe. Uzasadnieniem tworzenia takich testów jest bardziej fakt, że ˛ a˛ wartości cechy z wyróżnianego obszaru, niż cheć ˛ rozw populacji badanych najcz˛eściej wystepuj różniania miedzy ˛ dwoma grupami badanych, jak ma to miejsce w przypadku testu przesiewowego. Z powyższego widać, że IRT umożliwia tworzenie testów nakierowanych na mierzenie cechy z a priori zadana˛ dokładnościa˛ w żadanym ˛ zakresie cechy. Faktem godnym odnotowania jest także to, że tworzac ˛ test z prekalibrowanego (precalibrated) zbioru itemów można dzieki ˛ lokalnej ich niezależności łaczyć ˛ pozycje ze soba˛ w sposób zupełnie dowolny, przy czym właściwości psychometryczne tak powstałego narz˛edzia sa˛ łatwo i bezpośrednio uzyskiwane poprzez sumowanie funkcji informacji pozycji testowych (37). Omówione sposoby konstrukcji testów odwołuja˛ sie˛ do budowania tradycyjnych narz˛edzi, tak zwanych testów „papier–ołówek” (paper pencil tests), czyli narz˛edzi składajacych ˛ sie˛ ze stałego zbioru pozycji, najcz˛eściej też ułożonych w tej samej kolejności. W momencie, gdy test jest rozwiazywany ˛ w formie elektronicznej i spełnione jest założenie o lokalnej niezależności pozycji, można zastosować opisana˛ logik˛e tworzenia testów w sposób bardziej dynamiczny, otrzymujac ˛ równie dokładne pomiary przy mniejszym koszcie lub pomiary tak samo dokładne przy tym samym koszcie, jeżeli przez koszt rozumiemy ilość pozycji, na jaka˛ badana osoba musi udzielić odpowiedzi. Podejście takie nosi nazwe˛ adaptatywnego testowania komputerowego (computer adaptive testing, CAT). W CAT postepuje ˛ sie˛ według nastepuj ˛ acego ˛ algorytmu: najpierw określamy górna˛ granice˛ SEM, z jakim co najwyżej pragniemy uzyskać pomiar cechy danej osoby, zaczynamy od pewnej startowej wielkości poczatkowej ˛ szacujacej ˛ poziom cechy badanej osoby θˆ0 (np. średnia z populacji) i za każda˛ udzielona˛ odpowiedzia˛ uaktualniamy I(θ) oraz wartość SEM(θ). Jeżeli w kroku k -tym badanie nie osiagn ˛ eło ˛ odpowiedniej precyzji, to w nastepnym ˛ kroku administrujemy taka˛ pozycje, ˛ która w zbiorze pozostałych pozycji w punkcie θˆk ma możliwie najwieksz ˛ a˛ wartość funkcji informacji. W ten sposób można drastycznie skrócić czas badania, ponieważ osoba w miare˛ udzielania odpowiedzi dostaje pozycje coraz bardziej dostosowane do poziomu jej cechy i nie musi odpowiadać na szereg pozycji majacych ˛ mała˛ wartość informatywna, ˛ które znajdowałyby sie˛ prawdopodobnie w tradycyjnej wersji „papier – ołówek” testu. Unikniecie ˛ podawania osobie pytań za trudnych badź ˛ za łatwych, niesie za soba˛ dodatkowe korzyści, polegajace ˛ na eliminowaniu wpływu na udzielane odpowiedzi takich niepożadanych ˛ czynników, jak frustracja lub znużenie. Schemat badania CAT przedstawia Rysunek 3. 4 4.1 Klasyczna teoria testów Porównanie założeń czynionych przez obydwie teorie. Jak już wspominano, wszystkie założenia na temat sytuacji testowania, jakie poczyniono w paragrafie 2 dotycza˛ zarówno klasycznej teorii testów, jak i teorii odpowiadania na pozycje testowe. W szczególności prawda˛ jest, że jedyna˛ obserwowana˛ zmienna˛ w eksperymencie badania testem jest wektor odpowiedzi ~u określony na przestrzeni zdarzeń elementarnych P × K (14). Również w momencie, gdy ustalona zostanie osoba j ∈ P , czyli funkcja (15) przyjmie wartość V = j , to rozkład odpowiedzi na każda˛ pozycje˛ bedzie ˛ dany za pośrednictwem wzoru (17). Omawiajac ˛ podstawy modeli odpowiadania na pozycje testowe, wprowadzono kolejne założenia, miano- 91 ' $ START & % ? k=0 θ̂k = θ̂0 SEM ? Wybór optymalnego dla θ̂k itemu; k =k+1 ? Rejestracja odpowiedzi uk ? Estymacja θ̂k ; Obliczenie SEM(θ̂k ) ? @ @ @ @ SEM(θ̂k )¬ SEM @ Nie @ @ @ @ @ Tak ' ? $ STOP & % Rysunek 3: Schemat blokowy badania CAT. Na podstawie (Gruijter & van der Kamp, 2002, str. 139) wicie, że istnieje pewna zmienna ukryta Θ, dla której zachodzi Θ(j, t) = Θ(j, t0 ) dla dowolnych t ∈ K (19), oraz spełnione jest założenie lokalnej niezależności pomiarów (23). Sprowadzało sie˛ to faktycznie do stwierdzenia, że test jest jednowymiarowy i w konsekwencji uzyskano pełny model statystyczny dla omawianej sytuacji eksperymentalnej (22). Mimo iż w teorii klasycznej założenie jednowymiarowości formalnie nie jest czynione, omawiajac ˛ teraz teorie˛ klasyczna˛ przyjmiemy w kilku miejscach, że jest spełnione. Zrobimy tak z trzech wzgledów: ˛ 1. Założenie o jednowymiarowości wydaje sie˛ najbardziej elementarnym założeniem, umożliwiajacym ˛ skonstruowanie w pełni określonego modelu statystycznego, opisujacego ˛ sytuacje˛ badania testem w kontekście pomiaru pewnych ukrytych zmiennych. Bez niego model byłby po prostu niedookreślony14 . GGdyby założenie takie było zbytnim uproszczeniem w pewnych okolicznościach, zawsze jest możliwość wprowadzenia dodatkowych zmiennych ukrytych, aby lepiej wytłumaczyć zmienność obserwowanych wyników. Wielowymiarowość testu powodowałaby skomplikowanie modelu, co wydaje sie˛ niepotrzebne w kontekście przeprowadzanych rozważań. 2. Po założeniu, że zachodzi pewien model IRT, możliwe staje sie˛ bezpośrednie porównanie wielkości definiowanych w klasycznej teorii testów z odpowiednimi konstruktami teorii odpowiadania na pozycje testowe. 3. Teoria klasyczna, w celu umożliwienia estymacji bardzo istotnego dla niej parametru rzetelności (zostanie on zdefiniowany później), czyni pewne specyficzne założenie, które jest tylko nieznaczne łagodniejsze od założenia o lokalnej niezależności spotykanego w IRT. 14 92 Jak później zostanie wykazane, jest to jedna z podstawowych wad teorii klasycznej. Aby odnieść sie˛ precyzyjniej do trzeciego z wymienionych punktów, musimy sie˛ bliżej przyjrzeć założeniu o lokalnej niezależności pomiarów (23). Okazuje sie, ˛ że założenie to jest równoważne równoczesnemu spełnieniu dwóch innych warunków: eksperymentalnej niezależności (experimental independence) oraz {emphlokalnej homogeniczności (local homogeneity ), czyli: ( lokalna niezależność ⇐⇒ lokalna homogeniczność eksperymentalna niezależność (44) Formalny dowód powyższego dla dwóch pomiarów można znaleźć u Lorda i Novicka (1968, str. 539–540), natomiast dla przypadku ogólnego u Ellisa i van der Wollenberga (1993, str. 420–423). My podamy jedynie postać pojawiajacych ˛ sie˛ w (44) warunków. Eksperymentalna niezależność jest nastepuj ˛ acym ˛ założeniem ∀j∈P ∀~x∈{0;1}n P (~u = ~x|V = j) = n Y P (ui = xi |V = j), (45) i=1 natomiast tak wyglada ˛ lokalna homogeniczność: ∀j∈P ∀~x∈{0;1}n P (~u = ~x|V = j) = P (~u = ~x|Θ = θj ). (46) Założenie o eksperymentalnej niezależności (45) mówi, że w momencie ustalenia konkretnej osoby j odpowiedzi, jakie udziela ona na poszczególne pytania testu, sa˛ wzgledem ˛ siebie niezależne statystycznie. Można to zinterpretować w ten sposób, że każda osoba posiada stały zbiór cech (ograniczajac ˛ sie˛ do tego założenia nie musi to być zatem pojedyncza cecha), który w pełni określa współzmienność udzielanych przez nia˛ odpowiedzi. Przestrzeń replikacji K dla ustalonej osoby j jest odpowiedzialna jedynie za specyficzne dla każdej pozycji źródła losowości. Założenie o lokalnej homogeniczności mówi natomiast, że wszystkie osoby o tym samym poziomie cechy maja˛ taki sam rozkład odpowiedzi. Konkretna wartość zmiennej Θ zatem wyznacza w populacji P pewna˛ klase˛ abstrakcji osób, których nie da sie˛ miedzy ˛ soba˛ odróżnić na podstawie obserwacji udzielanych przez nie odpowiedzi w teście ~ u — osób o tym samym poziomie mierzonej cechy. Zamiast określać, jaka osoba j została wylosowana do badania testem, wystarczajace ˛ jest podanie wartości pojedynczego parametru Θ = θj . Klasyczna teoria testów natomiast, w celu umożliwienia estymacji współczynnika rzetelności, dokonuje założenia o liniowej eksperymentalnej niezależności pomiarów, które w zastosowaniu do pojedynczych pozycji przyjmuje postać: ( ∀j∈P ∀i,i0 ∈{1,2,...,n} E(uij |ui0 j ) = E(uij ) E(ui0 j |uij ) = E(ui0 j ) (47) czyli, że dla wszystkich par pozycji testu dla konkretnej osoby j odpowiedzi na pozycje˛ i nie wpływaja˛ na wartość oczekiwana˛ odpowiedzi na pozycje˛ i0 i odwrotnie. Zgodnie z przeprowadzona˛ wcześniej argumentacja, ˛ dla ustalonej osoby j odpowiedzi udzielane na każda˛ pozycje˛ i maja˛ rozkład dwupunktowy, który zależy od pojedynczego parametru πij (wzór (17)). Omawiajac ˛ przykład rzutu moneta˛ udowodniono natomiast, że wartość oczekiwana takiego rozkładu jest równa właśnie parametrowi πij (wzór (9)). Warunek (47) nakłada zatem, w kontekście dychotomicznych pozycji, wymaganie, aby jedyny parametr, od którego zależa˛ rozkłady odpowiedzi ui oraz ui0 , nie zależał od rozkładów odpowiednio ui0 oraz ui . Oznacza to po prostu, że wszystkie pozycje testu po ustaleniu osoby j musza˛ być wzgledem ˛ siebie parami niezależne: ∀j∈P ∀i,i0 ∈{1,2,...,n} ∀xi ,xi0 ∈{0;1} P (ui = xi , ui0 = xi0 |V = j) = = P (ui = xi |V = j)P (ui0 = xi0 |V = j), (48) co jest jedynie nieznacznym zaostrzeniem eksperymentalnej niezależności (44). Jak sie˛ okaże samo założenie (47) nie jest jednak wystarczajace ˛ do opisu zmienności obserwowanych w teście wyników. 93 4.2 Wynik uzyskany, wynik prawdziwy, bład ˛ pomiaru Zmienna˛ losowa, ˛ która w teorii klasycznej służy do oszacowania poziomu mierzonej testem cechy, jest wynik uzyskany w teście, oznaczany najcz˛eściej jako X i określony wzorem: n X X= ui . (49) i=1 Jest to zwykła suma poszczególnych odpowiedzi udzielonych na pytania testu. Wynik uzyskany jako funkcja ui jest oczywiście zmienna˛ losowa˛ określona˛ na przestrzeni P × K . Wynik prawdziwy ustalonej osoby j definiuje sie˛ jako: τj = E(X|V = j) = E(Xj ), (50) czyli jest to wartość oczekiwana ze zmiennej (49), przy nałożonym warunku V = j . Dla każdej osoby j bedzie ˛ to pewna stała, charakteryzujaca ˛ ta˛ osobe, ˛ wartość. Aby w sposób spójny z definicja˛ (50) określić wynik prawdziwy T , na całej przestrzeni P × K dokonuje sie˛ złożenia warunkowej wartości oczekiwanej z X wzgledem ˛ V z funkcja˛ V, czyli: T = E(X|V ) ◦ V. (51) Zależności miedzy ˛ funkcjami T , V oraz E(X|V ) zestawia poniższy diagram (Zimmerman, 1975, str. 397): / P II II II E(X|V ) I T II$ V P ×K (52) R Funkcja E(X|V ) : P −→ R odpowiada definicji wyniku prawdziwego dla stochastycznej interpretacji osoby, jaka˛ zapisano w (50) i dla każdej j wylosowanej z P otrzymujemy E(X|V )(j) = E(X|V = j) = τj . Poprzez złożenie z funkcja˛ V natomiast, wynik prawdziwy T jest określony na przestrzeni zdarzeń elementarnych P × K . Warto zauważyć, że tak zdefiniowany wynik prawdziwy T ma właściwość, że dla każdej osoby j ∈ P przyjmuje stała˛ wartość τj niezależnie od replikacji k ∈ K , czyli właściwość jaka˛ postulowano w IRT dla zmiennej ukrytej Θ (19). Można podsumować: _GF (j, t) T V / j E(X|V ) / ED τj , (53) czyli T (j, t) = E(X|V ) ◦ V (j, t) = E(X|V = V (j, t)) = E(X|V = j) = τp . Na tak zdefiniowanych zmiennych losowych X oraz T możliwe jest dokonywanie operacji arytmetycznych (ta sama przestrzeń zdarzeń elementarnych). Trzecia˛ istotna˛ dla KTT wielkościa˛ jest bład ˛ pomiaru, który jest określony po prostu jako różnica tych dwóch zmiennych: E =X −T (54) Dla błedu ˛ E danego przez (54) można udowodnić (Zimmerman, 1975, str. 404–405), że wartość oczekiwana błedu ˛ pomiaru wynosi zero: E(E) = 0 (55) oraz, że zerowa bedzie ˛ wartość oczekiwana iloczynu zmiennych T oraz E : E(T E) = 0 94 (56) Powyższe pociaga ˛ za soba˛ zerowa˛ kowariancje˛ 15 miedzy ˛ T oraz E : cov(T, E) = σT E = 0, (57) która jest własnościa˛ cz˛esto wykorzystywana˛ w dowodach różnych twierdzeń KTT. Poziom cechy w teorii klasycznej jest mierzony jako wartość oczekiwana ze zmiennej X . Dokonujac ˛ pojedynczego badania testem, czyli losujac ˛ pare˛ (j, t) ∈ P × K , otrzymujemy pewna˛ realizacje˛ wyniku otrzymanego X(j, t) = x. Zarejestrowany w takim eksperymencie wynik otrzymany x stanowi nieobcia˛ 16 żony estymator wyniku prawdziwego T (j, t) = τ , co możemy zapisać τ̂ (j, t) = x. W porównaniu z modelem IRT oszacowanie poziomu cechy jest zatem bezpośrednie. Należy jednak zauważyć, że poprzez dodanie do siebie odpowiedzi nastepuje ˛ utrata pewnej informacji zawartej we wzorze udzielonych odpowiedzi, która może być istotna z punktu widzenia pomiaru poziomu cechy17 . 4.3 Rzetelność W równaniu (54) określiliśmy zależność, w której mamy obserwowana˛ zmienna˛ X , która zależy liniowo od sumy dwóch zmiennych T oraz E i to w taki sposób, że dla ustalonej wartości T = τ 18 wartość oczekiwana z X jest zgodnie ze wzorem (50) stała. Opisane zależności dla trójki X , T oraz E przypominaja˛ model regresji liniowej, który w ogólnej postaci jest zazwyczaj definiowany jako: Y = α + βξ + ε, (58) gdzie ε sa˛ niezależnymi od poziomu ξ losowymi składnikami błedu ˛ o rozkładzie z wartościa˛ oczekiwana˛ 19 2 E(ε) = 0 oraz pewna˛ stała˛ wariancja˛ σε , gdzie β i α sa˛ parametrami regresji (Gajek & Kałuszka, 1999, str. 132). Prosta regresji ma równanie E(Y |ξ) = µY |ξ = α + βξ . Dla (58) definiuje sie˛ współczynnik determinacji: ρ2Y |ξ = D2 (E(Y |ξ)) D2 (Y ) (59) czyli stosunek wariancji zmiennej Y wyjaśnianej przez prosta˛ regresji µY |ξ = α+βξ do całkowitej wariancji zmiennej Y . Z niezależności zmiennych oraz ξ otrzymujemy: D2 (Y ) = D2 (α + βξ + ε) = D2 (α + βξ) + D2 (ε) + cov(α + βξ, ε) = = D2 (E(Y |ξ)) + σε2 = σY2 + σε2 (60) co pozwala zapisać współczynnik determinacji w alternatywnej postaci: ρ2Y |ξ = 1 − σε2 σY2 (61) Kowariancja˛ dwóch określonych na tej samej przestrzeni probabilistycznej zmiennych losowych ξ oraz ξ 0 nazywa sie˛ wielkość: 15 cov(ξ, ξ 0 ) = σξξ0 = E ξ − E(ξ) ξ 0 − E(ξ 0 ) = E(ξξ 0 ) − E(ξ)E(ξ 0 ). Kowariancja jest miara˛ współzmienności liniowej miedzy ˛ dwoma zmiennymi losowymi. Jej zerowa wartość nie musi oznaczać niezależności dwóch zmiennych, ale dwie zmienne niezależne zawsze maja˛ kowariancje˛ równa˛ zeru. 16 Nieobciażonym ˛ estymatorem wartości oczekiwanej jest średnia arytmetyczna z próby losowej, a w tym przypadku mamy „jednoelementowa˛ próbe˛ losowa". ˛ 17 Zakładajac ˛ model IRT, suma odpowiedzi udzielonych odpowiedzi ma szanse˛ być estymatorem efektywnym (zobacz przypis 13) tylko, jeżeli wszystkie pozycje maja˛ równoległe wzgledem ˛ siebie ICC i nie nastepuje ˛ zgadywanie (Lord, 1983, str. 238). 18 Ustalenie wartości zmiennej losowej T = τ rozumiemy jako przeciwobraz wartości τ , czyli wszystkie osoby j ∈ P , których wynik prawdziwy w teście wynosi τ razy (×) cała przestrzeń replikacji K . 19 Założenie o stałym poziomie wariancji zwane jest założeniem o homoscedastyczności. 95 Dla modelu (58) współczynnik determinacji jest również równy kwadratowi z współczynnika korelacji Pearsona miedzy zmienna˛ Y , a zmienna˛ ξ : cov(ξ, Y ) 2 ρ2Y |ξ = (ρY ξ ) = !2 p D2 (Y )D2 (ξ) , (62) stad ˛ dla jego oznaczenia wykorzystano stosowany dla korelacji symbol ‘ρ’. Jeżeli przyjmiemy, że rozkład błedu ˛ w modelu regresji liniowej (58) jest normalny, to znajac ˛ wartość stałej jego wariancji σε2 , możemy zbudować (1 − α)100% przedział ufności dla konkretnej realizacji zmiennej Y = y przy ustalonej wartości ξ = x (porównaj (35)): q q (y − z1− α σε2 ; y + z1− α σε2 ). (63) 2 2 Podobieństwo X = T + E do modelu regresji liniowej (58) z parametrami α = 0 oraz β = 1 (zatem Y = ξ + ), jest w teorii klasycznej nieprzypadkowe. Współczynnik determinacji (59) dla równania X = T + E jest podstawowym parametrem, służacym ˛ w teorii klasycznej do opisu precyzji, z jaka˛ test mierzy poziom cechy definiowany jako wynik prawdziwy i nazywa sie˛ go współczynnikiem rzetelności testu. Mamy: ρ2X|T = D2 (T ) σT2 = 2 D2 (X) σX (64) Współczynnik rzetelności testu jest stosunkiem wariancji wyników prawdziwych σT2 do całkowitej obserwo2 , zatem mówi nam, jaka˛ cz˛ wanej wariancji wyników σX eść zmienności obserwowanych wyników X można przypisać wartości zmiennej T . Zgodnie z (62) współczynnik rzetelności można interpretować także jako kwadrat z współczynnika korelacji miedzy ˛ wynikiem prawdziwym T a wynikiem uzyskanym w teście X Ponieważ dla otrzymania analogicznej do (59) zależności wystarczajaca ˛ jest zerowa kowariancja miedzy ˛ T oraz E , która˛ mamy w (57), współczynnik rzetelności testu można, zatem również zapisać: ρ2X|T = 1 − 2 D2 (E) σE = 1 − 2 . D2 (X) σX (65) Przekształcaja˛ powyższe wzgledem ˛ wariancji błedu ˛ otrzymamy: 2 2 σE = σX (1 − ρ2X|T ). (66) W klasycznej teorii testów pierwiastek z (66), czyli odchylenie standardowe błedu, ˛ jest używane jako miara standardowego błedu ˛ pomiaru dla każdej wartości T , zgodnie ze wzorem (63). Przedział ufności τ̂ dla estymatora wyniku prawdziwego τ bedzie ˛ miał, zatem postać: q q 2 (1 − ρ2 2 (1 − ρ2 α (τ̂ − z1− α σX ); τ̂ + z σX (67) 1− X|T X|T )). 2 2 Należy zauważyć jednak, że zdefiniowana w teorii klasycznej zależność X = T + E , spełnia formalnie wszystkie założenia modelu regresji liniowej (57), oprócz jednego — mianowicie założenia o stałej wartości wariancji błedu. ˛ Założenie stałej wartości wariancji błedu ˛ było właśnie istotnym założeniem przy wyprowadzaniu wzoru (63), i przeniesienie go do teorii klasycznej bez dokonania dodatkowego założenia, jest po prostu nietrafne. 2 zależy od wyniku prawdziwego. Uzasadnijmy, że wbrew wymaganemu dla (67) założeniu, wariancja σE W tym celu przyjmijmy, że test spełnia jednowymiarowy model IRT (22) i niech ICC bed ˛ a˛ monotoniczne. 96 Ponieważ spełnione sa˛ założenia (45) oraz (46) oraz wiemy, że dla pojedynczej pozycji E(ui |Θ = θ) = gi (θ) dostajemy: ∀j∈P ∀~x∈{0;1}n τj E(X|V = j) = = (45) n X (46) i=1 n X (9),(21) i=1 n X = = = E(ui |V = j) = E(ui |Θ = θj ) = gi (θj ). (68) i=1 Zatem otrzymaliśmy bardzo proste przekształcenie skali Θ IRT w skale˛ T klasycznej teorii testów wyrażone poprzez sume˛ krzywych charakterystycznych pozycji testowych. Cytujac ˛ Lorda, można powiedzieć, że „wynik prawdziwy T oraz zdolność Θ sa˛ ta˛ sama˛ rzecza, ˛ tylko wyrażona˛ na różnych skalach"(1980, str. 46). Z postaci (68) wynika, że jeżeli gi sa˛ monotonicznie rosnace, ˛ to wynik prawdziwy T klasycznej teorii testów bedzie ˛ monotonicznie rosnac ˛ a˛ funkcja˛ poziomu zdolności Θ teorii odpowiadanie na pozycje testowe. Korzystajac ˛ znowu z niezależności pozycji testowych, przy ustalonym poziomie Θ = θ możemy zapisać: ! n X 2 2 ui Θ = θ = D (X|Θ = θ) = D i=1 (23) = n X (10) D2 (ui |Θ = θ) = i=1 n X gi (θ)(1 − gi (θ)), (69) i=1 i jest to także proste wyrażenie zawierajace ˛ funkcje gi . Pojawiajaca ˛ sie˛ w (69) wariancja jest wariancja˛ wyniku X , przy ustalonej wartości zmiennej Θ, co ze wzgledu ˛ na (68) jest równoważne z ustaleniem P wyniku prawdziwego T na pewnym poziomie T (θ) = ni=1 gi (θ). Ze wzoru X = T + E wynika, że w momencie ustalenia wartości zmiennej T , cała obserwowana wariancja zmiennej X jest wariancja˛ błedu, ˛ zatem otrzymujemy wyrażenie na warunkowa˛ wariancje˛ błedu ˛ E klasycznej teorii testów: 2 2 D (E|Θ = θ) = D (E|T = T (θ)) = 2 σE|T (θ) = n X gi (θ)(1 − gi (θ)) (70) i=1 2 Uwzgledniaj ˛ ac ˛ postać na σE|T dana˛ za pomoca˛ wzoru (70), jasne sie˛ staje, że dla monotonicznego modelu IRT wariancja błedu ˛ bedzie ˛ sie˛ zmieniała. Dla wystarczajaco ˛ niskich oraz wysokich wartości θ (co z monotoniczności (68) pociaga ˛ takie same relacje dla wartości τ ) wariancja wszystkich pozycji bedzie ˛ 2 malała, natomiast w środku skali bedziemy ˛ obserwować wieksze ˛ wartości σE|T (θ) . Wykres ilustrujacy ˛ za2 , a wartościami wyniku prawdziwego można stworzyć przy pomocy parametrycznego leżność miedzy ˛ σE|T równania: v uX u n 2 t gi (θ)(1 − gi (θ)) σE|T (θ) = i=1 (71) n X = gi (θ) T (θ) i=1 ˛ pozycji w modelu 2PLM, Rysunek 4 pokazuje wykres określony równaniem (71) dla tych samych pieciu jakie zostały użyte w rysunku Rysunku 2 przy omawianiu funkcji informacji w IRT. 2 , jaka używana jest przez klasyczna˛ teorie Bezwarunkowa wariancja błedu ˛ pomiaru σE ˛ testów do budowania przedziałów ufności dla każdego poziomu T , jest jedynie uśrednieniem po rozkładzie T warunkowych 97 Rysunek 4: Warunkowy bład ˛ pomiaru skojarzony z wynikami na skali T klasycznej teorii testów. Wykres został stworzony na podstawie zależności danej układem równań (71) dla tych samych 5-ciu itemów, jakie zostały użyte w Rysunku 2. 2 . Jeżeli oznaczymy rozkład prawdopodobieństwa zmiennej Θ jako ϕ, możemy wprost zapiwariancji σE|T sać: n Z +∞ X 2 gi (θ)(1 − gi (θ))ϕ(θ)dθ. (72) σE = i=1 −∞ 2 To, na ile (72) odbiega od wartości σE|T na danym poziomie T = T (θ), zależeć bedzie ˛ od tego, jakie sa˛ wartości poszczególnych gi oraz od tego, jaki rozkład mierzona cecha ma w populacji badanych osób. Majac ˛ na wzgledzie ˛ Rysunek 4 należy sie˛ spodziewać, że o ile rozkład T nie bedzie ˛ U-kształtny, wartość 2 bedzie 2 σE ˛ zaniżać σE|T na środku skali oraz zawyżać ja˛ na brzegach. Stawia to pod pewnym znakiem zapytania trafność budowanych przez te˛ teorie˛ przedziałów ufności dla wyniku prawdziwego. 2 jest funkcja˛ rozkładu cechy w populacji, tak samo bedzie Ponieważ σE ˛ od rozkładu tej cechy zależał współczynnik rzetelności testu (64). Wprowadzajac ˛ rzetelność testu jako podstawowy parametr opisujacy ˛ precyzje˛ dokonywanych testem pomiarów, teoria klasyczna dostarcza parametru opisujacego ˛ nie tyle sam test, ale łacznie ˛ test oraz populacje˛ badanych testem osób. Jeżeli testem zostanie przebadana osoba odbiegajaca ˛ poziomem cechy od przecietnych ˛ wartości w populacji20 , wnioski co do precyzji dokonywanego testem pomiaru bed ˛ a˛ po prostu błedne. ˛ 2 Oprócz omówionych praktycznych implikacji błednego ˛ założenia, że σE|T ma stała˛ wartość należy wspomnieć o konsekwencjach braku kontroli rozkładu zmiennej E przez teorie˛ klasyczna, ˛ które by można nazwać „metodologicznymi". Po ustaleniu poziomu cechy T = τ , cała obserwowana zmienność X wynika 2 , czy precyzyjniej rozkładu zmiennej E , przy waze zmienności błedu ˛ E (54). Nie znajac ˛ postaci na σE|T runku T = τ , otrzymujemy niepełny model, w sensie braku aparatury probabilistycznej do opisu rozkładu prawdopodobieństwa podstawowej obserwowanej w teorii klasycznej zmiennej, jaka˛ jest wynik uzyskany w teście X . Nawet w momencie, gdy przyjmiemy, że znany jest rozkład wyników prawdziwych T w badanej populacji, to i tak rozkład E(τ ) bedzie ˛ nieokreślony bez założenia jednowymiarowości narz˛edzia w rozumieniu lokalnej niezależności (23), czego teoria klasyczna nie czyni w żadnym miejscu, co najwyżej 20 W praktyce oznacza to sytuacje, ˛ gdy osoba badana odbiega od przecietnych ˛ wartości cechy w próbie, na podstawie której wartość parametru rzetelności została oszacowana. Jeżeli próba ta nie była reprezentatywna, co niestety cz˛esto może mieć miejsce, konsekwencje moga˛ być znamienne. 98 zakładajac ˛ liniowa˛ eksperymentalna˛ niezależność (47). Kosztem skromności założeń i prostoty „modelu" klasycznej teorii testów otrzymujemy niewystarczajac ˛ a˛ ilość informacji, aby określić postać trójki (Ω, σ(~ u), P). O ile przestrzeń zdarzeń elementarnych jest wspólna dla obydwu teorii i określona, o tyle rodzina rozkładów prawdopodobieństwa P , dla obserwowanej w eksperymencie zmiennej X (49), nie została określona, tym bardziej sparametryzowana w sensowny sposób za pomoca˛ T . Stad ˛ piszac ˛ o „modelu" klasycznej teorii testów użyto cudzysłowu, gdyż formalnie rzecz biorac, ˛ za model statystyczny w rozumieniu (5), teorii klasycznej uznać nie można. Z tego też wzgledu ˛ dla wykazania pewnych właściwości parametrów zdefiniowanych w klasycznej teorii, konieczne było założenie zachodzenia pewnego modelu IRT — można powiedzieć, że teoria klasyczna nie rozwineła ˛ odpowiedniego „jezyka” ˛ do opisania tych właściwości. 4.4 Parametry pozycji testowych klasycznej teorii testów Oprócz współczynnika rzetelności testu ρ2X|T , teoria klasyczna wprowadziła szereg parametrów służa˛ cych do opisu poszczególnych pozycji testu. Odgrywaja˛ one duża˛ role˛ przy konstrukcji testów, oraz przy interpretacji poszczególnych odpowiedzi w teście. Trudność pozycji testowej πi w klasycznej teorii testów jest definiowana jako wartość oczekiwana ze zmiennej ui , czyli: πi = E(ui ), (73) Oznaczenie trudności pozycji KTT poprzez πi jest nieprzypadkowa˛ zbieżnościa˛ z parametrem pojawiaja˛ cym sie˛ we wzorach (4) oraz (17) opisujacych ˛ rozkład dwupunktowy, ponieważ taki właśnie rozkład ma zmienna ui jeżeli rozpatrywać go na całej przestrzeni P × K . Znajac ˛ wartość trudności (73) możliwe jest zgodnie ze wzorem (10) wyznaczenie wariancji tej pozycji: σi2 = πi (1 − πi ) (74) Ze wzoru na (74) wynika, że najwieksz ˛ a˛ wariancje˛ bedzie ˛ miała pozycja, której trudność wynosi πi = 0, 5, a w miare˛ oddalania sie˛ od tej wartości, wariancja spada aż do zera dla πi = 1 oraz πi = 0. Oznacza to, że potencjalnie najwieksz ˛ a˛ zdolność różnicowania osób w populacji maja˛ pozycje o przecietnej ˛ trudności, w porównaniu do pozycji o skrajnych πi , które wnosza˛ mniej do sumarycznej wariancji obserwowanych wyników X . Dana pozycja może mieć jednak maksymalna˛ wariancje˛ i jednocześnie być zupełnie statystycznie niezależna od reszty pozycji w teście i aby ocenić przydatność danej pozycji, wprowadzono współczynnik dyskryminacji: σiX ρiX = , (75) σi σX q 2 . Współczynnik dyskryminacji jest korelacja˛ miedzy gdzie σi = σi2 oraz σX = σX ˛ wynikiem uzyskiwanym w całym teście, a odpowiedziami na dana˛ pozycje, ˛ zatem stanowi pewna˛ miare˛ współzmienności danej pozycji z reszta˛ pozycji testu. p Wielkościa˛ niejako łacz ˛ ac ˛ a˛ informacje˛ zawarta˛ w obydwu opisanych parametrach KTT jest wskaźnik rzetelności pozycji i: ρiX σi σX = ρiX σi , (76) ai = σX który jest ładunkiem danej pozycji na pierwszym wspólnym dla wszystkich odpowiedzi czynniku (Henrysson, 1962, str. 420). Aby zastanowić sie˛ nad właściwościami zdefiniowanych powyższymi wzorami parametrów pozycji testu 2 w poprzednim paragrafie, załóżmy zaw KTT, podobnie jak zrobiliśmy w przypadku wariancji błedu ˛ σE chodzenie jednowymiarowego modelu IRT. Pozwoli to nam również poznać zależności i naświetlić różnice miedzy ˛ tymi teoriami. Rozkład zdolności Θ w populacji oznaczmy poprzez ϕ. 99 W przypadku trudności pozycji testowej (75), skorzystać można bezpośrednio z zależności gi (θ) = P (ui = 1|θ) = E(ui |θ) i uśrednić warunkowa˛ wartość oczekiwana˛ E(ui |θ) po rozkładzie cechy w populacji: Z πi = +∞ −∞ +∞ Z E(ui |θ)ϕ(θ)dθ = gi (θ)ϕ(θ)dθ. −∞ (77) Aby w podobny sposób przedstawić parametry ρiX oraz ai , wystarczy zauważyć, że: 2 σX = n X σi2 + n X σii0 , (78) i6=i0 i=1 oraz: n X σiX = σii0 , (79) i0 =1 czyli potrzebujemy wyrażeń na wariancje˛ każdej pozycji oraz na kowariancje˛ miedzy ˛ dowolnymi dwoma pozycjami. Z (74), uwzgledniaj ˛ ac ˛ (77), otrzymujemy nastepuj ˛ ace ˛ wyrażenie na wariancje: ˛ Z +∞ Z +∞ gi (θ)ϕ(θ)dθ . (80) gi (θ)ϕ(θ)dθ 1 − σi2 = πi (1 − πi ) = −∞ −∞ Z lokalnej niezależności (23) wynika: E(ui ui0 |θ) = E(ui |θ)E(ui0 |θ) = gi (θ)gi0 (θ), (81) co pozwala natomiast, przy uwzglednieniu ˛ (77), obliczyć kowariancje˛ miedzy ˛ dwoma pozycjami: σii0 = E(ui ui0 ) − E(ui )E(ui0 ) = Z +∞ = −∞ gi (θ)gi0 (θ)ϕ(θ)dθ − Z +∞ Z gi (θ)ϕ(θ)dθ −∞ +∞ −∞ gi0 (θ)ϕ(θ)dθ (82) Uwzgledniaj ˛ ac ˛ (78–79) szukane wielkości otrzymamy podstawiajac ˛ uzyskane wyrażenia na wariancje˛ (80) i kowariancje˛ (82) do: n X σii0 ρiX σiX = = σi σX j=1 v , uX n n X u 2 σi t σi + σii0 i=1 oraz: n X ai = v uX n u t j6=i σii0 j=1 σi2 (83) + i=1 n X . (84) σii0 j6=i 2 oraz wyrażenie na σ 2 ˛ ICC oraz rozDodatkowo, majac ˛ σX E|T (θ) (70), możemy w zupełności jako funkcje kładu ϕ przedstawić omawiana˛ w poprzednim paragrafie rzetelność testu (65): n Z +∞ X ρ2X|T σ2 = 1 − E2 = 1 − σX i=1 −∞ gi (θ)(1 − gi (θ))ϕ(θ)dθ n X σi2 + i=1 gdzie σi2 oraz σii0 sa˛ odpowiednio dane wzorami (80) oraz (82). 100 n X j6=i , σii0 (85) 4.5 Porównanie z parametrami IRT. Implikacje praktyczne W poprzednim rozdziale przedstawiono praktycznie wszystkie istotne dla klasycznej teorii testów parametry w kontekście spełniania przez test modelu IRT. Narzucajacym ˛ sie˛ wnioskiem z wyprowadzonych wzorów jest, że wszystkie wielkości używane przez teorie˛ klasyczna˛ do opisu właściwości psychometrycznych testu charakteryzuja˛ nie tyle sam test, ale również grupe˛ badawcza, ˛ na podstawie której sa˛ oszacowywane –– w każdym z nich pojawia sie˛ rozkład cechy ϕ. Jasne jest, jak już wspomniano przy komentowaniu bezwarunkowej miary SEM (72), że stosowanie narz˛edzi rozwinietych ˛ w obrebie ˛ KTT do określania jakości wyników testowych wzgledem ˛ grup osób mogacych ˛ w sposób istotny obiegać od grupy standaryzacyjnej, powinno budzić istotne zastrzeżenia. W IRT rozkład badanej cechy natomiast praktycznie nie odgrywał żadnego znaczenia. Wprowadzony on został do naszych rozważań dopiero w kontekście wyprowadzania wyrażeń określajacych ˛ parametry KTT jako funkcje ich odpowiedników w IRT. Jest tak, ponieważ przy założeniu, że parametr położenia i rozproszenia zmiennej Θ bed ˛ a˛ ustalone21 , parametry krzywych charakterystycznych pozycji testowych nie powinny ulegać zmianom bez wzgledu ˛ na to, jaki zmienna Θ ma w rzeczywistości rozkład. ICC można postrzegać jako regresje˛ wyniku prawdziwego uzyskiwanego w pytaniu wzgledem ˛ poziomu cechy, a funkcja regresji zazwyczaj sie˛ charakteryzuje tym, że od rozkładu predyktora nie zależy. To, jaka jest wartość P (ui = 1) w danym punkcie Θ = θ zależeć powinno tylko od wartości θ, a nie od tego jak duża˛ cz˛eść osób w populacji charakteryzuje taki właśnie poziom cechy (Lord, 1980, str. 35). Niezależność parametrów ICC (badź ˛ ogólniej jej kształtu) od rozkładu cechy ilustruje Rysunek 5, na którym widać, że obydwie z grup osób badanych testem powyżej i poniżej punktu θ = 0, 4 dostarczaja˛ informacji o kształcie krzywej i, jeżeli rozkład ϕ(θ) byłby zakotwiczony, to powinniśmy, uwzgledniaj ˛ ac ˛ wyniki oddzielnie 22 dla każdej z podgrup, dostać takie same oszacowania parametrów ICC . Wracajac ˛ do teorii klasycznej jeżeli przyjrzeć sie˛ (77), ewidentne jest, że dla dwóch wyszczególnionych podgrup, uzyskalibyśmy zupełnie inne wartości tego parametru — dla osób o wyższym poziomie cechy pozycja jest średnio łatwiejsza niż dla osób o niższym jej poziomie. Bardzo ciekawe implikacje praktyczne wynikaja, ˛ jeżeli spojrzeć na opisywana˛ niezależność parametrów od rozkładu cechy w IRT z innej strony. Załóżmy, że parametry tej samej pozycji zostały niezależnie od siebie oszacowane w dwóch grupach różniacych ˛ sie˛ położeniem oraz rozproszeniem cechy. Uzyskane wtedy oszacowania parametrów bed ˛ a˛ sie˛ różnić. Jednak zakładajac, ˛ że w obydwu grupach pytanie mierzy te˛ sama˛ pojedyncza˛ ukryta˛ zmienna˛ Θ, wiemy, że jeżeli umieścilibyśmy badanych na wspólnej skali, uzyskalibyśmy ICC o tym samym kształcie. W ten sposób doszliśmy do przedstawienia opisowo podstaw, na jakich opiera sie˛ w IRT jedna z metod porównywania wyników pochodzacych ˛ z różnych narz˛edzi — wystarczy żeby w obydwu narz˛edziach znajdywała sie˛ jedna wspólna pozycja, aby móc umieścić uzyskiwane nimi wyniki na tej samej skali. Głebsze ˛ zanalizowanie tego zagadnienia wykracza poza zakres niniejszej ˛ na niekontrolowany wpływ rozkładu pracy 23 , niemniej godne uwagi jest, że w teorii klasycznej ze wzgledu cechy na parametry opisujace ˛ test porównanie wyników nie było możliwe. 21 Modele IRT sa˛ niezmiennicze wzgledem ˛ liniowych transformacji parametru Θ. Na przykładzie dwuparametrycznego modelu logistycznego, jeżeli we wzorze (25) byśmy dodali do każdego parametru bi stała˛ wartość b∗i = bi + β i jednocześnie przesunelibyśmy ˛ skale˛ cechy Θ o ta˛ sama˛ wartość, czyli θ∗ = θ + β dostalibyśmy identyczny model. Podobnie gdybyśmy dokonali przekształceń: a∗i = ai α−1 , b∗i = bi α, oraz θ∗ = θα, też otrzymaliśmy równoważny model (Lord, 1980, str. 36). Zjawisko to odgrywa istotna˛ role˛ przy kalibracji testu — konieczne jest ustalenie parametru położenia i rozproszenia dla Θ (procedura ta nosi nazwe˛ zakotwiczania, ang. anchoring), a najprostsza˛ metoda˛ jest zwykła standaryzacja otrzymanych θ̂ (Baker & Seock-Ho, 2004, str. 90) 22 Podobnej argumentacji dla zilustrowania tego zagadnienia użył Baker (2001, str. 51–55). 23 Wiecej ˛ informacji na temat porównywania wyników testowych można znaleźć w rozdziale 13. ksiażki ˛ (Lord, 1980). Tematyce tej poświecony ˛ bedzie ˛ również kolejny numer Egzaminu. 101 Rysunek 5: Niezmienniczość parametrów w IRT na przykładzie ICC dwuparametrycznego modelu logistycznego. Wykres został stworzony dla jednego z itemów testu z egzaminu maturalnego z chemii przeprowadzonego w roku 2006 i ilustruje rozproszenie empirycznych proporcji prawidłowych odpowiedzi wzgle˛ dem dopasowanej krzywej 2PLM o parametrach âi = 2, 98, b̂i = 0, 01. Punkty zaznaczone na czerwono odpowiadaja˛ obserwowanym proporcjom poprawnych odpowiedzi dla wartości Θ ¬ 0, 4, a punkty zielone Θ > 0, 4. 5 Zakończenie Teoria klasyczna powstawała na poczatku ˛ dwudziestego stulecia pod dużym wpływem korelacyjnej orientacji Spearmana w naukach społecznych. Odzwierciedla sie˛ to w kluczowej roli, jaka˛ odgrywa w tej teorii koncepcja rzetelności testu. W statystyce i rachunku prawdopodobieństwa panowało wtedy jeszcze podejście cz˛estościowe. Dopiero Lord i Novick w 1968 roku przeformułowali KTT, aby była ona w zgodzie z aksjomatyzacja˛ teorii prawdopodobieństwa podana˛ przez Kołmogorowa. Teoria odpowiadania na pozycje testo-we opiera sie˛ natomiast na osiagni ˛ eciach ˛ na polu teorii estymacji, których prekursorem był Fisher w latach 20-30-tych XX wieku. Ze wzgledu ˛ na skomplikowanie modeli pojawiajacych ˛ sie˛ w ramach IRT, prawdziwy jej rozkwit uwarunkowany był rozwojem komputerów i trwa do dziś. Ujete ˛ w telegraficznym skrócie czynniki historyczne w dużej mierze odpowiadaja˛ za różnice miedzy ˛ teoria˛ klasyczna˛ a IRT. Różnice te dotycza˛ zarówno nakładanych na pomiar testowy założeń, parametrów opisujacych ˛ osoby i test, jak też używanego do szacowania parametrów danej teorii aparatu statystycznego. Sytuacja eksperymentalna, przed opisem której staja˛ obydwie teorie, jest jednak taka sama — z populacji P zostaje wylosowana pewna osoba, która udziela odpowiedzi na n pytań testu. Dzieki ˛ temu możliwe było przeprowadzenie ścisłego porównania rozwiaza ˛ ń oferowanych przez obydwa podejścia. Pierwszym nasuwajacym ˛ sie˛ z przeprowadzonych analiz wnioskiem jest, że rozwiazania ˛ oferowane przez klasyczna˛ teorie˛ testów dostarczaja˛ niepełnego modelu dla wyjaśnienia obserwowanej podczas badania testem zmienności odpowiedzi. Dopiero przy założeniu, że zachodzi model IRT, możliwe stało sie˛ wyjaśnienie wielu właściwości definiowanych w teorii klasycznej parametrów służacych ˛ do opisu testu oraz poziomu cechy badanej osoby, w szczególności: Wyprowadzone wzory (77), (80) oraz (82) pokazuja˛ sposób, w jaki podstawowy zestaw parametrów istotnych dla KTT –– trudność pozycji πi , wariancja pozycji σi2 oraz wszystkie kowariancje σii0 zależa˛ od rozkładu cechy w populacji. Jako bezpośrednia˛ konsekwencje˛ otrzymujemy relacje wiaż ˛ ace ˛ z rozkładem cechy pozostałe fundamentalne, służace ˛ do opisu statystycznych właściwości testu, wiel- 102 kości: rzetelność testu ρ2X|T , ρiX , mówiaca ˛ o mocy dyskryminacyjnej danej pozycji oraz wskaźnik ai , mówiacy ˛ o ładunku danej pozycji na pierwszym wspólnym z innymi pozycjami czynniku. Zależność (71) pokazuje, jak zależy bład ˛ oszacowania wyniku prawdziwego T poprzez otrzymany wynik w teście X . Powyższe stwierdzenia dostarczaja˛ nam pewnych ram umożliwiajacych ˛ określenie stopnia przydatności teorii klasycznej, w jakim stosujac ˛ ja˛ do opisu testu i podejmowania na jej podstawie decyzji, możemy popełnić w konkretnych przypadkach bład. ˛ Modelujac ˛ w sposób lokalny rozkład odpowiedzi na pozycje testowe za pomoca˛ IRT, możliwe staje sie˛ jednak o wiele wiecej, ˛ niż dokonanie pełniejszego opisu i wytłumaczenie wad teorii klasycznej. Wśród podstawowych zalet IRT, stanowiacego ˛ nowa˛ jakość w porównaniu z KTT, można wymienić: Niezmienniczość parametrów IRT. Dzieki ˛ tej właściwości możliwe staje sie˛ porównywanie wyników pochodzacych ˛ z różnych testów mierzacych ˛ te˛ sama˛ ceche˛ lub detekcja zróżnicowania funkcjonowania pozycji testowych (differential item functioning, DIF ) wskazujaca ˛ na przykład na stronniczość pozycji wzgledem ˛ pewnych podgrup bada-nych osób. Jest to zatem cecha wprost trudna do przecenienia. Podanie warunkowego SEM (θ), zmieniajacego ˛ sie˛ w zależności od prawdziwej wartości szacowanego poziomu cechy. Potencjalnie umożliwia to precyzyjniejsze wyznaczenie przedziału ufności dla θ̂ niż dostarcza KTT dla τ̂ = X w postaci SEM obliczonego z użyciem koncepcji rzetelności. Warunkowa ocena precyzji, z jaka˛ dana pozycja mierzy ceche, ˛ jest ponadto nieoceniona w CAT. Dokonujac ˛ estymacji poziomu cechy danej osoby j , w IRT przeprowadza sie˛ maksymalizacje˛ funkcji wiarygodności dla wektora jej odpowiedzi (29), w wyniku czego wkład poszczególnych pytań do uzyskiwanej wartości estymatora θ̂ jest różny. Estymator T̂ = X teorii klasycznej jest zwykła˛ suma˛ odpowiedzi i ma szanse˛ być estymatorem efek-tywnym jedynie, jeżeli wszystkie pozycje maja˛ równoległe wzgledem ˛ siebie ICC i nie nastepuje ˛ zgadywanie. Zatem IRT może dostarczać precyzyjniejszych oszacowań cechy od teorii klasycznej w rozumieniu wielkości wariancji estymatora. Podsumowujac ˛ powyższe, IRT przedstawia rodzine˛ modeli statystycznych, dajacych ˛ pełniejszy od teorii klasycznej opis skomplikowanych właściwości pomiaru hipotetycznej cechy determinujacej ˛ odpowiedzi udzielane w teście. Dzieki ˛ niej potrafimy dokonać ścisłego opisu zależności różnych wielkości definiowanych w teorii klasycznej od rozkładu cechy w badanej populacji, co pozostawało poza zasiegiem ˛ samej KTT. Ponadto dzieki ˛ niezmienniczości parametrów IRT jesteśmy w stanie dokonywać zrównywania wyników testowych, kontrolować DIF. Dzieki ˛ lokalnej mierze błedu ˛ mamy szanse˛ wiarygodniejszego budowania przedziałów ufności dla oszacowania cechy oraz potrafimy tworzyć komputerowe testy w sposób dynamiczny, dobierajace ˛ pytania tak, aby zoptymalizować proces badania, skracajac ˛ jego czas (długość testu), a co za tym idzie, obniżajac ˛ koszty. Na koniec stoimy przed możliwościa˛ oszacowania cechy w sposób bardziej efektywny, niż dzieje sie˛ to w teorii klasycznej. Do wad niektórych modeli teorii odpowiadania na pozycje testowe należy to, że o możliwości korzystania ze wszystkich z powyższych zalet decyduje jakość uzyskiwanych oszacowań parametrów, a ta w dużej mierze zależy od stosowanych metod estymacji oraz wielkości prób, na podstawie których zostały one oszacowane. Literatura Anderson, T. W. (1959). Some scaling methods and estimation procedures in the latent class model. In U. Grenander (Ed.), Probability and Statistics (pp. 9–38). New York: Wiley. Baker, F. B. (2001). The Basics of Item Response Theory. ERIC. 103 Baker, F. B. & Seock-Ho, K. (2004). Item Response Theory. Parameter estimation technicques. New York: Marcel Dekker. Coombs, C. H., Dawes, R. M., & Tversky, A. (1977). Wprowadzenie do psychologii matematycznej. Warszawa: Wydawnictwo Naukowe PWN. Deutsch, R. (1969). Teoria estymacji. Warszawa: Pańswtwowe Wydawnictwa Naukowe. Ellis, J. L. & van der Woldenberg, A. L. (1993). Local homogeneity in latent trait models. A characterization of the homogenous monotone IRT model. Psychometrika, 58(3), 429–417. Formann, A. K. (1988). Latent class models for nonmonotone dichotomous items. Psychometrika, 53(1), 45–62. Gajek, L. & Kałuszka, M. (1999). Wnioskowanie statystyczne dla studentów. Modele i metody. Warszawa: Wydawnictwa Naukowo-Techniczne. Gruijter, D. N. M. & van der Kamp, L. J. (2002). Statistical test theory for education and psychology. Henrysson, S. (1962). The relation between factor loadings and biserial correlations in item analisys. Psychometrika, 27 (4), 419–424. Holland, P. (1990). On the sampling foundations of item response theory models. Psychometrika, 55(4), 577–601. Kondratek, B. (2007). Klasyczna teoria testów a teoria odpowiadania na pozycje testowe. Teoretyczne i empiryczne porównanie rozwiaza ˛ ń dla pozycji ocenianych dychotomicznie. Katowice: Niepublikowana praca magisterska. Lehmann, E. L. (1991). Teoria estymacji punktowej. Warszawa: Wydawnictwo Naukowe PWN. Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hilsdale, New Jersey: Lawrance Erlbaum. Lord, F. M. (1983). Unbiassed estimators of ability parameters, of their variance and of parallel-forms reliability. Psychometrika, 48(2), 233–245. Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, Massachusetts: Addison-Wesley. Rao, C. R. (1982). Modele liniowe statystyki matematycznej. Warszawa: Pańswtwowe Wydawnictwa Naukowe. Zimmerman, D. W. (1975). Probability spaces, Hilbert spaces, and the axioms of test theory. Psychometrika, 40(3), 395–412. 104