1 Wprowadzenie

Transkrypt

1 Wprowadzenie
Bartosz Kondratek
Uniwersytet Ślaski
˛
1
Wprowadzenie
W artykule zostanie dokonana próba zunifikowanego przedstawienia podstaw dwóch podejść teoretycznych, dostarczajacych
˛
statystycznych narzadzi
˛
umożliwiajacych
˛
tworzenie testów, posługiwanie sie˛ nimi
oraz interpretacje˛ uzyskiwanych wyników –– klasycznej teorii testów KTT oraz teorii odpowiadania na pozycje testowe (IRT, Item response theory ). Rozważania bed
˛ a˛ ograniczone do przypadku, gdy test mierzy
pojedynczy ukryty wymiar (ceche),
˛ a jego pozycje oceniane sa˛ dwukategorialnie (‘0’ oraz ‘1’).
Teoria odpowiadania na pozycje testowe jest terminem używanym do określania pewnej rodziny modeli,
opisujacych
˛
sposób udzielania przez badane osoby odpowiedzi na poszczególne pozycje testów (itemy ),
które łaczy
˛
ze soba˛ kilka podstawowych założeń (Gruijter & van der Kamp, 2002, str. 95). Generalnie rzecz
ujmujac,
˛ idea˛ IRT jest stworzenie modelu statystycznego określajacego
˛
rozkład odpowiedzi na pozycje testu w terminach pewnej zmiennej ukrytej Θ, reprezentujacej
˛ poziom mierzonej testem cechy. Cel ten jest
osiagni
˛ ety
˛ poprzez wprowadzenie założenia o jednowymiarowości testu, oraz zdefiniowanie rodziny dopuszczalnych w danym modelu krzywych charakterystycznych pozycji testowych opisujacych
˛
zależność
rozkładu poszczególnych pozycji przy ustalonym poziomie Θ = θ. Aby oszacować poziom cechy danej
osoby, na podstawie udzielonych przez te˛ osobe˛ odpowiedzi, znajduje sie˛ estymator najwiekszej
˛
wiarygodności parametru Θ. Korzystajac
˛ z koncepcji informacji Fishera, możliwe jest dostarczenie lokalnej miary
błedu
˛
pomiarowego SEM(Θ = θ) takiego estymatora.
Klasyczna teoria testów definiuje poziom mierzonej cechy poprzez wynik prawdziwy T , określony jako
odpowiednio warunkowana wartość oczekiwana z sumy poszczególnych odpowiedzi w teście, która˛ to
sume˛ oznacza sie˛ X . Błedem
˛
pomiaru w takim układzie jest różnica X oraz T . Zależność X = T + E
w celu oszacowania bezwarunkowej wariancji błedu
˛
SEM jest nastepnie
˛
analizowana analogicznie jak
w modelu liniowej regresji X wzgledem
˛
T . W ten sposób, jako wartość współczynnika determinacji dla
regresji X = T + E , teoria klasyczna wprowadza podstawowy dla opisu precyzji pomiarów dokonywanych
testem parametr — współczynnik rzetelności testu.
W odróżnieniu od wielu innych opracowań porównujacych
˛
IRT oraz KTT, niniejszy przeglad
˛ rozpocznie sie˛
od przybliżenia pierwszej z wymienionych. Jak sie˛ okaże w wyniku przeprowadzonych rozważań, teoria
klasyczna nie dostarcza pełnego modelu statystycznego do opisu obserwowanych w sytuacji badania
testowego zmiennych. Rozpoczynajac
˛ od IRT, dla której budowa takiego modelu stanowi punkt wyjścia,
możliwe stanie sie˛ precyzyjne wyjaśnienie tego faktu. W szczególności, zakładajac
˛ model IRT wykażemy,
że nie może być spełnione założenie o jednorodności wariancji dla regresji X = T + E , co powoduje,
że obliczona na podstawie rzetelności wariancja błedu
˛
E jest jedynie wartościa˛ uśredniona˛ po rozkładzie
cechy w populacji.
W celu wypełnienia luki istniejacej
˛ obecnie na polskim rynku wydawniczym, polegajacej
˛ na braku jakiejkolwiek monografii w pełni poświeconej teorii odpowiadania na pozycje testowe, oprócz określenia samego
76
modelu IRT, znaczna uwaga zostanie skierowana tu na kwestie praktyczne. Miedzy innymi omówiona
zostanie estymacja parametrów modelu, porównywanie wyników pochodzacych
˛
z różnych narz˛edzi oraz
adaptatywne testowanie komputerowe (CAT). W cz˛eści opisujacej
˛ teorie˛ klasyczna˛ wiele dobrze znanych
kwestii zostanie pominietych,
˛
w szczególności problem estymacji współczynnika rzetelności, a nacisk zostanie położony na porównanie tego podejścia z IRT.
Aby dokonać porównania miedzy
˛
podejściami tak dalece różniacymi
˛
sie˛ wprowadzona˛ terminologia˛ i stosowanym aparatem statystycznym, konieczne bedzie
˛
stosowanie dość szczegółowego formalizmu matematycznego. Dla ilustracji modelowania statystycznego rozpoczniemy jednak od opisu bardzo prostego
eksperymentu polegajacego
˛
na rzucie moneta.
˛
2
Podstawowe założenia i pojecia
˛
obydwu teorii, modelowanie statystyczne
Na poczatek
˛ przeprowadzone zostana˛ pewne ogólne rozważania na temat sytuacji eksperymentalnej, jaka˛
jest badanie narz˛edziem testowym, które doprowadza do zdefiniowania pewnych podstawowych wielkości
koniecznych do stworzenia statystycznego modelu takiej sytuacji. Rozważania te bed
˛ a˛ słuszne zarówno
dla teorii klasycznej, jak i dla IRT.
2.1
Modelowanie statystyczne na przykładzie rzutu moneta˛
Zaczniemy od przypomnienia podstawowych wiadomości ze statystyki i rachunku prawdopodobieństwa
na najprostszym przykładzie rzutu moneta.
˛ Przykład ten, jak sie˛ okaże w dalszej cz˛eści artykułu, wbrew
pozorom pozostaje w dużym zwiazku
˛
z rozważana˛ tematyka˛ badania testowego.
Przestrzenia˛ probabilistyczna˛ nazywa sie˛ trójk˛e:
(Ω, F, P ),
(1)
gdzie zbiór Ω jest odpowiedzialna˛ za „losowość” rozpatrywanego zjawiska przestrzenia˛ zdarzeń elementarnych, F zawiera podzbiory zbioru Ω, na których to podzbiorach określone jest prawdopodobieństwo P .
Zarówno zbiór F , jak i prawdopodobieństwo P musza˛ spełniać pewne założenia1 .
Rozpatrzmy przykład pojedynczego rzutu moneta.
˛ Wprowadźmy nastepuj
˛ ace
˛ oznaczenia zdarzeń elementarnych: ‘O’=orzeł, ‘R’=reszka. Przestrzeń zdarzeń elementarnych bedzie
˛
Ω = {O, R}, zbiór F składa
sie˛ z wszystkich podzbiorów Ω, czyli {O}, {R}, {O, R} oraz zbioru pustego ∅. Mamy P (∅) = 0 (prawdopodobieństwo zajścia zdarzenia niemożliwego), P ({O, R}) = 1 (prawdopodobieństwo zajścia zdarzenia
1
Mianowicie F musi być σ -ciałem, co sie˛ sprowadza do trzech warunków:
Ω∈F
A ∈ F =⇒ A0 ∈ F
A1 ∈ F, A2 ∈ F, A3 ∈ F, . . . =⇒ A1 ∪ A2 ∪ A3 ∪ · · · ∈ F
gdzie A0 = Ω\A jest zdarzeniem przeciwnym do A, natomiast ‘∪’ oznacza sume,
˛ a ‘∩’ (patrz warunek trzeci poniżej)
oznacza iloczyn zdarzeń. Prawdopodobieństwo P spełnia natomiast 3 aksjomaty podane przez Kołmogorowa:
∀A∈F
∀A1 ,A2 ,···∈F ;Aj ∩Ak =∅
P (A) ­ 0
P (Ω) = 1
∞
X
P (A1 ∪ A2 ∪ A3 ∪ . . . ) =
P (Ak )
k=1
mówiace,
˛
że jest nieujemna,
˛ unormowana˛ oraz σ -addytywna˛ funkcja˛ zbiorów A ∈ F .
77
pewnego) oraz przy założeniu „uczciwości" monety P ({O}) = P ({R}) =
konkretna˛ przestrzeń probabilistyczna˛ (Ω, F , P ).
1
2.
Zdefiniowaliśmy w pełni
Załóżmy jednak, że nie wiemy, czy nasza moneta jest w rzeczywistości „uczciwa" i pragnelibyśmy
˛
to sprawdzić. Zdefiniujmy zmienna˛ losowa:
˛
v : Ω −→ {0, 1},
(2)
taka,
˛ że v(O) = 0 oraz v(R) = 1. Rozkład prawdopodobieństwa zmiennej losowej Pv , mówiac
˛ nieformalnie, jest to funkcja wyznaczajaca
˛ prawdopodobieństwo przyjecia
˛
przez zmienna˛ losowa˛ określonych
wartości. Pv jest miara˛ prawdopodobieństwa, a zatem powinna być określona na pewnym σ -ciele. Najmniejsze σ -ciało zawierajace
˛ wszystkie wartości przyjmowane przez zmienna˛ v , oznaczmy je poprzez
σ(v), jest postaci:
σ(v) = {{0}, {1}, {0; 1}, ∅}
(3)
Rozkład zmiennej Pv jest określony na (3) nastepuj
˛ aco:
˛ Pv (v = 0) = π , Pv (v = 0) = 1−π , Pv (v = 0) = 1,
Pv (v = 0) = 0. Widać, że relacja miedzy
˛
miara˛ prawdopodobieństwa Pv , a σ -ciałem generowanym przez
zmienna˛ losowa˛ v jest identyczna jak miedzy
˛
P , a F w przestrzeni probabilistycznej (1) opisujacej
˛
rzut
moneta˛2 .
Dla zmiennej losowej v rozkład prawdopodobieństwa jest w zupełności wyznaczony poprzez jeden tylko
parametr π = Pv (v = 1), czyli prawdopodobieństwo wyrzucenia reszki. W zwiazku
˛
z tym, zamiast Pv
bedziemy
˛
pisać Pπ . Rozkład taki nazywamy dwupunktowym rozkładem Bernouliego z parametrem π ∈
[0; 1] i możemy go przedstawić za pomoca˛ nastepuj
˛ acego
˛
wzoru:
Pπ (v = x) = Pπ (v = 1)x Pπ (v = 0)1−x ,
(4)
gdzie x jest jedna˛ z dwóch możliwych wartości, jaka˛ może przyjac
˛ zmienna v , czyli x ∈ {0, 1}.
Jeżeli damy π = 12 , otrzymamy trójk˛e (Ω, σ(v), P 1 ), która stanowi równoważny opis sytuacji pojedyn2
czego rzutu „uczciwa"
˛ moneta,
˛ jaki dostarcza nam odpowiednia przestrzeń probabilistyczna (Ω, F , P ), z
ta˛ różnica,
˛ że zamiast prawdopodobieństwa P określonego na zdarzeniach A ∈ F mamy rozkład prawdopodobieństwa P 1 określony na elementach σ(v), czyli odpowiednich podzbiorach liczbowych wartości
2
przyjmowanych przez zmienna˛ losowa˛ v . Jeżeli nie ustalimy wartości parametru π , to trójka (Ω, σ(v), Pπ )
reprezentuje już cała˛ rodzine˛ przestrzeni probabilistycznych różniacych
˛
sie˛ rozkładem prawdopodobieństwa zmiennej v — każda z dopuszczalnych przestrzeni probabilistycznych stanowi alternatywny model
zjawiska, polegajacego
˛
na jednokrotnym rzucie moneta.
˛
Niech Ω bedzie
˛
przestrzenia˛ zdarzeń elementarnych, ξ niech bedzie
˛
dowolna˛ zmienna˛ losowa,
˛ σ(ξ) σ ciałem generowanym przez ta˛ zmienna˛ losowa˛ , a Pξ rodzina˛ dopuszczalnych rozkładów prawdopodobieństwa zmiennej ξ . Przy takich oznaczenia, trójk˛e:
(Ω, σ(ξ), Pξ ),
(5)
2
W niniejszym akapicie zostały poczynione pewne uproszczenia, które dla ścisłości wyjaśnimy. Aby uogólnić
przypadek dyskretnej i ciagłej
˛
zmiennej losowej, zmienne losowe definiuje sie˛ tak, żeby przyjmowały wartości na
całym zbiorze liczb rzeczywistych; zatem zamiast (2) powinno być:
v : Ω −→ R.
Prawdopodobieństwo uzyskania przez v jakiejkolwiek wartości spoza zbioru {0; 1} w naszym przypadku jest równe
zeru, zatem pominiecie
˛
wartości R\{0; 1} nie powoduje utraty „funkcjonalności" zmiennej v dla celów prowadzonego
wywodu. σ -ciało generowane przez pewien zbiór zdarzeń elementarnych jest to najmniejsze σ -ciało zawierajace
˛
elementy tego zbioru. Dla zmiennej v (i każdej innej zmiennej losowej) przyjmujacej
˛ wartości w całej R odpowiednim
σ -ciałem jest σ -ciało generowane przez wszystkie otwarte podzbiory R.
78
nazywamy przestrzenia˛ statystyczna.
˛ Trójka taka jest modelem statystycznym możliwych mechanizmów
rzadz
˛ acych
˛
zjawiskiem losowym, obserwowanym jako zmienność wartości przyjmowanych poprzez określona˛ zmienna˛ losowa.
˛ W naszym przykładzie bedziemy
˛
mieli P = {Pπ : π ∈ [0; 1]}, gdzie Pπ jest
rozkładem zmiennej losowej (2), danym za pomoca˛ wzoru (4). Jeżeli rodzine˛ rozkładów P można opisać
za pomoca˛ skończonego zbioru k parametrów przyjmujacych
˛
wartości rzeczywiste, model (5), nazywamy k -wymiarowym modelem parametrycznym; w przeciwnym razie model jest nieparametryczny (Gajek
& Kałuszka, 1999, str. 76–77). Dla rzutu moneta˛ mamy zatem jednowymiarowy model parametryczny z
parametrem π .
Zabieg wprowadzenia do opisu danego zjawiska eksperymentalnego zmiennej losowej umożliwia obliczenie pewnych istotnych liczbowych wartości opisujacych
˛
te˛ zmienna,
˛ jak wartość oczekiwana oraz wariancja. Dla zmiennej losowej dyskretnej ξ , czyli przyjmujacej
˛
z niezerowym prawdopodobieństwem jedynie
przeliczalna˛ ilość różnych wartości ξ(ω) = x, wartość oczekiwana jest dana wzorem:
X
E(ξ) =
xP ξ(ω) = x ,
(6)
ω∈Ω
co można rozumieć jako średnia˛ z wartości przyjmowanych przez zmienna˛ ξ ważona˛ poprzez prawdopodobieństwo uzyskania tychże wartości. Jeżeli zbiór przyjmowanych przez ξ dyskretnych wartości oznaczymy
X , a jej rozkład prawdopodobieństwa jako Pξ , to powyższe można zapisać też bez odwoływania sie˛ do Ω:
X
E(ξ) =
xPξ ξ = x .
(7)
x∈X
Natomiast wariancja jest zdefiniowana jako:
2
D2 (ξ) = E ξ − E(ξ)
=
X
2
x − E(ξ) Pξ (ξ = x),
(8)
x∈X
czyli jest to średnia z kwadratów odchyleń ξ od wartości oczekiwanej E(ξ), ważona poprzez prawdopodobieństwo uzyskania tychże odchyleń. Dla zmiennej losowej v o rozkładzie Bernouliego (4) wartość oczekiwana bedzie
˛
zatem:
Eπ (v) = 1Pπ (v = 1) + 0Pπ (v = 0) = Pπ (v = 1) = π.
(9)
Wariancje˛ podamy bez wyprowadzania:
D2π (v) = π(1 − π)
(10)
Można sie˛ teraz zatrzymać i zapytać, po co to wszystko. Wróćmy wiec
˛ do pytania, czy moneta jest w rzeczywistości „uczciwa". Przeprowadźmy eksperyment polegajacy
˛ na niezależnym rzucie badana˛ moneta˛
m razy. Zapisujac
˛ wyniki takiego eksperymentu, otrzymamy wektor zer i jedynek ~
x = [x1 , x2 , . . . , xm ] ∈
{0, 1}m . Można taka˛ sytuacje˛ opisać probabilistycznie jako realizacje˛ wektora losowego ~v = [v1 , v2 , . . . , vm ],
którego współrz˛edne sa˛ niezależnymi zmiennymi losowymi o takim samym rozkładzie (4). Wektor ~v jest,
zatem zmienna˛ losowa˛ określona˛ na przestrzeni produktowej:
~v : |Ω × Ω ×
· · · × Ω} −→ {0, 1}m
{z
(11)
m razy
z rozkładem prawdopodobieństwa równym:
!
Pπ (~v = ~x) = Pπ (v1 = x1 )Pπ (v2 = x2 ) . . . Pπ (vm = xm ) =
79
m k
π (1 − π)m−k ,
k
(12)
gdzie ~
x = [x1 , x2 , . . . , xn ] jest jednym z 2n możliwych do uzyskania
wyników takiego eksperymentu, k jest
P
m
ilościa˛ otrzymanych orłów, czyli k = m
x
,
natomiast
jest
dwumianem
Newtona, skad
˛ też nazwa
i=1 i
k
rozkładu — rozkład dwumianowy. Otrzymaliśmy pewna˛ zwiazan
˛
a˛ z (5) przestrzeń statystyczna:
˛
Ω
×Ω×
· · · × Ω}, σ(v × v × . . . v , {Pπ : π ∈ [0; 1]} .
(13)
|
{z
|
{z
}
m razy
m razy
Zbiór Ω × Ω × · · · × Ω w tym kontekście można nazwać przestrzenia˛ prób, natomiast pojedyncza realizacja
opisanej zmiennej losowej ~v nosi nazwe˛ prostej próby losowej.
Z równania (12) widać, że prawdopodobieństwo uzyskania w eksperymencie polegajacym
˛
na m-krotnym
rzucie moneta˛ konkretnej realizacji ~
x zależy bezpośrednio od wartości nieznanego parametru π . Dla danego ~
x bedziemy
˛
mieli dla różnych wartości π różne prawdopodobieństwa uzyskania naszego wyniku, co
oznacza, że próba losowa niesie pewna˛ informacje˛ na temat parametru π . Dokonany eksperyment pozwala zredukować niepewność co do wartości parametru π , która to wartość przed jego przeprowadzeniem
jest z równym prawdopodobieństwem rozłożona po całym przedziale [0;1].
Badajac
˛ „uczciwość” naszej monety można teraz przejść do jednego z dwóch dobrze znanych i pokrewnych rozwiaza
˛ ń wnioskowania statystycznego, tzn. dokonać estymacji nieznanego parametru π lub przetestować hipotez˛e zerowa˛ π = 12 . Pierwsze rozwiazanie
˛
polegałoby na policzeniu średniej arytmetycznej
z poszczególnych xi , która jest nieobciażonym
˛
estymatorem wartości oczekiwanej każdej zmiennej loso˛
ac
˛ postać
wej3 , czyli zgodnie ze wzorem (9) nieznanego parametru π (estymacja punktowa). Uwzgledniaj
rozkładu (13) można by także zbudować przedział, w którym z zadana˛ ufnościa˛ 1 − α wartość π by sie˛
znajdowała (estymacja przedziałowa). Drugie rozwiazanie
˛
polegałoby na podstawieniu do (13) wartości
1
π = 2 i obliczeniu prawdopodobieństwa uzyskania zaobserwowanego w eksperymencie ~x. Jeżeli obliczone prawdopodobieństwo Pπ (~v = ~
x|π = 21 ) byłoby niższe od zadanego poziomu istotności α, hipotez˛e
„uczciwości" monety należałoby odrzucić. Oczywiście, czym wieksza
˛
m, zatem ilość niezależnych rzutów,
tym wieksza
˛
bedzie
˛
precyzja i pewność dokonywanych wniosków.
Powyższy prosty przykład oddaje idee˛ modelowania statystycznego i naświetla korzyści, jakie możne ono
przynieść przy analizowaniu zjawisk empirycznych. Do rozkładu (5) nawiażemy
˛
jeszcze w dalszej cz˛eści
artykułu.
2.2
Odpowiedzi na pozycje testowe i źródła ich zmienności
Przejdźmy teraz do sytuacji eksperymentalnej badania testem. Jest to oczywiście o wiele bardziej skomplikowany problem od omówionego przykładu rzutu moneta,
˛ ale podstawowe zasady pozostaja˛ w tym
przypadku takie same. Przypomnijmy, że aby stworzyć model statystyczny (5) zjawiska losowego, wystarczy zdefiniować przestrzeń zdarzeń elementarnych Ω oraz określić na niej pewna˛ zmienna˛ losowa,
˛
której odpowiadałaby jakaś rodzina rozkładów prawdopodobieństwa P tejże zmiennej. Zaczniemy od zdefiniowania „źródła" losowości wyników otrzymywanych w badaniu testowym, czyli Ω, oraz określimy zbiór
wartości przyjmowanych przez zmienna˛ losowa.
˛ Najtrudniejszy problem skonstruowania sensownego w
kontekście pomiaru rozkładu prawdopodobieństwa zmiennej losowej zostanie zostawiony na koniec.
Załóżmy, że mamy test składajacy
˛ sie˛ z n pozycji indeksowanych litera˛ i (zatem i ∈ {1, 2, . . . , n}). Załóżmy
również, że dla każdej pozycji istnieja˛ tylko dwie odpowiedzi, jakich można na nie udzielić, które bedziemy
˛
określać jako„odpowiedź błedna"
˛
oraz „odpowiedź poprawna"4 . Wprowadźmy oznaczenie P na populacje˛
osób, z której dobierane bed
˛ a˛ jednostki do badania przy pomocy testu. Do oznaczenia konkretnej osoby
pochodzacej
˛ z populacji P bedziemy
˛
używać indeksu j .
3
Precyzyjniej: każdej zmiennej losowej posiadajacej
˛ skończona˛ wartość oczekiwana.
˛
Określenie odpowiedzi w kategoriach poprawna-błedna
˛
jest zasadne jedynie dla testów mierzacych
˛
pewne zdolności. Takie kody słowne bed
˛ a˛ w artykule jednak umownie używane dla określenia ogólnego przypadku pozycji dwukategorialnej, mimo iż w przypadku narz˛edzi badajacych
˛
osobowość, postawy itp. taka klasyfikacja nie ma zbytnio
sensu. Zabieg ten jest wprowadzony w celu ułatwienia lektury tekstu.
4
80
Pierwszym źródłem zmienności odpowiedzi na każde pytanie i jest zatem fakt losowania osób z populacji.
Jeżeli ustalimy osobe˛ j , to możemy w różnych niezależnych od siebie sytuacjach testowania zaobserwować jednak pewna˛ zmienność udzielanych przez nia˛ odpowiedzi. Dla każdej osoby j odpowiedzi na
poszczególne pytania testu wykazuja,
˛ zatem również pewna˛ losowość i, aby móc ja˛ uwzglednić,
˛
do modelu wprowadza sie˛ dodatkowa˛ przestrzeń replikacji (replication space) (Lord & Novick, 1968, str. 47),
która˛ oznaczymy symbolem K . Te dwa różne ujecia
˛
odpowiedzi na pozycje testu zostały przez Hollanda
(1990, str. 581) nazwane odpowiednio jako interpretacja doboru losowego (random sampling rationale)
oraz stochastyczna interpretacja osoby (subject stochastic rationale).
W przykładzie pojedynczego rzutu moneta˛ mieliśmy do czynienia z dwoma elementarnymi zdarzeniami
losowymi, wyrzucenia orła lub wyrzucenia reszki. W kontekście badania testowego pojedynczej osoby,
zdarzenie losowe to dobór osoby j ∈ P z populacji oraz dobór replikacji t ∈ K . Aby móc liczbowo opisać
obserwowany przez badacza wynik zdarzenia losowego, w przytoczonym na poczatku
˛ przykładzie monety
wprowadzono zmienna˛ losowa˛ (2) o rozkładzie (4). Dla każdej pary (j, t), jedyna˛ obserwowana˛ zmienna˛
jest wektor n udzielonych przez osobe˛ odpowiedzi. Przyporzadkujmy
˛
dla każdej pozycji testu odpowie-dzi
˛
wartość ‘0’. W ten sposób określiliśmy dziedzine˛ oraz zbiór
„poprawnej” wartość ‘1’, a odpowiedzi błednej
wartości dla zmiennej losowej opisujacej
˛ sytuacje˛ eksperymentalna˛ pojedynczego badania testem osoby
losowo wybranej z populacji P :
~u : P × K −→ {0; 1}n .
(14)
Funkcja ~
u jest n-wymiarowym wektorem losowym ~u = [u1 , u2 , . . . , un ] i nosi nazwe˛ wektora odpowiedzi
(response vector, vector of responses). Każda ze współrz˛ednych ui wektora ~
u jest również znienna˛ losowa˛
określona˛ na produktowej przestrzeni zdarzeń elementarnych P × K i przyjmujac
˛ a˛ jedna˛ z dwóch wartości xi ∈ {0; 1}. Zmienna losowa ui nosi dość oczywista˛ nazwe˛ odpowiedzi na pozycje˛ testowa˛ i, od niej
właśnie pochodzi nazwa całej rodziny modeli statystycznych, które omawiane sa˛ w niniejszym artykule,
czyli teorii odpowiadania na pozycje testowe (item response theory ). Jasne sie˛ w tym momencie również staje, co stanowi główny przedmiot IRT — jest nim budowanie modeli statystycznych stanowiacych
˛
sensowna˛ parametryzacje˛ rozkładu zmiennej (14), w terminach poziomu pewnej ukrytej cechy.
2.3
Rozkład odpowiedzi ustalonej osoby j ∈ P
Z (14) wynika, że dla każdego (j, t) ∈ P × K otrzymamy pewna˛ realizacje˛ zmiennej losowej ~
u, która
bedzie
˛
długim na n wektorem składajacym
˛
sie˛ z samych zer i jedynek. Możemy to zapisać ~
u(j, t) =
~xj = [x1j , x2j , . . . , xnj ], xij ∈ {0; 1}. Skomplikowany problem zbudowania rozkładu prawdopodobieństwa
uzyskania każdej takiej wartości ~
x ograniczmy najpierw do przypadku konkretnej, ustalonej osoby j . W
momencie, gdy osoba j zostanie ustalona, zmienność obserwowanych wyników bedzie
˛
zależała jedynie
od K . Żeby móc to zapisać w sposób formalny wprowadźmy funkcje˛ V : P × K −→ P określona˛
wzorem:
∀(j,t)∈P×K V (j, t) = j,
(15)
czyli zwykły rzut przestrzeni zdarzeń elementarnych P×K na K . Funkcja V przyporzadkowuje
˛
każdemu
zdarzeniu elementarnemu składajacemu
˛
sie˛ z osoby j oraz replikacji t osobe˛ j . Dla wygody ograniczmy
rozważania do odpowiedzi na pojedyncza˛ pozycje, czyli do zmiennej ui . Rozkład odpowiedzi na pozycje˛
i, w zależności od wyróżnionych wartości zmiennej V (czyli ustalonych podpopulacji P ), jest:
ui|V : K −→ {0; 1}.
(16)
W szczególnym, rozważanym teraz przypadku pojedynczej osoby j , rozkład ui|V =j dla uproszczenia oznaczany jest uij . Dla całego wektora odpowiedzi natomiast użyjemy zapisu ~
u|V =j = [u1j , u2j , . . . , unj ] = ~uj .
Dla pozycji i oraz osoby j bedziemy
˛
mieli pewne stałe prawdopodobieństwo udzielenia odpowiedzi poprawnej Pui (ui = 1|V = j) = Puij (uij = 1) oraz prawdopodobieństwo udzielenia odpowiedzi błednej
˛
Puij (uij = 0). Obydwa prawdopodobieństwa sumuja˛ sie˛ oczywiście do jedności, zatem do pełnego określenia rozkładu odpowiedzi dla ustalonej pary (i, j) wystarczy znajomość jednej z tych wielkości. Jest to
81
dokładnie taka sama zmienna losowa, jak określona wzorami (4) oraz (5) zmienna rozpatrywana w przytoczonym wcześniej przykładzie monety! Odpowiedź na pojedyncza˛ pozycje˛ i dla ustalonej osoby j ma
zatem rozkład dwupunktowy (5) z parametrem πij = Puij (uij = 1), w zwiazku
˛
z czym rozkład ten można
zapisać z dolnym indeksem wskazujacym
˛
na zależność od pojedynczego parametru: Pπij . Dwupunktowy
rozkład Pπij odpowiedzi osoby j na pytanie i jest dany zgodnie z (5) poprzez:
∀j∈P ∀xij ∈{0;1}
Pπij (uij
= xij ) = Pπij (uij = 1)xij Pπij (uij = 0)1−xij =
= πij xij (1 − πij )1−xij .
(17)
Dla każdej osoby mamy pewien „prywatny" rozkład zmiennej losowej ui , opisywany pojedynczym parametrem πij = Pπij (uij = 1), a przechodzac
˛ na cały test otrzymamy „prywatny" rozkład zmiennej ~
u,
opisywany wektorem parametrów ~
πj = [π1j , π2j , . . . , πnj ]. Zarówno rozkład zmiennej uij , jak i rozkład ~uj ,
bywaja˛ nazywane rozkładem skłonności (propensity distribution) (Lord & Novick, 1968, str. 47).
2.4
Pomiar
Przez pomiar 5 pewnej cechy bed
˛ acej
˛
właściwościa˛ obiektów z określonego zbioru, rozumie sie˛ przyporzadkowanie
˛
tym obiektom wartości liczbowych w taki sposób, żeby odpowiednie relacje zachodzace
˛
miedzy
˛
liczbami odzwierciedlały interesujace
˛ badacza relacje miedzy
˛
obiektami, wynikajace
˛ z posiadanej
przez nie cechy. Dla przykładu, mamy cztery poziomy pomiaru wyróżnione przez Stevensa:
1. Skala nominalna. Jeżeli dwa obiekty różnia˛ sie˛ wartościa˛ cechy, to reprezentacja liczbowa ich cechy
poprzez pomiar da dwie różne liczby.
2. Skala porzadkowa.
˛
Jeżeli jeden obiekt ma wieksze
˛
nateżenie
˛
danej cechy od drugiego, to pomiar
dostarczy odpowiednio liczb: wiekszej
˛
oraz mniejszej.
3. Skala przedziałowa. Jeżeli możliwe jest porównywanie różnicy miedzy
˛
nateżeniem
˛
cechy dwóch
obiektów, to pary obiektów o tej samej różnicy nateżenia
˛
cechy, za pomoca˛ pomiaru zostaja˛ odzwierciedlone w pary liczb różniace
˛ sie˛ miedzy
˛
soba˛ o taka˛ sama˛ wartość.
4. Skala ilorazowa. Jeżeli można stwierdzić, że jeden obiekt ma k -krotnie wieksze
˛
nateżenie
˛
cechy od
drugiego, to wartości liczbowe dostarczone pomiarem powinny także być zwiazane
˛
ta˛ relacja.
˛
Odnieśmy powyższa˛ definicje˛ pomiaru do naszej sytuacji badania testem. Zakładamy, że istnieje jakaś
hipotetyczna zmienna, cecha, której nateżenie
˛
(a zatem można osiagn
˛ ać
˛ przynajmniej drugi poziom pomiaru w wyróżnionej powyżej skali) jest zróżnicowane wśród osób z populacji P . Kolejnym założeniem,
postulatem jest, że za pomoca˛ obserwowanej zmiennej ~
u można dokonać jej pomiaru. Dokonać pomiaru,
czyli stworzyć pewna˛ liczbowa˛ skale˛ odzwierciedlajac
˛ a˛ relacje zachodzace
˛ miedzy
˛
jednostkami z P ze
wzgledu
˛
na nateżenie
˛
interesujacej
˛ nas cechy.
3
Teoria odpowiadania na pozycje testowe
3.1 Jednowymiarowy model IRT. Zmienna ukryta Θ oraz krzywa charakterystyczna pozycji testowej
Majac
˛ na wzgledzie
˛
poczynione uwagi na temat pomiaru, idea pomiaru pewnej cechy przy użyciu testu
opiera sie˛ na założeniu, że można wprowadzić do stworzonego układu pojedyncza˛6 przyjmujac
˛ a˛ wartości
5
Bardzo dobre opracowanie tematyki pomiaru pewnych cech w naukach społecznych znajduje sie˛ w rozdziale 2
ksiażki
˛ Wprowadzenie do psychologii matematycznej (Coombs et al., 1977).
6
Można rozpatrzyć możliwość wprowadzenia wiekszej
˛
ilości parametrów Θ1 ,..., Θk i zbudować model dla testu
mierzacego
˛
wieksz
˛
a˛ ilość cech. W niniejszym artykule rozpatrywany jest jedynie przypadek jednowymiarowy.
82
rzeczywiste zmienna˛ Θ:
Θ : P × K −→ R,
(18)
która pozwalałaby dla każdej osoby j ∈ P określić w sposób jednoznaczny, jakie wartości wektor parametrów π~j przyjmie. Wymagałoby to założenia, po pierwsze:
∀j∈P ∀t,t0 ∈K
Θ(j, t) = Θ(j, t0 ) = θj ,
(19)
czyli, że dla każdej osoby j zmienna ma wartość stała˛ θj — w przeciwnym razie nie można byłoby wyznaczyć parametrów πij w sposób jednoznaczny. Nastepnie,
˛
dla każdego pytania i musiałaby istnieć pewna
funkcja gi określona na R i przyjmujaca
˛ wartości w przedziale [0; 1]:
gi : R −→ [0; 1]
(20)
w taki sposób, że:
∀j∈P
gi (θj ) = Pπij (uij = 1) = πij ,
(21)
co oznacza, że istnieje n funkcji gi umożliwiajacych
˛
przekształcenie wartości przyjmowanej przez zmienna˛
Θ przy warunku V = j (patrz wzór (15)) na odpowiednie parametry πij , które jak wiemy ze wzoru (17), w
sposób jednoznaczny wyznaczaja˛ rozkład wektora odpowiedzi danej osoby ~
uj .
Zmienna˛ Θ spełniajac
˛ a˛ warunki (18) oraz (19) nazywamy zmienna˛ ukryta˛ (latent trait) (Ellis & van der
Woldenberg, 1993, str. 419) i to ona właśnie tworzy kontinuum, skale,
˛ na której dokonany jest pomiaru
cechy, stad
˛ w IRT nazywana jest też zdolnościa˛ (ability ). Funkcja gi określona za pomoca˛ (20) oraz (21)
nosi natomiast nazwe˛ krzywej charakterystycznej pozycji testowej i (item characteristic curve, w skrócie
ICC). Obydwa pojecia
˛
sa˛ fundamentalne dla teorii odpowiadania na pozycje testowe, ponieważ łacznie
˛
określaja˛ jednoznacznie rozkład prawdopodobieństwa dla pojedynczego wektora odpowiedzi (14). Ostatecznie zatem jednowymiarowy model IRT dla pojedynczego wektora odpowiedzi na n dychotomicznych
pozycji można zapisać w postaci:
P × K , σ(~u), {PΘ,g1 ,g2 ,...,gn : Θ ∈ R, gi ∈ G } ,
(22)
gdzie σ(~
u) jest odpowiednio określonym σ -ciałem zdarzeń elementarnych, natomiast G jest rodzina˛ dopuszczalnych postaci funkcji charakterystycznych pozycji testowych. Rodzina rozkładów prawdopodobieństwa zmiennej ~
u w modelu (22) zależy od pojedynczego parametru Θ (poziomu zdolności wylosowanej
w badaniu osoby) oraz od postaci n funkcji gi ∈ G . Jeżeli każda˛ funkcje˛ gi można opisać za pomoca˛
skończonej ilości parametrów, cały model nazywamy parametrycznym modelem IRT, w przeciwnym razie
nieparametrycznym modelem IRT.
Znajac
˛ postać wszystkich funkcji charakterystycznych, od których zależy rozkład PΘ,g1 ,g2 ,...,gn , czyli po
ustaleniu konkretnych {g1 , g2 , . . . , gn }, udzielane przez losowo wybrana˛ osobe˛ j odpowiedzi w teście zależa˛ jedynie od wartości parametru θj , czyli poziomu jej zdolności. Zapisujac
˛ udzielone podczas pojedynczego badania testem odpowiedzi, uzyskamy wektor zer i jedynek ~
xj = [x1j , x2j , . . . , xnj ], xij ∈ {0; 1}.
Tak jak w przypadku m-krotnego rzutu moneta,
˛ gdzie na podstawie zaobserwowanego wyniku można było
dokonać pewnego wnioskowania na temat wartości nieznanego parametru π , od którego rozkład rzutów
według przyjetego
˛
modelu (13) zależał, tak i w naszym przypadku po ustaleniu {g1 , g2 , . . . , gn } możemy wnioskować na podstawie ~
xj przy założeniu modelu (22) co do możliwych wartości parametru Θ dla
osoby j . Udzielone w teście odpowiedzi niosa˛ w sobie informacje˛ na temat poziomu zdolności badanej
testem osoby. Przez pomiar pewnej cechy za pomoca˛ testu rozumiemy w takim kontekście, zatem estymacje˛ parametru Θ na podstawie zaobserwowanych odpowiedzi ~
x. Analogicznie estymacje˛ parametru π
po m-ktornym rzucie moneta˛ można nazwać pomiarem pewnej cechy, która charakteryzuje empirycznie
obserwowalne właściwości monety. Ceche˛ ta˛ można by nazwać „stronniczościa"
˛ monety.
83
3.2
Jednowymiarowy monotoniczny model IRT na przykładzie 2PLM
Omawiajac
˛ w poprzednim rozdziale jednowymiarowy model IRT, warunek jednowymiarowości opisano
poprzez stwierdzenie, że dla każdej pozycji testu i dla każdej osoby wartość zmiennej Θ wystarcza do
określenia rozkładu ~
uj , czyli, że θj można jednoznacznie przekształcić w ~πj za pomoca˛ ICC (21). Zanim
przejdziemy do konkretnego przykładu modelu IRT, sformułujmy warunek jednowymiarowości wprost w postaci, która nosi nazwe˛ lokalnej niezależności(local independence) (porównaj Ellis & van der Woldenberg,
1993, str. 420):
∀θ∈R ∀~x=[x1 ,...,xn ]∈{0;1}n
P~u (~u = ~x|Θ = θ) =
n
Y
Pui (ui = xi |Θ = θ),
(23)
i=1
gdzie P~u to rozkład prawdopodobieństwa całego wektora odpowiedzi ~
u, a Pui rozkład prawdopodobieństwa odpowiedzi na pytanie i. Powyższy wzór mówi, że w przypadku ustalenia wartości zmiennej Θ, odpowiedzi na poszczególne pozycje testu staja˛ sie˛ statystycznie niezależne. Oznacza to, że Θ jest jedynym
czynnikiem odpowiedzialnym za współzmienność wszystkich odpowiedzi w teście — niniejszym ustaliliśmy, że rozważany test jest narz˛edziem jednowymiarowym. Lord i Novick (1968, str. 538) cytujac
˛ Andersona (1959) tak to ujeli
˛ w słowa:
. . . wynik (performace) osoby zależy od pojedynczej zmiennej ukrytej, jeżeli przy ustalonej
wartości tej zmiennej nie da sie˛ z zachowania tej osoby już niczego wiecej
˛
wywnioskować, co
mogłoby przyczynić sie˛ do wytłumaczenia tego wyniku. Idea jest taka, że zmienna ukryta stanowi jedyny istotny czynnik i w momencie, gdy jej wartość zostaje wyznaczona, zachowanie
przybiera charakter losowy, w znaczeniu statystycznej niezależności (Anderson, 1959).
Rozsadnym
˛
założeniem, jakie można poczynić na temat relacji udzielanych przez badane osoby odpowiedzi ~
u do poziomu cechy, która˛ pragniemy mierzyć jest, aby ze wzrostem jej wartości nie malało prawdopodobieństwo udzielenia poprawnej odpowiedzi na każde pytanie w teście7 . Oczekiwalibyśmy, że ze
wzrostem, dajmy na to, poziomu inteligencji zwieksza
˛
sie˛ prawdopodobieństwo poprawnej odpowiedzi na
zadanie w teście majacym
˛
inteligencje˛ mierzyć. Oznacza to, że ze wzrostem Θ = θ prawdopodobieństwo P (ui = 1|Θ = θ) nie powinno maleć. Majac
˛ na wzgledzie
˛
(21), takie założenie o monotoniczności
możemy zapisać:
∀j,j 0 ∈P ∀i∈{1,2,...,n} θj < θj 0 =⇒ gi (θj ) ¬ gi (θj 0 ),
(24)
czyli sprowadza sie˛ to do tego, aby krzywe charakterystyczne wszystkich pozycji testu były niemalejace.
˛
Jeżeli Θ spełnia warunki (18) oraz (19), spełnione jest założenie lokalnej niezależności (24), oraz wszystkie ICC (21) spełniaja˛ założenie monotoniczności (24), to otrzymujemy jednowymiarowy monotoniczny
model IRT (22). Dalsza specyfikacja modeli IRT zależy już od konkretnej postaci rodziny G krzywych
charakterystycznych.
Przykładowo, model IRT, w którym każda funkcja gi przyjmuje postać:
Pui (ui = 1|Θ = θ) = gi (θ) = g(θ; ai , bi ) =
1
−ai (θ−bi )
1+e
,
(25)
gdzie e ≈ 2, 718 jest stała˛ Eulera (podstawa logarytmu naturalnego), natomiast ai ∈ (0; +∞) oraz
bi ∈ (−∞; +∞), nosi nazwe˛ dwuparametrycznego modelu logistycznego (w skrócie 2PLM). Przykład
kilku krzywych w tym modelu jest podany na Rysunku 1. Z rysunku tego widać, że ze wzrostem wartości
parametru ai zwieksza
˛
sie˛ „stromość" funkcji gi , natomiast zmiany w wartości parametru bi przesuwaja˛
wykres równolegle wzdłuż osi Θ. 50% prawdopodobieństwo udzielenia poprawnej odpowiedzi przypada
7
Nie wprowadzono dotychczas tego założenia dla ogólności przeprowadzanych rozważań. Niemonotoniczne ICC
pojawiaja˛ sie˛ czasem w testach badajacych
˛
postawy (Formann, 1988, str. 45–46).
84
Rysunek 1: Przykład krzywych charakterystycznych w dwuparametrametrycznym modelu logistycznym.
Krzywa w kolorze czarnym ma parametry a = 2, b = 0, 5, krzywe czerwone różnia˛ sie˛ od niej dyskryminacja,
˛ natomiast krzywe niebieskie trudnościa.
˛
na wartość Θ = bi , i wartość ta odpowiada także punktowi przegiecia
˛
krzywej gi . Czym wieksza
˛
wartość parametru ai , tym dana pozycja efektywniej bedzie
˛
rozróżniała miedzy
˛
osobami, których zdolność
znajduje sie˛ w okolicach wartości bi , czyli tam gdzie funkcja jest najbardziej stroma — dla małych zmian
wartości Θ w tym rejonie rozkład odpowiedzi (17) bedzie
˛
ulegał najwiekszym
˛
zmianom. Ze wzrostem wartości parametru bi dla osoby o ustalonym poziomie cechy Θ = θj , osoba ta bedzie
˛
miała coraz mniejsze
prawdopodobieństwo udzielenia na dana˛ pozycje˛ odpowiedzi prawidłowej. W zwiazku
˛
z przytoczona˛ interpretacja˛ właściwości parametrów ai oraz bi nosza˛ one nazwy, odpowiednio: parametr dyskryminacji oraz
parametr trudności.
Jeżeli we wzorze (21) wartość parametru ai zostanie ustalona na ai = 1,to otrzymamy jednoparametryczny model logistyczny (1PLM), zwany również modelem Rascha, który sie˛ odznacza bardzo interesujacymi
˛
właściwościami. Istnieja˛ również modele z wieksz
˛
a˛ ilościa˛ parametrów, na przykład trójparametryczny model logistyczny (3PLM), w którym trzeci parametr został wprowadzony dla modelowania zjawiska „zgadywania” poprawnej odpowiedzi przez osoby o niskim poziomie cechy (dolna asymptota jest powyżej zera),
do modelu 3PLM można wprowadzić także dodatkowy parametr niedbałości (carelesness) dla uzyskania
krzywych modelujace
˛ pytania, na które osoby o wysokim poziomie cechy czasami nie udzielaja˛ odpowiedzi poprawnej (analogicznie górna asymptota jest poniżej jedności, otrzymujemy 4PLM). Oprócz funkcji
logistycznych, w użyciu też sie˛ pojawiaja˛ sie˛ modele oparte na krzywej skumulowanego rozkładu normalnego, czy odpowiednio przekształconej funkcji kosinus. W szczególności krzywa charakterystyczna nie
musi wcale być ciagła
˛
— w modelu Mokkena ICC jest funkcja˛ skokowa,
˛ do pewnej wartości równa˛ zero,
a powyżej równa˛ 1 (otrzymana z (21) przy ai → +∞). Omówienie modeli stosowanych w IRT oraz różnic
miedzy
˛
nimi dostepne
˛
jest w każdej pracy wprowadzajacej
˛
do tematyki IRT, także w innych artykułach w
tym wydaniu niniejszego numeru Egzaminu.
Wracajac
˛ do przykładu 2PLM, otrzymujemy model IRT:
P × K , σ(~u), {PΘ,a1 ,b1 ,a2 ,b2 ,...,an ,bn : Θ ∈ R, ai ∈ (0, +∞), bi ∈ R ,
(26)
czyli model, w którym prawdopodobieństwo zaobserwowania dowolnego ~
u(j, t) = ~x ∈ {0; 1}n jest jednoznacznie wyznaczone przez rozkład prawdopodobieństwa, który zależy od pojedynczego parametru
zdolności Θ, oraz 2n parametrów krzywych charakterystycznych danych wzorem (25). Uwzgledniaj
˛
ac
˛ lo-
85
kalna˛ niezależność pozycji (23), postać rozkładu poszczególnej pozycji dla ustalonego poziomu cechy
Θ = θ (17) oraz wzór na ICC (25), otrzymujemy nastepuj
˛ ac
˛ a˛ zależność:
∀~x∈{0;1}n
P~u (~u = ~x)
=
PΘ,a1 ,b1 ,a2 ,b2 ,...,an ,bn (~u = ~x) =
(23)
n
Y
(17)
i=1
n
Y
(25)
i=1
n
Y
=
=
=
Pui (ui = xi |Θ = θ) =
Pui (ui = 1|Θ = θ)xi Pui (ui = 0|Θ = θ)1−xi =
g(θ; ai , bi )xi (1 − g(θ; ai , bi ))1−xi .
(27)
i=1
3.3
Estymacja parametru zdolności Θ dla pojedynczej osoby losowo dobranej z populacji
Załóżmy na poczatek,
˛
że znamy postać wszystkich n krzywych charakterystycznych w naszym teście.
Kontynuujac
˛ przykład 2PLM (25), oznacza to, że znamy wszystkie wartości ai oraz bi . Rozkład wektora odpowiedzi, ~
u jak widać z (27), bedzie
˛
zależał wtedy jedynie od jednego nieznanego parametru Θ,
bed
˛ acego
˛
poziomem cechy badanej testem osoby. Przypomnijmy przykład monety rozpatrywany na poczatku.
˛
Po zarejestrowaniu konfiguracji rzuconych reszek i orłów w m-krotnym rzucie moneta˛ mogliśmy
stwierdzić, które wartości nieznanego parametru π były bardziej prawdopodobne od innych8 i dokonać jego estymacji. Podobnie teraz, gdyby zbadać testem pojedyncza˛ osobe˛ j , otrzymamy konkretna˛ realizacje˛
wektora odpowiedzi, czyli ~
xj ∈ {0; 1}n , która bedzie
˛
dla różnych wartości Θ = θj wiazała
˛
sie˛ z różnym
prawdopodobieństwem (27). Estymatorem θ̂j nieznanego parametru θj bedzie
˛
ta wielkość Θ, dla której
prawdopodobieństwo (27) jest najwieksze.
˛
Estymator θ̂ zdefiniowany w ten sposób nosi nazwe˛ estymatora
najwiekszej
˛
wiarygodności i formalnie jest rozwiazaniem
˛
nastepuj
˛ acego
˛
problemu:
max
θ∈R
n
Y
gi (θ)ui (1 − gi (θ))1−ui
(28)
i=1
czyli maksymalizacji funkcji rozkładu prawdopodobieństwa po wszystkich możliwych wartościach θ. Zapiszmy maksymalizowana˛ funkcje˛ jako:
l(θ; ~u) =
n
Y
gi (θ)ui (1 − gi (θ))1−ui ,
(29)
i=1
przez co podkreślone zostaje, że wartość parametru θ zależy od realizacji wektora losowego ~
u (parametr
i zmienna losowa niejako zamieniaja˛ sie˛ miejscami). Funkcja l(θ; ~
u) nosi nazwe˛ funkcji wiarygodności
rozważanego eksperymentu (Gajek & Kałuszka, 1999, str. 88). Zamiast maksymalizować bezpośrednio
funkcje˛ (29), o wiele łatwiejszym rozwiazaniem
˛
jest maksymalizacja logarytmu naturalnego z tej funkcji:
L(θ; ~u) = ln(l(θ; ~u)) =
n
X
i=1
ui ln (gi (θ)) +
n
X
(1 − ui ) ln(1 − gi (θ)),
(30)
i=1
gdyż, jak widać, zamiast iloczynów ICC, jak to ma miejsce we wzorze na l(θ; ~
u), mamy do czynienia z ich
suma.
˛
Z powyższego opisu, aby uzyskać oszacowanie poziomu cechy danej osoby, należy dokonać maksymalizacji dość skomplikowanej funkcji. W przypadku wiekszości
˛
modeli rozwiazanie
˛
nie jest dane bezpośrednio w sposób analityczny i aby wykonać takie zadanie, konieczne jest korzystanie z dość wymagajacych
˛
obliczeniowo iteracyjnych procedur, które byłyby uciażliwe
˛
bez wykorzystania komputerów.
8
86
W tym przypadku wystarczała de facto informacja o ilość reszek — patrz wzór na rozkład dwumianowy (12).
3.4
Kalibracja testu
Dodać należy, że w praktyce nie sa˛ znane parametry pozycji testowych, co bardzo komplikuje problem
oszacowania parametrów całego modelu. Wektor n odpowiedzi pojedynczej osoby nie dostarcza wystarczajacej
˛
informacji do oszacowania jednocześnie parametru Θ jak i postaci n nieznanych ICC. Podobnie
jak w przykładzie z moneta,
˛ gdzie dla oszacowania nieznanej wartości π dokonano m-krotnego rzutu moneta,
˛ aby oszacować parametry modelu IRT badane jest N losowo dobranych z populacji osób. Procedura
taka nosi nazwe˛ kalibracji testu (test calibration). Obserwowana˛ zmienna˛ losowa˛ jest już nie realizacja pojedynczego wektora odpowiedzi ~
u, lecz całej macierzy odpowiedzi U = [~u1 × ~u2 × ~uN ], o wymiarach
N × n. Jeżeli krzywe charakterystyczne sa˛ dane dwuparametrycznym wzorem (25), to otrzymujemy model statystyczny (Ω, A, P) (5), który zależy od 2n parametrów ICC oraz N parametrów odpowiadajacych
˛
poziomowi cechy poszczególnych osób (porównaj (13)):

Ω = (P × K ) × · · · × (P × K )


{z
}
|




N razy
(31)
A = σ(~|u × ·{z
· · × ~u})




N razy


P
= {PΘ1 ,Θ2 ,...ΘN ,a1 ,b1 ,a2 ,b2 ,...,an ,bn : Θj ∈ R, ai ∈ (0, +∞), bi ∈ R},
˛
maksymalizacji funkcji,
Problem estymacji parametrów tego modelu9 można zapisać jako problem łacznej
która zależy od N + 2n nieznanych parametrów:
max
l(θ1 , θ2 , . . . θN , a1 , b1 , a2 , b2 , . . . , an , bn ; U) =
{θj ∈R,bi ∈R,
ai ∈(0;+∞)}
=
max
{θj ∈R,bi ∈R,
ai ∈(0;+∞)}
L(θ1 , θ2 , . . . θN , a1 , b1 , a2 , b2 , . . . , an , bn ; U)
(32)
Zakładajac
˛ niezależność odpowiedzi poszczególnych osób wzgledem
˛
siebie10 , logarytm funkcji wiarygodności L jest postaci:
L(θ1 , θ2 , . . . , θN , a1 , b1 , a2 , b2 , . . . , an , bn ; U) =
=
N X
n
X
ln g(θj , ai , bi )uij (1 − g(θj , ai , bi ))1−uij
=
j=1 i=1
=
N X
n
X
j=1 i=1
uij ln (g(θj , ai , bi )) +
N X
n
X
(1 − uij ) ln(1 − g(θj , ai , bi )).
(33)
j=1 i=1
Maksymalizacja wyrażenia (33), które zależy jednocześnie od N +2n zmiennych, jest zadaniem tak skomplikowanym obliczeniowo, że w wiekszości
˛
przypadków bez wprowadzania pewnych dodatkowych założeń
czy rozwiaza
˛ ń11 , nie dałoby sie˛ go rozwiazać
˛
nawet przy użyciu komputerów. Nie bedziemy
˛
sie˛ tu wgłebiać
˛
w stosowane do tego celu rozwiazania.
˛
Doskonała˛ pozycja˛ omawiajac
˛ a˛ algorytmy stosowane w estymacji parametrów różnych modeli IRT jest ksiażka
˛
Baker & Seock-Ho pod tytułem Item Response Theory.
Parameter Estimation Techniques.
Przybliżony problem kalibracji testu uwidacznia, dlaczego rozwój teorii odpowiadania na pozycje testowe
był tak nierozerwalnie zwiazany
˛
z rozwojem komputerów umożliwiajacych
˛
automatyczne dokonywanie
bardzo złożonych obliczeń. Zrozumiałe sie˛ też staje, że stosowanie IRT w praktyce wymaga posiadania
odpowiedniego oprogramowania.
9
Co oznacza znalezienie wartości estymatora: [θ̂1 , θ̂2 , . . . θ̂N , â1 , b̂1 , â2 , b̂2 , . . . , ân , b̂n ].
Czyli nieformalnie mówiac,
˛ że badane osoby nie „ściagaj
˛ a"
˛ odpowiedzi od siebie.
11
Jedynie w przypadku modelu Rascha zachodzi jest tak zwana separacja pozycji i osób(separation of items and
persons), umożliwiajaca
˛ niezależnie od siebie estymować parametry osób oraz pozycji bez czynienia dodatkowych
założeń (Baker & Seock-Ho, 2004, str. 155).
10
87
3.5
Informacja Fishera jako lokalna miara błedu
˛
estymatora nieznanego
parametru
W poprzednim paragrafie omówiliśmy metody estymacji parametrów modelu IRT. Wzór (28) pokazuje, że
estymator poziomu zdolności θ̂ jest funkcja˛ poszczególnych odpowiedzi ui , które sa˛ zmiennymi losowymi.
Zmienna˛ losowa˛ jest również i sam estymator cechy, przyjmowane przez niego wartości zależa˛ od konkretnej realizacji ~
x wektora odpowiedzi ~u. Estymator ma zatem specyficzny rozkład, a co za tym idzie wartość
oczekiwana˛ i wariancje.
˛ Na przykład, co do wartości oczekiwanej estymatora pożadan
˛
a˛ właściwościa˛ θ̂
byłoby:
E(θ̂|θ) = θ
(34)
czyli, żeby wartość oczekiwana z estymatora pod warunkiem, że prawdziwa wartość parametru jest θ,
była równa tej prawdziwej wartości. Mówimy, że estymator spełniajacy
˛ warunek (34) jest nieobciażony.
˛
Znajomość rozkładu estymatora jest konieczna do zbudowania przedziałów ufności, w których na podstawie przeprowadzonego eksperymentu możemy twierdzić, że na zadanym poziomie ufności prawdziwa
wartość parametru sie˛ znajduje. W szczególności, jeżeli rozkład estymatora θ̂ dla Θ = θ jest normalny,
2 , to można zbudować (1 − α)100 procentowy
z wartościa˛ oczekiwana˛ dana˛ (34) i pewna˛ wariancja˛ σθ̂|θ
przedział ufności dla prawdziwej wartości estymatora:
q
q
2 ; θ̂ + z
2 ),
α
(θ̂ − z1− α σθ̂|θ
σθ̂|θ
(35)
1−
2
2
q
2 jest
gdzie z1− α jest kwantylem rz˛edu 1 − α2 standardowego rozkładu normalnego N (0, 1). Wartość σθ̂|θ
2
w tym kontekście standardowym błedem
˛
pomiaru zdolności Θ przy założeniu, że jej poziom wynosi θ, czyli
jest to bład
˛ warunkowy (conditional standard error of measurement, w skrócie SEM(θ)).
Dla estymatora najwiekszej
˛
wiarygodności (28) zdefiniujmy wielkość:
!
dL 2 I(θ) = E
θ .
dθ (36)
I(θ) nosi nazwe˛ informacji Fishera o parametrze θ zawarta˛ w obserwacji ~u (Lehmann, 1991, str. 118)
i jest miara˛ krzywizny logarytmu funkcji wiarygodności (30) w otoczeniu prawdziwej wartości parametru.
Im bardziej logarytm funkcji wiarygodności odpowiadajacej
˛
naszemu eksperymentowi jest w otoczeniu θ
„stromy”, tym wieksza
˛
bedzie
˛
wartość I(θ). Jest to zgodne z intuicyjnym pojmowaniem „informacji", które
wykorzystywano wcześniej w tym artykule jako miare˛ zdolności danej zmiennej losowej (w tym przypadku estymatora θ̂) do redukowania niepewności co do prawdziwej wartości interesujacego
˛
nas parametru.
Wyższe wartości I(θ) bed
˛ a˛ odpowiadały tym rejonom Θ, gdzie szukane maksimum (28) jest bardziej „wyraziste"; dla θ znajdujacych
˛
sie˛ w takim rejonie przyjmowane przez estymator wartości θ̂ bed
˛ a˛ potencjalnie
bardziej skupione wokół θ. Rao tak opisuje informacje˛ Fishera (Rao, 1982, str. 343–344):
Przez informacje˛ o nieznanym parametrze θ, zawarta˛ w pewnej zmiennej losowej, rozumiemy stopień, w jakim w wyniku obserwacji tej zmiennej zmniejsza sie˛ nasza niewiedza na
temat interesujacego
˛
nas parametru. Jeżeli dla każdej wartości parametru istnieje dokładnie
jedna wartość zmiennej losowej pojawiajaca
˛ sie˛ z prawdopodobieństwem 1, to odpowiednia
zmienna losowa zawiera maksimum informacji. Z drugiej strony, jeżeli dla wszystkich wartości
parametru θ zmienna losowa ma taki sam rozkład, zaobserwowane wartości tej zmiennej nie
daja˛ żadnych podstaw do wyciagania
˛
wniosków o θ. Czułość zmiennej losowej na zmiany
parametru można, wiec
˛ uzasadniać stopniem zmian rozkładu tej zmiennej w wyniku zmian
wartości parametru.
Informacja Fishera jest funkcja˛ θ (podkreśla to zapis I(θ)), a co za tym idzie pozwala na oszacowanie dokładności uzyskanych estymatorów NW parametru θ w zależności od przyjmowanych przez niego
88
wartości. Możemy sie˛ w zwiazku
˛
z tym spodziewać, że dla niektórych wartości θ dla ustalonego testu
oszacowanie estymatorem (28) bedzie
˛
bardziej precyzyjne niż dla innych.
Informacja Fishera bardzo ważna˛ właściwość addytywności, przez co rozumie sie˛ fakt, że jeżeli posiadamy
informacje o parametrze I1 oraz I2 , pochodzace
˛ z dwóch niezależnych zmiennych losowych ξ1 oraz ξ2 , to
informacja zawarta łacznie
˛
w tych dwóch zmiennych bedzie
˛
sie˛ sumować, czyli I = I1 + I2 (Rao, 1982,
str. 342). Oczywiście można to uogólnić na n niezależnych zmiennych i otrzymujemy:
I(θ) =
n
X
Ii (θ)
(37)
i=1
Koncepcja informacji jest nam potrzebna ze wzgledu
˛ na dwa zasadnicze twierdzenia. Pierwsze to nierówność informacyjna, mówiaca,
˛
że dla ogólnego przypadku nieobciażonego
˛
estymatora (34)12 zachodzi:
2
σθ̂|θ
­
1
.
I(θ)
(38)
czyli, że wariancja estymatora od dołu jest ograniczona poprzez odwrotność informacji Fishera. Drugie
twierdzenie mówi, że jeżeli estymator θ̂ jest obliczony na podstawie n-elementowej próby losowej, to jego
rozkład ze wzrostem n coraz bardziej zbliża sie˛ do rozkładu normalnego o wariancji (Deutsch, 1969, str.
179–185):
2
lim σθ̂|θ
=
n→∞
1
,
I(θ)
(39)
czyli, że ze zwiekszaniem
˛
ilości niezależnych obserwacji (u nas bed
˛ a˛ to pytania w teście), nierówność (38)
staje sie˛ równościa,
˛ a kształt rozkładu estymatora staje sie˛ normalny. Jeżeli zatem ilość pytań w teście
byłaby wystarczajaco
˛ duża, lub dla danego modelu IRT i wartości θ w miejscu „­" w (38) pojawiała sie˛
równość13 , uzasadnione byłoby budowanie przedziału ufności (35), przy wartości standardowego błedu
˛
pomiaru danej przez:
s
SEM (θ) =
1
.
I(θ)
(40)
W ogólnym przypadku modelu IRT dla pozycji ocenianych dychotomicznie (22) z różniczkowalnymi krzywymi charakterystycznymi informacja Fishera jest dana wzorem:
I(θ) =
n
X
i=1
dgi (θ) 2
dθ
gi (θ)(1 − gi (θ))
,
(41)
przy czym ze wzgledu
˛
na addytywność informacji Fishera sensowne jest rozpatrywanie pojedynczych
składników powyższej sumy:
2
Ii (θ) =
12
dgi
dθ (θ)
gi (θ)(1 − gi (θ))
.
(42)
Wzór dla estymatora obciażonego
˛
jest bardziej skomplikowany (Lehmann, 1991, str. 118–122). Estymatory najwiekszej
˛
wiarygodności cechy daja˛ cz˛esto oszacowania obciażone,
˛
zwłaszcza dla skrajnych wartości Θ = θ obcia˛
żenie to bywa istotne. Zagadnienie wpływu wielkości próby oraz poziomu cechy na obciażenie
˛
estymatorów uzyskiwanych za pomoca˛ algorytmu łacznej
˛
estymacji najwiekszej
˛
wiarygodności (Joint maximum likelihood estimation)
˛
estymatorów NW cechy oraz pozycji testowych
zbadane zostało w pracy własnej (Kondratek, 2007). Obciażenie
jest istotnym problemem, z jakim borykaja˛ sie˛ twórcy różnorakiego programowania do estymacji parametrów IRT.
Kwestie˛ tutaj pominieto,
˛ aby nie komplikować wywodu.
13
Nieobciażone
˛
estymatory, których wariacja jest równa informacji Fishera, sa˛ nazywane efektywnymi. Nazwa ta
odzwierciedla fakt, że nie można skonstruować estymatora, który miałby mniejsza˛ od nich wariancje,
˛ innymi słowy,
estymatory takie wykorzystuja˛ informacje˛ zawarta˛ w obserwowanej zmiennej losowej w sposób maksymalny.
89
Wyrażenie (41) nosi nazwe˛ funkcji informacyjnej testu, a (42) analogicznie funkcji informacyjnej pozycji
testowej i daja˛ nam lokalna˛ miare˛ precyzji pomiarów, jaka˛ możemy dokonywać za pomoca˛ całego testu,
badź
˛ pojedynczych jego pozycji.
Dla modelu 2PLM (25) funkcja informacyjna pozycji i jest dana wzorem:
Ii (θ) = a2i gi (θ; ai , bi )(1 − gi (θ; ai , bi )).
(43)
Zależność miedzy
˛
funkcja˛ informacji testu złożonego z pieciu
˛
typowych itemów 2PLM, a funkcjami informacji tych pozycji przedstawia Rysunek 2.
Rysunek 2: Funkcja informacji testu (kolor czerwony) oraz funkcja informacji pieciu
˛
itemów (kolor niebieski) w 2PLM. Parametry ICC zostały wygenerowane niezależnie od siebie z rozkładów normalnych o
parametrach (0, 1) dla trudności bi oraz (1.3, 0.32 ) dla dyskryminacji ai .
3.6
Konstrukcja testów, CAT
Załóżmy, że posiadamy zbiór n0 pozycji, które zostały w wyniku wcześniejszych badań skalibrowane z
odpowiednia˛ dokładnościa˛ do wyliczenia funkcji informacji (41). Fakt, że dysponujemy wyrażeniem na
warunkowy bład
˛ pomiaru dla testu utworzonego z takich itemów w postaci pierwiastka odwrotności funkcji informacji testu (41), umożliwia wprowadzenie interesujacych,
˛
optymalnych metod konstrukcji testów.
Ogólna zasada, która˛ sie˛ należy kierować, składa sie˛ z dwóch etapów. Pierwszym jest założenie, z jaka˛
dokładnościa˛ i w jakim zakresie pragniemy, aby nasz test mierzył badana˛ ceche.
˛ W etapie tym budujemy zatem docelowa˛ funkcje˛ informacji testu (target test information function). W etapie drugim natomiast,
wykorzystujac
˛ nasze n0 itemów dokonujemy wyboru n ¬ n0 itemów tak, żeby n było najmniejsze oraz
powstała funkcja informacji testu była nie mniejsza niż docelowa. Relacje miedzy
˛
funkcjami informacji itemów a informacja˛ całego testu ilustruje Rysunek 2. MMimo iż konceptualnie jest to bardzo proste, problem
ten stanowi skomplikowane zadanie optymalizacji, którego metody rozwiazywania
˛
wykraczaja˛ poza zakres
niniejszego artykułu (Gruijter & van der Kamp, 2002, str. 129–130).
Baker wyróżnia nastepuj
˛ ace
˛ rodzaje testów (2001, str. 154):
1. Testy przesiewowe (screening tests); sa˛ to testy skonstruowane tak, aby możliwie mocno dyskryminowały miedzy
˛
osobami powyżej oraz poniżej pewnego ustalonego poziomu Θ = θ0 . I(θ) takiego
testu bedzie
˛
sie˛ charakteryzować zdecydowanym wzrostem wartości w pobliżu θ0 , w jej skład bed
˛ a˛
90
wchodzić pozycje o zbliżonej trudności skupionej wokół wartości cechy bed
˛ acej
˛ obiektem zainteresowania twórcy testu.
2. Testy o szerokim zasiegu
˛
(broad-ranged tests); sa˛ to testy bed
˛ ace
˛ przeciwieństwem poprzednich.
Maja˛ na celu badanie cechy możliwie dokładnie w obrebie
˛
szerokiego zakresu wartości Θ, kształt
I(θ) jest zatem spłaszczony, a w jego skład wchodza˛ zróżnicowane itemy.
3. Testy o waskim
˛
zasiegu
˛
(peaked tests); sa˛ czymś pośrednim pomiedzy
˛
dwoma wcześniejszymi rodzajami testów. Mierza˛ one ceche˛ zdecydowanie lepiej w pewnym obszarze cechy, lecz nie tak
zdecydowanie, jak testy przesiewowe. Uzasadnieniem tworzenia takich testów jest bardziej fakt, że
˛ a˛ wartości cechy z wyróżnianego obszaru, niż cheć
˛ rozw populacji badanych najcz˛eściej wystepuj
różniania miedzy
˛
dwoma grupami badanych, jak ma to miejsce w przypadku testu przesiewowego.
Z powyższego widać, że IRT umożliwia tworzenie testów nakierowanych na mierzenie cechy z a priori zadana˛ dokładnościa˛ w żadanym
˛
zakresie cechy. Faktem godnym odnotowania jest także to, że tworzac
˛ test
z prekalibrowanego (precalibrated) zbioru itemów można dzieki
˛ lokalnej ich niezależności łaczyć
˛
pozycje
ze soba˛ w sposób zupełnie dowolny, przy czym właściwości psychometryczne tak powstałego narz˛edzia
sa˛ łatwo i bezpośrednio uzyskiwane poprzez sumowanie funkcji informacji pozycji testowych (37).
Omówione sposoby konstrukcji testów odwołuja˛ sie˛ do budowania tradycyjnych narz˛edzi, tak zwanych
testów „papier–ołówek” (paper pencil tests), czyli narz˛edzi składajacych
˛
sie˛ ze stałego zbioru pozycji,
najcz˛eściej też ułożonych w tej samej kolejności. W momencie, gdy test jest rozwiazywany
˛
w formie elektronicznej i spełnione jest założenie o lokalnej niezależności pozycji, można zastosować opisana˛ logik˛e
tworzenia testów w sposób bardziej dynamiczny, otrzymujac
˛ równie dokładne pomiary przy mniejszym
koszcie lub pomiary tak samo dokładne przy tym samym koszcie, jeżeli przez koszt rozumiemy ilość pozycji, na jaka˛ badana osoba musi udzielić odpowiedzi. Podejście takie nosi nazwe˛ adaptatywnego testowania
komputerowego (computer adaptive testing, CAT).
W CAT postepuje
˛
sie˛ według nastepuj
˛ acego
˛
algorytmu: najpierw określamy górna˛ granice˛ SEM, z jakim
co najwyżej pragniemy uzyskać pomiar cechy danej osoby, zaczynamy od pewnej startowej wielkości
poczatkowej
˛
szacujacej
˛
poziom cechy badanej osoby θˆ0 (np. średnia z populacji) i za każda˛ udzielona˛
odpowiedzia˛ uaktualniamy I(θ) oraz wartość SEM(θ). Jeżeli w kroku k -tym badanie nie osiagn
˛ eło
˛ odpowiedniej precyzji, to w nastepnym
˛
kroku administrujemy taka˛ pozycje,
˛ która w zbiorze pozostałych pozycji
w punkcie θˆk ma możliwie najwieksz
˛
a˛ wartość funkcji informacji. W ten sposób można drastycznie skrócić
czas badania, ponieważ osoba w miare˛ udzielania odpowiedzi dostaje pozycje coraz bardziej dostosowane do poziomu jej cechy i nie musi odpowiadać na szereg pozycji majacych
˛
mała˛ wartość informatywna,
˛
które znajdowałyby sie˛ prawdopodobnie w tradycyjnej wersji „papier – ołówek” testu. Unikniecie
˛
podawania
osobie pytań za trudnych badź
˛ za łatwych, niesie za soba˛ dodatkowe korzyści, polegajace
˛ na eliminowaniu
wpływu na udzielane odpowiedzi takich niepożadanych
˛
czynników, jak frustracja lub znużenie. Schemat
badania CAT przedstawia Rysunek 3.
4
4.1
Klasyczna teoria testów
Porównanie założeń czynionych przez obydwie teorie.
Jak już wspominano, wszystkie założenia na temat sytuacji testowania, jakie poczyniono w paragrafie 2
dotycza˛ zarówno klasycznej teorii testów, jak i teorii odpowiadania na pozycje testowe. W szczególności
prawda˛ jest, że jedyna˛ obserwowana˛ zmienna˛ w eksperymencie badania testem jest wektor odpowiedzi
~u określony na przestrzeni zdarzeń elementarnych P × K (14). Również w momencie, gdy ustalona
zostanie osoba j ∈ P , czyli funkcja (15) przyjmie wartość V = j , to rozkład odpowiedzi na każda˛ pozycje˛
bedzie
˛
dany za pośrednictwem wzoru (17).
Omawiajac
˛ podstawy modeli odpowiadania na pozycje testowe, wprowadzono kolejne założenia, miano-
91
'
$
START
&
%
?
k=0
θ̂k = θ̂0
SEM
?
Wybór optymalnego
dla θ̂k itemu;
k =k+1
?
Rejestracja
odpowiedzi uk
?
Estymacja θ̂k ;
Obliczenie SEM(θ̂k )
?
@
@
@
@
SEM(θ̂k )¬ SEM @
Nie
@
@
@
@
@
Tak
' ?
$
STOP
&
%
Rysunek 3: Schemat blokowy badania CAT. Na podstawie (Gruijter & van der Kamp, 2002, str. 139)
wicie, że istnieje pewna zmienna ukryta Θ, dla której zachodzi Θ(j, t) = Θ(j, t0 ) dla dowolnych t ∈ K
(19), oraz spełnione jest założenie lokalnej niezależności pomiarów (23). Sprowadzało sie˛ to faktycznie do
stwierdzenia, że test jest jednowymiarowy i w konsekwencji uzyskano pełny model statystyczny dla omawianej sytuacji eksperymentalnej (22). Mimo iż w teorii klasycznej założenie jednowymiarowości formalnie
nie jest czynione, omawiajac
˛ teraz teorie˛ klasyczna˛ przyjmiemy w kilku miejscach, że jest spełnione. Zrobimy tak z trzech wzgledów:
˛
1. Założenie o jednowymiarowości wydaje sie˛ najbardziej elementarnym założeniem, umożliwiajacym
˛
skonstruowanie w pełni określonego modelu statystycznego, opisujacego
˛
sytuacje˛ badania testem
w kontekście pomiaru pewnych ukrytych zmiennych. Bez niego model byłby po prostu niedookreślony14 . GGdyby założenie takie było zbytnim uproszczeniem w pewnych okolicznościach, zawsze jest
możliwość wprowadzenia dodatkowych zmiennych ukrytych, aby lepiej wytłumaczyć zmienność obserwowanych wyników. Wielowymiarowość testu powodowałaby skomplikowanie modelu, co wydaje
sie˛ niepotrzebne w kontekście przeprowadzanych rozważań.
2. Po założeniu, że zachodzi pewien model IRT, możliwe staje sie˛ bezpośrednie porównanie wielkości definiowanych w klasycznej teorii testów z odpowiednimi konstruktami teorii odpowiadania na
pozycje testowe.
3. Teoria klasyczna, w celu umożliwienia estymacji bardzo istotnego dla niej parametru rzetelności
(zostanie on zdefiniowany później), czyni pewne specyficzne założenie, które jest tylko nieznaczne
łagodniejsze od założenia o lokalnej niezależności spotykanego w IRT.
14
92
Jak później zostanie wykazane, jest to jedna z podstawowych wad teorii klasycznej.
Aby odnieść sie˛ precyzyjniej do trzeciego z wymienionych punktów, musimy sie˛ bliżej przyjrzeć założeniu
o lokalnej niezależności pomiarów (23). Okazuje sie,
˛ że założenie to jest równoważne równoczesnemu
spełnieniu dwóch innych warunków: eksperymentalnej niezależności (experimental independence) oraz
{emphlokalnej homogeniczności (local homogeneity ), czyli:
(
lokalna niezależność ⇐⇒
lokalna homogeniczność
eksperymentalna niezależność
(44)
Formalny dowód powyższego dla dwóch pomiarów można znaleźć u Lorda i Novicka (1968, str. 539–540),
natomiast dla przypadku ogólnego u Ellisa i van der Wollenberga (1993, str. 420–423). My podamy jedynie
postać pojawiajacych
˛
sie˛ w (44) warunków. Eksperymentalna niezależność jest nastepuj
˛ acym
˛
założeniem
∀j∈P ∀~x∈{0;1}n
P (~u = ~x|V = j) =
n
Y
P (ui = xi |V = j),
(45)
i=1
natomiast tak wyglada
˛ lokalna homogeniczność:
∀j∈P ∀~x∈{0;1}n
P (~u = ~x|V = j) = P (~u = ~x|Θ = θj ).
(46)
Założenie o eksperymentalnej niezależności (45) mówi, że w momencie ustalenia konkretnej osoby j odpowiedzi, jakie udziela ona na poszczególne pytania testu, sa˛ wzgledem
˛
siebie niezależne statystycznie.
Można to zinterpretować w ten sposób, że każda osoba posiada stały zbiór cech (ograniczajac
˛ sie˛ do
tego założenia nie musi to być zatem pojedyncza cecha), który w pełni określa współzmienność udzielanych przez nia˛ odpowiedzi. Przestrzeń replikacji K dla ustalonej osoby j jest odpowiedzialna jedynie za
specyficzne dla każdej pozycji źródła losowości. Założenie o lokalnej homogeniczności mówi natomiast,
że wszystkie osoby o tym samym poziomie cechy maja˛ taki sam rozkład odpowiedzi. Konkretna wartość
zmiennej Θ zatem wyznacza w populacji P pewna˛ klase˛ abstrakcji osób, których nie da sie˛ miedzy
˛
soba˛
odróżnić na podstawie obserwacji udzielanych przez nie odpowiedzi w teście ~
u — osób o tym samym
poziomie mierzonej cechy. Zamiast określać, jaka osoba j została wylosowana do badania testem, wystarczajace
˛ jest podanie wartości pojedynczego parametru Θ = θj .
Klasyczna teoria testów natomiast, w celu umożliwienia estymacji współczynnika rzetelności, dokonuje
założenia o liniowej eksperymentalnej niezależności pomiarów, które w zastosowaniu do pojedynczych
pozycji przyjmuje postać:
(
∀j∈P ∀i,i0 ∈{1,2,...,n}
E(uij |ui0 j ) = E(uij )
E(ui0 j |uij ) = E(ui0 j )
(47)
czyli, że dla wszystkich par pozycji testu dla konkretnej osoby j odpowiedzi na pozycje˛ i nie wpływaja˛ na
wartość oczekiwana˛ odpowiedzi na pozycje˛ i0 i odwrotnie. Zgodnie z przeprowadzona˛ wcześniej argumentacja,
˛ dla ustalonej osoby j odpowiedzi udzielane na każda˛ pozycje˛ i maja˛ rozkład dwupunktowy, który
zależy od pojedynczego parametru πij (wzór (17)). Omawiajac
˛ przykład rzutu moneta˛ udowodniono natomiast, że wartość oczekiwana takiego rozkładu jest równa właśnie parametrowi πij (wzór (9)). Warunek
(47) nakłada zatem, w kontekście dychotomicznych pozycji, wymaganie, aby jedyny parametr, od którego
zależa˛ rozkłady odpowiedzi ui oraz ui0 , nie zależał od rozkładów odpowiednio ui0 oraz ui . Oznacza to po
prostu, że wszystkie pozycje testu po ustaleniu osoby j musza˛ być wzgledem
˛
siebie parami niezależne:
∀j∈P ∀i,i0 ∈{1,2,...,n} ∀xi ,xi0 ∈{0;1}
P (ui = xi , ui0 = xi0 |V = j) =
= P (ui = xi |V = j)P (ui0 = xi0 |V = j),
(48)
co jest jedynie nieznacznym zaostrzeniem eksperymentalnej niezależności (44). Jak sie˛ okaże samo założenie (47) nie jest jednak wystarczajace
˛ do opisu zmienności obserwowanych w teście wyników.
93
4.2
Wynik uzyskany, wynik prawdziwy, bład
˛ pomiaru
Zmienna˛ losowa,
˛ która w teorii klasycznej służy do oszacowania poziomu mierzonej testem cechy, jest
wynik uzyskany w teście, oznaczany najcz˛eściej jako X i określony wzorem:
n
X
X=
ui .
(49)
i=1
Jest to zwykła suma poszczególnych odpowiedzi udzielonych na pytania testu. Wynik uzyskany jako funkcja ui jest oczywiście zmienna˛ losowa˛ określona˛ na przestrzeni P × K .
Wynik prawdziwy ustalonej osoby j definiuje sie˛ jako:
τj = E(X|V = j) = E(Xj ),
(50)
czyli jest to wartość oczekiwana ze zmiennej (49), przy nałożonym warunku V = j . Dla każdej osoby j
bedzie
˛
to pewna stała, charakteryzujaca
˛ ta˛ osobe,
˛ wartość. Aby w sposób spójny z definicja˛ (50) określić
wynik prawdziwy T , na całej przestrzeni P × K dokonuje sie˛ złożenia warunkowej wartości oczekiwanej
z X wzgledem
˛
V z funkcja˛ V, czyli:
T = E(X|V ) ◦ V.
(51)
Zależności miedzy
˛
funkcjami T , V oraz E(X|V ) zestawia poniższy diagram (Zimmerman, 1975, str. 397):
/ P
II
II
II
E(X|V )
I
T II$
V
P ×K
(52)
R
Funkcja E(X|V ) : P −→ R odpowiada definicji wyniku prawdziwego dla stochastycznej interpretacji
osoby, jaka˛ zapisano w (50) i dla każdej j wylosowanej z P otrzymujemy E(X|V )(j) = E(X|V = j) =
τj . Poprzez złożenie z funkcja˛ V natomiast, wynik prawdziwy T jest określony na przestrzeni zdarzeń
elementarnych P × K . Warto zauważyć, że tak zdefiniowany wynik prawdziwy T ma właściwość, że dla
każdej osoby j ∈ P przyjmuje stała˛ wartość τj niezależnie od replikacji k ∈ K , czyli właściwość jaka˛
postulowano w IRT dla zmiennej ukrytej Θ (19). Można podsumować:
_GF
(j, t) T
V
/
j
E(X|V
)
/
ED
τj
,
(53)
czyli T (j, t) = E(X|V ) ◦ V (j, t) = E(X|V = V (j, t)) = E(X|V = j) = τp .
Na tak zdefiniowanych zmiennych losowych X oraz T możliwe jest dokonywanie operacji arytmetycznych
(ta sama przestrzeń zdarzeń elementarnych). Trzecia˛ istotna˛ dla KTT wielkościa˛ jest bład
˛ pomiaru, który
jest określony po prostu jako różnica tych dwóch zmiennych:
E =X −T
(54)
Dla błedu
˛
E danego przez (54) można udowodnić (Zimmerman, 1975, str. 404–405), że wartość oczekiwana błedu
˛
pomiaru wynosi zero:
E(E) = 0
(55)
oraz, że zerowa bedzie
˛
wartość oczekiwana iloczynu zmiennych T oraz E :
E(T E) = 0
94
(56)
Powyższe pociaga
˛ za soba˛ zerowa˛ kowariancje˛ 15 miedzy
˛
T oraz E :
cov(T, E) = σT E = 0,
(57)
która jest własnościa˛ cz˛esto wykorzystywana˛ w dowodach różnych twierdzeń KTT.
Poziom cechy w teorii klasycznej jest mierzony jako wartość oczekiwana ze zmiennej X . Dokonujac
˛ pojedynczego badania testem, czyli losujac
˛ pare˛ (j, t) ∈ P × K , otrzymujemy pewna˛ realizacje˛ wyniku
otrzymanego X(j, t) = x. Zarejestrowany w takim eksperymencie wynik otrzymany x stanowi nieobcia˛
16
żony estymator wyniku prawdziwego T (j, t) = τ , co możemy zapisać τ̂ (j, t) = x. W porównaniu z
modelem IRT oszacowanie poziomu cechy jest zatem bezpośrednie. Należy jednak zauważyć, że poprzez dodanie do siebie odpowiedzi nastepuje
˛
utrata pewnej informacji zawartej we wzorze udzielonych
odpowiedzi, która może być istotna z punktu widzenia pomiaru poziomu cechy17 .
4.3
Rzetelność
W równaniu (54) określiliśmy zależność, w której mamy obserwowana˛ zmienna˛ X , która zależy liniowo od
sumy dwóch zmiennych T oraz E i to w taki sposób, że dla ustalonej wartości T = τ 18 wartość oczekiwana
z X jest zgodnie ze wzorem (50) stała.
Opisane zależności dla trójki X , T oraz E przypominaja˛ model regresji liniowej, który w ogólnej postaci
jest zazwyczaj definiowany jako:
Y = α + βξ + ε,
(58)
gdzie ε sa˛ niezależnymi od poziomu ξ losowymi składnikami błedu
˛
o rozkładzie z wartościa˛ oczekiwana˛
19 2
E(ε) = 0 oraz pewna˛ stała˛ wariancja˛ σε , gdzie β i α sa˛ parametrami regresji (Gajek & Kałuszka, 1999,
str. 132). Prosta regresji ma równanie E(Y |ξ) = µY |ξ = α + βξ . Dla (58) definiuje sie˛ współczynnik
determinacji:
ρ2Y |ξ =
D2 (E(Y |ξ))
D2 (Y )
(59)
czyli stosunek wariancji zmiennej Y wyjaśnianej przez prosta˛ regresji µY |ξ = α+βξ do całkowitej wariancji
zmiennej Y . Z niezależności zmiennych oraz ξ otrzymujemy:
D2 (Y ) = D2 (α + βξ + ε) = D2 (α + βξ) + D2 (ε) + cov(α + βξ, ε) =
= D2 (E(Y |ξ)) + σε2 = σY2 + σε2
(60)
co pozwala zapisać współczynnik determinacji w alternatywnej postaci:
ρ2Y |ξ = 1 −
σε2
σY2
(61)
Kowariancja˛ dwóch określonych na tej samej przestrzeni probabilistycznej zmiennych losowych ξ oraz ξ 0 nazywa
sie˛ wielkość:
15
cov(ξ, ξ 0 ) = σξξ0 = E
ξ − E(ξ) ξ 0 − E(ξ 0 ) = E(ξξ 0 ) − E(ξ)E(ξ 0 ).
Kowariancja jest miara˛ współzmienności liniowej miedzy
˛
dwoma zmiennymi losowymi. Jej zerowa wartość nie musi
oznaczać niezależności dwóch zmiennych, ale dwie zmienne niezależne zawsze maja˛ kowariancje˛ równa˛ zeru.
16
Nieobciażonym
˛
estymatorem wartości oczekiwanej jest średnia arytmetyczna z próby losowej, a w tym przypadku mamy „jednoelementowa˛ próbe˛ losowa".
˛
17
Zakładajac
˛ model IRT, suma odpowiedzi udzielonych odpowiedzi ma szanse˛ być estymatorem efektywnym (zobacz przypis 13) tylko, jeżeli wszystkie pozycje maja˛ równoległe wzgledem
˛
siebie ICC i nie nastepuje
˛
zgadywanie
(Lord, 1983, str. 238).
18
Ustalenie wartości zmiennej losowej T = τ rozumiemy jako przeciwobraz wartości τ , czyli wszystkie osoby
j ∈ P , których wynik prawdziwy w teście wynosi τ razy (×) cała przestrzeń replikacji K .
19
Założenie o stałym poziomie wariancji zwane jest założeniem o homoscedastyczności.
95
Dla modelu (58) współczynnik determinacji jest również równy kwadratowi z współczynnika korelacji Pearsona miedzy zmienna˛ Y , a zmienna˛ ξ :
cov(ξ, Y )
2
ρ2Y |ξ = (ρY ξ ) =
!2
p
D2 (Y )D2 (ξ)
,
(62)
stad
˛ dla jego oznaczenia wykorzystano stosowany dla korelacji symbol ‘ρ’.
Jeżeli przyjmiemy, że rozkład błedu
˛
w modelu regresji liniowej (58) jest normalny, to znajac
˛ wartość stałej
jego wariancji σε2 , możemy zbudować (1 − α)100% przedział ufności dla konkretnej realizacji zmiennej
Y = y przy ustalonej wartości ξ = x (porównaj (35)):
q
q
(y − z1− α σε2 ; y + z1− α σε2 ).
(63)
2
2
Podobieństwo X = T + E do modelu regresji liniowej (58) z parametrami α = 0 oraz β = 1 (zatem Y =
ξ + ), jest w teorii klasycznej nieprzypadkowe. Współczynnik determinacji (59) dla równania X = T + E
jest podstawowym parametrem, służacym
˛
w teorii klasycznej do opisu precyzji, z jaka˛ test mierzy poziom
cechy definiowany jako wynik prawdziwy i nazywa sie˛ go współczynnikiem rzetelności testu. Mamy:
ρ2X|T =
D2 (T )
σT2
=
2
D2 (X)
σX
(64)
Współczynnik rzetelności testu jest stosunkiem wariancji wyników prawdziwych σT2 do całkowitej obserwo2 , zatem mówi nam, jaka˛ cz˛
wanej wariancji wyników σX
eść zmienności obserwowanych wyników X można
przypisać wartości zmiennej T . Zgodnie z (62) współczynnik rzetelności można interpretować także jako
kwadrat z współczynnika korelacji miedzy
˛
wynikiem prawdziwym T a wynikiem uzyskanym w teście X
Ponieważ dla otrzymania analogicznej do (59) zależności wystarczajaca
˛ jest zerowa kowariancja miedzy
˛
T oraz E , która˛ mamy w (57), współczynnik rzetelności testu można, zatem również zapisać:
ρ2X|T = 1 −
2
D2 (E)
σE
=
1
−
2 .
D2 (X)
σX
(65)
Przekształcaja˛ powyższe wzgledem
˛
wariancji błedu
˛
otrzymamy:
2
2
σE
= σX
(1 − ρ2X|T ).
(66)
W klasycznej teorii testów pierwiastek z (66), czyli odchylenie standardowe błedu,
˛
jest używane jako miara
standardowego błedu
˛
pomiaru dla każdej wartości T , zgodnie ze wzorem (63). Przedział ufności τ̂ dla
estymatora wyniku prawdziwego τ bedzie
˛
miał, zatem postać:
q
q
2 (1 − ρ2
2 (1 − ρ2
α
(τ̂ − z1− α σX
);
τ̂
+
z
σX
(67)
1−
X|T
X|T )).
2
2
Należy zauważyć jednak, że zdefiniowana w teorii klasycznej zależność X = T + E , spełnia formalnie wszystkie założenia modelu regresji liniowej (57), oprócz jednego — mianowicie założenia o stałej
wartości wariancji błedu.
˛
Założenie stałej wartości wariancji błedu
˛
było właśnie istotnym założeniem przy
wyprowadzaniu wzoru (63), i przeniesienie go do teorii klasycznej bez dokonania dodatkowego założenia,
jest po prostu nietrafne.
2 zależy od wyniku prawdziwego.
Uzasadnijmy, że wbrew wymaganemu dla (67) założeniu, wariancja σE
W tym celu przyjmijmy, że test spełnia jednowymiarowy model IRT (22) i niech ICC bed
˛ a˛ monotoniczne.
96
Ponieważ spełnione sa˛ założenia (45) oraz (46) oraz wiemy, że dla pojedynczej pozycji E(ui |Θ = θ) =
gi (θ) dostajemy:
∀j∈P ∀~x∈{0;1}n
τj
E(X|V = j) =
=
(45)
n
X
(46)
i=1
n
X
(9),(21)
i=1
n
X
=
=
=
E(ui |V = j) =
E(ui |Θ = θj ) =
gi (θj ).
(68)
i=1
Zatem otrzymaliśmy bardzo proste przekształcenie skali Θ IRT w skale˛ T klasycznej teorii testów wyrażone
poprzez sume˛ krzywych charakterystycznych pozycji testowych. Cytujac
˛ Lorda, można powiedzieć, że
„wynik prawdziwy T oraz zdolność Θ sa˛ ta˛ sama˛ rzecza,
˛ tylko wyrażona˛ na różnych skalach"(1980, str. 46).
Z postaci (68) wynika, że jeżeli gi sa˛ monotonicznie rosnace,
˛ to wynik prawdziwy T klasycznej teorii testów
bedzie
˛
monotonicznie rosnac
˛ a˛ funkcja˛ poziomu zdolności Θ teorii odpowiadanie na pozycje testowe.
Korzystajac
˛ znowu z niezależności pozycji testowych, przy ustalonym poziomie Θ = θ możemy zapisać:
!
n
X
2
2
ui Θ = θ
=
D (X|Θ = θ) = D
i=1
(23)
=
n
X
(10)
D2 (ui |Θ = θ) =
i=1
n
X
gi (θ)(1 − gi (θ)),
(69)
i=1
i jest to także proste wyrażenie zawierajace
˛ funkcje gi . Pojawiajaca
˛ sie˛ w (69) wariancja jest wariancja˛
wyniku X , przy ustalonej wartości zmiennej Θ, co ze wzgledu
˛
na (68) jest równoważne z ustaleniem
P
wyniku prawdziwego T na pewnym poziomie T (θ) = ni=1 gi (θ). Ze wzoru X = T + E wynika, że w
momencie ustalenia wartości zmiennej T , cała obserwowana wariancja zmiennej X jest wariancja˛ błedu,
˛
zatem otrzymujemy wyrażenie na warunkowa˛ wariancje˛ błedu
˛
E klasycznej teorii testów:
2
2
D (E|Θ = θ) = D (E|T = T (θ)) =
2
σE|T
(θ)
=
n
X
gi (θ)(1 − gi (θ))
(70)
i=1
2
Uwzgledniaj
˛
ac
˛ postać na σE|T
dana˛ za pomoca˛ wzoru (70), jasne sie˛ staje, że dla monotonicznego modelu IRT wariancja błedu
˛
bedzie
˛
sie˛ zmieniała. Dla wystarczajaco
˛ niskich oraz wysokich wartości θ (co
z monotoniczności (68) pociaga
˛ takie same relacje dla wartości τ ) wariancja wszystkich pozycji bedzie
˛
2
malała, natomiast w środku skali bedziemy
˛
obserwować wieksze
˛
wartości σE|T (θ) . Wykres ilustrujacy
˛ za2 , a wartościami wyniku prawdziwego można stworzyć przy pomocy parametrycznego
leżność miedzy
˛
σE|T
równania:

v
uX


u n

2

t
gi (θ)(1 − gi (θ))

 σE|T (θ) =
i=1
(71)
n

X



=
gi (θ)

 T (θ)
i=1
˛
pozycji w modelu 2PLM,
Rysunek 4 pokazuje wykres określony równaniem (71) dla tych samych pieciu
jakie zostały użyte w rysunku Rysunku 2 przy omawianiu funkcji informacji w IRT.
2 , jaka używana jest przez klasyczna˛ teorie
Bezwarunkowa wariancja błedu
˛ pomiaru σE
˛ testów do budowania przedziałów ufności dla każdego poziomu T , jest jedynie uśrednieniem po rozkładzie T warunkowych
97
Rysunek 4: Warunkowy bład
˛ pomiaru skojarzony z wynikami na skali T klasycznej teorii testów. Wykres
został stworzony na podstawie zależności danej układem równań (71) dla tych samych 5-ciu itemów, jakie
zostały użyte w Rysunku 2.
2 . Jeżeli oznaczymy rozkład prawdopodobieństwa zmiennej Θ jako ϕ, możemy wprost zapiwariancji σE|T
sać:
n Z +∞
X
2
gi (θ)(1 − gi (θ))ϕ(θ)dθ.
(72)
σE =
i=1 −∞
2
To, na ile (72) odbiega od wartości σE|T
na danym poziomie T = T (θ), zależeć bedzie
˛
od tego, jakie
sa˛ wartości poszczególnych gi oraz od tego, jaki rozkład mierzona cecha ma w populacji badanych osób.
Majac
˛ na wzgledzie
˛
Rysunek 4 należy sie˛ spodziewać, że o ile rozkład T nie bedzie
˛
U-kształtny, wartość
2 bedzie
2
σE
˛
zaniżać σE|T
na środku skali oraz zawyżać ja˛ na brzegach. Stawia to pod pewnym znakiem
zapytania trafność budowanych przez te˛ teorie˛ przedziałów ufności dla wyniku prawdziwego.
2 jest funkcja˛ rozkładu cechy w populacji, tak samo bedzie
Ponieważ σE
˛
od rozkładu tej cechy zależał
współczynnik rzetelności testu (64). Wprowadzajac
˛ rzetelność testu jako podstawowy parametr opisujacy
˛
precyzje˛ dokonywanych testem pomiarów, teoria klasyczna dostarcza parametru opisujacego
˛
nie tyle sam
test, ale łacznie
˛
test oraz populacje˛ badanych testem osób. Jeżeli testem zostanie przebadana osoba odbiegajaca
˛ poziomem cechy od przecietnych
˛
wartości w populacji20 , wnioski co do precyzji dokonywanego
testem pomiaru bed
˛ a˛ po prostu błedne.
˛
2
Oprócz omówionych praktycznych implikacji błednego
˛
założenia, że σE|T
ma stała˛ wartość należy wspomnieć o konsekwencjach braku kontroli rozkładu zmiennej E przez teorie˛ klasyczna,
˛ które by można nazwać „metodologicznymi". Po ustaleniu poziomu cechy T = τ , cała obserwowana zmienność X wynika
2 , czy precyzyjniej rozkładu zmiennej E , przy waze zmienności błedu
˛
E (54). Nie znajac
˛ postaci na σE|T
runku T = τ , otrzymujemy niepełny model, w sensie braku aparatury probabilistycznej do opisu rozkładu
prawdopodobieństwa podstawowej obserwowanej w teorii klasycznej zmiennej, jaka˛ jest wynik uzyskany
w teście X . Nawet w momencie, gdy przyjmiemy, że znany jest rozkład wyników prawdziwych T w badanej populacji, to i tak rozkład E(τ ) bedzie
˛
nieokreślony bez założenia jednowymiarowości narz˛edzia w
rozumieniu lokalnej niezależności (23), czego teoria klasyczna nie czyni w żadnym miejscu, co najwyżej
20
W praktyce oznacza to sytuacje,
˛ gdy osoba badana odbiega od przecietnych
˛
wartości cechy w próbie, na podstawie której wartość parametru rzetelności została oszacowana. Jeżeli próba ta nie była reprezentatywna, co niestety
cz˛esto może mieć miejsce, konsekwencje moga˛ być znamienne.
98
zakładajac
˛ liniowa˛ eksperymentalna˛ niezależność (47).
Kosztem skromności założeń i prostoty „modelu" klasycznej teorii testów otrzymujemy niewystarczajac
˛ a˛
ilość informacji, aby określić postać trójki (Ω, σ(~
u), P). O ile przestrzeń zdarzeń elementarnych jest wspólna dla obydwu teorii i określona, o tyle rodzina rozkładów prawdopodobieństwa P , dla obserwowanej
w eksperymencie zmiennej X (49), nie została określona, tym bardziej sparametryzowana w sensowny
sposób za pomoca˛ T . Stad
˛ piszac
˛ o „modelu" klasycznej teorii testów użyto cudzysłowu, gdyż formalnie rzecz biorac,
˛ za model statystyczny w rozumieniu (5), teorii klasycznej uznać nie można. Z tego też
wzgledu
˛
dla wykazania pewnych właściwości parametrów zdefiniowanych w klasycznej teorii, konieczne
było założenie zachodzenia pewnego modelu IRT — można powiedzieć, że teoria klasyczna nie rozwineła
˛
odpowiedniego „jezyka”
˛
do opisania tych właściwości.
4.4
Parametry pozycji testowych klasycznej teorii testów
Oprócz współczynnika rzetelności testu ρ2X|T , teoria klasyczna wprowadziła szereg parametrów służa˛
cych do opisu poszczególnych pozycji testu. Odgrywaja˛ one duża˛ role˛ przy konstrukcji testów, oraz przy
interpretacji poszczególnych odpowiedzi w teście.
Trudność pozycji testowej πi w klasycznej teorii testów jest definiowana jako wartość oczekiwana ze
zmiennej ui , czyli:
πi = E(ui ),
(73)
Oznaczenie trudności pozycji KTT poprzez πi jest nieprzypadkowa˛ zbieżnościa˛ z parametrem pojawiaja˛
cym sie˛ we wzorach (4) oraz (17) opisujacych
˛
rozkład dwupunktowy, ponieważ taki właśnie rozkład ma
zmienna ui jeżeli rozpatrywać go na całej przestrzeni P × K . Znajac
˛ wartość trudności (73) możliwe jest
zgodnie ze wzorem (10) wyznaczenie wariancji tej pozycji:
σi2 = πi (1 − πi )
(74)
Ze wzoru na (74) wynika, że najwieksz
˛
a˛ wariancje˛ bedzie
˛
miała pozycja, której trudność wynosi πi = 0, 5,
a w miare˛ oddalania sie˛ od tej wartości, wariancja spada aż do zera dla πi = 1 oraz πi = 0. Oznacza to, że
potencjalnie najwieksz
˛
a˛ zdolność różnicowania osób w populacji maja˛ pozycje o przecietnej
˛
trudności, w
porównaniu do pozycji o skrajnych πi , które wnosza˛ mniej do sumarycznej wariancji obserwowanych wyników X . Dana pozycja może mieć jednak maksymalna˛ wariancje˛ i jednocześnie być zupełnie statystycznie
niezależna od reszty pozycji w teście i aby ocenić przydatność danej pozycji, wprowadzono współczynnik
dyskryminacji:
σiX
ρiX =
,
(75)
σi σX
q
2 . Współczynnik dyskryminacji jest korelacja˛ miedzy
gdzie σi = σi2 oraz σX = σX
˛
wynikiem uzyskiwanym w całym teście, a odpowiedziami na dana˛ pozycje,
˛ zatem stanowi pewna˛ miare˛ współzmienności
danej pozycji z reszta˛ pozycji testu.
p
Wielkościa˛ niejako łacz
˛ ac
˛ a˛ informacje˛ zawarta˛ w obydwu opisanych parametrach KTT jest wskaźnik rzetelności pozycji i:
ρiX σi σX
= ρiX σi ,
(76)
ai =
σX
który jest ładunkiem danej pozycji na pierwszym wspólnym dla wszystkich odpowiedzi czynniku (Henrysson, 1962, str. 420).
Aby zastanowić sie˛ nad właściwościami zdefiniowanych powyższymi wzorami parametrów pozycji testu
2 w poprzednim paragrafie, załóżmy zaw KTT, podobnie jak zrobiliśmy w przypadku wariancji błedu
˛
σE
chodzenie jednowymiarowego modelu IRT. Pozwoli to nam również poznać zależności i naświetlić różnice
miedzy
˛
tymi teoriami. Rozkład zdolności Θ w populacji oznaczmy poprzez ϕ.
99
W przypadku trudności pozycji testowej (75), skorzystać można bezpośrednio z zależności gi (θ) = P (ui =
1|θ) = E(ui |θ) i uśrednić warunkowa˛ wartość oczekiwana˛ E(ui |θ) po rozkładzie cechy w populacji:
Z
πi =
+∞
−∞
+∞
Z
E(ui |θ)ϕ(θ)dθ =
gi (θ)ϕ(θ)dθ.
−∞
(77)
Aby w podobny sposób przedstawić parametry ρiX oraz ai , wystarczy zauważyć, że:
2
σX
=
n
X
σi2 +
n
X
σii0 ,
(78)
i6=i0
i=1
oraz:
n
X
σiX =
σii0 ,
(79)
i0 =1
czyli potrzebujemy wyrażeń na wariancje˛ każdej pozycji oraz na kowariancje˛ miedzy
˛
dowolnymi dwoma
pozycjami. Z (74), uwzgledniaj
˛
ac
˛ (77), otrzymujemy nastepuj
˛ ace
˛ wyrażenie na wariancje:
˛
Z +∞
Z +∞
gi (θ)ϕ(θ)dθ .
(80)
gi (θ)ϕ(θ)dθ 1 −
σi2 = πi (1 − πi ) =
−∞
−∞
Z lokalnej niezależności (23) wynika:
E(ui ui0 |θ) = E(ui |θ)E(ui0 |θ) = gi (θ)gi0 (θ),
(81)
co pozwala natomiast, przy uwzglednieniu
˛
(77), obliczyć kowariancje˛ miedzy
˛
dwoma pozycjami:
σii0
= E(ui ui0 ) − E(ui )E(ui0 ) =
Z
+∞
=
−∞
gi (θ)gi0 (θ)ϕ(θ)dθ −
Z
+∞
Z
gi (θ)ϕ(θ)dθ
−∞
+∞
−∞
gi0 (θ)ϕ(θ)dθ
(82)
Uwzgledniaj
˛
ac
˛ (78–79) szukane wielkości otrzymamy podstawiajac
˛ uzyskane wyrażenia na wariancje˛ (80)
i kowariancje˛ (82) do:
n
X
σii0
ρiX
σiX
=
=
σi σX
j=1
v
,
uX
n
n
X
u
2
σi t σi +
σii0
i=1
oraz:
n
X
ai = v
uX
n
u
t
j6=i
σii0
j=1
σi2
(83)
+
i=1
n
X
.
(84)
σii0
j6=i
2 oraz wyrażenie na σ 2
˛ ICC oraz rozDodatkowo, majac
˛ σX
E|T (θ) (70), możemy w zupełności jako funkcje
kładu ϕ przedstawić omawiana˛ w poprzednim paragrafie rzetelność testu (65):
n Z +∞
X
ρ2X|T
σ2
= 1 − E2 = 1 −
σX
i=1 −∞
gi (θ)(1 − gi (θ))ϕ(θ)dθ
n
X
σi2
+
i=1
gdzie σi2 oraz σii0 sa˛ odpowiednio dane wzorami (80) oraz (82).
100
n
X
j6=i
,
σii0
(85)
4.5
Porównanie z parametrami IRT. Implikacje praktyczne
W poprzednim rozdziale przedstawiono praktycznie wszystkie istotne dla klasycznej teorii testów parametry w kontekście spełniania przez test modelu IRT. Narzucajacym
˛
sie˛ wnioskiem z wyprowadzonych
wzorów jest, że wszystkie wielkości używane przez teorie˛ klasyczna˛ do opisu właściwości psychometrycznych testu charakteryzuja˛ nie tyle sam test, ale również grupe˛ badawcza,
˛ na podstawie której sa˛
oszacowywane –– w każdym z nich pojawia sie˛ rozkład cechy ϕ. Jasne jest, jak już wspomniano przy
komentowaniu bezwarunkowej miary SEM (72), że stosowanie narz˛edzi rozwinietych
˛
w obrebie
˛
KTT do
określania jakości wyników testowych wzgledem
˛
grup osób mogacych
˛
w sposób istotny obiegać od grupy
standaryzacyjnej, powinno budzić istotne zastrzeżenia.
W IRT rozkład badanej cechy natomiast praktycznie nie odgrywał żadnego znaczenia. Wprowadzony on
został do naszych rozważań dopiero w kontekście wyprowadzania wyrażeń określajacych
˛
parametry KTT
jako funkcje ich odpowiedników w IRT. Jest tak, ponieważ przy założeniu, że parametr położenia i rozproszenia zmiennej Θ bed
˛ a˛ ustalone21 , parametry krzywych charakterystycznych pozycji testowych nie
powinny ulegać zmianom bez wzgledu
˛
na to, jaki zmienna Θ ma w rzeczywistości rozkład. ICC można
postrzegać jako regresje˛ wyniku prawdziwego uzyskiwanego w pytaniu wzgledem
˛
poziomu cechy, a funkcja regresji zazwyczaj sie˛ charakteryzuje tym, że od rozkładu predyktora nie zależy. To, jaka jest wartość
P (ui = 1) w danym punkcie Θ = θ zależeć powinno tylko od wartości θ, a nie od tego jak duża˛ cz˛eść
osób w populacji charakteryzuje taki właśnie poziom cechy (Lord, 1980, str. 35).
Niezależność parametrów ICC (badź
˛ ogólniej jej kształtu) od rozkładu cechy ilustruje Rysunek 5, na którym
widać, że obydwie z grup osób badanych testem powyżej i poniżej punktu θ = 0, 4 dostarczaja˛ informacji o
kształcie krzywej i, jeżeli rozkład ϕ(θ) byłby zakotwiczony, to powinniśmy, uwzgledniaj
˛
ac
˛ wyniki oddzielnie
22
dla każdej z podgrup, dostać takie same oszacowania parametrów ICC . Wracajac
˛ do teorii klasycznej
jeżeli przyjrzeć sie˛ (77), ewidentne jest, że dla dwóch wyszczególnionych podgrup, uzyskalibyśmy zupełnie
inne wartości tego parametru — dla osób o wyższym poziomie cechy pozycja jest średnio łatwiejsza niż
dla osób o niższym jej poziomie.
Bardzo ciekawe implikacje praktyczne wynikaja,
˛ jeżeli spojrzeć na opisywana˛ niezależność parametrów
od rozkładu cechy w IRT z innej strony. Załóżmy, że parametry tej samej pozycji zostały niezależnie od
siebie oszacowane w dwóch grupach różniacych
˛
sie˛ położeniem oraz rozproszeniem cechy. Uzyskane
wtedy oszacowania parametrów bed
˛ a˛ sie˛ różnić. Jednak zakładajac,
˛ że w obydwu grupach pytanie mierzy
te˛ sama˛ pojedyncza˛ ukryta˛ zmienna˛ Θ, wiemy, że jeżeli umieścilibyśmy badanych na wspólnej skali, uzyskalibyśmy ICC o tym samym kształcie. W ten sposób doszliśmy do przedstawienia opisowo podstaw, na
jakich opiera sie˛ w IRT jedna z metod porównywania wyników pochodzacych
˛
z różnych narz˛edzi — wystarczy żeby w obydwu narz˛edziach znajdywała sie˛ jedna wspólna pozycja, aby móc umieścić uzyskiwane
nimi wyniki na tej samej skali. Głebsze
˛
zanalizowanie tego zagadnienia wykracza poza zakres niniejszej
˛ na niekontrolowany wpływ rozkładu
pracy 23 , niemniej godne uwagi jest, że w teorii klasycznej ze wzgledu
cechy na parametry opisujace
˛ test porównanie wyników nie było możliwe.
21
Modele IRT sa˛ niezmiennicze wzgledem
˛
liniowych transformacji parametru Θ. Na przykładzie dwuparametrycznego modelu logistycznego, jeżeli we wzorze (25) byśmy dodali do każdego parametru bi stała˛ wartość b∗i = bi + β
i jednocześnie przesunelibyśmy
˛
skale˛ cechy Θ o ta˛ sama˛ wartość, czyli θ∗ = θ + β dostalibyśmy identyczny model.
Podobnie gdybyśmy dokonali przekształceń: a∗i = ai α−1 , b∗i = bi α, oraz θ∗ = θα, też otrzymaliśmy równoważny
model (Lord, 1980, str. 36). Zjawisko to odgrywa istotna˛ role˛ przy kalibracji testu — konieczne jest ustalenie parametru położenia i rozproszenia dla Θ (procedura ta nosi nazwe˛ zakotwiczania, ang. anchoring), a najprostsza˛ metoda˛
jest zwykła standaryzacja otrzymanych θ̂ (Baker & Seock-Ho, 2004, str. 90)
22
Podobnej argumentacji dla zilustrowania tego zagadnienia użył Baker (2001, str. 51–55).
23
Wiecej
˛
informacji na temat porównywania wyników testowych można znaleźć w rozdziale 13. ksiażki
˛
(Lord,
1980). Tematyce tej poświecony
˛
bedzie
˛
również kolejny numer Egzaminu.
101
Rysunek 5: Niezmienniczość parametrów w IRT na przykładzie ICC dwuparametrycznego modelu logistycznego. Wykres został stworzony dla jednego z itemów testu z egzaminu maturalnego z chemii przeprowadzonego w roku 2006 i ilustruje rozproszenie empirycznych proporcji prawidłowych odpowiedzi wzgle˛
dem dopasowanej krzywej 2PLM o parametrach âi = 2, 98, b̂i = 0, 01. Punkty zaznaczone na czerwono
odpowiadaja˛ obserwowanym proporcjom poprawnych odpowiedzi dla wartości Θ ¬ 0, 4, a punkty zielone
Θ > 0, 4.
5
Zakończenie
Teoria klasyczna powstawała na poczatku
˛
dwudziestego stulecia pod dużym wpływem korelacyjnej orientacji Spearmana w naukach społecznych. Odzwierciedla sie˛ to w kluczowej roli, jaka˛ odgrywa w tej teorii
koncepcja rzetelności testu. W statystyce i rachunku prawdopodobieństwa panowało wtedy jeszcze podejście cz˛estościowe. Dopiero Lord i Novick w 1968 roku przeformułowali KTT, aby była ona w zgodzie z
aksjomatyzacja˛ teorii prawdopodobieństwa podana˛ przez Kołmogorowa. Teoria odpowiadania na pozycje
testo-we opiera sie˛ natomiast na osiagni
˛ eciach
˛
na polu teorii estymacji, których prekursorem był Fisher
w latach 20-30-tych XX wieku. Ze wzgledu
˛
na skomplikowanie modeli pojawiajacych
˛
sie˛ w ramach IRT,
prawdziwy jej rozkwit uwarunkowany był rozwojem komputerów i trwa do dziś.
Ujete
˛ w telegraficznym skrócie czynniki historyczne w dużej mierze odpowiadaja˛ za różnice miedzy
˛
teoria˛
klasyczna˛ a IRT. Różnice te dotycza˛ zarówno nakładanych na pomiar testowy założeń, parametrów opisujacych
˛
osoby i test, jak też używanego do szacowania parametrów danej teorii aparatu statystycznego.
Sytuacja eksperymentalna, przed opisem której staja˛ obydwie teorie, jest jednak taka sama — z populacji
P zostaje wylosowana pewna osoba, która udziela odpowiedzi na n pytań testu. Dzieki
˛ temu możliwe
było przeprowadzenie ścisłego porównania rozwiaza
˛ ń oferowanych przez obydwa podejścia.
Pierwszym nasuwajacym
˛
sie˛ z przeprowadzonych analiz wnioskiem jest, że rozwiazania
˛
oferowane przez
klasyczna˛ teorie˛ testów dostarczaja˛ niepełnego modelu dla wyjaśnienia obserwowanej podczas badania
testem zmienności odpowiedzi. Dopiero przy założeniu, że zachodzi model IRT, możliwe stało sie˛ wyjaśnienie wielu właściwości definiowanych w teorii klasycznej parametrów służacych
˛
do opisu testu oraz
poziomu cechy badanej osoby, w szczególności:
Wyprowadzone wzory (77), (80) oraz (82) pokazuja˛ sposób, w jaki podstawowy zestaw parametrów
istotnych dla KTT –– trudność pozycji πi , wariancja pozycji σi2 oraz wszystkie kowariancje σii0 zależa˛ od rozkładu cechy w populacji. Jako bezpośrednia˛ konsekwencje˛ otrzymujemy relacje wiaż
˛ ace
˛ z
rozkładem cechy pozostałe fundamentalne, służace
˛ do opisu statystycznych właściwości testu, wiel-
102
kości: rzetelność testu ρ2X|T , ρiX , mówiaca
˛ o mocy dyskryminacyjnej danej pozycji oraz wskaźnik
ai , mówiacy
˛ o ładunku danej pozycji na pierwszym wspólnym z innymi pozycjami czynniku.
Zależność (71) pokazuje, jak zależy bład
˛ oszacowania wyniku prawdziwego T poprzez otrzymany
wynik w teście X .
Powyższe stwierdzenia dostarczaja˛ nam pewnych ram umożliwiajacych
˛
określenie stopnia przydatności
teorii klasycznej, w jakim stosujac
˛ ja˛ do opisu testu i podejmowania na jej podstawie decyzji, możemy
popełnić w konkretnych przypadkach bład.
˛
Modelujac
˛ w sposób lokalny rozkład odpowiedzi na pozycje testowe za pomoca˛ IRT, możliwe staje sie˛
jednak o wiele wiecej,
˛
niż dokonanie pełniejszego opisu i wytłumaczenie wad teorii klasycznej.
Wśród podstawowych zalet IRT, stanowiacego
˛
nowa˛ jakość w porównaniu z KTT, można wymienić:
Niezmienniczość parametrów IRT. Dzieki
˛ tej właściwości możliwe staje sie˛ porównywanie wyników
pochodzacych
˛
z różnych testów mierzacych
˛
te˛ sama˛ ceche˛ lub detekcja zróżnicowania funkcjonowania pozycji testowych (differential item functioning, DIF ) wskazujaca
˛ na przykład na stronniczość
pozycji wzgledem
˛
pewnych podgrup bada-nych osób. Jest to zatem cecha wprost trudna do przecenienia.
Podanie warunkowego SEM (θ), zmieniajacego
˛
sie˛ w zależności od prawdziwej wartości szacowanego poziomu cechy. Potencjalnie umożliwia to precyzyjniejsze wyznaczenie przedziału ufności
dla θ̂ niż dostarcza KTT dla τ̂ = X w postaci SEM obliczonego z użyciem koncepcji rzetelności.
Warunkowa ocena precyzji, z jaka˛ dana pozycja mierzy ceche,
˛ jest ponadto nieoceniona w CAT.
Dokonujac
˛ estymacji poziomu cechy danej osoby j , w IRT przeprowadza sie˛ maksymalizacje˛ funkcji wiarygodności dla wektora jej odpowiedzi (29), w wyniku czego wkład poszczególnych pytań do
uzyskiwanej wartości estymatora θ̂ jest różny. Estymator T̂ = X teorii klasycznej jest zwykła˛ suma˛ odpowiedzi i ma szanse˛ być estymatorem efek-tywnym jedynie, jeżeli wszystkie pozycje maja˛
równoległe wzgledem
˛
siebie ICC i nie nastepuje
˛
zgadywanie. Zatem IRT może dostarczać precyzyjniejszych oszacowań cechy od teorii klasycznej w rozumieniu wielkości wariancji estymatora.
Podsumowujac
˛ powyższe, IRT przedstawia rodzine˛ modeli statystycznych, dajacych
˛
pełniejszy od teorii klasycznej opis skomplikowanych właściwości pomiaru hipotetycznej cechy determinujacej
˛
odpowiedzi
udzielane w teście. Dzieki
˛ niej potrafimy dokonać ścisłego opisu zależności różnych wielkości definiowanych w teorii klasycznej od rozkładu cechy w badanej populacji, co pozostawało poza zasiegiem
˛
samej
KTT. Ponadto dzieki
˛ niezmienniczości parametrów IRT jesteśmy w stanie dokonywać zrównywania wyników testowych, kontrolować DIF. Dzieki
˛ lokalnej mierze błedu
˛ mamy szanse˛ wiarygodniejszego budowania
przedziałów ufności dla oszacowania cechy oraz potrafimy tworzyć komputerowe testy w sposób dynamiczny, dobierajace
˛ pytania tak, aby zoptymalizować proces badania, skracajac
˛ jego czas (długość testu),
a co za tym idzie, obniżajac
˛ koszty. Na koniec stoimy przed możliwościa˛ oszacowania cechy w sposób
bardziej efektywny, niż dzieje sie˛ to w teorii klasycznej. Do wad niektórych modeli teorii odpowiadania na
pozycje testowe należy to, że o możliwości korzystania ze wszystkich z powyższych zalet decyduje jakość
uzyskiwanych oszacowań parametrów, a ta w dużej mierze zależy od stosowanych metod estymacji oraz
wielkości prób, na podstawie których zostały one oszacowane.
Literatura
Anderson, T. W. (1959). Some scaling methods and estimation procedures in the latent class model. In
U. Grenander (Ed.), Probability and Statistics (pp. 9–38). New York: Wiley.
Baker, F. B. (2001). The Basics of Item Response Theory. ERIC.
103
Baker, F. B. & Seock-Ho, K. (2004). Item Response Theory. Parameter estimation technicques. New York:
Marcel Dekker.
Coombs, C. H., Dawes, R. M., & Tversky, A. (1977). Wprowadzenie do psychologii matematycznej. Warszawa: Wydawnictwo Naukowe PWN.
Deutsch, R. (1969). Teoria estymacji. Warszawa: Pańswtwowe Wydawnictwa Naukowe.
Ellis, J. L. & van der Woldenberg, A. L. (1993). Local homogeneity in latent trait models. A characterization
of the homogenous monotone IRT model. Psychometrika, 58(3), 429–417.
Formann, A. K. (1988). Latent class models for nonmonotone dichotomous items. Psychometrika, 53(1),
45–62.
Gajek, L. & Kałuszka, M. (1999). Wnioskowanie statystyczne dla studentów. Modele i metody. Warszawa:
Wydawnictwa Naukowo-Techniczne.
Gruijter, D. N. M. & van der Kamp, L. J. (2002). Statistical test theory for education and psychology.
Henrysson, S. (1962). The relation between factor loadings and biserial correlations in item analisys.
Psychometrika, 27 (4), 419–424.
Holland, P. (1990). On the sampling foundations of item response theory models. Psychometrika, 55(4),
577–601.
Kondratek, B. (2007). Klasyczna teoria testów a teoria odpowiadania na pozycje testowe. Teoretyczne i
empiryczne porównanie rozwiaza
˛ ń dla pozycji ocenianych dychotomicznie. Katowice: Niepublikowana
praca magisterska.
Lehmann, E. L. (1991). Teoria estymacji punktowej. Warszawa: Wydawnictwo Naukowe PWN.
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hilsdale, New
Jersey: Lawrance Erlbaum.
Lord, F. M. (1983). Unbiassed estimators of ability parameters, of their variance and of parallel-forms
reliability. Psychometrika, 48(2), 233–245.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, Massachusetts:
Addison-Wesley.
Rao, C. R. (1982). Modele liniowe statystyki matematycznej. Warszawa: Pańswtwowe Wydawnictwa
Naukowe.
Zimmerman, D. W. (1975). Probability spaces, Hilbert spaces, and the axioms of test theory. Psychometrika, 40(3), 395–412.
104