1 Wprowadzenie

Transkrypt

1 Wprowadzenie

Bartosz Kondratek
Uniwersytet Ślaski
˛
1
Wprowadzenie
W artykule zostanie dokonana próba zunifikowanego przedstawienia podstaw dwóch podejść teoretycznych, dostarczajacych
˛
statystycznych narzadzi
˛
umożliwiajacych
˛
tworzenie testów, posługiwanie sie˛ nimi
oraz interpretacje˛ uzyskiwanych wyników –– klasycznej teorii testów KTT oraz teorii odpowiadania na pozycje testowe (IRT, Item response theory ). Rozważania bed
˛ a˛ ograniczone do przypadku, gdy test mierzy
pojedynczy ukryty wymiar (ceche),
˛ a jego pozycje oceniane sa˛ dwukategorialnie (‘0’ oraz ‘1’).
Teoria odpowiadania na pozycje testowe jest terminem używanym do określania pewnej rodziny modeli,
opisujacych
˛
sposób udzielania przez badane osoby odpowiedzi na poszczególne pozycje testów (itemy ),
które łaczy
˛
ze soba˛ kilka podstawowych założeń (Gruijter & van der Kamp, 2002, str. 95). Generalnie rzecz
ujmujac,
˛ idea˛ IRT jest stworzenie modelu statystycznego określajacego
˛
rozkład odpowiedzi na pozycje testu w terminach pewnej zmiennej ukrytej Θ, reprezentujacej
˛ poziom mierzonej testem cechy. Cel ten jest
osiagni
˛ ety
˛ poprzez wprowadzenie założenia o jednowymiarowości testu, oraz zdefiniowanie rodziny dopuszczalnych w danym modelu krzywych charakterystycznych pozycji testowych opisujacych
˛
zależność
rozkładu poszczególnych pozycji przy ustalonym poziomie Θ = θ. Aby oszacować poziom cechy danej
osoby, na podstawie udzielonych przez te˛ osobe˛ odpowiedzi, znajduje sie˛ estymator najwiekszej
˛
wiarygodności parametru Θ. Korzystajac
˛ z koncepcji informacji Fishera, możliwe jest dostarczenie lokalnej miary
błedu
˛
pomiarowego SEM(Θ = θ) takiego estymatora.
Klasyczna teoria testów definiuje poziom mierzonej cechy poprzez wynik prawdziwy T , określony jako
odpowiednio warunkowana wartość oczekiwana z sumy poszczególnych odpowiedzi w teście, która˛ to
sume˛ oznacza sie˛ X . Błedem
˛
pomiaru w takim układzie jest różnica X oraz T . Zależność X = T + E
w celu oszacowania bezwarunkowej wariancji błedu
˛
SEM jest nastepnie
˛
analizowana analogicznie jak
w modelu liniowej regresji X wzgledem
˛
T . W ten sposób, jako wartość współczynnika determinacji dla
regresji X = T + E , teoria klasyczna wprowadza podstawowy dla opisu precyzji pomiarów dokonywanych
testem parametr — współczynnik rzetelności testu.
W odróżnieniu od wielu innych opracowań porównujacych
˛
IRT oraz KTT, niniejszy przeglad
˛ rozpocznie sie˛
od przybliżenia pierwszej z wymienionych. Jak sie˛ okaże w wyniku przeprowadzonych rozważań, teoria
klasyczna nie dostarcza pełnego modelu statystycznego do opisu obserwowanych w sytuacji badania
testowego zmiennych. Rozpoczynajac
˛ od IRT, dla której budowa takiego modelu stanowi punkt wyjścia,
możliwe stanie sie˛ precyzyjne wyjaśnienie tego faktu. W szczególności, zakładajac
˛ model IRT wykażemy,
że nie może być spełnione założenie o jednorodności wariancji dla regresji X = T + E , co powoduje,
że obliczona na podstawie rzetelności wariancja błedu
˛
E jest jedynie wartościa˛ uśredniona˛ po rozkładzie
cechy w populacji.
W celu wypełnienia luki istniejacej
˛ obecnie na polskim rynku wydawniczym, polegajacej
˛ na braku jakiejkolwiek monografii w pełni poświeconej teorii odpowiadania na pozycje testowe, oprócz określenia samego
76
modelu IRT, znaczna uwaga zostanie skierowana tu na kwestie praktyczne. Miedzy innymi omówiona
zostanie estymacja parametrów modelu, porównywanie wyników pochodzacych
˛
z różnych narz˛edzi oraz
adaptatywne testowanie komputerowe (CAT). W cz˛eści opisujacej
˛ teorie˛ klasyczna˛ wiele dobrze znanych
kwestii zostanie pominietych,
˛
w szczególności problem estymacji współczynnika rzetelności, a nacisk zostanie położony na porównanie tego podejścia z IRT.
Aby dokonać porównania miedzy
˛
podejściami tak dalece różniacymi
˛
sie˛ wprowadzona˛ terminologia˛ i stosowanym aparatem statystycznym, konieczne bedzie
˛
stosowanie dość szczegółowego formalizmu matematycznego. Dla ilustracji modelowania statystycznego rozpoczniemy jednak od opisu bardzo prostego
eksperymentu polegajacego
˛
na rzucie moneta.
˛
2
Podstawowe założenia i pojecia
˛
obydwu teorii, modelowanie statystyczne
Na poczatek
˛ przeprowadzone zostana˛ pewne ogólne rozważania na temat sytuacji eksperymentalnej, jaka˛
jest badanie narz˛edziem testowym, które doprowadza do zdefiniowania pewnych podstawowych wielkości
koniecznych do stworzenia statystycznego modelu takiej sytuacji. Rozważania te bed
˛ a˛ słuszne zarówno
dla teorii klasycznej, jak i dla IRT.
2.1
Modelowanie statystyczne na przykładzie rzutu moneta˛
Zaczniemy od przypomnienia podstawowych wiadomości ze statystyki i rachunku prawdopodobieństwa
na najprostszym przykładzie rzutu moneta.
˛ Przykład ten, jak sie˛ okaże w dalszej cz˛eści artykułu, wbrew
pozorom pozostaje w dużym zwiazku
˛
z rozważana˛ tematyka˛ badania testowego.
Przestrzenia˛ probabilistyczna˛ nazywa sie˛ trójk˛e:
(Ω, F, P ),
(1)
gdzie zbiór Ω jest odpowiedzialna˛ za „losowość” rozpatrywanego zjawiska przestrzenia˛ zdarzeń elementarnych, F zawiera podzbiory zbioru Ω, na których to podzbiorach określone jest prawdopodobieństwo P .
Zarówno zbiór F , jak i prawdopodobieństwo P musza˛ spełniać pewne założenia1 .
Rozpatrzmy przykład pojedynczego rzutu moneta.
˛ Wprowadźmy nastepuj
˛ ace
˛ oznaczenia zdarzeń elementarnych: ‘O’=orzeł, ‘R’=reszka. Przestrzeń zdarzeń elementarnych bedzie
˛
Ω = {O, R}, zbiór F składa
sie˛ z wszystkich podzbiorów Ω, czyli {O}, {R}, {O, R} oraz zbioru pustego ∅. Mamy P (∅) = 0 (prawdopodobieństwo zajścia zdarzenia niemożliwego), P ({O, R}) = 1 (prawdopodobieństwo zajścia zdarzenia
1
Mianowicie F musi być σ -ciałem, co sie˛ sprowadza do trzech warunków:
Ω∈F
A ∈ F =⇒ A0 ∈ F
A1 ∈ F, A2 ∈ F, A3 ∈ F, . . . =⇒ A1 ∪ A2 ∪ A3 ∪ · · · ∈ F
gdzie A0 = Ω\A jest zdarzeniem przeciwnym do A, natomiast ‘∪’ oznacza sume,
˛ a ‘∩’ (patrz warunek trzeci poniżej)
oznacza iloczyn zdarzeń. Prawdopodobieństwo P spełnia natomiast 3 aksjomaty podane przez Kołmogorowa:
∀A∈F
∀A1 ,A2 ,···∈F ;Aj ∩Ak =∅
P (A) 0
P (Ω) = 1
∞
X
P (A1 ∪ A2 ∪ A3 ∪ . . . ) =
P (Ak )
k=1
mówiace,
˛
że jest nieujemna,
˛ unormowana˛ oraz σ -addytywna˛ funkcja˛ zbiorów A ∈ F .
77
pewnego) oraz przy założeniu „uczciwości" monety P ({O}) = P ({R}) =
konkretna˛ przestrzeń probabilistyczna˛ (Ω, F , P ).
1
2.
Zdefiniowaliśmy w pełni
Załóżmy jednak, że nie wiemy, czy nasza moneta jest w rzeczywistości „uczciwa" i pragnelibyśmy
˛
to sprawdzić. Zdefiniujmy zmienna˛ losowa:
˛
v : Ω −→ {0, 1},
(2)
taka,
˛ że v(O) = 0 oraz v(R) = 1. Rozkład prawdopodobieństwa zmiennej losowej Pv , mówiac
˛ nieformalnie, jest to funkcja wyznaczajaca
˛ prawdopodobieństwo przyjecia
˛
przez zmienna˛ losowa˛ określonych
wartości. Pv jest miara˛ prawdopodobieństwa, a zatem powinna być określona na pewnym σ -ciele. Najmniejsze σ -ciało zawierajace
˛ wszystkie wartości przyjmowane przez zmienna˛ v , oznaczmy je poprzez
σ(v), jest postaci:
σ(v) = {{0}, {1}, {0; 1}, ∅}
(3)
Rozkład zmiennej Pv jest określony na (3) nastepuj
˛ aco:
˛ Pv (v = 0) = π , Pv (v = 0) = 1−π , Pv (v = 0) = 1,
Pv (v = 0) = 0. Widać, że relacja miedzy
˛
miara˛ prawdopodobieństwa Pv , a σ -ciałem generowanym przez
zmienna˛ losowa˛ v jest identyczna jak miedzy
˛
P , a F w przestrzeni probabilistycznej (1) opisujacej
˛
rzut
moneta˛2 .
Dla zmiennej losowej v rozkład prawdopodobieństwa jest w zupełności wyznaczony poprzez jeden tylko
parametr π = Pv (v = 1), czyli prawdopodobieństwo wyrzucenia reszki. W zwiazku
˛
z tym, zamiast Pv
bedziemy
˛
pisać Pπ . Rozkład taki nazywamy dwupunktowym rozkładem Bernouliego z parametrem π ∈
[0; 1] i możemy go przedstawić za pomoca˛ nastepuj
˛ acego
˛
wzoru:
Pπ (v = x) = Pπ (v = 1)x Pπ (v = 0)1−x ,
(4)
gdzie x jest jedna˛ z dwóch możliwych wartości, jaka˛ może przyjac
˛ zmienna v , czyli x ∈ {0, 1}.
Jeżeli damy π = 12 , otrzymamy trójk˛e (Ω, σ(v), P 1 ), która stanowi równoważny opis sytuacji pojedyn2
czego rzutu „uczciwa"
˛ moneta,
˛ jaki dostarcza nam odpowiednia przestrzeń probabilistyczna (Ω, F , P ), z
ta˛ różnica,
˛ że zamiast prawdopodobieństwa P określonego na zdarzeniach A ∈ F mamy rozkład prawdopodobieństwa P 1 określony na elementach σ(v), czyli odpowiednich podzbiorach liczbowych wartości
2
przyjmowanych przez zmienna˛ losowa˛ v . Jeżeli nie ustalimy wartości parametru π , to trójka (Ω, σ(v), Pπ )
reprezentuje już cała˛ rodzine˛ przestrzeni probabilistycznych różniacych
˛
sie˛ rozkładem prawdopodobieństwa zmiennej v — każda z dopuszczalnych przestrzeni probabilistycznych stanowi alternatywny model
zjawiska, polegajacego
˛
na jednokrotnym rzucie moneta.
˛
Niech Ω bedzie
˛
przestrzenia˛ zdarzeń elementarnych, ξ niech bedzie
˛
dowolna˛ zmienna˛ losowa,
˛ σ(ξ) σ ciałem generowanym przez ta˛ zmienna˛ losowa˛ , a Pξ rodzina˛ dopuszczalnych rozkładów prawdopodobieństwa zmiennej ξ . Przy takich oznaczenia, trójk˛e:
(Ω, σ(ξ), Pξ ),
(5)
2
W niniejszym akapicie zostały poczynione pewne uproszczenia, które dla ścisłości wyjaśnimy. Aby uogólnić
przypadek dyskretnej i ciagłej
˛
zmiennej losowej, zmienne losowe definiuje sie˛ tak, żeby przyjmowały wartości na
całym zbiorze liczb rzeczywistych; zatem zamiast (2) powinno być:
v : Ω −→ R.
Prawdopodobieństwo uzyskania przez v jakiejkolwiek wartości spoza zbioru {0; 1} w naszym przypadku jest równe
zeru, zatem pominiecie
˛
wartości R\{0; 1} nie powoduje utraty „funkcjonalności" zmiennej v dla celów prowadzonego
wywodu. σ -ciało generowane przez pewien zbiór zdarzeń elementarnych jest to najmniejsze σ -ciało zawierajace
˛
elementy tego zbioru. Dla zmiennej v (i każdej innej zmiennej losowej) przyjmujacej
˛ wartości w całej R odpowiednim
σ -ciałem jest σ -ciało generowane przez wszystkie otwarte podzbiory R.
78
nazywamy przestrzenia˛ statystyczna.
˛ Trójka taka jest modelem statystycznym możliwych mechanizmów
rzadz
˛ acych
˛
zjawiskiem losowym, obserwowanym jako zmienność wartości przyjmowanych poprzez określona˛ zmienna˛ losowa.
˛ W naszym przykładzie bedziemy
˛
mieli P = {Pπ : π ∈ [0; 1]}, gdzie Pπ jest
rozkładem zmiennej losowej (2), danym za pomoca˛ wzoru (4). Jeżeli rodzine˛ rozkładów P można opisać
za pomoca˛ skończonego zbioru k parametrów przyjmujacych
˛
wartości rzeczywiste, model (5), nazywamy k -wymiarowym modelem parametrycznym; w przeciwnym razie model jest nieparametryczny (Gajek
& Kałuszka, 1999, str. 76–77). Dla rzutu moneta˛ mamy zatem jednowymiarowy model parametryczny z
parametrem π .
Zabieg wprowadzenia do opisu danego zjawiska eksperymentalnego zmiennej losowej umożliwia obliczenie pewnych istotnych liczbowych wartości opisujacych
˛
te˛ zmienna,
˛ jak wartość oczekiwana oraz wariancja. Dla zmiennej losowej dyskretnej ξ , czyli przyjmujacej
˛
z niezerowym prawdopodobieństwem jedynie
przeliczalna˛ ilość różnych wartości ξ(ω) = x, wartość oczekiwana jest dana wzorem:
X
E(ξ) =
xP ξ(ω) = x ,
(6)
ω∈Ω
co można rozumieć jako średnia˛ z wartości przyjmowanych przez zmienna˛ ξ ważona˛ poprzez prawdopodobieństwo uzyskania tychże wartości. Jeżeli zbiór przyjmowanych przez ξ dyskretnych wartości oznaczymy
X , a jej rozkład prawdopodobieństwa jako Pξ , to powyższe można zapisać też bez odwoływania sie˛ do Ω:
X
E(ξ) =
xPξ ξ = x .
(7)
x∈X
Natomiast wariancja jest zdefiniowana jako:
2
D2 (ξ) = E ξ − E(ξ)
=
X
2
x − E(ξ) Pξ (ξ = x),
(8)
x∈X
czyli jest to średnia z kwadratów odchyleń ξ od wartości oczekiwanej E(ξ), ważona poprzez prawdopodobieństwo uzyskania tychże odchyleń. Dla zmiennej losowej v o rozkładzie Bernouliego (4) wartość oczekiwana bedzie
˛
zatem:
Eπ (v) = 1Pπ (v = 1) + 0Pπ (v = 0) = Pπ (v = 1) = π.
(9)
Wariancje˛ podamy bez wyprowadzania:
D2π (v) = π(1 − π)
(10)
Można sie˛ teraz zatrzymać i zapytać, po co to wszystko. Wróćmy wiec
˛ do pytania, czy moneta jest w rzeczywistości „uczciwa". Przeprowadźmy eksperyment polegajacy
˛ na niezależnym rzucie badana˛ moneta˛
m razy. Zapisujac
˛ wyniki takiego eksperymentu, otrzymamy wektor zer i jedynek ~
x = [x1 , x2 , . . . , xm ] ∈
{0, 1}m . Można taka˛ sytuacje˛ opisać probabilistycznie jako realizacje˛ wektora losowego ~v = [v1 , v2 , . . . , vm ],
którego współrz˛edne sa˛ niezależnymi zmiennymi losowymi o takim samym rozkładzie (4). Wektor ~v jest,
zatem zmienna˛ losowa˛ określona˛ na przestrzeni produktowej:
~v : |Ω × Ω ×
· · · × Ω} −→ {0, 1}m
{z
(11)
m razy
z rozkładem prawdopodobieństwa równym:
!
Pπ (~v = ~x) = Pπ (v1 = x1 )Pπ (v2 = x2 ) . . . Pπ (vm = xm ) =
79
m k
π (1 − π)m−k ,
k
(12)
gdzie ~
x = [x1 , x2 , . . . , xn ] jest jednym z 2n możliwych do uzyskania
wyników takiego eksperymentu, k jest
P
m
ilościa˛ otrzymanych orłów, czyli k = m
x
,
natomiast
jest
dwumianem
Newtona, skad
˛ też nazwa
i=1 i
k
rozkładu — rozkład dwumianowy. Otrzymaliśmy pewna˛ zwiazan
˛
a˛ z (5) przestrzeń statystyczna:
˛
Ω
×Ω×
· · · × Ω}, σ(v × v × . . . v , {Pπ : π ∈ [0; 1]} .
(13)
|
{z
|
{z
}
m razy
m razy
Zbiór Ω × Ω × · · · × Ω w tym kontekście można nazwać przestrzenia˛ prób, natomiast pojedyncza realizacja
opisanej zmiennej losowej ~v nosi nazwe˛ prostej próby losowej.
Z równania (12) widać, że prawdopodobieństwo uzyskania w eksperymencie polegajacym
˛
na m-krotnym
rzucie moneta˛ konkretnej realizacji ~
x zależy bezpośrednio od wartości nieznanego parametru π . Dla danego ~
x bedziemy
˛
mieli dla różnych wartości π różne prawdopodobieństwa uzyskania naszego wyniku, co
oznacza, że próba losowa niesie pewna˛ informacje˛ na temat parametru π . Dokonany eksperyment pozwala zredukować niepewność co do wartości parametru π , która to wartość przed jego przeprowadzeniem
jest z równym prawdopodobieństwem rozłożona po całym przedziale [0;1].
Badajac
˛ „uczciwość” naszej monety można teraz przejść do jednego z dwóch dobrze znanych i pokrewnych rozwiaza
˛ ń wnioskowania statystycznego, tzn. dokonać estymacji nieznanego parametru π lub przetestować hipotez˛e zerowa˛ π = 12 . Pierwsze rozwiazanie
˛
polegałoby na policzeniu średniej arytmetycznej
z poszczególnych xi , która jest nieobciażonym
˛
estymatorem wartości oczekiwanej każdej zmiennej loso˛
ac
˛ postać
wej3 , czyli zgodnie ze wzorem (9) nieznanego parametru π (estymacja punktowa). Uwzgledniaj
rozkładu (13) można by także zbudować przedział, w którym z zadana˛ ufnościa˛ 1 − α wartość π by sie˛
znajdowała (estymacja przedziałowa). Drugie rozwiazanie
˛
polegałoby na podstawieniu do (13) wartości
1
π = 2 i obliczeniu prawdopodobieństwa uzyskania zaobserwowanego w eksperymencie ~x. Jeżeli obliczone prawdopodobieństwo Pπ (~v = ~
x|π = 21 ) byłoby niższe od zadanego poziomu istotności α, hipotez˛e
„uczciwości" monety należałoby odrzucić. Oczywiście, czym wieksza
˛
m, zatem ilość niezależnych rzutów,
tym wieksza
˛
bedzie
˛
precyzja i pewność dokonywanych wniosków.
Powyższy prosty przykład oddaje idee˛ modelowania statystycznego i naświetla korzyści, jakie możne ono
przynieść przy analizowaniu zjawisk empirycznych. Do rozkładu (5) nawiażemy
˛
jeszcze w dalszej cz˛eści
artykułu.
2.2
Odpowiedzi na pozycje testowe i źródła ich zmienności
Przejdźmy teraz do sytuacji eksperymentalnej badania testem. Jest to oczywiście o wiele bardziej skomplikowany problem od omówionego przykładu rzutu moneta,
˛ ale podstawowe zasady pozostaja˛ w tym
przypadku takie same. Przypomnijmy, że aby stworzyć model statystyczny (5) zjawiska losowego, wystarczy zdefiniować przestrzeń zdarzeń elementarnych Ω oraz określić na niej pewna˛ zmienna˛ losowa,
˛
której odpowiadałaby jakaś rodzina rozkładów prawdopodobieństwa P tejże zmiennej. Zaczniemy od zdefiniowania „źródła" losowości wyników otrzymywanych w badaniu testowym, czyli Ω, oraz określimy zbiór
wartości przyjmowanych przez zmienna˛ losowa.
˛ Najtrudniejszy problem skonstruowania sensownego w
kontekście pomiaru rozkładu prawdopodobieństwa zmiennej losowej zostanie zostawiony na koniec.
Załóżmy, że mamy test składajacy
˛ sie˛ z n pozycji indeksowanych litera˛ i (zatem i ∈ {1, 2, . . . , n}). Załóżmy
również, że dla każdej pozycji istnieja˛ tylko dwie odpowiedzi, jakich można na nie udzielić, które bedziemy
˛
określać jako„odpowiedź błedna"
˛
oraz „odpowiedź poprawna"4 . Wprowadźmy oznaczenie P na populacje˛
osób, z której dobierane bed
˛ a˛ jednostki do badania przy pomocy testu. Do oznaczenia konkretnej osoby
pochodzacej
˛ z populacji P bedziemy
˛
używać indeksu j .
3
Precyzyjniej: każdej zmiennej losowej posiadajacej
˛ skończona˛ wartość oczekiwana.
˛
Określenie odpowiedzi w kategoriach poprawna-błedna
˛
jest zasadne jedynie dla testów mierzacych
˛
pewne zdolności. Takie kody słowne bed
˛ a˛ w artykule jednak umownie używane dla określenia ogólnego przypadku pozycji dwukategorialnej, mimo iż w przypadku narz˛edzi badajacych
˛
osobowość, postawy itp. taka klasyfikacja nie ma zbytnio
sensu. Zabieg ten jest wprowadzony w celu ułatwienia lektury tekstu.
4
80
Pierwszym źródłem zmienności odpowiedzi na każde pytanie i jest zatem fakt losowania osób z populacji.
Jeżeli ustalimy osobe˛ j , to możemy w różnych niezależnych od siebie sytuacjach testowania zaobserwować jednak pewna˛ zmienność udzielanych przez nia˛ odpowiedzi. Dla każdej osoby j odpowiedzi na
poszczególne pytania testu wykazuja,
˛ zatem również pewna˛ losowość i, aby móc ja˛ uwzglednić,
˛
do modelu wprowadza sie˛ dodatkowa˛ przestrzeń replikacji (replication space) (Lord & Novick, 1968, str. 47),
która˛ oznaczymy symbolem K . Te dwa różne ujecia
˛
odpowiedzi na pozycje testu zostały przez Hollanda
(1990, str. 581) nazwane odpowiednio jako interpretacja doboru losowego (random sampling rationale)
oraz stochastyczna interpretacja osoby (subject stochastic rationale).
W przykładzie pojedynczego rzutu moneta˛ mieliśmy do czynienia z dwoma elementarnymi zdarzeniami
losowymi, wyrzucenia orła lub wyrzucenia reszki. W kontekście badania testowego pojedynczej osoby,
zdarzenie losowe to dobór osoby j ∈ P z populacji oraz dobór replikacji t ∈ K . Aby móc liczbowo opisać
obserwowany przez badacza wynik zdarzenia losowego, w przytoczonym na poczatku
˛ przykładzie monety
wprowadzono zmienna˛ losowa˛ (2) o rozkładzie (4). Dla każdej pary (j, t), jedyna˛ obserwowana˛ zmienna˛
jest wektor n udzielonych przez osobe˛ odpowiedzi. Przyporzadkujmy
˛
dla każdej pozycji testu odpowie-dzi
˛
wartość ‘0’. W ten sposób określiliśmy dziedzine˛ oraz zbiór
„poprawnej” wartość ‘1’, a odpowiedzi błednej
wartości dla zmiennej losowej opisujacej
˛ sytuacje˛ eksperymentalna˛ pojedynczego badania testem osoby
losowo wybranej z populacji P :
~u : P × K −→ {0; 1}n .
(14)
Funkcja ~
u jest n-wymiarowym wektorem losowym ~u = [u1 , u2 , . . . , un ] i nosi nazwe˛ wektora odpowiedzi
(response vector, vector of responses). Każda ze współrz˛ednych ui wektora ~
u jest również znienna˛ losowa˛
określona˛ na produktowej przestrzeni zdarzeń elementarnych P × K i przyjmujac
˛ a˛ jedna˛ z dwóch wartości xi ∈ {0; 1}. Zmienna losowa ui nosi dość oczywista˛ nazwe˛ odpowiedzi na pozycje˛ testowa˛ i, od niej
właśnie pochodzi nazwa całej rodziny modeli statystycznych, które omawiane sa˛ w niniejszym artykule,
czyli teorii odpowiadania na pozycje testowe (item response theory ). Jasne sie˛ w tym momencie również staje, co stanowi główny przedmiot IRT — jest nim budowanie modeli statystycznych stanowiacych
˛
sensowna˛ parametryzacje˛ rozkładu zmiennej (14), w terminach poziomu pewnej ukrytej cechy.
2.3
Rozkład odpowiedzi ustalonej osoby j ∈ P
Z (14) wynika, że dla każdego (j, t) ∈ P × K otrzymamy pewna˛ realizacje˛ zmiennej losowej ~
u, która
bedzie
˛
długim na n wektorem składajacym
˛
sie˛ z samych zer i jedynek. Możemy to zapisać ~
u(j, t) =
~xj = [x1j , x2j , . . . , xnj ], xij ∈ {0; 1}. Skomplikowany problem zbudowania rozkładu prawdopodobieństwa
uzyskania każdej takiej wartości ~
x ograniczmy najpierw do przypadku konkretnej, ustalonej osoby j . W
momencie, gdy osoba j zostanie ustalona, zmienność obserwowanych wyników bedzie
˛
zależała jedynie
od K . Żeby móc to zapisać w sposób formalny wprowadźmy funkcje˛ V : P × K −→ P określona˛
wzorem:
∀(j,t)∈P×K V (j, t) = j,
(15)
czyli zwykły rzut przestrzeni zdarzeń elementarnych P×K na K . Funkcja V przyporzadkowuje
˛
każdemu
zdarzeniu elementarnemu składajacemu
˛
sie˛ z osoby j oraz replikacji t osobe˛ j . Dla wygody ograniczmy
rozważania do odpowiedzi na pojedyncza˛ pozycje, czyli do zmiennej ui . Rozkład odpowiedzi na pozycje˛
i, w zależności od wyróżnionych wartości zmiennej V (czyli ustalonych podpopulacji P ), jest:
ui|V : K −→ {0; 1}.
(16)
W szczególnym, rozważanym teraz przypadku pojedynczej osoby j , rozkład ui|V =j dla uproszczenia oznaczany jest uij . Dla całego wektora odpowiedzi natomiast użyjemy zapisu ~
u|V =j = [u1j , u2j , . . . , unj ] = ~uj .
Dla pozycji i oraz osoby j bedziemy
˛
mieli pewne stałe prawdopodobieństwo udzielenia odpowiedzi poprawnej Pui (ui = 1|V = j) = Puij (uij = 1) oraz prawdopodobieństwo udzielenia odpowiedzi błednej
˛
Puij (uij = 0). Obydwa prawdopodobieństwa sumuja˛ sie˛ oczywiście do jedności, zatem do pełnego określenia rozkładu odpowiedzi dla ustalonej pary (i, j) wystarczy znajomość jednej z tych wielkości. Jest to
81
dokładnie taka sama zmienna losowa, jak określona wzorami (4) oraz (5) zmienna rozpatrywana w przytoczonym wcześniej przykładzie monety! Odpowiedź na pojedyncza˛ pozycje˛ i dla ustalonej osoby j ma
zatem rozkład dwupunktowy (5) z parametrem πij = Puij (uij = 1), w zwiazku
˛
z czym rozkład ten można
zapisać z dolnym indeksem wskazujacym
˛
na zależność od pojedynczego parametru: Pπij . Dwupunktowy
rozkład Pπij odpowiedzi osoby j na pytanie i jest dany zgodnie z (5) poprzez:
∀j∈P ∀xij ∈{0;1}
Pπij (uij
= xij ) = Pπij (uij = 1)xij Pπij (uij = 0)1−xij =
= πij xij (1 − πij )1−xij .
(17)
Dla każdej osoby mamy pewien „prywatny" rozkład zmiennej losowej ui , opisywany pojedynczym parametrem πij = Pπij (uij = 1), a przechodzac
˛ na cały test otrzymamy „prywatny" rozkład zmiennej ~
u,
opisywany wektorem parametrów ~
πj = [π1j , π2j , . . . , πnj ]. Zarówno rozkład zmiennej uij , jak i rozkład ~uj ,
bywaja˛ nazywane rozkładem skłonności (propensity distribution) (Lord & Novick, 1968, str. 47).
2.4
Pomiar
Przez pomiar 5 pewnej cechy bed
˛ acej
˛
właściwościa˛ obiektów z określonego zbioru, rozumie sie˛ przyporzadkowanie
˛
tym obiektom wartości liczbowych w taki sposób, żeby odpowiednie relacje zachodzace
˛
miedzy
˛
liczbami odzwierciedlały interesujace
˛ badacza relacje miedzy
˛
obiektami, wynikajace
˛ z posiadanej
przez nie cechy. Dla przykładu, mamy cztery poziomy pomiaru wyróżnione przez Stevensa:
1. Skala nominalna. Jeżeli dwa obiekty różnia˛ sie˛ wartościa˛ cechy, to reprezentacja liczbowa ich cechy
poprzez pomiar da dwie różne liczby.
2. Skala porzadkowa.
˛
Jeżeli jeden obiekt ma wieksze
˛
nateżenie
˛
danej cechy od drugiego, to pomiar
dostarczy odpowiednio liczb: wiekszej
˛
oraz mniejszej.
3. Skala przedziałowa. Jeżeli możliwe jest porównywanie różnicy miedzy
˛
nateżeniem
˛
cechy dwóch
obiektów, to pary obiektów o tej samej różnicy nateżenia
˛
cechy, za pomoca˛ pomiaru zostaja˛ odzwierciedlone w pary liczb różniace
˛ sie˛ miedzy
˛
soba˛ o taka˛ sama˛ wartość.
4. Skala ilorazowa. Jeżeli można stwierdzić, że jeden obiekt ma k -krotnie wieksze
˛
nateżenie
˛
cechy od
drugiego, to wartości liczbowe dostarczone pomiarem powinny także być zwiazane
˛
ta˛ relacja.
˛
Odnieśmy powyższa˛ definicje˛ pomiaru do naszej sytuacji badania testem. Zakładamy, że istnieje jakaś
hipotetyczna zmienna, cecha, której nateżenie
˛
(a zatem można osiagn
˛ ać
˛ przynajmniej drugi poziom pomiaru w wyróżnionej powyżej skali) jest zróżnicowane wśród osób z populacji P . Kolejnym założeniem,
postulatem jest, że za pomoca˛ obserwowanej zmiennej ~
u można dokonać jej pomiaru. Dokonać pomiaru,
czyli stworzyć pewna˛ liczbowa˛ skale˛ odzwierciedlajac
˛ a˛ relacje zachodzace
˛ miedzy
˛
jednostkami z P ze
wzgledu
˛
na nateżenie
˛
interesujacej
˛ nas cechy.
3
Teoria odpowiadania na pozycje testowe
3.1 Jednowymiarowy model IRT. Zmienna ukryta Θ oraz krzywa charakterystyczna pozycji testowej
Majac
˛ na wzgledzie
˛
poczynione uwagi na temat pomiaru, idea pomiaru pewnej cechy przy użyciu testu
opiera sie˛ na założeniu, że można wprowadzić do stworzonego układu pojedyncza˛6 przyjmujac
˛ a˛ wartości
5
Bardzo dobre opracowanie tematyki pomiaru pewnych cech w naukach społecznych znajduje sie˛ w rozdziale 2
ksiażki
˛ Wprowadzenie do psychologii matematycznej (Coombs et al., 1977).
6
Można rozpatrzyć możliwość wprowadzenia wiekszej
˛
ilości parametrów Θ1 ,..., Θk i zbudować model dla testu
mierzacego
˛
wieksz
˛
a˛ ilość cech. W niniejszym artykule rozpatrywany jest jedynie przypadek jednowymiarowy.
82
rzeczywiste zmienna˛ Θ:
Θ : P × K −→ R,
(18)
która pozwalałaby dla każdej osoby j ∈ P określić w sposób jednoznaczny, jakie wartości wektor parametrów π~j przyjmie. Wymagałoby to założenia, po pierwsze:
∀j∈P ∀t,t0 ∈K
Θ(j, t) = Θ(j, t0 ) = θj ,
(19)
czyli, że dla każdej osoby j zmienna ma wartość stała˛ θj — w przeciwnym razie nie można byłoby wyznaczyć parametrów πij w sposób jednoznaczny. Nastepnie,
˛
dla każdego pytania i musiałaby istnieć pewna
funkcja gi określona na R i przyjmujaca
˛ wartości w przedziale [0; 1]:
gi : R −→ [0; 1]
(20)
w taki sposób, że:
∀j∈P
gi (θj ) = Pπij (uij = 1) = πij ,
(21)
co oznacza, że istnieje n funkcji gi umożliwiajacych
˛
przekształcenie wartości przyjmowanej przez zmienna˛
Θ przy warunku V = j (patrz wzór (15)) na odpowiednie parametry πij , które jak wiemy ze wzoru (17), w
sposób jednoznaczny wyznaczaja˛ rozkład wektora odpowiedzi danej osoby ~
uj .
Zmienna˛ Θ spełniajac
˛ a˛ warunki (18) oraz (19) nazywamy zmienna˛ ukryta˛ (latent trait) (Ellis & van der
Woldenberg, 1993, str. 419) i to ona właśnie tworzy kontinuum, skale,
˛ na której dokonany jest pomiaru
cechy, stad
˛ w IRT nazywana jest też zdolnościa˛ (ability ). Funkcja gi określona za pomoca˛ (20) oraz (21)
nosi natomiast nazwe˛ krzywej charakterystycznej pozycji testowej i (item characteristic curve, w skrócie
ICC). Obydwa pojecia
˛
sa˛ fundamentalne dla teorii odpowiadania na pozycje testowe, ponieważ łacznie
˛
określaja˛ jednoznacznie rozkład prawdopodobieństwa dla pojedynczego wektora odpowiedzi (14). Ostatecznie zatem jednowymiarowy model IRT dla pojedynczego wektora odpowiedzi na n dychotomicznych
pozycji można zapisać w postaci:
P × K , σ(~u), {PΘ,g1 ,g2 ,...,gn : Θ ∈ R, gi ∈ G } ,
(22)
gdzie σ(~
u) jest odpowiednio określonym σ -ciałem zdarzeń elementarnych, natomiast G jest rodzina˛ dopuszczalnych postaci funkcji charakterystycznych pozycji testowych. Rodzina rozkładów prawdopodobieństwa zmiennej ~
u w modelu (22) zależy od pojedynczego parametru Θ (poziomu zdolności wylosowanej
w badaniu osoby) oraz od postaci n funkcji gi ∈ G . Jeżeli każda˛ funkcje˛ gi można opisać za pomoca˛
skończonej ilości parametrów, cały model nazywamy parametrycznym modelem IRT, w przeciwnym razie
nieparametrycznym modelem IRT.
Znajac
˛ postać wszystkich funkcji charakterystycznych, od których zależy rozkład PΘ,g1 ,g2 ,...,gn , czyli po
ustaleniu konkretnych {g1 , g2 , . . . , gn }, udzielane przez losowo wybrana˛ osobe˛ j odpowiedzi w teście zależa˛ jedynie od wartości parametru θj , czyli poziomu jej zdolności. Zapisujac
˛ udzielone podczas pojedynczego badania testem odpowiedzi, uzyskamy wektor zer i jedynek ~
xj = [x1j , x2j , . . . , xnj ], xij ∈ {0; 1}.
Tak jak w przypadku m-krotnego rzutu moneta,
˛ gdzie na podstawie zaobserwowanego wyniku można było
dokonać pewnego wnioskowania na temat wartości nieznanego parametru π , od którego rozkład rzutów
według przyjetego
˛
modelu (13) zależał, tak i w naszym przypadku po ustaleniu {g1 , g2 , . . . , gn } możemy wnioskować na podstawie ~
xj przy założeniu modelu (22) co do możliwych wartości parametru Θ dla
osoby j . Udzielone w teście odpowiedzi niosa˛ w sobie informacje˛ na temat poziomu zdolności badanej
testem osoby. Przez pomiar pewnej cechy za pomoca˛ testu rozumiemy w takim kontekście, zatem estymacje˛ parametru Θ na podstawie zaobserwowanych odpowiedzi ~
x. Analogicznie estymacje˛ parametru π
po m-ktornym rzucie moneta˛ można nazwać pomiarem pewnej cechy, która charakteryzuje empirycznie
obserwowalne właściwości monety. Ceche˛ ta˛ można by nazwać „stronniczościa"
˛ monety.
83
3.2
Jednowymiarowy monotoniczny model IRT na przykładzie 2PLM
Omawiajac
˛ w poprzednim rozdziale jednowymiarowy model IRT, warunek jednowymiarowości opisano
poprzez stwierdzenie, że dla każdej pozycji testu i dla każdej osoby wartość zmiennej Θ wystarcza do
określenia rozkładu ~
uj , czyli, że θj można jednoznacznie przekształcić w ~πj za pomoca˛ ICC (21). Zanim
przejdziemy do konkretnego przykładu modelu IRT, sformułujmy warunek jednowymiarowości wprost w postaci, która nosi nazwe˛ lokalnej niezależności(local independence) (porównaj Ellis & van der Woldenberg,
1993, str. 420):
∀θ∈R ∀~x=[x1 ,...,xn ]∈{0;1}n
P~u (~u = ~x|Θ = θ) =
n
Y
Pui (ui = xi |Θ = θ),
(23)
i=1
gdzie P~u to rozkład prawdopodobieństwa całego wektora odpowiedzi ~
u, a Pui rozkład prawdopodobieństwa odpowiedzi na pytanie i. Powyższy wzór mówi, że w przypadku ustalenia wartości zmiennej Θ, odpowiedzi na poszczególne pozycje testu staja˛ sie˛ statystycznie niezależne. Oznacza to, że Θ jest jedynym
czynnikiem odpowiedzialnym za współzmienność wszystkich odpowiedzi w teście — niniejszym ustaliliśmy, że rozważany test jest narz˛edziem jednowymiarowym. Lord i Novick (1968, str. 538) cytujac
˛ Andersona (1959) tak to ujeli
˛ w słowa:
. . . wynik (performace) osoby zależy od pojedynczej zmiennej ukrytej, jeżeli przy ustalonej
wartości tej zmiennej nie da sie˛ z zachowania tej osoby już niczego wiecej
˛
wywnioskować, co
mogłoby przyczynić sie˛ do wytłumaczenia tego wyniku. Idea jest taka, że zmienna ukryta stanowi jedyny istotny czynnik i w momencie, gdy jej wartość zostaje wyznaczona, zachowanie
przybiera charakter losowy, w znaczeniu statystycznej niezależności (Anderson, 1959).
Rozsadnym
˛
założeniem, jakie można poczynić na temat relacji udzielanych przez badane osoby odpowiedzi ~
u do poziomu cechy, która˛ pragniemy mierzyć jest, aby ze wzrostem jej wartości nie malało prawdopodobieństwo udzielenia poprawnej odpowiedzi na każde pytanie w teście7 . Oczekiwalibyśmy, że ze
wzrostem, dajmy na to, poziomu inteligencji zwieksza
˛
sie˛ prawdopodobieństwo poprawnej odpowiedzi na
zadanie w teście majacym
˛
inteligencje˛ mierzyć. Oznacza to, że ze wzrostem Θ = θ prawdopodobieństwo P (ui = 1|Θ = θ) nie powinno maleć. Majac
˛ na wzgledzie
˛
(21), takie założenie o monotoniczności
możemy zapisać:
∀j,j 0 ∈P ∀i∈{1,2,...,n} θj < θj 0 =⇒ gi (θj ) ¬ gi (θj 0 ),
(24)
czyli sprowadza sie˛ to do tego, aby krzywe charakterystyczne wszystkich pozycji testu były niemalejace.
˛
Jeżeli Θ spełnia warunki (18) oraz (19), spełnione jest założenie lokalnej niezależności (24), oraz wszystkie ICC (21) spełniaja˛ założenie monotoniczności (24), to otrzymujemy jednowymiarowy monotoniczny
model IRT (22). Dalsza specyfikacja modeli IRT zależy już od konkretnej postaci rodziny G krzywych
charakterystycznych.
Przykładowo, model IRT, w którym każda funkcja gi przyjmuje postać:
Pui (ui = 1|Θ = θ) = gi (θ) = g(θ; ai , bi ) =
1
−ai (θ−bi )
1+e
,
(25)
gdzie e ≈ 2, 718 jest stała˛ Eulera (podstawa logarytmu naturalnego), natomiast ai ∈ (0; +∞) oraz
bi ∈ (−∞; +∞), nosi nazwe˛ dwuparametrycznego modelu logistycznego (w skrócie 2PLM). Przykład
kilku krzywych w tym modelu jest podany na Rysunku 1. Z rysunku tego widać, że ze wzrostem wartości
parametru ai zwieksza
˛
sie˛ „stromość" funkcji gi , natomiast zmiany w wartości parametru bi przesuwaja˛
wykres równolegle wzdłuż osi Θ. 50% prawdopodobieństwo udzielenia poprawnej odpowiedzi przypada
7
Nie wprowadzono dotychczas tego założenia dla ogólności przeprowadzanych rozważań. Niemonotoniczne ICC
pojawiaja˛ sie˛ czasem w testach badajacych
˛
postawy (Formann, 1988, str. 45–46).
84
Rysunek 1: Przykład krzywych charakterystycznych w dwuparametrametrycznym modelu logistycznym.
Krzywa w kolorze czarnym ma parametry a = 2, b = 0, 5, krzywe czerwone różnia˛ sie˛ od niej dyskryminacja,
˛ natomiast krzywe niebieskie trudnościa.
˛
na wartość Θ = bi , i wartość ta odpowiada także punktowi przegiecia
˛
krzywej gi . Czym wieksza
˛
wartość parametru ai , tym dana pozycja efektywniej bedzie
˛
rozróżniała miedzy
˛
osobami, których zdolność
znajduje sie˛ w okolicach wartości bi , czyli tam gdzie funkcja jest najbardziej stroma — dla małych zmian
wartości Θ w tym rejonie rozkład odpowiedzi (17) bedzie
˛
ulegał najwiekszym
˛
zmianom. Ze wzrostem wartości parametru bi dla osoby o ustalonym poziomie cechy Θ = θj , osoba ta bedzie
˛
miała coraz mniejsze
prawdopodobieństwo udzielenia na dana˛ pozycje˛ odpowiedzi prawidłowej. W zwiazku
˛
z przytoczona˛ interpretacja˛ właściwości parametrów ai oraz bi nosza˛ one nazwy, odpowiednio: parametr dyskryminacji oraz
parametr trudności.
Jeżeli we wzorze (21) wartość parametru ai zostanie ustalona na ai = 1,to otrzymamy jednoparametryczny model logistyczny (1PLM), zwany również modelem Rascha, który sie˛ odznacza bardzo interesujacymi
˛
właściwościami. Istnieja˛ również modele z wieksz
˛
a˛ ilościa˛ parametrów, na przykład trójparametryczny model logistyczny (3PLM), w którym trzeci parametr został wprowadzony dla modelowania zjawiska „zgadywania” poprawnej odpowiedzi przez osoby o niskim poziomie cechy (dolna asymptota jest powyżej zera),
do modelu 3PLM można wprowadzić także dodatkowy parametr niedbałości (carelesness) dla uzyskania
krzywych modelujace
˛ pytania, na które osoby o wysokim poziomie cechy czasami nie udzielaja˛ odpowiedzi poprawnej (analogicznie górna asymptota jest poniżej jedności, otrzymujemy 4PLM). Oprócz funkcji
logistycznych, w użyciu też sie˛ pojawiaja˛ sie˛ modele oparte na krzywej skumulowanego rozkładu normalnego, czy odpowiednio przekształconej funkcji kosinus. W szczególności krzywa charakterystyczna nie
musi wcale być ciagła
˛
— w modelu Mokkena ICC jest funkcja˛ skokowa,
˛ do pewnej wartości równa˛ zero,
a powyżej równa˛ 1 (otrzymana z (21) przy ai → +∞). Omówienie modeli stosowanych w IRT oraz różnic
miedzy
˛
nimi dostepne
˛
jest w każdej pracy wprowadzajacej
˛
do tematyki IRT, także w innych artykułach w
tym wydaniu niniejszego numeru Egzaminu.
Wracajac
˛ do przykładu 2PLM, otrzymujemy model IRT:
P × K , σ(~u), {PΘ,a1 ,b1 ,a2 ,b2 ,...,an ,bn : Θ ∈ R, ai ∈ (0, +∞), bi ∈ R ,
(26)
czyli model, w którym prawdopodobieństwo zaobserwowania dowolnego ~
u(j, t) = ~x ∈ {0; 1}n jest jednoznacznie wyznaczone przez rozkład prawdopodobieństwa, który zależy od pojedynczego parametru
zdolności Θ, oraz 2n parametrów krzywych charakterystycznych danych wzorem (25). Uwzgledniaj
˛
ac
˛ lo-
85
kalna˛ niezależność pozycji (23), postać rozkładu poszczególnej pozycji dla ustalonego poziomu cechy
Θ = θ (17) oraz wzór na ICC (25), otrzymujemy nastepuj
˛ ac
˛ a˛ zależność:
∀~x∈{0;1}n
P~u (~u = ~x)
=
PΘ,a1 ,b1 ,a2 ,b2 ,...,an ,bn (~u = ~x) =
(23)
n
Y
(17)
i=1
n
Y
(25)
i=1
n
Y
=
=
=
Pui (ui = xi |Θ = θ) =
Pui (ui = 1|Θ = θ)xi Pui (ui = 0|Θ = θ)1−xi =
g(θ; ai , bi )xi (1 − g(θ; ai , bi ))1−xi .
(27)
i=1
3.3
Estymacja parametru zdolności Θ dla pojedynczej osoby losowo dobranej z populacji
Załóżmy na poczatek,
˛
że znamy postać wszystkich n krzywych charakterystycznych w naszym teście.
Kontynuujac
˛ przykład 2PLM (25), oznacza to, że znamy wszystkie wartości ai oraz bi . Rozkład wektora odpowiedzi, ~
u jak widać z (27), bedzie
˛
zależał wtedy jedynie od jednego nieznanego parametru Θ,
bed
˛ acego
˛
poziomem cechy badanej testem osoby. Przypomnijmy przykład monety rozpatrywany na poczatku.
˛
Po zarejestrowaniu konfiguracji rzuconych reszek i orłów w m-krotnym rzucie moneta˛ mogliśmy
stwierdzić, które wartości nieznanego parametru π były bardziej prawdopodobne od innych8 i dokonać jego estymacji. Podobnie teraz, gdyby zbadać testem pojedyncza˛ osobe˛ j , otrzymamy konkretna˛ realizacje˛
wektora odpowiedzi, czyli ~
xj ∈ {0; 1}n , która bedzie
˛
dla różnych wartości Θ = θj wiazała
˛
sie˛ z różnym
prawdopodobieństwem (27). Estymatorem θ̂j nieznanego parametru θj bedzie
˛
ta wielkość Θ, dla której
prawdopodobieństwo (27) jest najwieksze.
˛
Estymator θ̂ zdefiniowany w ten sposób nosi nazwe˛ estymatora
najwiekszej
˛
wiarygodności i formalnie jest rozwiazaniem
˛
nastepuj
˛ acego
˛
problemu:
max
θ∈R
n
Y
gi (θ)ui (1 − gi (θ))1−ui
(28)
i=1
czyli maksymalizacji funkcji rozkładu prawdopodobieństwa po wszystkich możliwych wartościach θ. Zapiszmy maksymalizowana˛ funkcje˛ jako:
l(θ; ~u) =
n
Y
gi (θ)ui (1 − gi (θ))1−ui ,
(29)
i=1
przez co podkreślone zostaje, że wartość parametru θ zależy od realizacji wektora losowego ~
u (parametr
i zmienna losowa niejako zamieniaja˛ sie˛ miejscami). Funkcja l(θ; ~
u) nosi nazwe˛ funkcji wiarygodności
rozważanego eksperymentu (Gajek & Kałuszka, 1999, str. 88). Zamiast maksymalizować bezpośrednio
funkcje˛ (29), o wiele łatwiejszym rozwiazaniem
˛
jest maksymalizacja logarytmu naturalnego z tej funkcji:
L(θ; ~u) = ln(l(θ; ~u)) =
n
X
i=1
ui ln (gi (θ)) +
n
X
(1 − ui ) ln(1 − gi (θ)),
(30)
i=1
gdyż, jak widać, zamiast iloczynów ICC, jak to ma miejsce we wzorze na l(θ; ~
u), mamy do czynienia z ich
suma.
˛
Z powyższego opisu, aby uzyskać oszacowanie poziomu cechy danej osoby, należy dokonać maksymalizacji dość skomplikowanej funkcji. W przypadku wiekszości
˛
modeli rozwiazanie
˛
nie jest dane bezpośrednio w sposób analityczny i aby wykonać takie zadanie, konieczne jest korzystanie z dość wymagajacych
˛
obliczeniowo iteracyjnych procedur, które byłyby uciażliwe
˛
bez wykorzystania komputerów.
8
86
W tym przypadku wystarczała de facto informacja o ilość reszek — patrz wzór na rozkład dwumianowy (12).
3.4
Kalibracja testu
Dodać należy, że w praktyce nie sa˛ znane parametry pozycji testowych, co bardzo komplikuje problem
oszacowania parametrów całego modelu. Wektor n odpowiedzi pojedynczej osoby nie dostarcza wystarczajacej
˛
informacji do oszacowania jednocześnie parametru Θ jak i postaci n nieznanych ICC. Podobnie
jak w przykładzie z moneta,
˛ gdzie dla oszacowania nieznanej wartości π dokonano m-krotnego rzutu moneta,
˛ aby oszacować parametry modelu IRT badane jest N losowo dobranych z populacji osób. Procedura
taka nosi nazwe˛ kalibracji testu (test calibration). Obserwowana˛ zmienna˛ losowa˛ jest już nie realizacja pojedynczego wektora odpowiedzi ~
u, lecz całej macierzy odpowiedzi U = [~u1 × ~u2 × ~uN ], o wymiarach
N × n. Jeżeli krzywe charakterystyczne sa˛ dane dwuparametrycznym wzorem (25), to otrzymujemy model statystyczny (Ω, A, P) (5), który zależy od 2n parametrów ICC oraz N parametrów odpowiadajacych
˛
poziomowi cechy poszczególnych osób (porównaj (13)):

Ω = (P × K ) × · · · × (P × K )


{z
}
|




N razy
(31)
A = σ(~|u × ·{z
· · × ~u})




N razy


P
= {PΘ1 ,Θ2 ,...ΘN ,a1 ,b1 ,a2 ,b2 ,...,an ,bn : Θj ∈ R, ai ∈ (0, +∞), bi ∈ R},
˛
maksymalizacji funkcji,
Problem estymacji parametrów tego modelu9 można zapisać jako problem łacznej
która zależy od N + 2n nieznanych parametrów:
max
l(θ1 , θ2 , . . . θN , a1 , b1 , a2 , b2 , . . . , an , bn ; U) =
{θj ∈R,bi ∈R,
ai ∈(0;+∞)}
=
max
{θj ∈R,bi ∈R,
ai ∈(0;+∞)}
L(θ1 , θ2 , . . . θN , a1 , b1 , a2 , b2 , . . . , an , bn ; U)
(32)
Zakładajac
˛ niezależność odpowiedzi poszczególnych osób wzgledem
˛
siebie10 , logarytm funkcji wiarygodności L jest postaci:
L(θ1 , θ2 , . . . , θN , a1 , b1 , a2 , b2 , . . . , an , bn ; U) =
=
N X
n
X
ln g(θj , ai , bi )uij (1 − g(θj , ai , bi ))1−uij
=
j=1 i=1
=
N X
n
X
j=1 i=1
uij ln (g(θj , ai , bi )) +
N X
n
X
(1 − uij ) ln(1 − g(θj , ai , bi )).
(33)
j=1 i=1
Maksymalizacja wyrażenia (33), które zależy jednocześnie od N +2n zmiennych, jest zadaniem tak skomplikowanym obliczeniowo, że w wiekszości
˛
przypadków bez wprowadzania pewnych dodatkowych założeń
czy rozwiaza
˛ ń11 , nie dałoby sie˛ go rozwiazać
˛
nawet przy użyciu komputerów. Nie bedziemy
˛
sie˛ tu wgłebiać
˛
w stosowane do tego celu rozwiazania.
˛
Doskonała˛ pozycja˛ omawiajac
˛ a˛ algorytmy stosowane w estymacji parametrów różnych modeli IRT jest ksiażka
˛
Baker & Seock-Ho pod tytułem Item Response Theory.
Parameter Estimation Techniques.
Przybliżony problem kalibracji testu uwidacznia, dlaczego rozwój teorii odpowiadania na pozycje testowe
był tak nierozerwalnie zwiazany
˛
z rozwojem komputerów umożliwiajacych
˛
automatyczne dokonywanie
bardzo złożonych obliczeń. Zrozumiałe sie˛ też staje, że stosowanie IRT w praktyce wymaga posiadania
odpowiedniego oprogramowania.
9
Co oznacza znalezienie wartości estymatora: [θ̂1 , θ̂2 , . . . θ̂N , â1 , b̂1 , â2 , b̂2 , . . . , ân , b̂n ].
Czyli nieformalnie mówiac,
˛ że badane osoby nie „ściagaj
˛ a"
˛ odpowiedzi od siebie.
11
Jedynie w przypadku modelu Rascha zachodzi jest tak zwana separacja pozycji i osób(separation of items and
persons), umożliwiajaca
˛ niezależnie od siebie estymować parametry osób oraz pozycji bez czynienia dodatkowych
założeń (Baker & Seock-Ho, 2004, str. 155).
10
87
3.5
Informacja Fishera jako lokalna miara błedu
˛
estymatora nieznanego
parametru
W poprzednim paragrafie omówiliśmy metody estymacji parametrów modelu IRT. Wzór (28) pokazuje, że
estymator poziomu zdolności θ̂ jest funkcja˛ poszczególnych odpowiedzi ui , które sa˛ zmiennymi losowymi.
Zmienna˛ losowa˛ jest również i sam estymator cechy, przyjmowane przez niego wartości zależa˛ od konkretnej realizacji ~
x wektora odpowiedzi ~u. Estymator ma zatem specyficzny rozkład, a co za tym idzie wartość
oczekiwana˛ i wariancje.
˛ Na przykład, co do wartości oczekiwanej estymatora pożadan
˛
a˛ właściwościa˛ θ̂
byłoby:
E(θ̂|θ) = θ
(34)
czyli, żeby wartość oczekiwana z estymatora pod warunkiem, że prawdziwa wartość parametru jest θ,
była równa tej prawdziwej wartości. Mówimy, że estymator spełniajacy
˛ warunek (34) jest nieobciażony.
˛
Znajomość rozkładu estymatora jest konieczna do zbudowania przedziałów ufności, w których na podstawie przeprowadzonego eksperymentu możemy twierdzić, że na zadanym poziomie ufności prawdziwa
wartość parametru sie˛ znajduje. W szczególności, jeżeli rozkład estymatora θ̂ dla Θ = θ jest normalny,
2 , to można zbudować (1 − α)100 procentowy
z wartościa˛ oczekiwana˛ dana˛ (34) i pewna˛ wariancja˛ σθ̂|θ
przedział ufności dla prawdziwej wartości estymatora:
q
q
2 ; θ̂ + z
2 ),
α
(θ̂ − z1− α σθ̂|θ
σθ̂|θ
(35)
1−
2
2
q
2 jest
gdzie z1− α jest kwantylem rz˛edu 1 − α2 standardowego rozkładu normalnego N (0, 1). Wartość σθ̂|θ
2
w tym kontekście standardowym błedem
˛
pomiaru zdolności Θ przy założeniu, że jej poziom wynosi θ, czyli
jest to bład
˛ warunkowy (conditional standard error of measurement, w skrócie SEM(θ)).
Dla estymatora najwiekszej
˛
wiarygodności (28) zdefiniujmy wielkość:
!
dL 2 I(θ) = E
θ .
dθ (36)
I(θ) nosi nazwe˛ informacji Fishera o parametrze θ zawarta˛ w obserwacji ~u (Lehmann, 1991, str. 118)
i jest miara˛ krzywizny logarytmu funkcji wiarygodności (30) w otoczeniu prawdziwej wartości parametru.
Im bardziej logarytm funkcji wiarygodności odpowiadajacej
˛
naszemu eksperymentowi jest w otoczeniu θ
„stromy”, tym wieksza
˛
bedzie
˛
wartość I(θ). Jest to zgodne z intuicyjnym pojmowaniem „informacji", które
wykorzystywano wcześniej w tym artykule jako miare˛ zdolności danej zmiennej losowej (w tym przypadku estymatora θ̂) do redukowania niepewności co do prawdziwej wartości interesujacego
˛
nas parametru.
Wyższe wartości I(θ) bed
˛ a˛ odpowiadały tym rejonom Θ, gdzie szukane maksimum (28) jest bardziej „wyraziste"; dla θ znajdujacych
˛
sie˛ w takim rejonie przyjmowane przez estymator wartości θ̂ bed
˛ a˛ potencjalnie
bardziej skupione wokół θ. Rao tak opisuje informacje˛ Fishera (Rao, 1982, str. 343–344):
Przez informacje˛ o nieznanym parametrze θ, zawarta˛ w pewnej zmiennej losowej, rozumiemy stopień, w jakim w wyniku obserwacji tej zmiennej zmniejsza sie˛ nasza niewiedza na
temat interesujacego
˛
nas parametru. Jeżeli dla każdej wartości parametru istnieje dokładnie
jedna wartość zmiennej losowej pojawiajaca
˛ sie˛ z prawdopodobieństwem 1, to odpowiednia
zmienna losowa zawiera maksimum informacji. Z drugiej strony, jeżeli dla wszystkich wartości
parametru θ zmienna losowa ma taki sam rozkład, zaobserwowane wartości tej zmiennej nie
daja˛ żadnych podstaw do wyciagania
˛
wniosków o θ. Czułość zmiennej losowej na zmiany
parametru można, wiec
˛ uzasadniać stopniem zmian rozkładu tej zmiennej w wyniku zmian
wartości parametru.
Informacja Fishera jest funkcja˛ θ (podkreśla to zapis I(θ)), a co za tym idzie pozwala na oszacowanie dokładności uzyskanych estymatorów NW parametru θ w zależności od przyjmowanych przez niego
88
wartości. Możemy sie˛ w zwiazku
˛
z tym spodziewać, że dla niektórych wartości θ dla ustalonego testu
oszacowanie estymatorem (28) bedzie
˛
bardziej precyzyjne niż dla innych.
Informacja Fishera bardzo ważna˛ właściwość addytywności, przez co rozumie sie˛ fakt, że jeżeli posiadamy
informacje o parametrze I1 oraz I2 , pochodzace
˛ z dwóch niezależnych zmiennych losowych ξ1 oraz ξ2 , to
informacja zawarta łacznie
˛
w tych dwóch zmiennych bedzie
˛
sie˛ sumować, czyli I = I1 + I2 (Rao, 1982,
str. 342). Oczywiście można to uogólnić na n niezależnych zmiennych i otrzymujemy:
I(θ) =
n
X
Ii (θ)
(37)
i=1
Koncepcja informacji jest nam potrzebna ze wzgledu
˛ na dwa zasadnicze twierdzenia. Pierwsze to nierówność informacyjna, mówiaca,
˛
że dla ogólnego przypadku nieobciażonego
˛
estymatora (34)12 zachodzi:
2
σθ̂|θ

1
.
I(θ)
(38)
czyli, że wariancja estymatora od dołu jest ograniczona poprzez odwrotność informacji Fishera. Drugie
twierdzenie mówi, że jeżeli estymator θ̂ jest obliczony na podstawie n-elementowej próby losowej, to jego
rozkład ze wzrostem n coraz bardziej zbliża sie˛ do rozkładu normalnego o wariancji (Deutsch, 1969, str.
179–185):
2
lim σθ̂|θ
=
n→∞
1
,
I(θ)
(39)
czyli, że ze zwiekszaniem
˛
ilości niezależnych obserwacji (u nas bed
˛ a˛ to pytania w teście), nierówność (38)
staje sie˛ równościa,
˛ a kształt rozkładu estymatora staje sie˛ normalny. Jeżeli zatem ilość pytań w teście
byłaby wystarczajaco
˛ duża, lub dla danego modelu IRT i wartości θ w miejscu „" w (38) pojawiała sie˛
równość13 , uzasadnione byłoby budowanie przedziału ufności (35), przy wartości standardowego błedu
˛
pomiaru danej przez:
s
SEM (θ) =
1
.
I(θ)
(40)
W ogólnym przypadku modelu IRT dla pozycji ocenianych dychotomicznie (22) z różniczkowalnymi krzywymi charakterystycznymi informacja Fishera jest dana wzorem:
I(θ) =
n
X
i=1
dgi (θ) 2
dθ
gi (θ)(1 − gi (θ))
,
(41)
przy czym ze wzgledu
˛
na addytywność informacji Fishera sensowne jest rozpatrywanie pojedynczych
składników powyższej sumy:
2
Ii (θ) =
12
dgi
dθ (θ)
gi (θ)(1 − gi (θ))
.
(42)
Wzór dla estymatora obciażonego
˛
jest bardziej skomplikowany (Lehmann, 1991, str. 118–122). Estymatory najwiekszej
˛
wiarygodności cechy daja˛ cz˛esto oszacowania obciażone,
˛
zwłaszcza dla skrajnych wartości Θ = θ obcia˛
żenie to bywa istotne. Zagadnienie wpływu wielkości próby oraz poziomu cechy na obciażenie
˛
estymatorów uzyskiwanych za pomoca˛ algorytmu łacznej
˛
estymacji najwiekszej
˛
wiarygodności (Joint maximum likelihood estimation)
˛
estymatorów NW cechy oraz pozycji testowych
zbadane zostało w pracy własnej (Kondratek, 2007). Obciażenie
jest istotnym problemem, z jakim borykaja˛ sie˛ twórcy różnorakiego programowania do estymacji parametrów IRT.
Kwestie˛ tutaj pominieto,
˛ aby nie komplikować wywodu.
13
Nieobciażone
˛
estymatory, których wariacja jest równa informacji Fishera, sa˛ nazywane efektywnymi. Nazwa ta
odzwierciedla fakt, że nie można skonstruować estymatora, który miałby mniejsza˛ od nich wariancje,
˛ innymi słowy,
estymatory takie wykorzystuja˛ informacje˛ zawarta˛ w obserwowanej zmiennej losowej w sposób maksymalny.
89
Wyrażenie (41) nosi nazwe˛ funkcji informacyjnej testu, a (42) analogicznie funkcji informacyjnej pozycji
testowej i daja˛ nam lokalna˛ miare˛ precyzji pomiarów, jaka˛ możemy dokonywać za pomoca˛ całego testu,
badź
˛ pojedynczych jego pozycji.
Dla modelu 2PLM (25) funkcja informacyjna pozycji i jest dana wzorem:
Ii (θ) = a2i gi (θ; ai , bi )(1 − gi (θ; ai , bi )).
(43)
Zależność miedzy
˛
funkcja˛ informacji testu złożonego z pieciu
˛
typowych itemów 2PLM, a funkcjami informacji tych pozycji przedstawia Rysunek 2.
Rysunek 2: Funkcja informacji testu (kolor czerwony) oraz funkcja informacji pieciu
˛
itemów (kolor niebieski) w 2PLM. Parametry ICC zostały wygenerowane niezależnie od siebie z rozkładów normalnych o
parametrach (0, 1) dla trudności bi oraz (1.3, 0.32 ) dla dyskryminacji ai .
3.6
Konstrukcja testów, CAT
Załóżmy, że posiadamy zbiór n0 pozycji, które zostały w wyniku wcześniejszych badań skalibrowane z
odpowiednia˛ dokładnościa˛ do wyliczenia funkcji informacji (41). Fakt, że dysponujemy wyrażeniem na
warunkowy bład
˛ pomiaru dla testu utworzonego z takich itemów w postaci pierwiastka odwrotności funkcji informacji testu (41), umożliwia wprowadzenie interesujacych,
˛
optymalnych metod konstrukcji testów.
Ogólna zasada, która˛ sie˛ należy kierować, składa sie˛ z dwóch etapów. Pierwszym jest założenie, z jaka˛
dokładnościa˛ i w jakim zakresie pragniemy, aby nasz test mierzył badana˛ ceche.
˛ W etapie tym budujemy zatem docelowa˛ funkcje˛ informacji testu (target test information function). W etapie drugim natomiast,
wykorzystujac
˛ nasze n0 itemów dokonujemy wyboru n ¬ n0 itemów tak, żeby n było najmniejsze oraz
powstała funkcja informacji testu była nie mniejsza niż docelowa. Relacje miedzy
˛
funkcjami informacji itemów a informacja˛ całego testu ilustruje Rysunek 2. MMimo iż konceptualnie jest to bardzo proste, problem
ten stanowi skomplikowane zadanie optymalizacji, którego metody rozwiazywania
˛
wykraczaja˛ poza zakres
niniejszego artykułu (Gruijter & van der Kamp, 2002, str. 129–130).
Baker wyróżnia nastepuj
˛ ace
˛ rodzaje testów (2001, str. 154):
1. Testy przesiewowe (screening tests); sa˛ to testy skonstruowane tak, aby możliwie mocno dyskryminowały miedzy
˛
osobami powyżej oraz poniżej pewnego ustalonego poziomu Θ = θ0 . I(θ) takiego
testu bedzie
˛
sie˛ charakteryzować zdecydowanym wzrostem wartości w pobliżu θ0 , w jej skład bed
˛ a˛
90
wchodzić pozycje o zbliżonej trudności skupionej wokół wartości cechy bed
˛ acej
˛ obiektem zainteresowania twórcy testu.
2. Testy o szerokim zasiegu
˛
(broad-ranged tests); sa˛ to testy bed
˛ ace
˛ przeciwieństwem poprzednich.
Maja˛ na celu badanie cechy możliwie dokładnie w obrebie
˛
szerokiego zakresu wartości Θ, kształt
I(θ) jest zatem spłaszczony, a w jego skład wchodza˛ zróżnicowane itemy.
3. Testy o waskim
˛
zasiegu
˛
(peaked tests); sa˛ czymś pośrednim pomiedzy
˛
dwoma wcześniejszymi rodzajami testów. Mierza˛ one ceche˛ zdecydowanie lepiej w pewnym obszarze cechy, lecz nie tak
zdecydowanie, jak testy przesiewowe. Uzasadnieniem tworzenia takich testów jest bardziej fakt, że
˛ a˛ wartości cechy z wyróżnianego obszaru, niż cheć
˛ rozw populacji badanych najcz˛eściej wystepuj
różniania miedzy
˛
dwoma grupami badanych, jak ma to miejsce w przypadku testu przesiewowego.
Z powyższego widać, że IRT umożliwia tworzenie testów nakierowanych na mierzenie cechy z a priori zadana˛ dokładnościa˛ w żadanym
˛
zakresie cechy. Faktem godnym odnotowania jest także to, że tworzac
˛ test
z prekalibrowanego (precalibrated) zbioru itemów można dzieki
˛ lokalnej ich niezależności łaczyć
˛
pozycje
ze soba˛ w sposób zupełnie dowolny, przy czym właściwości psychometryczne tak powstałego narz˛edzia
sa˛ łatwo i bezpośrednio uzyskiwane poprzez sumowanie funkcji informacji pozycji testowych (37).
Omówione sposoby konstrukcji testów odwołuja˛ sie˛ do budowania tradycyjnych narz˛edzi, tak zwanych
testów „papier–ołówek” (paper pencil tests), czyli narz˛edzi składajacych
˛
sie˛ ze stałego zbioru pozycji,
najcz˛eściej też ułożonych w tej samej kolejności. W momencie, gdy test jest rozwiazywany
˛
w formie elektronicznej i spełnione jest założenie o lokalnej niezależności pozycji, można zastosować opisana˛ logik˛e
tworzenia testów w sposób bardziej dynamiczny, otrzymujac
˛ równie dokładne pomiary przy mniejszym
koszcie lub pomiary tak samo dokładne przy tym samym koszcie, jeżeli przez koszt rozumiemy ilość pozycji, na jaka˛ badana osoba musi udzielić odpowiedzi. Podejście takie nosi nazwe˛ adaptatywnego testowania
komputerowego (computer adaptive testing, CAT).
W CAT postepuje
˛
sie˛ według nastepuj
˛ acego
˛
algorytmu: najpierw określamy górna˛ granice˛ SEM, z jakim
co najwyżej pragniemy uzyskać pomiar cechy danej osoby, zaczynamy od pewnej startowej wielkości
poczatkowej
˛
szacujacej
˛
poziom cechy badanej osoby θˆ0 (np. średnia z populacji) i za każda˛ udzielona˛
odpowiedzia˛ uaktualniamy I(θ) oraz wartość SEM(θ). Jeżeli w kroku k -tym badanie nie osiagn
˛ eło
˛ odpowiedniej precyzji, to w nastepnym
˛
kroku administrujemy taka˛ pozycje,
˛ która w zbiorze pozostałych pozycji
w punkcie θˆk ma możliwie najwieksz
˛
a˛ wartość funkcji informacji. W ten sposób można drastycznie skrócić
czas badania, ponieważ osoba w miare˛ udzielania odpowiedzi dostaje pozycje coraz bardziej dostosowane do poziomu jej cechy i nie musi odpowiadać na szereg pozycji majacych
˛
mała˛ wartość informatywna,
˛
które znajdowałyby sie˛ prawdopodobnie w tradycyjnej wersji „papier – ołówek” testu. Unikniecie
˛
podawania
osobie pytań za trudnych badź
˛ za łatwych, niesie za soba˛ dodatkowe korzyści, polegajace
˛ na eliminowaniu
wpływu na udzielane odpowiedzi takich niepożadanych
˛
czynników, jak frustracja lub znużenie. Schemat
badania CAT przedstawia Rysunek 3.
4
4.1
Klasyczna teoria testów
Porównanie założeń czynionych przez obydwie teorie.
Jak już wspominano, wszystkie założenia na temat sytuacji testowania, jakie poczyniono w paragrafie 2
dotycza˛ zarówno klasycznej teorii testów, jak i teorii odpowiadania na pozycje testowe. W szczególności
prawda˛ jest, że jedyna˛ obserwowana˛ zmienna˛ w eksperymencie badania testem jest wektor odpowiedzi
~u określony na przestrzeni zdarzeń elementarnych P × K (14). Również w momencie, gdy ustalona
zostanie osoba j ∈ P , czyli funkcja (15) przyjmie wartość V = j , to rozkład odpowiedzi na każda˛ pozycje˛
bedzie
˛
dany za pośrednictwem wzoru (17).
Omawiajac
˛ podstawy modeli odpowiadania na pozycje testowe, wprowadzono kolejne założenia, miano-
91
'
$
START
&
%
?
k=0
θ̂k = θ̂0
SEM
?
Wybór optymalnego
dla θ̂k itemu;
k =k+1
?
Rejestracja
odpowiedzi uk
?
Estymacja θ̂k ;
Obliczenie SEM(θ̂k )
?
@
@
@
@
SEM(θ̂k )¬ SEM @
Nie
@
@
@
@
@
Tak
' ?
$
STOP
&
%
Rysunek 3: Schemat blokowy badania CAT. Na podstawie (Gruijter & van der Kamp, 2002, str. 139)
wicie, że istnieje pewna zmienna ukryta Θ, dla której zachodzi Θ(j, t) = Θ(j, t0 ) dla dowolnych t ∈ K
(19), oraz spełnione jest założenie lokalnej niezależności pomiarów (23). Sprowadzało sie˛ to faktycznie do
stwierdzenia, że test jest jednowymiarowy i w konsekwencji uzyskano pełny model statystyczny dla omawianej sytuacji eksperymentalnej (22). Mimo iż w teorii klasycznej założenie jednowymiarowości formalnie
nie jest czynione, omawiajac
˛ teraz teorie˛ klasyczna˛ przyjmiemy w kilku miejscach, że jest spełnione. Zrobimy tak z trzech wzgledów:
˛
1. Założenie o jednowymiarowości wydaje sie˛ najbardziej elementarnym założeniem, umożliwiajacym
˛
skonstruowanie w pełni określonego modelu statystycznego, opisujacego
˛
sytuacje˛ badania testem
w kontekście pomiaru pewnych ukrytych zmiennych. Bez niego model byłby po prostu niedookreślony14 . GGdyby założenie takie było zbytnim uproszczeniem w pewnych okolicznościach, zawsze jest
możliwość wprowadzenia dodatkowych zmiennych ukrytych, aby lepiej wytłumaczyć zmienność obserwowanych wyników. Wielowymiarowość testu powodowałaby skomplikowanie modelu, co wydaje
sie˛ niepotrzebne w kontekście przeprowadzanych rozważań.
2. Po założeniu, że zachodzi pewien model IRT, możliwe staje sie˛ bezpośrednie porównanie wielkości definiowanych w klasycznej teorii testów z odpowiednimi konstruktami teorii odpowiadania na
pozycje testowe.
3. Teoria klasyczna, w celu umożliwienia estymacji bardzo istotnego dla niej parametru rzetelności
(zostanie on zdefiniowany później), czyni pewne specyficzne założenie, które jest tylko nieznaczne
łagodniejsze od założenia o lokalnej niezależności spotykanego w IRT.
14
92
Jak później zostanie wykazane, jest to jedna z podstawowych wad teorii klasycznej.
Aby odnieść sie˛ precyzyjniej do trzeciego z wymienionych punktów, musimy sie˛ bliżej przyjrzeć założeniu
o lokalnej niezależności pomiarów (23). Okazuje sie,
˛ że założenie to jest równoważne równoczesnemu
spełnieniu dwóch innych warunków: eksperymentalnej niezależności (experimental independence) oraz
{emphlokalnej homogeniczności (local homogeneity ), czyli:
(
lokalna niezależność ⇐⇒
lokalna homogeniczność
eksperymentalna niezależność
(44)
Formalny dowód powyższego dla dwóch pomiarów można znaleźć u Lorda i Novicka (1968, str. 539–540),
natomiast dla przypadku ogólnego u Ellisa i van der Wollenberga (1993, str. 420–423). My podamy jedynie
postać pojawiajacych
˛
sie˛ w (44) warunków. Eksperymentalna niezależność jest nastepuj
˛ acym
˛
założeniem
∀j∈P ∀~x∈{0;1}n
P (~u = ~x|V = j) =
n
Y
P (ui = xi |V = j),
(45)
i=1
natomiast tak wyglada
˛ lokalna homogeniczność:
∀j∈P ∀~x∈{0;1}n
P (~u = ~x|V = j) = P (~u = ~x|Θ = θj ).
(46)
Założenie o eksperymentalnej niezależności (45) mówi, że w momencie ustalenia konkretnej osoby j odpowiedzi, jakie udziela ona na poszczególne pytania testu, sa˛ wzgledem
˛
siebie niezależne statystycznie.
Można to zinterpretować w ten sposób, że każda osoba posiada stały zbiór cech (ograniczajac
˛ sie˛ do
tego założenia nie musi to być zatem pojedyncza cecha), który w pełni określa współzmienność udzielanych przez nia˛ odpowiedzi. Przestrzeń replikacji K dla ustalonej osoby j jest odpowiedzialna jedynie za
specyficzne dla każdej pozycji źródła losowości. Założenie o lokalnej homogeniczności mówi natomiast,
że wszystkie osoby o tym samym poziomie cechy maja˛ taki sam rozkład odpowiedzi. Konkretna wartość
zmiennej Θ zatem wyznacza w populacji P pewna˛ klase˛ abstrakcji osób, których nie da sie˛ miedzy
˛
soba˛
odróżnić na podstawie obserwacji udzielanych przez nie odpowiedzi w teście ~
u — osób o tym samym
poziomie mierzonej cechy. Zamiast określać, jaka osoba j została wylosowana do badania testem, wystarczajace
˛ jest podanie wartości pojedynczego parametru Θ = θj .
Klasyczna teoria testów natomiast, w celu umożliwienia estymacji współczynnika rzetelności, dokonuje
założenia o liniowej eksperymentalnej niezależności pomiarów, które w zastosowaniu do pojedynczych
pozycji przyjmuje postać:
(
∀j∈P ∀i,i0 ∈{1,2,...,n}
E(uij |ui0 j ) = E(uij )
E(ui0 j |uij ) = E(ui0 j )
(47)
czyli, że dla wszystkich par pozycji testu dla konkretnej osoby j odpowiedzi na pozycje˛ i nie wpływaja˛ na
wartość oczekiwana˛ odpowiedzi na pozycje˛ i0 i odwrotnie. Zgodnie z przeprowadzona˛ wcześniej argumentacja,
˛ dla ustalonej osoby j odpowiedzi udzielane na każda˛ pozycje˛ i maja˛ rozkład dwupunktowy, który
zależy od pojedynczego parametru πij (wzór (17)). Omawiajac
˛ przykład rzutu moneta˛ udowodniono natomiast, że wartość oczekiwana takiego rozkładu jest równa właśnie parametrowi πij (wzór (9)). Warunek
(47) nakłada zatem, w kontekście dychotomicznych pozycji, wymaganie, aby jedyny parametr, od którego
zależa˛ rozkłady odpowiedzi ui oraz ui0 , nie zależał od rozkładów odpowiednio ui0 oraz ui . Oznacza to po
prostu, że wszystkie pozycje testu po ustaleniu osoby j musza˛ być wzgledem
˛
siebie parami niezależne:
∀j∈P ∀i,i0 ∈{1,2,...,n} ∀xi ,xi0 ∈{0;1}
P (ui = xi , ui0 = xi0 |V = j) =
= P (ui = xi |V = j)P (ui0 = xi0 |V = j),
(48)
co jest jedynie nieznacznym zaostrzeniem eksperymentalnej niezależności (44). Jak sie˛ okaże samo założenie (47) nie jest jednak wystarczajace
˛ do opisu zmienności obserwowanych w teście wyników.
93
4.2
Wynik uzyskany, wynik prawdziwy, bład
˛ pomiaru
Zmienna˛ losowa,
˛ która w teorii klasycznej służy do oszacowania poziomu mierzonej testem cechy, jest
wynik uzyskany w teście, oznaczany najcz˛eściej jako X i określony wzorem:
n
X
X=
ui .
(49)
i=1
Jest to zwykła suma poszczególnych odpowiedzi udzielonych na pytania testu. Wynik uzyskany jako funkcja ui jest oczywiście zmienna˛ losowa˛ określona˛ na przestrzeni P × K .
Wynik prawdziwy ustalonej osoby j definiuje sie˛ jako:
τj = E(X|V = j) = E(Xj ),
(50)
czyli jest to wartość oczekiwana ze zmiennej (49), przy nałożonym warunku V = j . Dla każdej osoby j
bedzie
˛
to pewna stała, charakteryzujaca
˛ ta˛ osobe,
˛ wartość. Aby w sposób spójny z definicja˛ (50) określić
wynik prawdziwy T , na całej przestrzeni P × K dokonuje sie˛ złożenia warunkowej wartości oczekiwanej
z X wzgledem
˛
V z funkcja˛ V, czyli:
T = E(X|V ) ◦ V.
(51)
Zależności miedzy
˛
funkcjami T , V oraz E(X|V ) zestawia poniższy diagram (Zimmerman, 1975, str. 397):
/ P
II
II
II
E(X|V )
I
T II$
V
P ×K
(52)
R
Funkcja E(X|V ) : P −→ R odpowiada definicji wyniku prawdziwego dla stochastycznej interpretacji
osoby, jaka˛ zapisano w (50) i dla każdej j wylosowanej z P otrzymujemy E(X|V )(j) = E(X|V = j) =
τj . Poprzez złożenie z funkcja˛ V natomiast, wynik prawdziwy T jest określony na przestrzeni zdarzeń
elementarnych P × K . Warto zauważyć, że tak zdefiniowany wynik prawdziwy T ma właściwość, że dla
każdej osoby j ∈ P przyjmuje stała˛ wartość τj niezależnie od replikacji k ∈ K , czyli właściwość jaka˛
postulowano w IRT dla zmiennej ukrytej Θ (19). Można podsumować:
_GF
(j, t) T
V
/
j
E(X|V
)
/
ED
τj
,
(53)
czyli T (j, t) = E(X|V ) ◦ V (j, t) = E(X|V = V (j, t)) = E(X|V = j) = τp .
Na tak zdefiniowanych zmiennych losowych X oraz T możliwe jest dokonywanie operacji arytmetycznych
(ta sama przestrzeń zdarzeń elementarnych). Trzecia˛ istotna˛ dla KTT wielkościa˛ jest bład
˛ pomiaru, który
jest określony po prostu jako różnica tych dwóch zmiennych:
E =X −T
(54)
Dla błedu
˛
E danego przez (54) można udowodnić (Zimmerman, 1975, str. 404–405), że wartość oczekiwana błedu
˛
pomiaru wynosi zero:
E(E) = 0
(55)
oraz, że zerowa bedzie
˛
wartość oczekiwana iloczynu zmiennych T oraz E :
E(T E) = 0
94
(56)
Powyższe pociaga
˛ za soba˛ zerowa˛ kowariancje˛ 15 miedzy
˛
T oraz E :
cov(T, E) = σT E = 0,
(57)
która jest własnościa˛ cz˛esto wykorzystywana˛ w dowodach różnych twierdzeń KTT.
Poziom cechy w teorii klasycznej jest mierzony jako wartość oczekiwana ze zmiennej X . Dokonujac
˛ pojedynczego badania testem, czyli losujac
˛ pare˛ (j, t) ∈ P × K , otrzymujemy pewna˛ realizacje˛ wyniku
otrzymanego X(j, t) = x. Zarejestrowany w takim eksperymencie wynik otrzymany x stanowi nieobcia˛
16
żony estymator wyniku prawdziwego T (j, t) = τ , co możemy zapisać τ̂ (j, t) = x. W porównaniu z
modelem IRT oszacowanie poziomu cechy jest zatem bezpośrednie. Należy jednak zauważyć, że poprzez dodanie do siebie odpowiedzi nastepuje
˛
utrata pewnej informacji zawartej we wzorze udzielonych
odpowiedzi, która może być istotna z punktu widzenia pomiaru poziomu cechy17 .
4.3
Rzetelność
W równaniu (54) określiliśmy zależność, w której mamy obserwowana˛ zmienna˛ X , która zależy liniowo od
sumy dwóch zmiennych T oraz E i to w taki sposób, że dla ustalonej wartości T = τ 18 wartość oczekiwana
z X jest zgodnie ze wzorem (50) stała.
Opisane zależności dla trójki X , T oraz E przypominaja˛ model regresji liniowej, który w ogólnej postaci
jest zazwyczaj definiowany jako:
Y = α + βξ + ε,
(58)
gdzie ε sa˛ niezależnymi od poziomu ξ losowymi składnikami błedu
˛
o rozkładzie z wartościa˛ oczekiwana˛
19 2
E(ε) = 0 oraz pewna˛ stała˛ wariancja˛ σε , gdzie β i α sa˛ parametrami regresji (Gajek & Kałuszka, 1999,
str. 132). Prosta regresji ma równanie E(Y |ξ) = µY |ξ = α + βξ . Dla (58) definiuje sie˛ współczynnik
determinacji:
ρ2Y |ξ =
D2 (E(Y |ξ))
D2 (Y )
(59)
czyli stosunek wariancji zmiennej Y wyjaśnianej przez prosta˛ regresji µY |ξ = α+βξ do całkowitej wariancji
zmiennej Y . Z niezależności zmiennych oraz ξ otrzymujemy:
D2 (Y ) = D2 (α + βξ + ε) = D2 (α + βξ) + D2 (ε) + cov(α + βξ, ε) =
= D2 (E(Y |ξ)) + σε2 = σY2 + σε2
(60)
co pozwala zapisać współczynnik determinacji w alternatywnej postaci:
ρ2Y |ξ = 1 −
σε2
σY2
(61)
Kowariancja˛ dwóch określonych na tej samej przestrzeni probabilistycznej zmiennych losowych ξ oraz ξ 0 nazywa
sie˛ wielkość:
15
cov(ξ, ξ 0 ) = σξξ0 = E
ξ − E(ξ) ξ 0 − E(ξ 0 ) = E(ξξ 0 ) − E(ξ)E(ξ 0 ).
Kowariancja jest miara˛ współzmienności liniowej miedzy
˛
dwoma zmiennymi losowymi. Jej zerowa wartość nie musi
oznaczać niezależności dwóch zmiennych, ale dwie zmienne niezależne zawsze maja˛ kowariancje˛ równa˛ zeru.
16
Nieobciażonym
˛
estymatorem wartości oczekiwanej jest średnia arytmetyczna z próby losowej, a w tym przypadku mamy „jednoelementowa˛ próbe˛ losowa".
˛
17
Zakładajac
˛ model IRT, suma odpowiedzi udzielonych odpowiedzi ma szanse˛ być estymatorem efektywnym (zobacz przypis 13) tylko, jeżeli wszystkie pozycje maja˛ równoległe wzgledem
˛
siebie ICC i nie nastepuje
˛
zgadywanie
(Lord, 1983, str. 238).
18
Ustalenie wartości zmiennej losowej T = τ rozumiemy jako przeciwobraz wartości τ , czyli wszystkie osoby
j ∈ P , których wynik prawdziwy w teście wynosi τ razy (×) cała przestrzeń replikacji K .
19
Założenie o stałym poziomie wariancji zwane jest założeniem o homoscedastyczności.
95
Dla modelu (58) współczynnik determinacji jest również równy kwadratowi z współczynnika korelacji Pearsona miedzy zmienna˛ Y , a zmienna˛ ξ :
cov(ξ, Y )
2
ρ2Y |ξ = (ρY ξ ) =
!2
p
D2 (Y )D2 (ξ)
,
(62)
stad
˛ dla jego oznaczenia wykorzystano stosowany dla korelacji symbol ‘ρ’.
Jeżeli przyjmiemy, że rozkład błedu
˛
w modelu regresji liniowej (58) jest normalny, to znajac
˛ wartość stałej
jego wariancji σε2 , możemy zbudować (1 − α)100% przedział ufności dla konkretnej realizacji zmiennej
Y = y przy ustalonej wartości ξ = x (porównaj (35)):
q
q
(y − z1− α σε2 ; y + z1− α σε2 ).
(63)
2
2
Podobieństwo X = T + E do modelu regresji liniowej (58) z parametrami α = 0 oraz β = 1 (zatem Y =
ξ + ), jest w teorii klasycznej nieprzypadkowe. Współczynnik determinacji (59) dla równania X = T + E
jest podstawowym parametrem, służacym
˛
w teorii klasycznej do opisu precyzji, z jaka˛ test mierzy poziom
cechy definiowany jako wynik prawdziwy i nazywa sie˛ go współczynnikiem rzetelności testu. Mamy:
ρ2X|T =
D2 (T )
σT2
=
2
D2 (X)
σX
(64)
Współczynnik rzetelności testu jest stosunkiem wariancji wyników prawdziwych σT2 do całkowitej obserwo2 , zatem mówi nam, jaka˛ cz˛
wanej wariancji wyników σX
eść zmienności obserwowanych wyników X można
przypisać wartości zmiennej T . Zgodnie z (62) współczynnik rzetelności można interpretować także jako
kwadrat z współczynnika korelacji miedzy
˛
wynikiem prawdziwym T a wynikiem uzyskanym w teście X
Ponieważ dla otrzymania analogicznej do (59) zależności wystarczajaca
˛ jest zerowa kowariancja miedzy
˛
T oraz E , która˛ mamy w (57), współczynnik rzetelności testu można, zatem również zapisać:
ρ2X|T = 1 −
2
D2 (E)
σE
=
1
−
2 .
D2 (X)
σX
(65)
Przekształcaja˛ powyższe wzgledem
˛
wariancji błedu
˛
otrzymamy:
2
2
σE
= σX
(1 − ρ2X|T ).
(66)
W klasycznej teorii testów pierwiastek z (66), czyli odchylenie standardowe błedu,
˛
jest używane jako miara
standardowego błedu
˛
pomiaru dla każdej wartości T , zgodnie ze wzorem (63). Przedział ufności τ̂ dla
estymatora wyniku prawdziwego τ bedzie
˛
miał, zatem postać:
q
q
2 (1 − ρ2
2 (1 − ρ2
α
(τ̂ − z1− α σX
);
τ̂
+
z
σX
(67)
1−
X|T
X|T )).
2
2
Należy zauważyć jednak, że zdefiniowana w teorii klasycznej zależność X = T + E , spełnia formalnie wszystkie założenia modelu regresji liniowej (57), oprócz jednego — mianowicie założenia o stałej
wartości wariancji błedu.
˛
Założenie stałej wartości wariancji błedu
˛
było właśnie istotnym założeniem przy
wyprowadzaniu wzoru (63), i przeniesienie go do teorii klasycznej bez dokonania dodatkowego założenia,
jest po prostu nietrafne.
2 zależy od wyniku prawdziwego.
Uzasadnijmy, że wbrew wymaganemu dla (67) założeniu, wariancja σE
W tym celu przyjmijmy, że test spełnia jednowymiarowy model IRT (22) i niech ICC bed
˛ a˛ monotoniczne.
96
Ponieważ spełnione sa˛ założenia (45) oraz (46) oraz wiemy, że dla pojedynczej pozycji E(ui |Θ = θ) =
gi (θ) dostajemy:
∀j∈P ∀~x∈{0;1}n
τj
E(X|V = j) =
=
(45)
n
X
(46)
i=1
n
X
(9),(21)
i=1
n
X
=
=
=
E(ui |V = j) =
E(ui |Θ = θj ) =
gi (θj ).
(68)
i=1
Zatem otrzymaliśmy bardzo proste przekształcenie skali Θ IRT w skale˛ T klasycznej teorii testów wyrażone
poprzez sume˛ krzywych charakterystycznych pozycji testowych. Cytujac
˛ Lorda, można powiedzieć, że
„wynik prawdziwy T oraz zdolność Θ sa˛ ta˛ sama˛ rzecza,
˛ tylko wyrażona˛ na różnych skalach"(1980, str. 46).
Z postaci (68) wynika, że jeżeli gi sa˛ monotonicznie rosnace,
˛ to wynik prawdziwy T klasycznej teorii testów
bedzie
˛
monotonicznie rosnac
˛ a˛ funkcja˛ poziomu zdolności Θ teorii odpowiadanie na pozycje testowe.
Korzystajac
˛ znowu z niezależności pozycji testowych, przy ustalonym poziomie Θ = θ możemy zapisać:
!
n
X
2
2
ui Θ = θ
=
D (X|Θ = θ) = D
i=1
(23)
=
n
X
(10)
D2 (ui |Θ = θ) =
i=1
n
X
gi (θ)(1 − gi (θ)),
(69)
i=1
i jest to także proste wyrażenie zawierajace
˛ funkcje gi . Pojawiajaca
˛ sie˛ w (69) wariancja jest wariancja˛
wyniku X , przy ustalonej wartości zmiennej Θ, co ze wzgledu
˛
na (68) jest równoważne z ustaleniem
P
wyniku prawdziwego T na pewnym poziomie T (θ) = ni=1 gi (θ). Ze wzoru X = T + E wynika, że w
momencie ustalenia wartości zmiennej T , cała obserwowana wariancja zmiennej X jest wariancja˛ błedu,
˛
zatem otrzymujemy wyrażenie na warunkowa˛ wariancje˛ błedu
˛
E klasycznej teorii testów:
2
2
D (E|Θ = θ) = D (E|T = T (θ)) =
2
σE|T
(θ)
=
n
X
gi (θ)(1 − gi (θ))
(70)
i=1
2
Uwzgledniaj
˛
ac
˛ postać na σE|T
dana˛ za pomoca˛ wzoru (70), jasne sie˛ staje, że dla monotonicznego modelu IRT wariancja błedu
˛
bedzie
˛
sie˛ zmieniała. Dla wystarczajaco
˛ niskich oraz wysokich wartości θ (co
z monotoniczności (68) pociaga
˛ takie same relacje dla wartości τ ) wariancja wszystkich pozycji bedzie
˛
2
malała, natomiast w środku skali bedziemy
˛
obserwować wieksze
˛
wartości σE|T (θ) . Wykres ilustrujacy
˛ za2 , a wartościami wyniku prawdziwego można stworzyć przy pomocy parametrycznego
leżność miedzy
˛
σE|T
równania:

v
uX


u n

2

t
gi (θ)(1 − gi (θ))

 σE|T (θ) =
i=1
(71)
n

X



=
gi (θ)

 T (θ)
i=1
˛
pozycji w modelu 2PLM,
Rysunek 4 pokazuje wykres określony równaniem (71) dla tych samych pieciu
jakie zostały użyte w rysunku Rysunku 2 przy omawianiu funkcji informacji w IRT.
2 , jaka używana jest przez klasyczna˛ teorie
Bezwarunkowa wariancja błedu
˛ pomiaru σE
˛ testów do budowania przedziałów ufności dla każdego poziomu T , jest jedynie uśrednieniem po rozkładzie T warunkowych
97
Rysunek 4: Warunkowy bład
˛ pomiaru skojarzony z wynikami na skali T klasycznej teorii testów. Wykres
został stworzony na podstawie zależności danej układem równań (71) dla tych samych 5-ciu itemów, jakie
zostały użyte w Rysunku 2.
2 . Jeżeli oznaczymy rozkład prawdopodobieństwa zmiennej Θ jako ϕ, możemy wprost zapiwariancji σE|T
sać:
n Z +∞
X
2
gi (θ)(1 − gi (θ))ϕ(θ)dθ.
(72)
σE =
i=1 −∞
2
To, na ile (72) odbiega od wartości σE|T
na danym poziomie T = T (θ), zależeć bedzie
˛
od tego, jakie
sa˛ wartości poszczególnych gi oraz od tego, jaki rozkład mierzona cecha ma w populacji badanych osób.
Majac
˛ na wzgledzie
˛
Rysunek 4 należy sie˛ spodziewać, że o ile rozkład T nie bedzie
˛
U-kształtny, wartość
2 bedzie
2
σE
˛
zaniżać σE|T
na środku skali oraz zawyżać ja˛ na brzegach. Stawia to pod pewnym znakiem
zapytania trafność budowanych przez te˛ teorie˛ przedziałów ufności dla wyniku prawdziwego.
2 jest funkcja˛ rozkładu cechy w populacji, tak samo bedzie
Ponieważ σE
˛
od rozkładu tej cechy zależał
współczynnik rzetelności testu (64). Wprowadzajac
˛ rzetelność testu jako podstawowy parametr opisujacy
˛
precyzje˛ dokonywanych testem pomiarów, teoria klasyczna dostarcza parametru opisujacego
˛
nie tyle sam
test, ale łacznie
˛
test oraz populacje˛ badanych testem osób. Jeżeli testem zostanie przebadana osoba odbiegajaca
˛ poziomem cechy od przecietnych
˛
wartości w populacji20 , wnioski co do precyzji dokonywanego
testem pomiaru bed
˛ a˛ po prostu błedne.
˛
2
Oprócz omówionych praktycznych implikacji błednego
˛
założenia, że σE|T
ma stała˛ wartość należy wspomnieć o konsekwencjach braku kontroli rozkładu zmiennej E przez teorie˛ klasyczna,
˛ które by można nazwać „metodologicznymi". Po ustaleniu poziomu cechy T = τ , cała obserwowana zmienność X wynika
2 , czy precyzyjniej rozkładu zmiennej E , przy waze zmienności błedu
˛
E (54). Nie znajac
˛ postaci na σE|T
runku T = τ , otrzymujemy niepełny model, w sensie braku aparatury probabilistycznej do opisu rozkładu
prawdopodobieństwa podstawowej obserwowanej w teorii klasycznej zmiennej, jaka˛ jest wynik uzyskany
w teście X . Nawet w momencie, gdy przyjmiemy, że znany jest rozkład wyników prawdziwych T w badanej populacji, to i tak rozkład E(τ ) bedzie
˛
nieokreślony bez założenia jednowymiarowości narz˛edzia w
rozumieniu lokalnej niezależności (23), czego teoria klasyczna nie czyni w żadnym miejscu, co najwyżej
20
W praktyce oznacza to sytuacje,
˛ gdy osoba badana odbiega od przecietnych
˛
wartości cechy w próbie, na podstawie której wartość parametru rzetelności została oszacowana. Jeżeli próba ta nie była reprezentatywna, co niestety
cz˛esto może mieć miejsce, konsekwencje moga˛ być znamienne.
98
zakładajac
˛ liniowa˛ eksperymentalna˛ niezależność (47).
Kosztem skromności założeń i prostoty „modelu" klasycznej teorii testów otrzymujemy niewystarczajac
˛ a˛
ilość informacji, aby określić postać trójki (Ω, σ(~
u), P). O ile przestrzeń zdarzeń elementarnych jest wspólna dla obydwu teorii i określona, o tyle rodzina rozkładów prawdopodobieństwa P , dla obserwowanej
w eksperymencie zmiennej X (49), nie została określona, tym bardziej sparametryzowana w sensowny
sposób za pomoca˛ T . Stad
˛ piszac
˛ o „modelu" klasycznej teorii testów użyto cudzysłowu, gdyż formalnie rzecz biorac,
˛ za model statystyczny w rozumieniu (5), teorii klasycznej uznać nie można. Z tego też
wzgledu
˛
dla wykazania pewnych właściwości parametrów zdefiniowanych w klasycznej teorii, konieczne
było założenie zachodzenia pewnego modelu IRT — można powiedzieć, że teoria klasyczna nie rozwineła
˛
odpowiedniego „jezyka”
˛
do opisania tych właściwości.
4.4
Parametry pozycji testowych klasycznej teorii testów
Oprócz współczynnika rzetelności testu ρ2X|T , teoria klasyczna wprowadziła szereg parametrów służa˛
cych do opisu poszczególnych pozycji testu. Odgrywaja˛ one duża˛ role˛ przy konstrukcji testów, oraz przy
interpretacji poszczególnych odpowiedzi w teście.
Trudność pozycji testowej πi w klasycznej teorii testów jest definiowana jako wartość oczekiwana ze
zmiennej ui , czyli:
πi = E(ui ),
(73)
Oznaczenie trudności pozycji KTT poprzez πi jest nieprzypadkowa˛ zbieżnościa˛ z parametrem pojawiaja˛
cym sie˛ we wzorach (4) oraz (17) opisujacych
˛
rozkład dwupunktowy, ponieważ taki właśnie rozkład ma
zmienna ui jeżeli rozpatrywać go na całej przestrzeni P × K . Znajac
˛ wartość trudności (73) możliwe jest
zgodnie ze wzorem (10) wyznaczenie wariancji tej pozycji:
σi2 = πi (1 − πi )
(74)
Ze wzoru na (74) wynika, że najwieksz
˛
a˛ wariancje˛ bedzie
˛
miała pozycja, której trudność wynosi πi = 0, 5,
a w miare˛ oddalania sie˛ od tej wartości, wariancja spada aż do zera dla πi = 1 oraz πi = 0. Oznacza to, że
potencjalnie najwieksz
˛
a˛ zdolność różnicowania osób w populacji maja˛ pozycje o przecietnej
˛
trudności, w
porównaniu do pozycji o skrajnych πi , które wnosza˛ mniej do sumarycznej wariancji obserwowanych wyników X . Dana pozycja może mieć jednak maksymalna˛ wariancje˛ i jednocześnie być zupełnie statystycznie
niezależna od reszty pozycji w teście i aby ocenić przydatność danej pozycji, wprowadzono współczynnik
dyskryminacji:
σiX
ρiX =
,
(75)
σi σX
q
2 . Współczynnik dyskryminacji jest korelacja˛ miedzy
gdzie σi = σi2 oraz σX = σX
˛
wynikiem uzyskiwanym w całym teście, a odpowiedziami na dana˛ pozycje,
˛ zatem stanowi pewna˛ miare˛ współzmienności
danej pozycji z reszta˛ pozycji testu.
p
Wielkościa˛ niejako łacz
˛ ac
˛ a˛ informacje˛ zawarta˛ w obydwu opisanych parametrach KTT jest wskaźnik rzetelności pozycji i:
ρiX σi σX
= ρiX σi ,
(76)
ai =
σX
który jest ładunkiem danej pozycji na pierwszym wspólnym dla wszystkich odpowiedzi czynniku (Henrysson, 1962, str. 420).
Aby zastanowić sie˛ nad właściwościami zdefiniowanych powyższymi wzorami parametrów pozycji testu
2 w poprzednim paragrafie, załóżmy zaw KTT, podobnie jak zrobiliśmy w przypadku wariancji błedu
˛
σE
chodzenie jednowymiarowego modelu IRT. Pozwoli to nam również poznać zależności i naświetlić różnice
miedzy
˛
tymi teoriami. Rozkład zdolności Θ w populacji oznaczmy poprzez ϕ.
99
W przypadku trudności pozycji testowej (75), skorzystać można bezpośrednio z zależności gi (θ) = P (ui =
1|θ) = E(ui |θ) i uśrednić warunkowa˛ wartość oczekiwana˛ E(ui |θ) po rozkładzie cechy w populacji:
Z
πi =
+∞
−∞
+∞
Z
E(ui |θ)ϕ(θ)dθ =
gi (θ)ϕ(θ)dθ.
−∞
(77)
Aby w podobny sposób przedstawić parametry ρiX oraz ai , wystarczy zauważyć, że:
2
σX
=
n
X
σi2 +
n
X
σii0 ,
(78)
i6=i0
i=1
oraz:
n
X
σiX =
σii0 ,
(79)
i0 =1
czyli potrzebujemy wyrażeń na wariancje˛ każdej pozycji oraz na kowariancje˛ miedzy
˛
dowolnymi dwoma
pozycjami. Z (74), uwzgledniaj
˛
ac
˛ (77), otrzymujemy nastepuj
˛ ace
˛ wyrażenie na wariancje:
˛
Z +∞
Z +∞
gi (θ)ϕ(θ)dθ .
(80)
gi (θ)ϕ(θ)dθ 1 −
σi2 = πi (1 − πi ) =
−∞
−∞
Z lokalnej niezależności (23) wynika:
E(ui ui0 |θ) = E(ui |θ)E(ui0 |θ) = gi (θ)gi0 (θ),
(81)
co pozwala natomiast, przy uwzglednieniu
˛
(77), obliczyć kowariancje˛ miedzy
˛
dwoma pozycjami:
σii0
= E(ui ui0 ) − E(ui )E(ui0 ) =
Z
+∞
=
−∞
gi (θ)gi0 (θ)ϕ(θ)dθ −
Z
+∞
Z
gi (θ)ϕ(θ)dθ
−∞
+∞
−∞
gi0 (θ)ϕ(θ)dθ
(82)
Uwzgledniaj
˛
ac
˛ (78–79) szukane wielkości otrzymamy podstawiajac
˛ uzyskane wyrażenia na wariancje˛ (80)
i kowariancje˛ (82) do:
n
X
σii0
ρiX
σiX
=
=
σi σX
j=1
v
,
uX
n
n
X
u
2
σi t σi +
σii0
i=1
oraz:
n
X
ai = v
uX
n
u
t
j6=i
σii0
j=1
σi2
(83)
+
i=1
n
X
.
(84)
σii0
j6=i
2 oraz wyrażenie na σ 2
˛ ICC oraz rozDodatkowo, majac
˛ σX
E|T (θ) (70), możemy w zupełności jako funkcje
kładu ϕ przedstawić omawiana˛ w poprzednim paragrafie rzetelność testu (65):
n Z +∞
X
ρ2X|T
σ2
= 1 − E2 = 1 −
σX
i=1 −∞
gi (θ)(1 − gi (θ))ϕ(θ)dθ
n
X
σi2
+
i=1
gdzie σi2 oraz σii0 sa˛ odpowiednio dane wzorami (80) oraz (82).
100
n
X
j6=i
,
σii0
(85)
4.5
Porównanie z parametrami IRT. Implikacje praktyczne
W poprzednim rozdziale przedstawiono praktycznie wszystkie istotne dla klasycznej teorii testów parametry w kontekście spełniania przez test modelu IRT. Narzucajacym
˛
sie˛ wnioskiem z wyprowadzonych
wzorów jest, że wszystkie wielkości używane przez teorie˛ klasyczna˛ do opisu właściwości psychometrycznych testu charakteryzuja˛ nie tyle sam test, ale również grupe˛ badawcza,
˛ na podstawie której sa˛
oszacowywane –– w każdym z nich pojawia sie˛ rozkład cechy ϕ. Jasne jest, jak już wspomniano przy
komentowaniu bezwarunkowej miary SEM (72), że stosowanie narz˛edzi rozwinietych
˛
w obrebie
˛
KTT do
określania jakości wyników testowych wzgledem
˛
grup osób mogacych
˛
w sposób istotny obiegać od grupy
standaryzacyjnej, powinno budzić istotne zastrzeżenia.
W IRT rozkład badanej cechy natomiast praktycznie nie odgrywał żadnego znaczenia. Wprowadzony on
został do naszych rozważań dopiero w kontekście wyprowadzania wyrażeń określajacych
˛
parametry KTT
jako funkcje ich odpowiedników w IRT. Jest tak, ponieważ przy założeniu, że parametr położenia i rozproszenia zmiennej Θ bed
˛ a˛ ustalone21 , parametry krzywych charakterystycznych pozycji testowych nie
powinny ulegać zmianom bez wzgledu
˛
na to, jaki zmienna Θ ma w rzeczywistości rozkład. ICC można
postrzegać jako regresje˛ wyniku prawdziwego uzyskiwanego w pytaniu wzgledem
˛
poziomu cechy, a funkcja regresji zazwyczaj sie˛ charakteryzuje tym, że od rozkładu predyktora nie zależy. To, jaka jest wartość
P (ui = 1) w danym punkcie Θ = θ zależeć powinno tylko od wartości θ, a nie od tego jak duża˛ cz˛eść
osób w populacji charakteryzuje taki właśnie poziom cechy (Lord, 1980, str. 35).
Niezależność parametrów ICC (badź
˛ ogólniej jej kształtu) od rozkładu cechy ilustruje Rysunek 5, na którym
widać, że obydwie z grup osób badanych testem powyżej i poniżej punktu θ = 0, 4 dostarczaja˛ informacji o
kształcie krzywej i, jeżeli rozkład ϕ(θ) byłby zakotwiczony, to powinniśmy, uwzgledniaj
˛
ac
˛ wyniki oddzielnie
22
dla każdej z podgrup, dostać takie same oszacowania parametrów ICC . Wracajac
˛ do teorii klasycznej
jeżeli przyjrzeć sie˛ (77), ewidentne jest, że dla dwóch wyszczególnionych podgrup, uzyskalibyśmy zupełnie
inne wartości tego parametru — dla osób o wyższym poziomie cechy pozycja jest średnio łatwiejsza niż
dla osób o niższym jej poziomie.
Bardzo ciekawe implikacje praktyczne wynikaja,
˛ jeżeli spojrzeć na opisywana˛ niezależność parametrów
od rozkładu cechy w IRT z innej strony. Załóżmy, że parametry tej samej pozycji zostały niezależnie od
siebie oszacowane w dwóch grupach różniacych
˛
sie˛ położeniem oraz rozproszeniem cechy. Uzyskane
wtedy oszacowania parametrów bed
˛ a˛ sie˛ różnić. Jednak zakładajac,
˛ że w obydwu grupach pytanie mierzy
te˛ sama˛ pojedyncza˛ ukryta˛ zmienna˛ Θ, wiemy, że jeżeli umieścilibyśmy badanych na wspólnej skali, uzyskalibyśmy ICC o tym samym kształcie. W ten sposób doszliśmy do przedstawienia opisowo podstaw, na
jakich opiera sie˛ w IRT jedna z metod porównywania wyników pochodzacych
˛
z różnych narz˛edzi — wystarczy żeby w obydwu narz˛edziach znajdywała sie˛ jedna wspólna pozycja, aby móc umieścić uzyskiwane
nimi wyniki na tej samej skali. Głebsze
˛
zanalizowanie tego zagadnienia wykracza poza zakres niniejszej
˛ na niekontrolowany wpływ rozkładu
pracy 23 , niemniej godne uwagi jest, że w teorii klasycznej ze wzgledu
cechy na parametry opisujace
˛ test porównanie wyników nie było możliwe.
21
Modele IRT sa˛ niezmiennicze wzgledem
˛
liniowych transformacji parametru Θ. Na przykładzie dwuparametrycznego modelu logistycznego, jeżeli we wzorze (25) byśmy dodali do każdego parametru bi stała˛ wartość b∗i = bi + β
i jednocześnie przesunelibyśmy
˛
skale˛ cechy Θ o ta˛ sama˛ wartość, czyli θ∗ = θ + β dostalibyśmy identyczny model.
Podobnie gdybyśmy dokonali przekształceń: a∗i = ai α−1 , b∗i = bi α, oraz θ∗ = θα, też otrzymaliśmy równoważny
model (Lord, 1980, str. 36). Zjawisko to odgrywa istotna˛ role˛ przy kalibracji testu — konieczne jest ustalenie parametru położenia i rozproszenia dla Θ (procedura ta nosi nazwe˛ zakotwiczania, ang. anchoring), a najprostsza˛ metoda˛
jest zwykła standaryzacja otrzymanych θ̂ (Baker & Seock-Ho, 2004, str. 90)
22
Podobnej argumentacji dla zilustrowania tego zagadnienia użył Baker (2001, str. 51–55).
23
Wiecej
˛
informacji na temat porównywania wyników testowych można znaleźć w rozdziale 13. ksiażki
˛
(Lord,
1980). Tematyce tej poświecony
˛
bedzie
˛
również kolejny numer Egzaminu.
101
Rysunek 5: Niezmienniczość parametrów w IRT na przykładzie ICC dwuparametrycznego modelu logistycznego. Wykres został stworzony dla jednego z itemów testu z egzaminu maturalnego z chemii przeprowadzonego w roku 2006 i ilustruje rozproszenie empirycznych proporcji prawidłowych odpowiedzi wzgle˛
dem dopasowanej krzywej 2PLM o parametrach âi = 2, 98, b̂i = 0, 01. Punkty zaznaczone na czerwono
odpowiadaja˛ obserwowanym proporcjom poprawnych odpowiedzi dla wartości Θ ¬ 0, 4, a punkty zielone
Θ > 0, 4.
5
Zakończenie
Teoria klasyczna powstawała na poczatku
˛
dwudziestego stulecia pod dużym wpływem korelacyjnej orientacji Spearmana w naukach społecznych. Odzwierciedla sie˛ to w kluczowej roli, jaka˛ odgrywa w tej teorii
koncepcja rzetelności testu. W statystyce i rachunku prawdopodobieństwa panowało wtedy jeszcze podejście cz˛estościowe. Dopiero Lord i Novick w 1968 roku przeformułowali KTT, aby była ona w zgodzie z
aksjomatyzacja˛ teorii prawdopodobieństwa podana˛ przez Kołmogorowa. Teoria odpowiadania na pozycje
testo-we opiera sie˛ natomiast na osiagni
˛ eciach
˛
na polu teorii estymacji, których prekursorem był Fisher
w latach 20-30-tych XX wieku. Ze wzgledu
˛
na skomplikowanie modeli pojawiajacych
˛
sie˛ w ramach IRT,
prawdziwy jej rozkwit uwarunkowany był rozwojem komputerów i trwa do dziś.
Ujete
˛ w telegraficznym skrócie czynniki historyczne w dużej mierze odpowiadaja˛ za różnice miedzy
˛
teoria˛
klasyczna˛ a IRT. Różnice te dotycza˛ zarówno nakładanych na pomiar testowy założeń, parametrów opisujacych
˛
osoby i test, jak też używanego do szacowania parametrów danej teorii aparatu statystycznego.
Sytuacja eksperymentalna, przed opisem której staja˛ obydwie teorie, jest jednak taka sama — z populacji
P zostaje wylosowana pewna osoba, która udziela odpowiedzi na n pytań testu. Dzieki
˛ temu możliwe
było przeprowadzenie ścisłego porównania rozwiaza
˛ ń oferowanych przez obydwa podejścia.
Pierwszym nasuwajacym
˛
sie˛ z przeprowadzonych analiz wnioskiem jest, że rozwiazania
˛
oferowane przez
klasyczna˛ teorie˛ testów dostarczaja˛ niepełnego modelu dla wyjaśnienia obserwowanej podczas badania
testem zmienności odpowiedzi. Dopiero przy założeniu, że zachodzi model IRT, możliwe stało sie˛ wyjaśnienie wielu właściwości definiowanych w teorii klasycznej parametrów służacych
˛
do opisu testu oraz
poziomu cechy badanej osoby, w szczególności:
Wyprowadzone wzory (77), (80) oraz (82) pokazuja˛ sposób, w jaki podstawowy zestaw parametrów
istotnych dla KTT –– trudność pozycji πi , wariancja pozycji σi2 oraz wszystkie kowariancje σii0 zależa˛ od rozkładu cechy w populacji. Jako bezpośrednia˛ konsekwencje˛ otrzymujemy relacje wiaż
˛ ace
˛ z
rozkładem cechy pozostałe fundamentalne, służace
˛ do opisu statystycznych właściwości testu, wiel-
102
kości: rzetelność testu ρ2X|T , ρiX , mówiaca
˛ o mocy dyskryminacyjnej danej pozycji oraz wskaźnik
ai , mówiacy
˛ o ładunku danej pozycji na pierwszym wspólnym z innymi pozycjami czynniku.
Zależność (71) pokazuje, jak zależy bład
˛ oszacowania wyniku prawdziwego T poprzez otrzymany
wynik w teście X .
Powyższe stwierdzenia dostarczaja˛ nam pewnych ram umożliwiajacych
˛
określenie stopnia przydatności
teorii klasycznej, w jakim stosujac
˛ ja˛ do opisu testu i podejmowania na jej podstawie decyzji, możemy
popełnić w konkretnych przypadkach bład.
˛
Modelujac
˛ w sposób lokalny rozkład odpowiedzi na pozycje testowe za pomoca˛ IRT, możliwe staje sie˛
jednak o wiele wiecej,
˛
niż dokonanie pełniejszego opisu i wytłumaczenie wad teorii klasycznej.
Wśród podstawowych zalet IRT, stanowiacego
˛
nowa˛ jakość w porównaniu z KTT, można wymienić:
Niezmienniczość parametrów IRT. Dzieki
˛ tej właściwości możliwe staje sie˛ porównywanie wyników
pochodzacych
˛
z różnych testów mierzacych
˛
te˛ sama˛ ceche˛ lub detekcja zróżnicowania funkcjonowania pozycji testowych (differential item functioning, DIF ) wskazujaca
˛ na przykład na stronniczość
pozycji wzgledem
˛
pewnych podgrup bada-nych osób. Jest to zatem cecha wprost trudna do przecenienia.
Podanie warunkowego SEM (θ), zmieniajacego
˛
sie˛ w zależności od prawdziwej wartości szacowanego poziomu cechy. Potencjalnie umożliwia to precyzyjniejsze wyznaczenie przedziału ufności
dla θ̂ niż dostarcza KTT dla τ̂ = X w postaci SEM obliczonego z użyciem koncepcji rzetelności.
Warunkowa ocena precyzji, z jaka˛ dana pozycja mierzy ceche,
˛ jest ponadto nieoceniona w CAT.
Dokonujac
˛ estymacji poziomu cechy danej osoby j , w IRT przeprowadza sie˛ maksymalizacje˛ funkcji wiarygodności dla wektora jej odpowiedzi (29), w wyniku czego wkład poszczególnych pytań do
uzyskiwanej wartości estymatora θ̂ jest różny. Estymator T̂ = X teorii klasycznej jest zwykła˛ suma˛ odpowiedzi i ma szanse˛ być estymatorem efek-tywnym jedynie, jeżeli wszystkie pozycje maja˛
równoległe wzgledem
˛
siebie ICC i nie nastepuje
˛
zgadywanie. Zatem IRT może dostarczać precyzyjniejszych oszacowań cechy od teorii klasycznej w rozumieniu wielkości wariancji estymatora.
Podsumowujac
˛ powyższe, IRT przedstawia rodzine˛ modeli statystycznych, dajacych
˛
pełniejszy od teorii klasycznej opis skomplikowanych właściwości pomiaru hipotetycznej cechy determinujacej
˛
odpowiedzi
udzielane w teście. Dzieki
˛ niej potrafimy dokonać ścisłego opisu zależności różnych wielkości definiowanych w teorii klasycznej od rozkładu cechy w badanej populacji, co pozostawało poza zasiegiem
˛
samej
KTT. Ponadto dzieki
˛ niezmienniczości parametrów IRT jesteśmy w stanie dokonywać zrównywania wyników testowych, kontrolować DIF. Dzieki
˛ lokalnej mierze błedu
˛ mamy szanse˛ wiarygodniejszego budowania
przedziałów ufności dla oszacowania cechy oraz potrafimy tworzyć komputerowe testy w sposób dynamiczny, dobierajace
˛ pytania tak, aby zoptymalizować proces badania, skracajac
˛ jego czas (długość testu),
a co za tym idzie, obniżajac
˛ koszty. Na koniec stoimy przed możliwościa˛ oszacowania cechy w sposób
bardziej efektywny, niż dzieje sie˛ to w teorii klasycznej. Do wad niektórych modeli teorii odpowiadania na
pozycje testowe należy to, że o możliwości korzystania ze wszystkich z powyższych zalet decyduje jakość
uzyskiwanych oszacowań parametrów, a ta w dużej mierze zależy od stosowanych metod estymacji oraz
wielkości prób, na podstawie których zostały one oszacowane.
Literatura
Anderson, T. W. (1959). Some scaling methods and estimation procedures in the latent class model. In
U. Grenander (Ed.), Probability and Statistics (pp. 9–38). New York: Wiley.
Baker, F. B. (2001). The Basics of Item Response Theory. ERIC.
103
Baker, F. B. & Seock-Ho, K. (2004). Item Response Theory. Parameter estimation technicques. New York:
Marcel Dekker.
Coombs, C. H., Dawes, R. M., & Tversky, A. (1977). Wprowadzenie do psychologii matematycznej. Warszawa: Wydawnictwo Naukowe PWN.
Deutsch, R. (1969). Teoria estymacji. Warszawa: Pańswtwowe Wydawnictwa Naukowe.
Ellis, J. L. & van der Woldenberg, A. L. (1993). Local homogeneity in latent trait models. A characterization
of the homogenous monotone IRT model. Psychometrika, 58(3), 429–417.
Formann, A. K. (1988). Latent class models for nonmonotone dichotomous items. Psychometrika, 53(1),
45–62.
Gajek, L. & Kałuszka, M. (1999). Wnioskowanie statystyczne dla studentów. Modele i metody. Warszawa:
Wydawnictwa Naukowo-Techniczne.
Gruijter, D. N. M. & van der Kamp, L. J. (2002). Statistical test theory for education and psychology.
Henrysson, S. (1962). The relation between factor loadings and biserial correlations in item analisys.
Psychometrika, 27 (4), 419–424.
Holland, P. (1990). On the sampling foundations of item response theory models. Psychometrika, 55(4),
577–601.
Kondratek, B. (2007). Klasyczna teoria testów a teoria odpowiadania na pozycje testowe. Teoretyczne i
empiryczne porównanie rozwiaza
˛ ń dla pozycji ocenianych dychotomicznie. Katowice: Niepublikowana
praca magisterska.
Lehmann, E. L. (1991). Teoria estymacji punktowej. Warszawa: Wydawnictwo Naukowe PWN.
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hilsdale, New
Jersey: Lawrance Erlbaum.
Lord, F. M. (1983). Unbiassed estimators of ability parameters, of their variance and of parallel-forms
reliability. Psychometrika, 48(2), 233–245.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, Massachusetts:
Addison-Wesley.
Rao, C. R. (1982). Modele liniowe statystyki matematycznej. Warszawa: Pańswtwowe Wydawnictwa
Naukowe.
Zimmerman, D. W. (1975). Probability spaces, Hilbert spaces, and the axioms of test theory. Psychometrika, 40(3), 395–412.
104

1 Wprowadzenie

Transkrypt

Podobne dokumenty

streszczenie

Liczba /pi - PWSZ Legnica

Podstawy teorii decyzji

Przedstawi´c równanie oscylatora harmonicznego x + ω x = 0 w

Wykład 2

To nie jest gra planszowa! - Związek Pracodawców Gospodarki

Zadanie 11.1. Wiemy, ˙ze stopy zwrotu 3 akcji s a opisywane przez

zadania

Diamentowy szyfr

Poj˛ecie funkcji. Funkcja liniowa