Ewa Sto ek OKE Łódź ZADANIA „ROZRYWAJĄCE” W TESTACH Na

Transkrypt

Ewa Sto ek OKE Łódź ZADANIA „ROZRYWAJĄCE” W TESTACH Na
Ewa Stożek
OKE Łódź
ZADANIA „ROZRYWAJĄCE” W TESTACH
Na podstawie analizy danych empirycznych ze sprawdzianu 2004 i 2006 roku
wyodrębniono zadania „odpowiedzialne” za dwumodalność rozkładu wyników tych
testów. Takie zadania nazwano zadaniami „rozrywającymi”. Podjęto próbę opisu
cech charakterystycznych tych zadań oraz określenia ich parametrów.
1. Co to jest zadanie „rozrywające”?
Rozkłady wyników z egzaminów zewnętrznych przeprowadzanych w Polsce po każdym etapie kształcenia rzadko kiedy są rozkładami normalnymi. Co więcej, często są
to rozkłady z wieloma dominantami (rozkłady wielomodalne). Taki kształt rozkładu
sugeruje duże zróżnicowanie populacji zdających. O ile na egzaminie maturalnym na
poziomie rozszerzonym jest to zrozumiałe, to na sprawdzianie, który z założenia
miał być testem sprawdzającym, a nie różnicującym, taki charakter wyników może
budzić niepokój.
Zróżnicowanie wyników wewnątrz populacji może być następstwem wpływu
różnych czynników, o różnej sile oddziaływania, np.:
1. zróżnicowanie populacji ze względu na lokalizację szkoły (miasto-wieś),
2. zróżnicowanie populacji ze względu na rodzaj szkoły (publicznaniepubliczna),
3. zróżnicowanie populacji ze względu na typ szkoły ponadgimnazjalnej
(LO, LP na egzaminie maturalnym),
4. zróżnicowanie wynikające z cech zadań, występujących w teście.
Ostatni z wymienionych czynników: pojedyncze zadanie w teście, odpowiedzi
na które tak silnie różnicują populację, że prowadzi to do rozkładu wyników
o dwóch modach będziemy nazywać zadaniem „rozrywającym”.
Na rysunku 1 przedstawiono przykłady dwumodalnych rozkładów wyników
sprawdzianu 2004, sprawdzianu 2006, egzaminu gimnazjalnym części humanistycznej 2003 oraz wielomodalnego rozkładu wyników egzaminu maturalnego (matematyka, Arkusz II) 2005.
30
32
32
34
34
36
36
38
38
40
40
procent uczniów
procent uczniów
46
48
48
50
50
R0zkład wyników GH 2003
44
46
6%
42
44
5%
liczba punktów
Rozkład wyników - Arkusz II - matematyka 2005
liczba punktów
42
4%
4
3%
2
4
2%
0
2
1%
0%
5%
4%
0
Rozkład wyników - sprawdzian 2006
liczba punktów
Rozkład wyników - sprawdzian 2004
30
6%
6
5%
4
6
4%
2
4
3%
2
2%
0
1%
0%
6%
5%
3%
40
40
4%
38
38
2%
36
36
3%
34
34
2%
32
32
1%
0%
30
30
1%
0%
0
Rys. 1 Przykłady wielomodalnych rozkładów wyników na różnych egzaminach zewnętrznych w latach 2003-2006. Dane OKE Łódź.
liczba punktów
28
28
28
28
26
26
26
26
24
24
24
24
22
22
22
22
20
20
20
20
18
18
18
18
16
16
16
16
14
14
14
14
12
12
12
12
10
10
8
8
8
8
10
10
6
6
procent uczniów
procent uczniów
Czy rzeczywiście jedno zadanie może powodować powstawanie drugiej
mody w rozkładzie wyników? Na sprawdzianie w 2004 i w 2006 roku takimi zadaniami okazały się zadania matematyczne, zadanie 24 oraz zadanie 21 odpowiednio.
Rysunki poniżej pokazują jak zadanie matematyczne podzieliło populację uczniów:
lewy rozkład to wyniki uczniów, którzy uzyskali zero punktów za to zadanie, a prawy rozkład – wyniki uczniów, którzy wiedzieli jak rozwiązać zadanie (uzyskali
punkty za metodę, być może stracili punkty za błędy rachunkowe). Duża odległość
między wierzchołkami (modami) tych rozkładów oraz podobne liczebności podgrup
są przyczyną powstawania dwumodalnego rozkładu wyników.
Rozkład wyników - sprawdzian 2006
4%
% uczniów
3%
2%
1%
36
38
40
38
40
34
36
32
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0
0%
liczba punktów
wiedzieli jak rozwiązać zad.21
uzyskali zera za zad.21
Rozkład wyników - sprawdzian 2004
4%
% uczniów
3%
2%
1%
34
32
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
0%
liczba punktów
uzyskali zera za zadanie 24
wiedzieli jak rozwiązać zadanie 24
Rys.2 Zadanie matematyczne podzieliło populację zdających na sprawdzianie 2004 i 2006.
Rozkład wyników - sprawdzian 2006
bez zadania 21
7%
6%
% uczniów
5%
4%
3%
2%
1%
30
32
34
36
38
40
30
32
34
36
38
40
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0
0%
liczba punktów
Rozkład wyników - sprawdzian 2004
bez zadania 24
8%
7%
% uczniów
6%
5%
4%
3%
2%
1%
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
0%
liczba punktów
Rys.3 Rozkłady wyników na sprawdzianie 2006 i 2004 bez zadań matematycznych.
Zwróćmy uwagę na fakt, że rozkłady wyników sprawdzianu bez tych zadań są rozkładami z jedną modą (rys.3), zatem uzasadnione jest twierdzenie, że za dwumodalność rozkładów wyników są odpowiedzialne właśnie te zadania. Porównajmy podstawowe parametry tych zadań: 1
łatwość
moc różnicująca
zadanie 21 (2006)
0,42 (trudne)
0,81 (dobrze różnicuje)
zadanie 24 (2004)
0,31 (trudne)
0,72 (dobrze różnicuje)
Czy można na tej podstawie wnioskować, że wszystkie zadania trudne i dobrze różnicujące będą zadaniami „rozrywającymi”?
1
Opis zadań ze względu na łatwość i moc różnicującą za: D.Sołtys, M.K.Szmigel Doskonalenie kompetencji nauczycieli w zakresie diagnozy edukacyjnej, Zamiast korepetycji, Kraków 1997, s.64
2. Krzywe charakterystyczne zadania
W teorii odpowiedzi na pozycje testu (item response theory, IRT) do opisu
cech zadania stosuje się trójparametryczne krzywe charakterystyczne2.
Krzywą charakterystyczną zadania opisuje trójparametryczna funkcja logistyczna
postaci: p(θ ) = c +
1− c
1+ e
−1, 702*a (θ −b )
, gdzie θ oznacza poziom pewnej cechy latentnej
(np. poziomu osiągnięć, poziomu zdolności), p – prawdopodobieństwo udzielenia
poprawnej odpowiedzi na zadanie, natomiast a, b, c są parametrami. Parametr a jest
związany z mocą różnicującą zadania, a parametr b – z łatwością zadania. Parametr c
w zadaniach wielokrotnego wyboru jest nazywany parametrem zgadywania i jest
związany z podatnością zadania na zgadywanie. Geometryczna interpretacja tych
parametrów jest następująca: im większe a, tym większy kąt nachylenia stycznej do
krzywej logistycznej w punkcie przegięcia b, a y = c jest asymptotą poziomą wykresu funkcji p(θ ) .
1
1
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0
0
-2
-1,5
-1
-0,5
0
0,5
1
1,5
-2
2
-1,5
-1
-0,5
0
0,5
1
1,5
2
B
A
1
1
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0
0
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
-2
-1,5
-1
C
-0,5
0
0,5
1
1,5
2
D
Rys.4 Przykłady krzywych charakterystycznych dla różnych zadań
Zadanie z krzywą charakterystyczną A jest zadaniem trudnym, które nie różnicuje
słabych uczniów, różnicuje natomiast najlepszych. Zadanie z krzywą charakterystyczną B jest zadaniem łatwym, które nie różnicuje najlepszych uczniów. Zadania
2
Hulin CH.L., Parsons C.K., Wprowadzenie do teorii odpowiedzi na pozycje testu,[w:] J.Brzeziński
(red.) Trafność i rzetelność testów psychologicznych. Wybór tekstów. GWP, Gdańsk 2005, s.213-271
z krzywymi charakterystycznymi C i D są zadaniami dzielącymi populację na dwie
grupy, wewnątrz których nie różnicują. Im bardziej stroma będzie krzywa charakterystyczna i im bliżej punkt przegięcia będzie środkowej wartości cechy θ, tym wyraźniejszy będzie podział – zadanie będzie zadaniem „rozrywającym”.
3. Parametry zadań „rozrywających”
Spróbujmy wyrysować krzywe charakterystyczne dla zadań 21 i 24 ze sprawdzianu
2006 i 2004 odpowiednio.
Zrobimy to w nieco uproszczony sposób: obliczymy łatwości omawianych
zadań dla grup osób, których wyniki znalazły się w kolejnych staninach. Kolejny
stanin możemy traktować jako określony poziom umiejętności ucznia, a łatwość zadania, jako prawdopodobieństwo udzielenia poprawnej odpowiedzi. Krzywą charakterystyczną uzyskamy jako krzywą regresji nieliniowej (logistycznej) z trzema parametrami (w tym celu wykorzystamy dostępną w programie SPSS opcję regresji nieliniowej).
Zadanie 24 Sprawdzian 2004
1,0
p = 0,31
r = 0,72
1
łatwość
0,8
a=1,5
b=0,59
c=0,01
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
1
1,5
2
0,0
1
2
3
4
5
6
7
8
9
numer stanina
Zadanie 21 Sprawdzian 2006
1,0
p = 0,42
r = 0,81
0,8
1
a=1,5
b=0,15
c=0,02
łatwość
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0
0,0
-2
1
2
3
4
5
6
7
8
numer stanina
Rys.5 Krzywe charakterystyczne dla zadań 21 i 24.
9
-1,5
-1
-0,5
0
0,5
Krzywe charakterystyczne tych zadań wyraźnie wskazują na ich „rozrywający” charakter, w szczególności krzywa zadania 21. Na podstawie analizy danych empirycznych ze sprawdzianu (również z lat 2002-2005) można próbować wnioskować, że
zadanie będzie zadaniem „rozrywającym”, jeśli parametr a ≥ 1,5 i jednocześnie
b ∈ (−0,6;0,6) . Bardziej szczegółowe analizy większej ilości materiału empirycznego
(szczególnie testów maturalnych) mogą przynieść wiele nowych informacji o charakterze zadań „rozrywających”. Charakterystyka zadania poprzez analizowanie parametrów krzywej charakterystycznej daje więcej informacji o zadaniu niż analiza
współczynników łatwości i mocy różnicującej.
Pytania na zakończenie:
1. Czy zadania „rozrywające” są zadaniami pożądanymi w teście, szczególnie
w teście o charakterze sprawdzającym?
2. Jak odróżnić zadania, które są zadaniami „rozrywającymi” na skutek swojej
wadliwej konstrukcji lub nieodpowiedniego schematu punktowania od zadań
w sposób zamierzony różnicujących populację?
3. Czy na etapie konstrukcji i standaryzacji testu należałoby analizować krzywe
charakterystyczne zadań? Jak duża wobec tego powinna być próba standaryzacyjna?