Ewa Sto ek OKE Łódź ZADANIA „ROZRYWAJĄCE” W TESTACH Na
Transkrypt
Ewa Sto ek OKE Łódź ZADANIA „ROZRYWAJĄCE” W TESTACH Na
Ewa Stożek OKE Łódź ZADANIA „ROZRYWAJĄCE” W TESTACH Na podstawie analizy danych empirycznych ze sprawdzianu 2004 i 2006 roku wyodrębniono zadania „odpowiedzialne” za dwumodalność rozkładu wyników tych testów. Takie zadania nazwano zadaniami „rozrywającymi”. Podjęto próbę opisu cech charakterystycznych tych zadań oraz określenia ich parametrów. 1. Co to jest zadanie „rozrywające”? Rozkłady wyników z egzaminów zewnętrznych przeprowadzanych w Polsce po każdym etapie kształcenia rzadko kiedy są rozkładami normalnymi. Co więcej, często są to rozkłady z wieloma dominantami (rozkłady wielomodalne). Taki kształt rozkładu sugeruje duże zróżnicowanie populacji zdających. O ile na egzaminie maturalnym na poziomie rozszerzonym jest to zrozumiałe, to na sprawdzianie, który z założenia miał być testem sprawdzającym, a nie różnicującym, taki charakter wyników może budzić niepokój. Zróżnicowanie wyników wewnątrz populacji może być następstwem wpływu różnych czynników, o różnej sile oddziaływania, np.: 1. zróżnicowanie populacji ze względu na lokalizację szkoły (miasto-wieś), 2. zróżnicowanie populacji ze względu na rodzaj szkoły (publicznaniepubliczna), 3. zróżnicowanie populacji ze względu na typ szkoły ponadgimnazjalnej (LO, LP na egzaminie maturalnym), 4. zróżnicowanie wynikające z cech zadań, występujących w teście. Ostatni z wymienionych czynników: pojedyncze zadanie w teście, odpowiedzi na które tak silnie różnicują populację, że prowadzi to do rozkładu wyników o dwóch modach będziemy nazywać zadaniem „rozrywającym”. Na rysunku 1 przedstawiono przykłady dwumodalnych rozkładów wyników sprawdzianu 2004, sprawdzianu 2006, egzaminu gimnazjalnym części humanistycznej 2003 oraz wielomodalnego rozkładu wyników egzaminu maturalnego (matematyka, Arkusz II) 2005. 30 32 32 34 34 36 36 38 38 40 40 procent uczniów procent uczniów 46 48 48 50 50 R0zkład wyników GH 2003 44 46 6% 42 44 5% liczba punktów Rozkład wyników - Arkusz II - matematyka 2005 liczba punktów 42 4% 4 3% 2 4 2% 0 2 1% 0% 5% 4% 0 Rozkład wyników - sprawdzian 2006 liczba punktów Rozkład wyników - sprawdzian 2004 30 6% 6 5% 4 6 4% 2 4 3% 2 2% 0 1% 0% 6% 5% 3% 40 40 4% 38 38 2% 36 36 3% 34 34 2% 32 32 1% 0% 30 30 1% 0% 0 Rys. 1 Przykłady wielomodalnych rozkładów wyników na różnych egzaminach zewnętrznych w latach 2003-2006. Dane OKE Łódź. liczba punktów 28 28 28 28 26 26 26 26 24 24 24 24 22 22 22 22 20 20 20 20 18 18 18 18 16 16 16 16 14 14 14 14 12 12 12 12 10 10 8 8 8 8 10 10 6 6 procent uczniów procent uczniów Czy rzeczywiście jedno zadanie może powodować powstawanie drugiej mody w rozkładzie wyników? Na sprawdzianie w 2004 i w 2006 roku takimi zadaniami okazały się zadania matematyczne, zadanie 24 oraz zadanie 21 odpowiednio. Rysunki poniżej pokazują jak zadanie matematyczne podzieliło populację uczniów: lewy rozkład to wyniki uczniów, którzy uzyskali zero punktów za to zadanie, a prawy rozkład – wyniki uczniów, którzy wiedzieli jak rozwiązać zadanie (uzyskali punkty za metodę, być może stracili punkty za błędy rachunkowe). Duża odległość między wierzchołkami (modami) tych rozkładów oraz podobne liczebności podgrup są przyczyną powstawania dwumodalnego rozkładu wyników. Rozkład wyników - sprawdzian 2006 4% % uczniów 3% 2% 1% 36 38 40 38 40 34 36 32 30 28 26 24 22 20 18 16 14 12 8 10 6 4 2 0 0% liczba punktów wiedzieli jak rozwiązać zad.21 uzyskali zera za zad.21 Rozkład wyników - sprawdzian 2004 4% % uczniów 3% 2% 1% 34 32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 0% liczba punktów uzyskali zera za zadanie 24 wiedzieli jak rozwiązać zadanie 24 Rys.2 Zadanie matematyczne podzieliło populację zdających na sprawdzianie 2004 i 2006. Rozkład wyników - sprawdzian 2006 bez zadania 21 7% 6% % uczniów 5% 4% 3% 2% 1% 30 32 34 36 38 40 30 32 34 36 38 40 28 26 24 22 20 18 16 14 12 8 10 6 4 2 0 0% liczba punktów Rozkład wyników - sprawdzian 2004 bez zadania 24 8% 7% % uczniów 6% 5% 4% 3% 2% 1% 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 0% liczba punktów Rys.3 Rozkłady wyników na sprawdzianie 2006 i 2004 bez zadań matematycznych. Zwróćmy uwagę na fakt, że rozkłady wyników sprawdzianu bez tych zadań są rozkładami z jedną modą (rys.3), zatem uzasadnione jest twierdzenie, że za dwumodalność rozkładów wyników są odpowiedzialne właśnie te zadania. Porównajmy podstawowe parametry tych zadań: 1 łatwość moc różnicująca zadanie 21 (2006) 0,42 (trudne) 0,81 (dobrze różnicuje) zadanie 24 (2004) 0,31 (trudne) 0,72 (dobrze różnicuje) Czy można na tej podstawie wnioskować, że wszystkie zadania trudne i dobrze różnicujące będą zadaniami „rozrywającymi”? 1 Opis zadań ze względu na łatwość i moc różnicującą za: D.Sołtys, M.K.Szmigel Doskonalenie kompetencji nauczycieli w zakresie diagnozy edukacyjnej, Zamiast korepetycji, Kraków 1997, s.64 2. Krzywe charakterystyczne zadania W teorii odpowiedzi na pozycje testu (item response theory, IRT) do opisu cech zadania stosuje się trójparametryczne krzywe charakterystyczne2. Krzywą charakterystyczną zadania opisuje trójparametryczna funkcja logistyczna postaci: p(θ ) = c + 1− c 1+ e −1, 702*a (θ −b ) , gdzie θ oznacza poziom pewnej cechy latentnej (np. poziomu osiągnięć, poziomu zdolności), p – prawdopodobieństwo udzielenia poprawnej odpowiedzi na zadanie, natomiast a, b, c są parametrami. Parametr a jest związany z mocą różnicującą zadania, a parametr b – z łatwością zadania. Parametr c w zadaniach wielokrotnego wyboru jest nazywany parametrem zgadywania i jest związany z podatnością zadania na zgadywanie. Geometryczna interpretacja tych parametrów jest następująca: im większe a, tym większy kąt nachylenia stycznej do krzywej logistycznej w punkcie przegięcia b, a y = c jest asymptotą poziomą wykresu funkcji p(θ ) . 1 1 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 0 -2 -1,5 -1 -0,5 0 0,5 1 1,5 -2 2 -1,5 -1 -0,5 0 0,5 1 1,5 2 B A 1 1 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 0 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 -2 -1,5 -1 C -0,5 0 0,5 1 1,5 2 D Rys.4 Przykłady krzywych charakterystycznych dla różnych zadań Zadanie z krzywą charakterystyczną A jest zadaniem trudnym, które nie różnicuje słabych uczniów, różnicuje natomiast najlepszych. Zadanie z krzywą charakterystyczną B jest zadaniem łatwym, które nie różnicuje najlepszych uczniów. Zadania 2 Hulin CH.L., Parsons C.K., Wprowadzenie do teorii odpowiedzi na pozycje testu,[w:] J.Brzeziński (red.) Trafność i rzetelność testów psychologicznych. Wybór tekstów. GWP, Gdańsk 2005, s.213-271 z krzywymi charakterystycznymi C i D są zadaniami dzielącymi populację na dwie grupy, wewnątrz których nie różnicują. Im bardziej stroma będzie krzywa charakterystyczna i im bliżej punkt przegięcia będzie środkowej wartości cechy θ, tym wyraźniejszy będzie podział – zadanie będzie zadaniem „rozrywającym”. 3. Parametry zadań „rozrywających” Spróbujmy wyrysować krzywe charakterystyczne dla zadań 21 i 24 ze sprawdzianu 2006 i 2004 odpowiednio. Zrobimy to w nieco uproszczony sposób: obliczymy łatwości omawianych zadań dla grup osób, których wyniki znalazły się w kolejnych staninach. Kolejny stanin możemy traktować jako określony poziom umiejętności ucznia, a łatwość zadania, jako prawdopodobieństwo udzielenia poprawnej odpowiedzi. Krzywą charakterystyczną uzyskamy jako krzywą regresji nieliniowej (logistycznej) z trzema parametrami (w tym celu wykorzystamy dostępną w programie SPSS opcję regresji nieliniowej). Zadanie 24 Sprawdzian 2004 1,0 p = 0,31 r = 0,72 1 łatwość 0,8 a=1,5 b=0,59 c=0,01 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 1 1,5 2 0,0 1 2 3 4 5 6 7 8 9 numer stanina Zadanie 21 Sprawdzian 2006 1,0 p = 0,42 r = 0,81 0,8 1 a=1,5 b=0,15 c=0,02 łatwość 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 0,0 -2 1 2 3 4 5 6 7 8 numer stanina Rys.5 Krzywe charakterystyczne dla zadań 21 i 24. 9 -1,5 -1 -0,5 0 0,5 Krzywe charakterystyczne tych zadań wyraźnie wskazują na ich „rozrywający” charakter, w szczególności krzywa zadania 21. Na podstawie analizy danych empirycznych ze sprawdzianu (również z lat 2002-2005) można próbować wnioskować, że zadanie będzie zadaniem „rozrywającym”, jeśli parametr a ≥ 1,5 i jednocześnie b ∈ (−0,6;0,6) . Bardziej szczegółowe analizy większej ilości materiału empirycznego (szczególnie testów maturalnych) mogą przynieść wiele nowych informacji o charakterze zadań „rozrywających”. Charakterystyka zadania poprzez analizowanie parametrów krzywej charakterystycznej daje więcej informacji o zadaniu niż analiza współczynników łatwości i mocy różnicującej. Pytania na zakończenie: 1. Czy zadania „rozrywające” są zadaniami pożądanymi w teście, szczególnie w teście o charakterze sprawdzającym? 2. Jak odróżnić zadania, które są zadaniami „rozrywającymi” na skutek swojej wadliwej konstrukcji lub nieodpowiedniego schematu punktowania od zadań w sposób zamierzony różnicujących populację? 3. Czy na etapie konstrukcji i standaryzacji testu należałoby analizować krzywe charakterystyczne zadań? Jak duża wobec tego powinna być próba standaryzacyjna?