237 Metody obliczania edukacyjnej wartości dodanej dla szkół

Transkrypt

237 Metody obliczania edukacyjnej wartości dodanej dla szkół
Uczenie się i egzamin w oczach nauczyciela
Artur Pokropek
Uniwersytet Warszawski
Metody obliczania edukacyjnej wartości dodanej dla szkół
kończących się egzaminem maturalnym
Wstęp
Wskaźnik edukacyjnej wartości dodanej (EWD) obliczany dla szkół kończących się egzaminem maturalnym, pod względem formalnym (konstrukcja
wskaźnika, modelowanie zależności, typy modeli regresyjnych i estymacji) nie
musi zasadniczo odbiegać od konstrukcji wskaźnika EWD stosowanego w Polsce
dla szkół gimnazjalnych.1 Tym, co wybitnie odróżnia EWD na poziomie szkoły
maturalnej od EWD na poziomie gimnazjum, jest strukturalna różnorodność
i złożoność samego egzaminu maturalnego, który – jako podstawa służąca
do konstrukcji wskaźników efektywności pracy szkół – stawia szereg nowych
problemów. Trzy cechy egzaminu maturalnego, w kontekście prac nad budową
wskaźnika edukacyjnej wartości dodanej, można uznać za kluczowe. Są to:
1. Duża ilość i różnorodność egzaminów (na różnych poziomach trudności).
2. Możliwość swobodnego wyboru przedmiotów (oraz ich poziomów trudności) zdawanych na maturze.
3. Różne typy szkół prowadzące do tego samego egzaminu.
Pierwsza z poruszonych kwestii jest najtrudniejsza i na niej skupimy uwagę. Problem swobodnego wyboru egzaminu łączy się ścisłe z problemem ilości
egzaminów i będzie rozważany w kontekście tego pierwszego. Kwestia trzecia
jest niezwykle ważna, niemniej jednak w tej pracy będzie poruszona jedynie
marginalnie.
I.
Na maturze uczeń może zdawać 17 przedmiotów (nie licząc języków mniejszości narodowych i języka regionalnego) na dwóch poziomach trudności, co
de facto daje niebagatelną liczbę 34 egzaminów. Przy takiej liczbie możliwe do
zrealizowania wydają się trzy strategie konstruowania wskaźnika efektywności
pracy szkoły:
Czyli wskaźnikiem EWD opartym na resztach regresji (patrz: R. Dolata (red.), Edukacyjna
wartość dodana jako metoda oceny efektywności nauczania na podstawie wyników egzaminów
zewnętrznych, CKE, Warszawa 2007.) lub efektach stałych regresji wielopoziomowej (patrz:
S. W. Raudenbush i A. S. Bryk, Hierarchical Linear Models, Sage, Thousand Oaks–London–
New Delhi 2002.).
1
237
XIV Konferencja Diagnostyki Edukacyjnej, Opole 2008
1. Stworzenie 34 oddzielnych wskaźników EWD (lub dla mniejszej ilości).
2. Stworzenie jednego, sumarycznego, wskaźnika EWD na podstawie kilkudziesięciu egzaminów.
3. Stworzenie kilku wskaźników zdających relację z kilku bloków przedmiotów (np. przedmioty humanistyczne, ścisłe, artystyczne ...).
Gdyby przyjąć rozwiązanie (1), to pod względem formalnym wskaźnik EWD
mógłby być tożsamy z EWD obliczanym dla gimnazjum, ale w tym wypadku
zmienną zależną nie byłby egzamin gimnazjalny (w części matematyczno-przyrodniczej lub humanistycznej), lecz konkretny egzamin maturalny, a wynikiem
wejściowym nie wynik sprawdzianu po szkole podstawowej, lecz wynik egzaminu
gimnazjalnego. Taka strategia ma poważne mankamenty. Spójrzmy na Tabelę 1.,
która zawiera 17 najczęściej wybieranych egzaminów (w 2007 roku). Przedstawione zostały w niej statystyki opisowe, określające alokacje uczniów zdających dany
egzamin maturalny w szkołach kończących się maturą – średnia liczebność szkół
(średnia), mediana (med.) oraz łączna liczebność uczniów (suma).2 Zakładając, iż
dla oszacowania rocznego EWD dla szkoły wymagane jest minimum 20 uczniów
zdających dany przedmiot – aby zapewnić przynajmniej zadowalającą jakość
oszacowań – informacja zwrotna z poszczególnych cząstkowych wskaźników nie
dotarłaby do większości szkół. Do więcej niż połowy szkół w Polsce dotarłaby informacja dotyczącą jedynie EWD skonstruowanego na podstawie wyników egzaminu
maturalnego z j. polskiego i j. angielskiego, na poziomie podstawowym. Wszystkie
inne wskaźniki EWD mogłyby być udostępniane mniej niż połowie szkół.
Odwołując się do dodatkowych wyników (poza Tabelą 1.), można dodać, że
25% szkół w Polsce mogłoby liczyć również na wskaźniki EWD dla geografii na
poziomie podstawowym oraz biologii na poziomie rozszerzonym. Gdybyśmy
nieznacznie osłabili założenie tak, że EWD liczona byłaby dla szkół, w których
zdawało co najmniej 19 uczniów, wskaźnik można by zaproponować również
25% szkół, których uczniowie zdawali język angielski, matematykę oraz chemię
na poziomie rozszerzonym. Co gorsze, nawet jeżeli wskaźnik liczony byłby dla
danych z trzech lat, nie poprawiłoby to znacząco sytuacji – nawet jeżeli pomnożymy wyniki przedstawione w tabeli razy trzy, ilość uczniów w szkole przypadająca na egzamin będzie nadal niezadowalająca.Sytuacja taka wydaje się nie
do zaakceptowania, gdy myślimy o zastosowaniu EWD na szeroką skalę. Choć
w określonych przypadkach może być zasadna. Informacja o wartości dodanej
dla poszczególnych przedmiotów w przypadku dużych szkół, lub szkół ukierunkowanych na konkretny typ kształcenia, może okazać się informacją pożądaną
i służącą pogłębionej ewaluacji wewnątrzszkolnej.
Wartości statystyk opisowych dla poszczególnych przedmiotów liczone są dla populacji szkół,
w których przynajmniej jedna osoba zdawała dany przedmiot.
2
238
Uczenie się i egzamin w oczach nauczyciela
Tabela 1. Liczba uczniów zdających egzamin maturalny przypadająca na szkołę.
Statystyki opisowe dla 17 egzaminów maturalnych, na dwóch poziomach trudności;
w szkołach, w których przynajmniej jeden uczeń zdawał egzamin z danego
przedmiotu, rok 2007
przedmiot egzaminu
j. polski
j. angielski
j. niemiecki
j. rosyjski
j. francuski
j. hiszpański
j. włoski
historia
biologia
geografia
matematyka
chemia
fizyka
wos
historia muzyki
historia sztuki
wiedza o tańcu
poziom podstawowy
poziom rozszerzony
średnia
med.
suma
średnia
med.
suma
49
37
11
8
3
2
2
5
10
15
8
3
3
9
3
2
2
29
22
7
5
2
1
1
3
6
10
4
2
2
6
1
1
1
303428
221679
52206
14735
2638
245
234
18596
47826
81845
32598
4498
2839
43534
460
857
25
15
17
5
3
3
2
2
11
15
11
15
13
11
14
2
3
2
5
4
2
2
2
1
1
3
4
4
4
5
4
5
1
2
1
44634
51131
6828
1513
1203
204
174
32220
44955
38992
39952
26826
20430
51423
319
3086
43
Naturalna w tym przypadku wydaje się próba zwiększenia ilości egzaminowanych z danego przedmiotu poprzez zredukowanie dwóch wymiarów trudności
– poziomu rozszerzonego i poziomu podstawowego. Zakładamy tutaj, że dany
egzamin na dwóch różnych poziomach mierzy tę samą cechę. Jeden z nich na
zagadnieniach łatwiejszych, drugi na trudniejszych. Zatem wystarczy „zrównać”,
czy może precyzyjniej „zestawić”, dwa testy względem ich trudności (nie equating
lecz linking – według terminologii anglosaskiej). Chodzi o znalezienie takiej
relacji, która doprowadziłaby do porównywalności dwóch testów. Najprostszym
sposobem do zestawienia (zrównania) jest metoda przekształcenia liniowego
lub ekwipercentylowego3.
Proste zrównanie ekwipercentylowe lub liniowe nie może wchodzić w tym
przypadku w grę, ponieważ decyzja o pisaniu trudniejszej lub łatwiejszej wersji
egzaminu należała do uczniów i jest oczywistym, iż owa decyzja nie jest przypadkowa, co łamie założenia prostego modelu zrównywania. Rysunek 1. przedstawia
M. J. Kolen i R. L. Brennan, Test Equating, Scaling and Linking Methods and Practices Second
Edition, Springer, New York 2004.
3
239
XIV Konferencja Diagnostyki Edukacyjnej, Opole 2008
histogram wyników egzaminu gimnazjalnego z 2004 roku dla maturzystów zdających egzamin z biologii na poziomie podstawowym oraz rozszerzonym w 2007
roku. Widać wyraźnie, że są to zupełnie dwie grupy uczniów. Możemy przypuszczać, że do egzaminu z biologii w wersji podstawowej przystąpili po prostu uczniowie słabsi, a do egzaminu w wersji rozszerzonej uczniowie lepsi (podobny obraz,
aczkolwiek mniej wyraźny, otrzymujemy dla części humanistycznej). Zestawianie
dwóch wyników dla tak różnych populacji jest zadaniem niezwykle trudnym.
Rysunek 1. Histogramy wyników egzaminu gimnazjalnego, cz. matematycznoprzyrodnicza (2004), dla populacji maturzystów (2007) zdających egzamin na różnych
poziomach trudności
W pewnych sytuacjach zrównywanie (zestawianie) wyników egzaminów dla
tak różnorodnych grup jest stosunkowo łatwe, jednak sytuacja egzaminu maturalnego jest szczególnie trudna. Dwie wersje danego przedmiotu ustalone ze względu
na jego trudność nie posiadają pytań wspólnych, po których dzięki skalowaniu za
pomocą pytań kotwiczących można by dokonać procedury zestawiania (zrównania) egzaminów. Co gorsza, nie ma również uczniów, którzy zdawaliby obie wersje
egzaminu, co również umożliwiłoby zrównanie (zestawienie) wyników dzięki
skalowaniu. Na zakotwiczenie wyników maturalnych w wynikach egzaminu gimnazjalnego nie możemy sobie pozwolić, gdyż czas trzech lat jest długim okresem
wypełnianym przez pracę szkół maturalnych. Operacja sprowadzania wyników do
skali sprzed trzech lat prowadziłaby nieuchronnie do utraty informacji o wartości
dodanej, a na to nie możemy sobie pozwolić.
240
Uczenie się i egzamin w oczach nauczyciela
II.
Strategia zestawiania dwóch poziomów trudności w takim kształcie egzaminu
maturalnego, jaki obecnie funkcjonuje, jest trudna, lecz nie jest niemożliwa.
Uczniowie zdają przecież wiele przedmiotów.
Polski
Polski
poziom podstawowy
poziom rozszerzony
Geografia
poziom podstawowy
Matematyka
poziom podstawowy
Rysunek 2. Hipotetyczne pary przedmiotów zdawanych na maturze przez część
populacji uczniów
Na Rysunku 1. przedstawiony został przykład porównań. Strzałka wskazuje
na to, że istnieje pewna grupa uczniów, która zdawała dany przedmiot, brak
strzałki mówi, że taka grupa nie istnieje. Na rysunku nie ma, co prawda uczniów
zdających język polski na dwóch poziomach, są natomiast uczniowie, którzy
zdawali matematykę (poziom podstawowy) i język polski (poziom podstawowy)
oraz są tacy uczniowie, którzy zdawali język polski (poziom rozszerzony) i matematykę (poziom podstawowy). Za pośrednictwem matematyki możemy ustalić
relatywną trudność przedmiotów z dwóch poziomów trudności, a tym samym
zestawić (zrównać) ich wyniki. Trzeba również zauważyć, że mamy dodatkowe
informacje – inne przedmioty, np. na Rysunku 1. dodatkowo mamy geografię na
poziomie podstawowym. Do porównań możemy wykorzystać, również uczniów
zdających język polski (poziom podstawowy) i geografię (poziom rozszerzony)
oraz korygować określanie relatywnych trudności dzięki, zdającym zarówno geografię (poziom podstawowy) i matematykę (poziom podstawowy).
Używając wiedzy o istniejących parach przedmiotów, można zestawić (zrównać) nie tylko wyniki egzaminu maturalnego z różnych poziomów trudności, lecz
również z różnych egzaminów.
Strategia zestawiania (zrównywania) jedynie poziomów trudności wydaje się
mało efektywna. Połączenie dwóch poziomów trudności w zdecydowanej większości
szkół nadal nie będzie dawało odpowiedniej liczebności uczniów, która gwarantowałaby zadowalającą precyzję oszacowań. Racjonalnym w tym wypadku wydaje się
zrównanie większej ilości egzaminów poprzez określenie ich relatywnej trudności.
Istnieje kilka sposobów określania relatywnej trudności egzaminów: proste porównanie parami, metoda Kelly’ego, gdzie nie porównuje się w jedynie par przedmiotów,
lecz uwzględnia się średnią wszystkich innych zdawanych egzaminów (model stosowany w Szkocji), metody oparte na analizie wariancji ANOVA, jak AMS (average
marks scaling) stosowana w Australii. Ostatnio jednak szczególną uwagę zwraca się
w kierunku zrównywania za pomocą modelów IRT (Item Response Theory), które
241
XIV Konferencja Diagnostyki Edukacyjnej, Opole 2008
z kilku względów wydają się najodpowiedniejszym rozwiązaniem.4
Klasyczne modele IRT5 stworzone zostały do analizowania zmiennych binarnych
(zerojedynkowych). Ogólny model IRT można zdefiniować jako:
P(xim = 1 | zm) = ci + (1 − ci)g[ai(zm − Bi)]
(1)
gdzie lewa część równania oznacza prawdopodobieństwo wystąpienia i-tego
zdarzenia dla m‑tego badanego, np. odpowiedzenia poprawnie na pytanie testowe
przy określonej indywidualnej cesze zm (umiejętności) dla m-tego respondenta.
Po prawej stronie równania: ci oznacza parametr określający możliwość „zgadywania” odpowiedzi, ai oznacza moc dyskryminacyjną pytania, a Bi jego trudność,
g natomiast funkcję łączącą (zazwyczaj logit albo probit). Gdy w modelu estymowany jest tylko jeden parametr Bi, mamy do czynienia z modelem Rascha
(dla każdego i: ai=1 oraz ci=0), gdy ai pozostaje stałe dla wszystkich pytań, lecz
jego wartość estymujemy mamy do czynienia z modelem jednoparametrycznym
(1PL). Gdy dodatkowo szacowane są parametry ai (dla każdego pytania), mówimy, że model jest dwuparametryczny (2PL), a jeżeli estymowane są parametry
ci, model określamy jako trójparametryczny (3PL). Przedstawiony model można
estymować (szczególnie chodzi tutaj o parametry Bi) w taki sposób, by brane były
pod uwagę wszystkie wyniki poszczególnych pytań, nie zaś całych egzaminów
(uwzględniając trudności innych pytań), które nie są przecież oceniane w skali
0 – 1. Po estymacji trudności wszystkich pytań zadanych na maturze w danym
roku można stworzyć jedną skalę, na której wyniki z poszczególnych przedmiotów
będą porównywalne. A tym samym poprzez odpowiednie ich przeważenie można
stworzyć jeden sumaryczny wynik dla szkoły określający coś, co konceptualnie
moglibyśmy nazwać „umiejętnościami szkolnymi”. Można tworzyć też kilka
wskaźników, np. „umiejętności humanistyczne” i „matematyczno-przyrodnicze”,
etc.
Estymacja modelu dla poszczególnych pytań jest jednak dość skomplikowana, wymaga dostępności szczegółowych danych oraz ogromnego zaplecza
technicznego. Alternatywą w tym wypadku jest użycie modelu GRM (Granded
Response Model) zaproponowanego już w 1969 roku przez Samejima. Model
ten jest analogiczny do klasycznego IRT z tym, że przeznaczony jest dla zmiennych porządkowych o większej ilości kategorii. Model można sformułować
następująco:
P(xim = k | zm) = g(nik) − g(ni,k+1) (2)
R. Cole (red.), Relative difficulty of examinations in different subjects, CEM Centre, Durham
University 2008.
4
A. Skrondal i S. Rabe-Hesketh, Generalized Latent Variable Modeling, A CRC Press Company,
Boca Raton–London–New York–Washington, D.C. 2004.
5
242
Uczenie się i egzamin w oczach nauczyciela
gdzie:
nik = ai(zm − Bik), dla k = 1, . . . ,Ki, (3)
Lewa strona równania (2) oznacza prawdopodobieństwo odpowiedzi o kategorii k na dane pytanie xi (dla zmiennej porządkowej), po prawej stronie równania
mamy różnicę funkcji dla dwóch kolejnych kategorii odpowiedzi, gdzie nik określone jest w równaniu (3), ai oznacza parametr dyskryminacyjny pytania i, zm cechę
ukrytą respondenta m, a Bik „trudność” k-tej kategorii dla i-tego pytania. Podobnie
jak w przypadku poprzednich modeli, gdy estymujemy jedynie parametr B (dla
każdego ai=1) – uzyskujemy model analogiczny do modelu Rascha, możemy
również uzyskać analogiczny do tego modelu model jednoparametryczny (1PL)
gdy a jest estymowane, lecz pozostaje stałe dla wszystkich pytań; natomiast gdy
estymujemy dwa parametry – otrzymujemy model dwuparametryczny (2PL).
Kategoria k z równania (2) może być określona jako punkt z egzaminu maturalnego lub przedział punktowy z danego egzaminu. Właśnie tak zostały estymowane modele dla polskich danych (prezentowane w tym artykule), gdzie wynik
każdego egzaminu został podzielony na 5 równych przedziałów (gdzie pierwszą
kategorią jest 20% najgorszych wyników z każdego przedmiotu, a ostatnią 20%
najlepszych wyników).6
Na Rysunku 3. przedstawione zostały wyniki oszacowań trudności egzaminów, czyli średnia parametrów Bik dla każdego i-tego egzaminu. Na rysunku
przedstawione zostały wyniki dwóch modeli – jednoparametrycznego (1PL) oraz
dwuparametrycznego (2PL). Z modeli wyłączone zostały egzaminy, do których
przystępowało mniej niż 350 osób – wyniki estymacji dla tych egzaminów okazywały się szczególnie niestabilne. Jak widać na Rysunku 3., potoczne oczekiwania pokrywają się z wynikami modelowania. Wszystkie egzaminy z poziomów
podstawowych są łatwiejsze od tych z wersji rozszerzonej. Do najtrudniejszych
przedmiotów można zaliczyć rozszerzony egzamin z języka francuskiego, fizyki,
matematyki. Najłatwiejsze egzaminy to: rosyjski, geografia i wiedza o społeczeństwie (oczywiście na poziomie podstawowym). Ponadto wyniki estymacji
dla dwóch różnych modeli są niezwykle podobne. Wyraźne różnice widać tylko
w przypadku przedmiotów, których trudność estymowana była na małej ilości
zdających (np. historia sztuki).
Na podstawie prezentowanych wyników można stworzyć jeden lub kilka wskaźników na podstawie maturalnych wyników egzaminacyjnych, traktując prezentowane wyniki jako swoiste wagi w przekształceniach surowych wyników.
Zrównywanie wyników dla polskich danych wciąż jest w fazie testów, opisywany tutaj podział
nie jest podziałem docelowym, a raczej wybranym z powodów technicznych – możliwości
obliczeniowych komputerów.
6
243
XIV Konferencja Diagnostyki Edukacyjnej, Opole 2008
III.
Jak pokazałem, możliwe jest stworzenie jednego lub kilku wskaźników
będących podstawą do liczenia EWD dla szkół maturalnych. Pozostaje pytanie,
ile i jakie wskaźniki konstruować. Innymi słowy, jaką wartość dodaną liczyć
dla szkół maturalnych. Czy ogólną wartość dodaną – mierzącą przyrost
„umiejętności szkolnych”? Czy wskaźniki bardziej precyzyjne, np. wartość dodaną
wiedzy humanistycznej (opartej na wskaźniku stworzonym z przedmiotów
humanistycznych, takich jak język polski, historia, historia sztuki, etc.) oraz
matematyczno-przyrodniczej (opartą na matematyce, fizyce, chemii, etc.)?
Jeżeli chcemy stworzyć kilka wskaźników efektywności opartych na różnych
egzaminach, to egzaminy te powinny być do siebie podobne. Jednym ze sposobów patrzenia na podobieństwo jest odwołanie się do wyborów uczniów. Jeżeli
wybory egzaminów układają się w konkretny wzór – są uczniowie nastawieni na
przedmioty humanistyczne i takie wybierają na maturze, są również maturzyści
wybitnie nastawieni na przedmioty przyrodnicze i wybierają tylko przedmioty
przyrodnicze. Wtedy możemy mówić o podobieństwie.
1,20
1,00
0,80
0,60
0,40
1PL
2PL
0,20
0,00
wos - [r]
wos - [p]
matematyka [r]
matematyka- [p]
historia s [r]
historia s [p]
historia [r]
historia [p]
geografia [r]
geografia [p]
fizyka [r]
fizyka [p]
chemia [r]
chemia [p]
biologia [r]
biologia [p]
j. francuski[r]
j. francuski [p]
j. rosyjski [r]
j. rosyjski [p]
j. niemiecki [r]
j. niemiecki [p]
j. angielski [r]
j. angielski [p]
j. polski [r]
-0,40
j. polski [p]
-0,20
-0,60
Rysunek 3. Relatywne trudności egzaminów maturalnych – wartości w skali logitowej;
wartości dla modelu GRM jednoparametrycznego (1PL) i dwuparametrycznego
(2PL); [p] – oznacza poziom podstawowy, [r] rozszerzony przedmiotów zdawanych na
egzaminie maturalnym
244
Uczenie się i egzamin w oczach nauczyciela
Jeżeli struktura zdawania jest spójna i krystalizuje kilka typów przedmiotów,
należy wówczas zwrócić się ku koncepcji stworzenia kilku wskaźników.
Próbę uchwycenia wzorów zdawania podejmiemy za pomocą hierarchicznej
analizy skupień. Analiza taka nie jest pozbawiona mankamentów (np. uzyskana
klasyfikacja nie musi być klasyfikacją najlepszą, a jedynie lokalnie najlepszą,
poza tym kształt uzyskanej klasyfikacji silnie uzależniony jest od – niekiedy
arbitralnych – decyzji przy wyborze odległości czy centrów skupień), niemniej
jednak może być ona pomocna jako narzędzie ułatwiające wgląd w analizowane
dane. Wynik analizy skupień, gdzie analizowane były wybory danych egzaminów
(zdawał – nie zdawał), przedstawia Rysunek 4. Zastosowana tu została binarna
metoda hierarchizacji, dystansów Jaccarda, przy algorytmie maksymalizującym
odległości międzygrupowe (najdalszego sąsiada).
Rysunek 4. Hierarchiczna analiza skupień – wybory egzaminów (bi – biologia, ch –
chemia, fa – fizyka, ma – matematyka, ge – geografia, wo – wiedza o społeczeństwie,
po – język polski, hm– historia muzyki, hs – historia sztuki, wt – wiedza o tańcu, pod
– poziom podstawowy, roz – poziom rozszerzony)
Z lewej strony rysunku mamy listę przedmiotów (z wyłączeniem języka polskiego na poziomie podstawowym, który był zdawany przez wszystkich uczniów
oraz języków obcych – gdyż wymuszony jest tu wybór przynajmniej jednego).
Linie prowadzące od wyszczególnionych przedmiotów można traktować jako
graficzne reprezentacje odległości między przedmiotami. Dlatego krótkie linie
świadczyć będą o podobieństwie wyborów, długie zaś o jego braku. Interpretując
wykres, możemy powiedzieć, że maturzyści, którzy zdawali biologię na poziomie
245
XIV Konferencja Diagnostyki Edukacyjnej, Opole 2008
rozszerzonym, najczęściej jako kolejny przedmiot wybierali chemię na poziomie
rozszerzonym, do tych przedmiotów dołączają również fizyka i matematyka (poziom rozszerzony). Wyraźne skupienie tworzą też przedmioty takie jak historia,
wiedza o społeczeństwie i j. polski na poziomie rozszerzonym, do których dołącza
historia na poziomie podstawowym oraz, co jest pewnym zaskoczeniem, dwa
przedmioty – geografia na poziomie rozszerzonym oraz matematyka na poziomie
podstawowym. Jest to prawdopodobnie spowodowane specyficznymi wymaganiami niektórych uczelni.
Żadnej struktury nie pokazują natomiast większość przedmiotów z poziomu
podstawowego. Nie powoduje to ogromnego zdziwienia, ta część przedmiotów
wybierana jest prawdopodobnie ze względu na subiektywną ocenę trudności przez
uczniów zdających maturę, którzy nie mają planów łączących się z konkretnym
kierunkiem studiów. Istnieje zatem potwierdzenie, choć nie pełne, dla koncepcji
budowania przynajmniej dwóch wskaźników edukacyjnej wartości dodanej –
humanistycznej oraz matematyczno przyrodniczej. Dodatkowo zdroworozsądkowym podejściem wydaje się stworzenie również osobnego wskaźnika dla języków
obcych, który w sposób oczywisty mierzyć będzie efektywność nauczania dla
wyodrębniającej się grupy przedmiotów.
Wnioski
Istnieje kilka możliwych kierunków tworzenia wskaźników edukacyjnej
wartości dodanej dla szkół maturalnych. Żaden z nich nie jest pozbawiony wad,
o których ledwo wspomnieliśmy, jednak większość podejść, przynajmniej na
poziomie konceptualnym, wydaje się, z różnych perspektyw i dla różnych potrzeb, niezwykle użyteczne. W przypadku szkoły maturalnej równolegle powinno
powstać kilka modeli edukacyjnej wartości dodanej:
1. Model ogólny – mierzący wartość dodaną dla „ ogólnych umiejętności
szkolnych” stworzony na podstawie wszystkich egzaminów maturalnych.
2. Modele cząstkowe dla bloków przedmiotów: humanistycznego
matematyczno-przyrodniczego i bloku języków obcych.
3. Modele cząstkowe dla poszczególnych przedmiotów na różnych
poziomach.
4. Modele cząstkowe dla poszczególnych przedmiotów po zestawieniu
(zrównaniu) wyników dla różnych poziomów trudności.
Modele z pierwszych dwóch punktów powinny mieć szerokie zastosowanie
i być w przyszłości dostępne dla dyrekcji, nauczycieli, rodziców, uczniów i władz
samorządowych. Modele z dwóch ostatnich punktów powinny służyć jedynie jako
narzędzia ewaluacji wewnątrzszkolnej – dla szkół i przedmiotów, które osiągną
wystarczającą dla stabilnego oszacowania wskaźnika liczebność zdających maturzystów. Na koniec warto jeszcze wspomnieć, że modele powinny być szacowane
osobno dla różnych typów szkół prowadzących do egzaminu maturalnego, na co
wskazuje specyfika pracy tych szkół (uniemożliwiająca bezpośrednie porównywanie efektywności ich pracy).
246
Uczenie się i egzamin w oczach nauczyciela
Bibliografia:
1. Cole R. (red.), Relative difficulty of examinations in different subjects, CEM Centre, Durham
University 2008.
2. Dolata R. (red.), Edukacyjna wartość dodana jako metoda oceny efektywności nauczania na
podstawie wyników egzaminów zewnętrznych, CKE, Warszawa 2007.
3. Raudenbush S.W. i Bryk A. S., Hierarchical Linear Models, Sage, Thousand Oaks–London–
New Delhi 2002.
4. Skrondal A. i Rabe-Hesketh S., Generalized Latent Variable Modeling, A CRC Press
Company, Boca Raton–London–New York–Washington, D.C. 2004.
5. Kolen M. J. i Brennan R. L., Test Equating, Scaling and Linking Methods and Practices Second
Edition, Springer, New York 2004.
247