Każdy każdego własną miarą Kilka uwag o kryteriach oceniania

Transkrypt

Każdy każdego własną miarą Kilka uwag o kryteriach oceniania
A. Nowe pola diagnostyki edukacyjnej
Marcin Smolik
Zakład Metodyki Nauczania Języka Angielskiego UMCS, Lublin
Każdy każdego własną miarą
Kilka uwag o kryteriach oceniania
egzaminu ustnego z języka angielskiego
na poziomie podstawowym
Raport wstępny z badań
Wstęp
Przyjęcie modelu umiejętności językowych opartego na kompetencji komunikacyjnej powoduje, iż konieczne staje się zbadanie wpływu określonych
w nim czynników na jakość tekstów mówionych u testowanych oraz na osiągnięty przez nich wynik. W przypadku egzaminów ustnych sprawę komplikuje
dodatkowo obecność interlokutora i/lub oceniającego. Rys. 1. schematycznie
ilustruje omawianą sytuację.
Oceniający
Skala oceniania
Wynik
Wypowiedź
Zadanie egzaminacyjne
Egzaminujący
Zdający
Rys. 1. Zmienne w ustnych egzaminach performancji językowej (na podstawie McNamara, 1996: 86)
116
wydawnictwo_kor_ok.indd 116
19-09-2006 19:51:24
Marcin Smolik, Każdy każdego własną miarą
Diagram ten wyraźnie pokazuje, iż uzyskiwany przez testowanego wynik
nie jest, wbrew dość powszechnie panującemu przekonaniu, odzwierciedleniem
poziomu opanowania umiejętności mówienia. To, czym zdający się wykaże, zależy nie tylko od niego, ale również od tego, na co pozwoli mu zadanie egzaminacyjne oraz osoba egzaminująca (Brown, 2005). Co więcej, ta w dużej mierze
współtworzona wypowiedź (Jacoby i Ochs, 1995) podlega ocenie w wyniku
interpretacji jej zawartości i jakości przez oceniającego, który patrzy nań przez
pryzmat własnej interpretacji utworzonych dla egzaminu kryteriów oceniania,
zazwyczaj dodatkowo odpowiednio zmodyfikowanej poprzez szkolenie w ich
stosowaniu. Ostateczny wynik zawiera zatem echa wszystkich tych wpływów,
co prowadzi McNamarę (1997) do stwierdzenia, iż wynik tyle samo mówi nam
o testowanym, co o testującym.
Problem
Bez wątpienia kluczowym elementem w rozwikłaniu zagadki ‘Co ukrywa
wynik?’, czyli odpowiedzi na fundamentalne pytanie dotyczące trafności
interpretacji, jest zrozumienie, jaki wpływ na ów wynik ma oceniający. Jasne
jest, że próba analizowania wpływu jednej zmiennej w oderwaniu od oddziaływania innych zmiennych nie rozwiąże całego problemu. Jednakże próba
analizowania wszystkich zmiennych jednocześnie stwarza nierozwiązywalne
na obecnym etapie problemy metodologiczne. Fakt, że możemy badać wpływ
oceniających na wyniki egzaminu bez konieczności organizowania czasochłonnych i kosztowych schematów badawczych i tak zawdzięczamy pojawieniu się nowych metodologii (np. wieloaspektowego skalowania Rascha; por.
Smolik, 2005).
W przeważającej większości znanych mi egzaminów ustnych z języka
obcego oceniający ustala wynik, wykorzystując do tego występującą pod różnymi nazwami skalę oceniania.1 W założeniu, skala oceniania jest niezbędnym
składnikiem każdego egzaminu performancji językowej (praktycznego), gdyż
stanowi operacjonalizację konstruktu, który podlega ocenie w każdym teście.
Konstrukt sam w sobie jest hipotetycznym konceptem opisującym, zazwyczaj
w dość ogólny, teoretyczny sposób, istotę „rzeczywistości” mentalnej podlegającą ocenie, w przypadku języków obcych najczęściej w odwołaniu do jednego
lub kilku modeli umiejętności językowych lub do celów nauczania określonych w programie. Zadania egzaminacyjne oraz skala oceniania identyfikują
zachowania (zmienne obserwowalne), które można uznać za przejaw tej hipotetycznej konstrukcji mentalnej. Skala oceniania jest zatem swoistego rodzaju
1
Ograniczenie w długości artykułu nie pozwala mi na dokładne omówienie ani typów stosowanych skal, ani sposobu ich tworzenia, pozwolę sobie zatem tylko podać źródła, gdzie
informacje te można znaleźć: Alderson (1991), Brindley (1998), Fulcher (2003), Luoma
(2004).
117
wydawnictwo_kor_ok.indd 117
19-09-2006 19:51:24
A. Nowe pola diagnostyki edukacyjnej
kluczem do określenia poziomu wiedzy i umiejętności, leżących u podstaw
zaobserwowanych zachowań (kwestia ta jest ogromnie problematyczna dla
testowania języka obcego, szerzej omawiają ją McNamara (1996) oraz Smolik
(w przygotowaniu).
Z punktu widzenia twórców egzaminów ustnych kwestią absolutnie
nadrzędną jest, aby wszyscy oceniający w sposób możliwie identyczny rozumieli i używali zawartych w skali deskryptorów. Innymi słowy, konieczne jest
ocenianie według tych samych standardów; tylko wówczas będziemy mogli
mówić o ocenianiu wypowiedzi testowanych w sposób porównywalny. Jeżeli
oceniający odmiennie rozumieją zawarte w skali opisy, mogą w różny sposób (w
sensie ilości przyznanych punktów) oceniać wypowiedzi jakościowo podobne,
bądź w podobny sposób oceniać wypowiedzi jakościowo całkowicie odmienne.
W konsekwencji, prowadzi to do sytuacji, w której każdy wynik znaczy zupełnie
coś innego i niemożliwe staje się zinterpretowanie go w oderwaniu od osoby,
która dokonała oceny. John H.A.L. de Jong w sposób odrobinę przewrotny proponuje, aby w przypadku wykrycia takiej sytuacji do każdego wyniku dołączać
nazwisko oceniającego i jego curriculum vitae, bo tylko wówczas wynik stałby
się interpretowalny (forum internetowe LTEST-L, post z 14 lipca 2006). Proszę
zauważyć, iż w takiej sytuacji patrzenie na porównywalność oceniania jedynie
poprzez pryzmat wysokich wskaźników korelacji zgodności sędziów (zarówno
w sensie stałości oceniania jak i zgodności pomiędzy oceniającymi) jest – choć
wysoce pożądane – niewystarczające. Ta sama liczba punktów może bowiem
opisywać zupełnie inną jakość lub być wynikiem zastosowania, tak naprawdę,
zupełnie innych kryteriów. Psychometryczne wskaźniki stają się wówczas w dużej mierze bezużyteczne, gdyż informują nas jedynie, iż oceniający zgadzają się
w swoich ocenach dwóch zupełnie różnych kwestii. To trochę tak, jakby cieszyć
się z wysokiej dodatniej korelacji pomiędzy wzrostem a poziomem inteligencji.
Powyższa krótka dyskusja wskazuje na wyraźną konieczność prowadzenia
badań nad sposobem wykorzystania skali oceniania przez osoby oceniające
wypowiedzi ustne oraz, oczywiście, pisemne. Badania te muszą wyjść jednak
poza tradycyjny paradygmat pozytywistyczny i, dodatkowo, badać zjawiska
w oparciu o metodologie wykształcone w paradygmacie konstruktywistycznym, skupiające się na badaniu procesów myślowych oraz sposobów i dróg
podejmowania decyzji (Król, 2004). Jak słusznie zauważa Connor-Linton (1995:
763), „jeżeli nie wiemy, co robią oceniający (i dlaczego to robią), to nie wiemy,
tak naprawdę, co znaczą ich oceny.” Opisane poniżej badanie stanowi próbę
zbadania zjawisk zachodzących w przestrzeni ‘oceniający – skala’.
118
wydawnictwo_kor_ok.indd 118
19-09-2006 19:51:24
Marcin Smolik, Każdy każdego własną miarą
Badanie
Opisane poniżej badanie stanowi niewielki wycinek z badania empirycznego, będącego częścią pracy doktorskiej poświęconej zagadnieniu trafności
oceniania (Weir, 2005) maturalnego egzaminu ustnego z języka angielskiego na
poziomie podstawowym (od tej pory: EGZAMINU) (Smolik, w przygotowaniu).
W całości, na projekt2 składają się dwa powiązane ze sobą, kilkuczęściowe podprojekty (Studium A i Studium B). Opisane tu badanie jest częścią obu studiów
i stanowi próbę odpowiedzi na następujące pytania badawcze:
1. Jak oceniający postrzegają stosowane w EGZAMINIE kryteria oceniania?
2. Czy oceniający stosują kryteria oceniania w sposób stały, tzn. czy ich ocena
tej samej wypowiedzi nie podlega zbyt silnym zmianom w czasie?
3. Czy oceniający rozumieją stosowane w EGZAMINIE kryteria w sposób
podobny, czy też istnieje rozbieżność pomiędzy oceną ilościową o jej uzasadnieniem jakościowym przez różnych oceniających?
Zanim postaram się udzielić wstępnych odpowiedzi na te pytania, omówię
krótko zastosowaną metodologię.
Metodologia3
Uczestnicy badania: NAUCZYCIELE: W badaniu udział wzięło dwudziestu
nauczycieli (18 kobiet, 2 mężczyzn) różnego typu szkół średnich z Lublina
i Białej Podlaskiej. 12 z nich było wpisanych do ewidencji OKE jako egzaminatorzy egzaminu maturalnego z języka angielskiego (‘egzaminatorzy’), 8 zaś nie
(‘nie-egzaminatorzy’). 17 osób jest absolwentami filologii angielskiej, pozostali
ukończyli kolegium. Jeśli chodzi o wiek, 14 osób ma pomiędzy 26 a 35 lat, po
dwie pomiędzy 36-45 i 46-55, jeden nauczyciel ma poniżej 25 lat. Staż pracy
uczestników wahał się od 5 miesięcy do 16 lat.4
Uczestnicy badania: UCZNIOWIE: Każdy nauczyciel został poproszony
o wybranie do badania dwóch uczniów z nauczanych przez siebie klas. Z różnych
powodów, do projektu zgłosiło się w sumie 45 uczniów ostatnich bądź przedostatnich klas (25 dziewcząt i 20 chłopców), wszyscy jednak zgłaszali chęć zda2
3
4
Projekt nosił nazwę EGUSANG.PP (Egzamin Ustny z Języka Angielskiego na Poziomie
Podstawowym) i został przeprowadzony przez autora w okresie od stycznia do czerwca
2006.
Z przyczyn oczywistych, przedstawienie metodologii jest ogromnie skrótowe. W całkowitym opisie projektu grupy badawcze scharakteryzowano dużo bardziej szczegółowo.
Nauczyciele nie zostali poinformowani o rzeczywistym celu badania gdyż obawiałem się, iż
mogliby zbytnio kontrolować swoje zachowania, gdyby wiedzieli, iż badanie skupia się na
nich. Zapraszając nauczycieli do współpracy (list został wysłany do ponad 80 szkół), jako
cel badania określiłem analizę stosowanej podczas egzaminu skali. Niestety, ze względu na
ograniczone miejsce nie jestem w stanie omówić problemu podstępu w badaniach społecznych (por. Cohen i Manion, 1994: 369).
119
wydawnictwo_kor_ok.indd 119
19-09-2006 19:51:24
A. Nowe pola diagnostyki edukacyjnej
wania EGZAMINU w odpowiedniej sesji egzaminacyjnej. 67% uczniów uczyło
się języka angielskiego ponad 5 lat; 47% uczestniczyło w dodatkowych zajęciach
pozalekcyjnych; prawie wszyscy (96%) określili, iż znają format egzaminu, 67%
brało udział w zajęciach nakierowanych na przygotowanie do egzaminu.
Zastosowane narzędzia: Do przeprowadzenia badania stworzono cztery
zestawy egzaminacyjne identyczne jak te stosowane podczas egzaminu maturalnego. Zestawy zostały pozytywnie ocenione przez trzech ekspertów (pracowników CKE i OKE w Krakowie). Odpowiedzi uczniów zostały ocenione
w oparciu o kryteria zawarte w Informatorze 2005 (str. 19).
Skrótowy opis przebiegu projektu: Z każdym uczniem przeprowadzono
dwie rozmowy w oparciu o ten sam zestaw, w odstępie co najmniej tygodnia.
Jedną rozmowę przeprowadzał z uczniem jego nauczyciel (we własnej szkole), drugą rozmowę przeprowadzał nauczyciel, którego uczeń nie znał (na
UMCS). Rozmowy były nagrywane na nośniku audio-video. Bez wyjaśniania
powodów zaistnienia takiej sytuacji, powiem tylko, iż w sumie wykonano 99
nagrań. Spośród wszystkich nagrań wybrano 64, które zostały ocenione przez
19 uczestników projektu.5 Dla potrzeb niniejszego artykułu istotne jest to, iż
9 spośród tych 64 nagrań zostało ocenione dwukrotnie przez wszystkich oceniających (z 2-tygodniową przerwą pomiędzy oceną pierwszą a drugą). Tak
uzyskane dane poddano analizie ilościowej. Dodatkowo, w przypadku trzech
spośród owych dziewięciu nagrań nauczyciele zostali poproszeni o głośne
uzasadnienie przyznanej punktacji po pierwszej ocenie (stimulated verbal recall, ‘przywołanie wspomagane’; Gass i Mackey, 2000). Te same trzy nagrania
zostały następnie ocenione przez dziesięć trzyosobowych zespołów.6 Zarówno
uzasadnienie oceny przez indywidualnych oceniających jak i dyskusja nad ostateczną oceną w zespołach zostały nagrane na nośniku audio, transkrybowane
i poddane analizie jakościowej. Po zakończeniu projektu biorący w nim udział
nauczyciele wypełnili ankietę, której jedna część dotyczyła kryteriów oceniania
stosowanych w EGZAMINIE.
Metody analizy danych: Uzyskane dane (triangulacja: wyniki surowe oceniania, dane werbalne uzyskane z wywiadów, dane z ankiet) zostały poddane
analizie ilościowej i jakościowej, przy czym w analizach przyjąłem podejście
akomodacyjne (kompatybilistyczne), które zakłada, iż łączenie obu rodzajów
danych jest nie tylko wskazane, ale wręcz pożądane. Jako że cały projekt zamierzony jest jako badanie walidacyjne, każdy rodzaj danych pozwalający dogłęb5
6
Wyboru dokonałem na podstawie niezależnej oceny wszystkich 99 nagrań mojej oraz
drugiego egzaminatora w taki sposób, aby nagrania dobrze reprezentowały całe spektrum
umiejętności językowych.
Każdy zespół składał się z dwóch nauczycieli oraz pytającego, który brał udział w pracach
każdego z 10 zespołów. Ustalanie wyników w zespołach zostało przeprowadzone z zachowaniem wszystkich zasad egzaminu określonych przepisami.
120
wydawnictwo_kor_ok.indd 120
19-09-2006 19:51:25
Marcin Smolik, Każdy każdego własną miarą
niej zrozumieć naturę konstruktu jest dozwolony (Messick, 1989). W analizach
ilościowych wykorzystano zarówno statystyki opisowe, jak i inferencyjne,
oraz – przede wszystkim – wieloaspektowe skalowanie Rascha (Linacre, 1989;
McNamara, 1996; Smolik, 2005; Węziak, 2005). Analizy jakościowe przeprowadzono zgodnie z zasadami analizy danych werbalnych (verbal protocol analysis,
Ericsson i Simon, 1993).
Po tym skrótowym opisie metodologii przedstawię – ponownie w ogromnym skrócie – wyniki badania, odpowiadając krótko na każde z zamieszczonych
powyżej pytań badawczych.
Wyniki
Pytanie pierwsze: Poszukując odpowiedzi na to pytanie, dokonałem
analizy (a) odpowiedzi udzielonych przez oceniających w ankietach oraz (b)
transkrypcji uzasadniania przyznanych punktów i ustalania ostatecznej oceny
w zespołach. Ponownie, z racji ograniczeń w ilości stron, mogę jedynie przekazać bardzo ogólne wnioski.
3/4 ankietowanych nie wierzy, że skala umożliwia ustalenie sprawiedliwego
wyniku dla wszystkich zdających. Podobna ilość twierdzi, iż skala nie umożliwia
im dokonania rzetelnej oceny uczniów lepszych i słabszych językowo. Z analizy
uzasadnień, jakie podawali ankietowani wynika, iż częściowo przekonania te
mogą wynikać z głęboko wciąż zakorzenionego w nauczycielach przekonania
o wyższość kompetencji lingwistycznej nad ogólniejszą kompetencją komunikacyjną. Zastosowane w kryteriach oceniania EGZAMINU, punktowane
metodą 0-1, kryterium ‘przekazanie informacji’ zmusza oceniających niejednokrotnie do przyznania punktu za wypowiedź komunikatywną, nawet jeśli
jest naszpikowana błędami (o problemie związanym z tym kryterium poniżej).
Zaryzykuję tu stwierdzenie, iż nauczyciele przechodzą właśnie swoistego rodzaju transformację w sposobie patrzenia na to, co to, tak właściwie, znaczy „znać
język”. Oceniający w przeważającej mierze bardzo pochlebnie wypowiadają się
o oddzieleniu kryterium ‘przekazanie informacji’ od kryterium ‘umiejętności
językowe’ (80% uważa to posunięcie za dobre bądź bardzo dobre); z drugiej
strony, jednakże, 85% ankietowanych jako główną rzecz wymagającą poprawy
w obecnej skali podaje konieczność wprowadzenia ‘połówek’ punktów, podobnie
jak ma to miejsce w ocenie dłuższej formy użytkowej w egzaminie pisemnym.
5 osób (w przeważającej mierze ‘nie-egzaminatorzy’) uważa również, iż więcej
punktów powinno przyznawać się za poprawność językową.
Na ogólne pytanie, jak łatwo korzysta się z kryteriów, zdecydowana
większość ankietowanych (75%) odpowiedziała, iż łatwo bądź bardzo łatwo.
Odpowiedzi na podobne pytania, tylko tym razem dotyczące poszczególnych
kryteriów (przekazanie informacji, opis obrazka, odpowiedź na pytania, umiejętności językowe), potwierdziły odpowiedź na pytanie ogólne, z małym jednak
121
wydawnictwo_kor_ok.indd 121
19-09-2006 19:51:25
A. Nowe pola diagnostyki edukacyjnej
wyjątkiem. O ile większość ankietowanych uważa, iż deskryptory w pierwszych
trzy kryteriach są sformułowane w sposób „dość przejrzysty i jednoznaczny”, to
w przypadku umiejętności językowych większość ankietowanych, niezależnie
od tego, czy przeszli ‘szkolenie’, czy nie, uważa, iż deskryptory w tym kryterium
są sformułowane „dość ogólnikowo i można je zrozumieć w różny sposób”.
Również w wywiadach oceniający kilkakrotnie zauważali, iż nie są w stanie
w sposób jednoznaczny zinterpretować intencji twórcy skali. Jest to problem
wszystkich skal oceniania, których autorzy muszą znaleźć równowagę pomiędzy nadmierną szczegółowością a zbytnią lakonicznością i dwuznacznością,
prowadzącą do wielości interpretacji.
Pytanie drugie: W Tabeli 1. przedstawiono statystyki opisowe (kol. 3 – 7) dla
dziewięciu rozmów (kol. 1.), które zostały ocenione dwukrotnie (kol. 2., sesja
A i B) przez 19 nauczycieli. W kolumnie 8. podano wielkości współczynnika
korelacji Spearmana rho (ρ) pomiędzy ocenami punktowymi dla tej samej
rozmowy w sesji A i B, natomiast w kolumnie 9. wyniki testu t-studenta.
Tabela 1. Statystyki opisowe dla dziewięciu dwukrotnie ocenionych rozmów
Rozmowa
Sesja
Zakres
(max.
20 pkt)
Średnia
1
2
A
B
3
8 – 14
7 – 16
A
B
A
B
A
B
A
B
A
B
A
B
A
B
A
B
5 – 11
5–9
9 – 16
11 – 15
3–8
6 – 10
11 – 18
13 – 18
3–7
2 – 10
4–9
4 – 11
11 – 16
11 – 17
5 – 10
5 – 11
1
2
3
4
5
6
7
8
9
Błąd
St.
stan. śr.
odch.
4
10.47
10.79
5
0.39
0.55
6
1.72
2.44
7
10
11
7.74
7.37
12.89
13.21
5.84
7.16
14.16
15.63
5.47
6.10
6.84
7.52
13.47
13.74
7.10
6.84
0.42
0.26
0.48
0.30
0.36
0.32
0.44
0.26
0.26
0.46
0.31
0.38
0.35
0.45
0.32
0.31
1.85
1.16
2.13
1.31
1.57
1.42
1.92
1.17
1.17
2.02
1.34
1.64
1.54
1.97
1.41
1.34
7
8
12
13
6
7
14
16
6
6
7
7
14
13
7
7
Mediana
Korelacja
rho (ρ)
(A↔B)
Test t
(A↔B)
8
9
0.265
(ns)
-0.333
(ns)
0.619**
p = 0.005
0.350
(ns)
0.581**
p = 0.009
0.384
(ns)
0.709**
p = 0.001
0.467*
p =. 044
0.564**
p = 0.002
t = -0.508
(ns)
t = 0.643
(ns)
t = -0.842
(ns)
t = -3.371
p = 0.003
t = -4.270
p = 0.000
t = -1.503
(ns)
t = -2.822
p = 0.011
t = -0.620
(ns)
t = 1.097
(ns)
* – korelacja statystycznie istotna na poziomie 0.05 (test dwustronny)
** – korelacja statystycznie istotna na poziomie 0.01 (test dwustronny)
(ns) – korelacja nieistotna statystycznie
122
wydawnictwo_kor_ok.indd 122
19-09-2006 19:51:25
Marcin Smolik, Każdy każdego własną miarą
Jak widać, oceniający bardzo różnili się w ilości punktów, które przyznawali tej samej rozmowie (por. kol. 8); te same rozmowy były również inaczej
oceniane podczas dwóch kolejnych sesji (A i B; sesje oddzielała 2-tygodniowa
przerwa). Najmniejsza różnica w ocenie pomiędzy nauczycielami to 4 punkty
(np. rozmowa 2B, 4B), największa zaś to 9 punktów (rozmowa 1B). Średnio oceniający różnili się w swojej ocenie tych dziewięciu rozmów o 5.5 pkt podczas
sesji A i o 5.9 pkt podczas sesji B. Nie można tu również zignorować niepokojącego faktu, iż w przypadku 5 z 9 rozmów (2, 4, 6, 7, 9), różnica ocen pomiędzy
nauczycielami ‘zahaczała’ o newralgiczny próg 6 pkt., co oznacza, iż – gdyby
ocenianie odbywało się indywidualnie – u niektórych nauczycieli uczeń maturę
by zdał, u niektórych nie. Proszę zauważyć również, iż w przypadku rozmowy
4., fakt, czy uczeń maturę zdaje, czy nie, zależy nie tylko od tego, kto ją ocenia,
ale również kiedy ocena się odbywa. W tym miejscu praktycznie sam nasuwa
się wniosek, iż wskazane byłoby, aby organizator egzaminu określił, wzorem
chociażby egzaminu FCE, profil minimalnych kompetencji wymaganych do
zdania EGZAMINU.
Analizując średnie ocen oraz mediany, można zauważyć, iż te same rozmowy oceniane po raz drugi są, w przeważającej mierze, oceniane wyżej (w 7 z 9
rozmów średnia jest wyższa w sesji B niż w sesji A).7 Różnica pomiędzy średnimi
(kol. 9.) jest, co prawda, istotna jedynie w przypadku trzech rozmów (4, 5 i 7),
jednakże w świetle argumentów z poprzedniego akapitu, nie tylko o zadawalające statystyki tu chodzi. Aby sprawdzić, czy istotnie oceny wystawione podczas
Sesji B są wyższe niż oceny wystawione podczas Sesji A wykonałem test t-studenta dla wszystkich ocen końcowych (n = 171; 9 rozmów x 19 oceniających).
Średnie ocen dla Sesji A i Sesji B wynosiły, odpowiednio, x A =9.33, xB =9.81
(standardowe odchylenia: σ A =3.64, σ B =3.75; zakresy punktów: A: 3 – 18, B: 2
– 18). Test t-studenta wykazał, iż różnica pomiędzy średnimi wyników w Sesji
A i w Sesji B jest statystycznie istotna (t=-3.36, p=0.001, test dwukierunkowy).8
Kolejnym logicznym krokiem wydawało mi się sprawdzenie, czy osoby będące egzaminatorami OKE, przynajmniej z założenia lepiej wdrożone w system,
rozumienie kryteriów, dokonują oceny w sposób bardziej stały, mniej podlegając zmianom, wynikającym chociażby z obniżania/podwyższania oczekiwanego poziomu wypowiedzi w wyniku uczestnictwa w rozmowach jakościowo
7
8
Trzeba tu dodać, iż uczestnicy badania w każdej sesji oceniali 32 nagrania. Nie zostali poinformowani o tym, iż w Sesji B powtórnie ocenią 6 nagrań, które już oceniali w Sesji A. Z
nieformalnych rozmów po zakończeniu projektu wynika, iż uczestnicy badania nie zorientowali się, iż niektóre rozmowy były powtórzone.
Dodam tu tylko, iż wyniki analiz wyników wszystkich 64 ocenionych przez nauczycieli nagrań przy zastosowaniu wieloaspektowego modelu Rascha potwierdzają wysnuty tu wniosek, tj. poziom surowości oceniających ulega zmianom w czasie. Przyczyn zaistnienia takiej
sytuacji może być wiele, np. zmęczenie, obniżenie wymagań spowodowane wcześniejszym
ocenieniem słabszych wypowiedzi, wadliwe kryteria, ocenianie przez nieprzygotowane do
tego osoby.
123
wydawnictwo_kor_ok.indd 123
19-09-2006 19:51:25
A. Nowe pola diagnostyki edukacyjnej
słabszych/lepszych (tzw. efekt kontrastu, efekt kolejności). Aby to sprawdzić,
dla każdego nauczyciela policzyłem, w ilu rozmowach (na 9) ostateczny wynik9
przyznany w Sesji B (w stosunku do Sesji A) był niższy, taki sam, bądź wyższy.
Efekt tych analiz przedstawiam w Tabeli 2. w układzie procentowym.
Tabela 2. Stałość oceny przez egzaminatorów i ‘nie-egzaminatorów’10
Oceniający
E1
E2
E3
E4
E5
E6
E7
E8
E9
E10
E11
N1
N2
N3
N5
N6
N7
N8
N9
śr. Egz + Nie – egz
śr. Egzaminatorzy
śr. Nie – egzaminatorzy
Nie-egzaminatorzy
Egzaminatorzy OKE
Status
Wynik niższy
22.2%
22.2%
33.3%
22.2%
22.2%
44.4%
44.4%
22.2%
22.2%
33.3%
22.2%
22.2%
0%
44.4%
22.2%
33.3%
33.3%
33.3%
33.3%
28.1%
28.3%
27.8%
Wynik taki sam
44.4%
33.3%
33.3%
22.2%
55.6%
11.1%
0%
22.2%
11.1%
11.1%
44.4%
11.1%
33.3%
44.4%
11.1%
0%
33.3%
44.4%
33.3%
26.3%
26.3%
26.4%
Wynik wyższy
33.3%
44.4%
33.3%
55.6%
22.2%
44.4%
55.6%
55.6%
66.7%
55.6%
33.3%
66.7%
66.7%
11.1%
66.7%
66.7%
33.3%
22.2%
33.3%
45.6%
45.5%
45.8%
Jak widać, jeżeli weźmiemy pod uwagę ‘egzaminatorów’ i ‘nie-egzaminatorów’ jako grupy, nie ma pomiędzy nimi praktycznie żadnych różnic w stałości
oceniania. Jedynie w 1/4 przypadków ocena rozmowy w Sesji A i B była taka
sama, w około 28% była niższa, w ponad 45% wyższa. Niektórzy ‘nie-egzaminatorzy’ (N1, N2, N5, N6) wyraźnie mieli tendencję do przyznawania wyższych
ocen, natomiast patrząc na całość grupy, nie było to istotne. Jasnym jest, iż
oprócz faktu zaistnienia różnicy, istotne jest również jak duża jest różnica
pomiędzy oceną pierwszą a drugą (ocena może być wyższa o punkt, może być
wyższa o 6). Bez wątpienia również powód, dla którego ocena jest wyższa, może
9
10
Pomijam tu cały wachlarz różnic pomiędzy Sesją A i B w odniesieniu do ocen wystawianych w poszczególnych kryteriach, skupiając się jedynie na ocenie końcowej, którą mógłby
usłyszeć zdający.
Procenty mogą nie dopełniać się do 100% ze względu na zaokrąglenie.
124
wydawnictwo_kor_ok.indd 124
19-09-2006 19:51:25
Marcin Smolik, Każdy każdego własną miarą
być w każdym przypadku różny. Być może powodem było ogólne obniżenie
poziomu surowości (czym spowodowane? – zmęczeniem? dostosowaniem kryteriów do poziomu zdających?), być może jednak – i nie można tego wykluczyć
– zaistniał tu efekt kontrastu, być może np. rozmowę 4 w Sesji A poprzedzały
rozmowy na poziomie dużo wyższym niż w Sesji B. Odpowiedzi na te pytania
wymagają dalszych analiz.
W świetle dostępnych badań, wyniki takie nie są zadziwiające. Dość dobrze udokumentowanym zjawiskiem jest fakt, iż poziom surowości/pobłażliwości oceniających ulega zmianom w czasie (np. Wilson i Case, 2000). Biorąc
jednak pod uwagę wagę i znaczenie egzaminu maturalnego, należy stwierdzić,
iż nie samo pojawienie się opisywanego zjawiska jest problematyczne, ale jego
skala. Dokładniejsza analiza wyników, której nie mogę przywołać tu w całości
ze względu na ograniczenia objętościowe, pokazała, iż największa niestałość
w ocenianiu dotyczy kryteriów ‘odpowiedź na pytanie do obrazka’ (szczególnie na pytanie drugie) oraz ‘umiejętności językowe’. Podczas uzasadniania
przyznanych ocen, nauczyciele wielokrotnie mieli problem z interpretacją
sformułowania „odpowiedź pełna”, mało precyzyjne deskryptory w drugim
kryterium również sprawiały im kłopot (o czym krótko pisałem powyżej).
Warto byłoby może zatem przyjrzeć się dokładnie tym dwóm kryteriom
i spróbować je poprawić. Kolejne analizy pozwoliły mi również zauważyć, iż
ogromna ilość wariancji wyników jest związana z zastosowanym zestawem.
Okazuje się, że pomimo trzech pozytywnych recenzji ekspertów, zestawy
bardzo różniły się trudnością.11
Oczywiście, planując projekt, miałem na względzie fakt, iż ostateczna ocena
egzaminu maturalnego jest wystawiana wspólnie przez trzech członków zespołu
oceniającego. Dyskusja stanowi tylko jeden ze sposobów ustalania końcowego
wyniku (por. Johnson i in., 2003; Myford i Wolfe, 2002), natomiast wszystkie one
mają na celu przynajmniej częściowe zniwelowanie indywidualnych rozbieżności pomiędzy oceniającymi. Okazuje się jednak również, iż poziom zdawalności
zależy od przyjętej dla danego egzaminu metody ustalania ostatecznego wyniku, przy czym dyskusja nad wynikiem jest jedną z najsłabiej poznanych z tych
metod (Johnson i in., 2005).
Trzy spośród wyżej omówionych dziewięciu rozmów zostały ocenione
przez 10 trzyosobowych zespołów, w skład których wchodzili: egzaminujący
(zawsze ta sama osoba, ponieważ to właśnie ona przeprowadzała wybrane
trzy rozmowy) oraz dwóch oceniających, z których w każdym przypadku co
11
Znów z konieczności, ograniczę się jedynie do następującego wniosku. Analiza wyników
z wykorzystaniem wieloaspektowego modelu Rascha wykazała, iż wariancja związana
z zestawem odpowiadała za prawie 24% ogólnej wariancji wyników (w analizie Rascha
wartości wszystkich aspektów są szacowane niezależnie, co pozwala na zsumowanie wariancji pochodzącej z poszczególnych aspektów w celu uzyskania wariancji całkowitej, por.
Niemierko, 1999: 196).
125
wydawnictwo_kor_ok.indd 125
19-09-2006 19:51:26
A. Nowe pola diagnostyki edukacyjnej
najmniej jeden był egzaminatorem OKE i – tym samym – przewodniczącym.
W Tabeli 3. przedstawiam wyniki, jakie – w wyniku dyskusji – każdej z trzech
rozmów przyznały zespoły oceniające (numery rozmów w kolumnie 1. odpowiadają numerom rozmów z Tabeli 1., w tabeli pogrubiono wynik będący
modalną w każdym przypadku).
Tabela 3. Końcowy wynik ustalony podczas dyskusji przez 10 zespołów
Rozmowa Zes. 1 Zes. 2 Zes. 3 Zes. 4 Zes. 5 Zes. 6 Zes. 7 Zes. 8 Zes. 9
Zes. 10
7
6
9
7
9
4
8
9
7
7
7
8
14
14
15
14
12
17
16
16
16
12
9
7
6
7
6
6
9
6
7
7
7
Jak widać, różnice w ocenie tej samej rozmowy przez różne zespoły również
są dość znaczne, choć – co trochę pocieszające – mniejsze niż w przypadku
oceny przez pojedynczych nauczycieli. Dla porównania, rozbieżność pomiędzy ocenami rozmowy 8. w ocenianiu indywidualnym wynosiła (w Sesjach
A i B razem) 6 punktów, w przypadku oceny zespołowej zmniejszyła się do
5. W przypadku rozmowy 9. te różnice wynoszą, odpowiednio, 6 i 3 punkty;
w przypadku rozmowy 7., odpowiednio 7 i 5 (przy czym tutaj, ponownie, jeden
zespół (Zes. 5.) określił, iż uczeń nie powinien matury zdać). Ponieważ danych
jest zbyt mało, aby wykonywać jakieś skomplikowane analizy, muszę zatrzymać
się na poziomie wyników surowych. Namalowany obraz, choć może jeszcze bez
powodów do paniki, nie nastraja optymistycznie. Gdybym był uczniem nr 8,
chciałbym mieć możliwość wyboru zespołu, który będzie oceniał moją wypowiedź. Nie chciałbym, dla przykładu, aby oceniał mnie zespół nr 5, nie miałbym
nic przeciwko poddaniu się ocenie przez zespól nr 6… Na świadectwie miałbym
wówczas nie „60%”, a „85%”, różnica 25% skali. To niedopuszczalnie dużo.
Pytanie trzecie: Odpowiedź na pytanie dlaczego oceniający przyznają taką,
a nie inną liczbę punktów leży u podstaw zrozumienia znaczenia przyznanych
przez nich ocen. Sposób, w jaki oceniający podejmują decyzje, jest procesem
niezwykle skomplikowanym, wielowymiarowym, łączącym w sobie zarówno
czynniki osobowościowe, jak i zewnętrzne (por. model czynności oceniania
w Noizet i Caverni, 1988: 133). Jak już wyżej wspomniałem, aby ograniczyć
aspekty, które wpływają na decyzję oceniających, przygotowywana jest skala/kryteria oceniania, które nakierowują ich na wybrane aspekty wypowiedzi
(ustnej lub pisemnej) uważane przez organizatora egzaminu za najbardziej
istotne. Okazuje się jednak, iż sposób, w jaki oceniający rozumieją opisy tych
aspektów i w jaki sposób wartościują wypowiedzi uczniów w ich świetle, jest
cechą indywidualną. Aby ograniczyć tę różnorodność, prowadzone są szkolenia,
126
wydawnictwo_kor_ok.indd 126
19-09-2006 19:51:26
Marcin Smolik, Każdy każdego własną miarą
które mają za zadanie pomóc osobom oceniającym osiągnąć pewien wspólny,
pożądany standard. Ponieważ EGZAMIN może być oceniany zarówno przez
‘egzaminatorów’ jak i ‘nie-egzaminatorów’, opracowana została dla niego skala
skupiająca się na cechach ‘ilościowych’ wypowiedzi raczej niż na ‘jakościowych’
(np. „przekazał – nie przekazał informacji” vs. (upraszczając nieco) „wypowiedź
sformułowana poprawnie pod względem gramatycznym”).12
Chcąc zbadać, czy oceniający rozumieją stosowane w EGZAMINIE kryteria
w sposób podobny, zostali oni poproszeni o głośne uzasadnienie przyznanych
punktów bezpośrednio po zakończeniu oglądania nagrania. Ich wypowiedzi
zostały nagrane, transkrybowane oraz poddane analizie. Nie jestem w stanie
w tak krótkim artykule podać nawet części wniosków z tej analizy wypływających. Aby naświetlić problem, pozwolę sobie przedstawić sytuację, w której
19 oceniających praktycznie podzieliło się „pół na pół” w proponowanej
ocenie. Kwestia dotyczy, wydawać by się mogło, dość oczywistego kryterium
„przekazanie informacji”, które mówi, pozwolę sobie je tu przytoczyć w całości,
iż 1 pkt. uzyskuje uczeń wówczas, jeżeli komunikat jest „kompletny, zgodny
z poleceniem”, 0 pkt. zaś jeżeli komunikatu nie ma, bądź jest on „niezrozumiały,
niezgodny z poleceniem lub niekompletny.” Nic prostszego, mogłoby się wydawać, „łopatologiczna” wręcz decyzja ‘jest – nie ma’. A jednak.
Oto przykład. Uczeń miał za zadanie opisać cechy nowo poznanego człowieka, które go zafascynowały. W trakcie całej rozmowy zdający opisał nowo
poznaną osobę jako calm (spokojna), beautiful (piękna), interested* (interesujący, z błędem językowym), wspomniał również, iż osoba ta była w Afryce. Czyli
jakieś cechy są, nawet trzy, bo zadanie nie precyzowało, czy mają to być cechy
charakteru, czy wyglądu. Okazuje się jednak, że nie jest to aż tak oczywiste. Na
19 osób, 10 przyznało 0 punktów, 9 przyznało punkt 1, niejednokrotnie z tych
samych powodów. Poniżej przedstawiam wybrane uzasadnienia przyznanych
punktów, dla równowagi 3 „na zero” i 3 „na jeden”. Aby nie wchodzić już tutaj
12
W takiej formie generalizacja i ekstrapolacja wyników jest praktycznie niemożliwa. Bez
zestawu, który był podstawą egzaminu, nie jestem w stanie stwierdzić, co uczeń potrafi, a
czego nie, ponieważ punkty uzyskuje się nie, ogólnie, za umiejętność komunikowania się
(‘wpływ komunikacyjny wypowiedzi’, communicative impact), ale za przekazanie takiej a
nie innej informacji. To, że ktoś w rozmowie sterowanej A dostał 1 punkt za zapytanie się o
godzinę, nie oznacza, że będzie potrafił zapytać się o drogę, są to jednak kwestie trafności
skali, o których mówić tutaj nie jestem w stanie. Interpretacji wyników nie ułatwia fakt, iż
scenariusz rozmowy znany jest zarówno zdającemu jak i oceniającemu, który niejednokrotnie „słyszy” to, co miał usłyszeć i nie jest w stanie obiektywnie ocenić własnego poziomu
zrozumienia wypowiedzi ucznia (stanowi to, w pewnym sensie, zaprzeczenie podstawowej
idei egzaminu jako egzaminu sprawdzającego kompetencję komunikacyjną). Generalizacji
nie ułatwia również fakt, iż pytający może w rozmowach sterowanych dostosować poziom
języka do kompetencji zdającego, tym samym podważając zasadę sprawiedliwości egzaminu (fairness). Pomoc ze strony interlokutora jest mniejsza lub większa, punkty – takie same.
To już zagrożenie dla rzetelności i trafności.
127
wydawnictwo_kor_ok.indd 127
19-09-2006 19:51:26
A. Nowe pola diagnostyki edukacyjnej
w dyskusję, czy to egzaminatorzy, czy nie-egzaminatorzy mają większe problemy, zacytuję jedynie wypowiedzi egzaminatorów.13
Oto trzy głosy „na jeden”:
e7:
jeżeli chodzi o cechy człowieka, które cię zafascynowały, powiedział, że
był to człowiek ‘beautiful’ i ‘calm’, więc, przyjmijmy, że coś, to można,
ewentualnie, potraktować na jego plus
e4:
tak, cechy, cechy poznanego człowieka, ehm, ‘he was interested’, powiedział,
‘he was in Africa’, to tutaj, zaraz, zaraz, co on powiedział, nie to już nie,
mhm, powiedział gdzieś ‘he is calm’, takie wyjaśnienie, cecha, która, no, nie
dodał, że zafascynowała go, ale podał jakąś cechę charakteru
e2:
następnie opisz cechy poznanego człowieka, które cię tak zafascynowały, no
podejrzewam, że on nie do końca zna te cechy, no on wymienił, że ‘man is
beautiful’, ‘the man is interested’, później wymienił jakiś przymiotnik ‘calm’,
no niestety, przy całej tutaj ułomności troszkę tego systemu, ocenianie,
jeśli chodzi o punktację, ponieważ nie ma połówek i, no ale, to znaczy, no
trudno, chyba no musimy, muszę przyznać mu tu punkty bo jakieś tam
cechy osobowości, cechy poznanego człowieka, no, ‘beautiful, interested,
calm’, no są to cechy, dlatego tutaj przyznaję punkt
Poniżej trzy głosy „na zero”:
13
e5:
ehm, teraz tak, cechy poznanego, też nie było żadnej cechy, właściwie, że
podobało mu się było ‘beautiful’, że był ‘in Africa’, ale o cechach żadnych, to
mamy opisz cechy, o cechach 0 punktów
e11:
yyy, później, tak, opisz cechy poznanego człowieka, no i tutaj mam problem,
dlatego, że on tak, no, powiedział, że on zafascynował go, bo ten człowiek
był w Afryce, no to oczywiście nie jest cecha, więc za to nie przyznamy
punktu, al-, a, a później powiedział, że. hhh, że ten człowiek był ‘calm’, no
to, ale, tutaj nie bardzo rozumiem, czemu to miałoby być takie fascynujące,
po prostu nie wyjaśnił, yyy, dlaczego,. hhh, więc tutaj powiem, że mam
dylemat, definitywny, i, i, ale ponieważ on to ‘calm’ później tak dorzucił ni
stąd, ni zowąd, i, i to nie w kontekście tego, że to było takie fascynujące,
więc, więc chyba tutaj dam 0
Krótko dodam tylko, iż nie zauważyłem istotnych różnic w sposobie funkcjonowania osób
przeszkolonych i nie przeszkolonych. Różnic takich nie wykazują również żadne analizy
statystyczne. Jedynym wyjątkiem jest cechujący obie grupy poziom surowości. Wieloaspektowe skalowanie Rascha wykazuje, iż egzaminatorzy oceniają – jako grupa – bardziej surowo, ale różnica jest minimalna.
128
wydawnictwo_kor_ok.indd 128
19-09-2006 19:51:26
Marcin Smolik, Każdy każdego własną miarą
e6:
jeżeli chodzi o cechy natomiast tego człowieka (…) tutaj bym przydzielił 0
punktów jednak, tutaj nie było żadnej informacji na ten temat, mhm, tutaj
w ogóle nie ma tej informacji, więc nie ma o czym mówić
Zatem sytuacja, pokrótce, przedstawia się tak: E6 uważa, że uczeń w ogóle
odpowiedzi nie udzielił. E5 zauważył, co prawda, słowo beautiful, ale nie uważa,
by to była cecha, więc również daje zero. E11 zauważa calm i Afrykę, i przyznaje
nawet, że to są cechy, ale nie rozumie, co w nich miałoby być fascynującego. Po
drugiej stronie mamy E2 – ‘wyłuskuje’ cechy z całego dialogu, nie do końca mu się
one podobają, najchętniej przyznałby pół punktu (o czym pisałem powyżej), ale
przyznaje 1. E4 zgadza się, co prawda, z E11, iż w spokoju nic fascynującego nie
ma, ale uznaje, że cechy są, więc punkt też jest. Podobnie uważa E7, dla którego
już nawet dwie cechy wystarczają. Warto tu jeszcze zwrócić uwagę, że o ile E11
pobytu w Afryce za cechę nie uważa, E4 jest już przeciwnego zdania. Wyraźnie
rysuje się tutaj problem na linii ‘oceniający (i jego oczekiwania) – skala – (oraz
być może) polecenie’, które nie zostało do końca precyzyjnie sformułowane.
I to tylko w kwestii jednej wypowiedzi składającej się z… czterech słów. Jeżeli tyle nieporozumień i interpretacji jest przy prostym (z założenia) kryterium
ocenianym 0-1, nietrudno sobie wyobrazić, jak wielka różnorodność punktów
i uzasadnień towarzyszy kryteriom bardziej rozwiniętym. Są sytuacje, kiedy ta
sama wypowiedź jest np. w kryterium umiejętności językowych oceniana na 1,
2, 3, 4 lub 5 punktów. Dla przykładu pozwolę sobie zacytować dwie wypowiedzi
z propozycją odgadnięcia, ile punktów (od 1 do 5) przyznała każda z osób
oceniających (proszę zwrócić uwagę na podkreślone fragmenty).
n1:
No wymowa jest taka, taka jaka jest, nie jest jakaś tam zachwycająca,
natomiast jeśli chodzi o błędy gramatyczne, to nie było ich tak dużo jakoś
tak, oczywiście, tam interested, interesting, to się zawsze miesza, i chyba
tak specjalnie jednej rzeczy bym się nie czepiała, natomiast starał się
właśnie używać jakiś takich słów, jakieś tu wynotowałam sobie ‘useful’,
właśnie to ‘scratch’ sobie przypomniał, ‘container’,
n2:
Jeśli chodzi o znajomość struktur i słownictwa,, czy, czy fonetykę,
czy, nie wiem, ehm, jakiś taki aspekt właśnie języka, może nie był
jakimś bardzo z wielkimi umiejętnościami uczniem, ale bardzo mi
się podobało to, że był otwarty, był bardzo komunikatywny, i wyrażał
dużą chęć współpracy, nawet jeżeli mu niekoniecznie to wychodził, no,
dość dużo błędów popełniał, i dlatego, dlatego, że te struktury i jak tu
jest określone, struktury, słownictwo i struktury językowe, no nie było
zadawalające, miał dużo błędów w wymowie, wymyślał sobie słówka,
eeee, ‘[kontener]’, czy, czy, czy jakieś, czy to ‘[bomb]’, czy, czy, yyy,
wymyślał, ale chciał bardzo
129
wydawnictwo_kor_ok.indd 129
19-09-2006 19:51:26
A. Nowe pola diagnostyki edukacyjnej
Dwie stosunkowo różne opinie: „mało błędów” vs. „dośc dużo błędów”;
„starał się słówek używać” vs. „wymyślał sobie słówka”. A ocena? Taka sama.
I w jednym i w drugim przypadku wypowiedź oceniono na 3 pkt. w tym
kryterium (o podobnych rozbieżnościach między ocenami punktowymi a ich
jakościowym znaczeniem pisali również: Douglas (1994) i Orr (2002)).
Z tego fragmentarycznego opisu jasno wynika po raz kolejny, iż kryteria
oceny umiejętności językowych wymagają dopracowania. Ale to mnie mniej
martwi. Bardziej martwi mnie fakt, iż ogromne rozbieżności istnieją w kryterium przekazanie informacji. Wyraźnie widać, iż „komunikat kompletny” jest
opisem niejednoznacznym. Warto tu zauważyć, że przecież podobne kryteria
oceniania funkcjonują w przypadku przekazania informacji w krótszej formie
użytkowej na egzaminie pisemnym, z tą jednak subtelną różnicą, iż tam egzaminatorzy otrzymują uściślenia, które, choć nie zawsze logiczne, jednak precyzują,
co informacją jest, a co nie. Takie narzucanie interpretacji budzi wiele innych
obaw, ale jest to jakieś wyjście z sytuacji; niełatwe rozwiązania na trudne czasy.
Aby uniknąć sytuacji takich, jak opisana powyżej, jedynym rozsądnym rozwiązaniem wydaje mi się przyjęcie identycznej strategii na egzaminie ustnym. Do
każdego zestawu powinny być dołączone uściślenia, które – wzorem egzaminu
pisemnego – wyjaśniłyby, czy, np. pobyt w Afryce lub inne doświadczenie
życiowe cechą jest, czy też nie. Skala tego przedsięwzięcia byłaby wręcz niewyobrażalna. 50 zestawów w każdej z 8 OKE, daje 400 zestawów, w każdym
zestawie 9 informacji do przekazania, razem 3600 punktów do uściślenia. To
dopiero wyzwanie dla standaryzacji arkuszy! Z sytuacji jest wyjście, wydaje mi
się, o czym w Podsumowaniu.
Podsumowanie
Nie sposób w tak krótkim artykule opisać choćby pokrótce wszystkich
aspektów związanych z wykorzystaniem skali oceniania na egzaminie, dlatego
celem moim było wybranie tych, które pozwolą mi również na poczynienie
pewnym uogólnień i wskazówek dotyczących EGZAMINU jako takiego.
Z analizy odpowiedzi w kwestionariuszach oraz luźnych komentarzy oceniających zdaje się wynikać wniosek, iż ze skali korzysta się łatwo, choć nie
jest to głos jednomyślny, ale to nie dziwi. Łatwość korzystania ze skali była,
bez wątpienia, zamierzeniem jej twórców, świadomych, iż wypowiedzi będą
oceniane zarówno przez osoby przeszkolone jak i nieprzeszkolone. Problem
jednak tkwi w tym, iż sukces jest tylko połowiczny, gdyż znów okazuje się, iż
trafności fasadowej ufać nie należy. Łatwość korzystania nie przekłada się ani
na rzetelność, ani nie oznacza, iż kryteria rozumiane są w sposób jednakowy,
nawet przez osoby, które uczestniczyły w ćwiczeniach warsztatowych w ich
użyciu. Różnice pomiędzy oceniającymi są znaczne.
130
wydawnictwo_kor_ok.indd 130
19-09-2006 19:51:26
Marcin Smolik, Każdy każdego własną miarą
Być może uważny czytelnik zauważył, iż dotychczas nie podałem wskaźników rzetelności lub dokładności punktowania. Był to z mojej strony zabieg
celowy. Jeżeli jako wskaźnik rzetelności oceniania przyjąć współczynnik
korelacji pomiędzy pierwszą i drugą oceną tej samej rozmowy, to dla wszystkich 9 nagrań ocenionych przez 19 nauczycieli wynosi on (dla wyników
zsumowanych): (współczynnik Pearsona) r=0.87, p=.000 (test dwustronny),
(współczynnik Spearmana) ρ=0.848, p=.000 (test dwustronny), (współczynnik
Kendala) τB=0.701, p=.000 (test dwustronny). Jeżeli za współczynnik dokładności punktowania przyjąć α, wówczas dla zespołu 19 oceniających (w obu
sesjach) wynosi ona α=0.99, natomiast współczynnik dokładności punktowania
przez pojedynczego oceniającego wynosi r11=0.84 (por. Niemierko, 1999: 202-3).
Wskaźniki statystyczne są zatem dobre, tyle tylko, że im dłużej zajmuję się testowaniem znajomości języka obcego, tym mniej statystyce ufam. Z jednej strony
wskaźniki takie są pocieszające, gdyż mówią, iż dla grupy zdających wyniki są
akceptowalne. Z drugiej strony, jednakże, statystyka od lat również niezmiennie
dowodzi, iż jeździec i koń mają średnio po trzy nogi. Cóż, zatem, z wysokich
współczynników, skoro okazuje się, że niewiele one znaczą? Alfa Cronbacha
zakłada, iż test jest wewnętrznie spójny lub że oceniający podobnie rozumieją
oceniany konstrukt, a, okazuje się, wcale tak nie jest. Poza tym, niezależnie od
tego, jak dobre są te wskaźniki dla grupy zdających, trzeba pamiętać, iż matura
największe znaczenie ma na poziomie jednostkowym, a tu, jak widzieliśmy,
różnice w ocenie są znaczne; o konsekwencjach etycznych takiej sytuacji chyba
nikogo nie trzeba przekonywać. Stąd też, chcąc uniknąć zbyt daleko posuniętej
euforii wywołanej wysokim alfa, wolałem tę dobrą, bądź co bądź, wiadomość
zachować na koniec, aby w świetle tego, co już zostało powiedziane, euforię
nieco ochłodzić.
Na podstawie tego, co opisałem powyżej, jak również na podstawie innych
analiz i wyników, o których nie mogłem tu napisać, nasuwają mi się następujące
wnioski dotyczące niezbędnych zmian w egzaminie ustnym z języka angielskiego na poziomie podstawowym:
(1) dopracowania wymagają deskryptory w kryterium „umiejętności językowe”, ale również inne, w obecnej formie są zbyt dwuznaczne i niejasne,
(2) niezbędne wydaje mi się nakreślenie charakterystyki typu wypowiedzi
spełniającej stawiane dla tego poziomu warunki w stopniu minimalnym (typical
minimum adequate performance),
(3) należy, moim zdaniem, odejść od sztucznego i fikcyjnego podziału
matury na część zewnętrzną i wewnętrzną (pierwszy słuszny, w moim odczuciu,
krok – usunięcie nauczyciela z zespołu oceniającego – został już zaproponowany). Po pierwsze, niezaliczenie którejkolwiek z nich pociąga za sobą takie same
skutki. Po drugie, ‘wewnętrzny’ może być interpretowany jako ‘nie pozostający
niczyją sprawą’. A skoro ‘niczyją’, to i przejmować się nie ma za bardzo czym,
a poza tym to wewnętrzna sprawa szkoły. Z tym punktem łączy się kolejny,
131
wydawnictwo_kor_ok.indd 131
19-09-2006 19:51:26
A. Nowe pola diagnostyki edukacyjnej
(4) biorąc pod uwagę fakt, iż analizy ilościowe i jakościowe nie wykazują
szczególnych różnic pomiędzy egzaminatorami OKE a ‘nie-egzaminatorami’,
trzeba wstępnie przyjąć, iż szkolenia dla kandydatów na egzaminatorów nie
spełniają swojego zadania, jeżeli chodzi o egzamin ustny. Nie do przyjęcia jest
fakt, iż przed egzaminem pisemnym egzaminatorzy przechodzą całą serię spotkań doszkalających, natomiast w przypadku egzaminu ustnego (który, jeszcze
raz tu przypomnę, niesie ze sobą identyczne skutki jak pisemny!), nawet dla
egzaminatorów nie przeprowadza się sesji kalibrujących przed egzaminem,
o ‘nie-egzaminatorach’ nie wspomnę.14 Założenie, że do oceniania egzaminu
pisemnego niezbędna jest ciągła praca z kryteriami, natomiast w przypadku
egzaminu ustnego już tak nie jest, wydaje się co najmniej nieuzasadnione,
w najgorszym przypadku naiwne. Wyniki badań, choć nie jednomyślne, to
jednak wydają się dość jednoznacznie stwierdzać, iż (a) tylko przeszkoleni, odpowiednio wybrani egzaminatorzy są w stanie dokonać prawidłowej oceny, (b)
nawet te osoby wymagają stałego doszkalania (niektórzy twierdzą, minimum
raz na rok, inni, minimum raz na 18 miesięcy). Dodam tu tylko, iż szkolenie
powinno obejmować nie tylko ocenianie egzaminu, ale również trening w jego
prowadzeniu, tak jak ma to miejsce chociażby w przypadku egzaminu FCE,
(5) podobnie jak w przypadku egzaminu pisemnego, te same zestawy (np.
60) powinny być przygotowane przez CKE dla całego kraju. Ryzyko ‘przecieku’
zestawów do Internetu można by zmniejszyć, wyznaczając ‘okienko czasowe’,
w którym egzamin ustny z jęz. obcych może być przeprowadzany (np. 2
tygodnie) i określając, które zestawy mogą być wykorzystane w danym dniu
(np. sześć dziennie). Tym samym, zestawy wykorzystane w poniedziałek, nie
mogłyby już być wykorzystane we wtorek, a w obrębie jednej szkoły można,
mniej więcej, dopilnować, aby uczniowie, którzy już zdali egzamin, nie mieli
szansy na komunikowanie się z tymi, którzy jeszcze do niego w danym dniu nie
przystąpili. Zmniejszona liczba zestawów pozwoliłaby na opracowanie, przynajmniej ‘mniej więcej’, odpowiednich uściśleń podczas pilotażu, aby uniknąć jak
największej ilości sytuacji, w których „kompletność komunikatu” jest tak różnie
interpretowana, jak pokazałem wyżej.
To tyle w kwestiach najpilniejszych. Zupełnie pomijam tu kwestie językoznawcze, kwestie definicji konstruktu (której nie ma), kwestie trafności stosowanej skali (na ile jest ona rzeczywiście operacjonalizacją konstruktu, co przecież
bezpośrednio przekłada się na sposób interpretacji wyniku; Messick (1989)
nazywa to aspektem strukturalnym trafności teoretycznej). To wszystko też są
ważne kwestie, ale gdzieś trzeba zacząć. Idealnie byłoby zacząć od początku, ale
na to jest już chyba za późno… W obecnej formie, moim zdaniem, egzamin
ustny z języka angielskiego (choć przecież nie tylko, bo nie wydaje mi się, aby
14
Nawiasem mówiąc, rozdzielenie tych części egzaminu i ocenianie ich osobno w sytuacji,
kiedy pozostałe makrosprawności (czytanie, słuchanie, pisanie) oceniane są łącznie, jest – z
punktu widzenia językoznawcy – dość dziwne.
132
wydawnictwo_kor_ok.indd 132
19-09-2006 19:51:27
Marcin Smolik, Każdy każdego własną miarą
pozostałe języki obce nie borykały się z podobnymi problemami) jest tworem
trochę niekształtnym. Pozostaje mi wierzyć, że sytuacja będzie powoli ulegać
poprawie. Być może osoby, w rękach których spoczywa władza (i fundusze)
zrozumieją, iż wynik to nie tylko numer albo tajemniczy ‘procent’. Mam również
nadzieję, iż nie dojdzie do sytuacji, w której problemów się „uniknie” poprzez
najprostszą z możliwych dróg – zlikwidowanie źródła problemów. Decyzja taka
byłaby fatalna w skutkach; już w swojej obecnej, ‘wewnętrznej’ formie, egzamin
nie cieszy się zbytnim uznaniem ani wśród uczniów, ani wśród nauczycieli.
Problemu tylko pozornie się uniknie, zamiatając go pod dywan.
Na zakończenie coś z ekonomii. Zawsze zachęcam, aby na egzaminy patrzeć
jak na produkt, co – w przypadku państw, gdzie można wybierać „dostawcę”
egzaminu jest faktem. W obecnej formie wartość oczekiwana w stosunku do
EGZAMINU nie idzie w parze z wartością otrzymaną, nie należy więc się
dziwić, iż klienci są raczej niezadowoleni. Jeżeli nic się nie zmieni, to każde
świadectwo maturalne trzeba będzie opatrzyć ostrzeżeniem, Caveat emptor.
Bibliografia:
1. Alderson J.C., Bands and Scores, [w:] J.C. Anderson i B. North (red.), Language Testing in the
1990s: The communicative legacy, Macmillan, London 1991, s. 71-85.
2. Brindley G., Describing language development? Rating scales and SLA, [w:] L.F. Bachman i A.D.
Cohen, Interfaces between second language acquisition and language testing research, CUP,
Cambridge 1998, s. 112-140.
3. Brown A., Interviewer variability in oral proficiency interviews, Peter Lang, Franfurt am Main,
2005.
4. Cohen L. i Manion L., Research methods in education. 4th edition, Routledge, New York, 1994.
5. Connor-Linton J., Looking behind the curtain: What do L2 composition ratings really mean?,
„TESOL Quarterly” 1995, nr 29, s. 762-765.
6. Douglas D., Quantity and quality in speaking test performance, „Language Testing” 1994, nr
11(2), s. 125-144.
7. Ericsson K.A. i Simon H.A., Protocol analysis: Verbal reports as data, The MIT Press, Cambridge,
Mass, 1993.
8. Fulcher G., Testing second language speaking, Pearson Longman, Harlow, 2003.
9. Gass S.M. i Mackey A., Stimulated recall methodology in second language research, Lawrence
Erlbaum, Mahwah, NJ, 2000.
10. Jacoby S. i Ochs E., Co-Construction: An Introduction, „Research on Language and Social
Interaction” 1995, nr 28(3), s. 171-183.
11. Johnson R.L., Penny, J., Fisher, S., Kuhs, T., Score resolution: an investigation of the reliability and
validity of resolved scores, „Applied Measurement in Education” 2003, nr 16(4), s. 299-322.
12. Johnson, R.L., Penny, J., Gordon, B., Shumate, S.R., Fisher, S.P., Resolving score differences in the
rating of writing samples: does discussion improve the accuracy of scores?, „Language Assessment Quarterly” 2005, nr 2(2), s. 117-146.
13. Król B., Understanding grammar instruction in the EFL classroom: the teacher’s perspective,
rozprawa doktorska, UMCS, Lublin 2004.
14. Linacre J.M., Multi-faceted measurement, MESA Press, Chicago 1989.
15. Luoma S., Assessing speaking, CUP, Cambridge 2004.
16. McNamara T., Measuring second language performance, Longman, Harlow, 1996.
133
wydawnictwo_kor_ok.indd 133
19-09-2006 19:51:27
A. Nowe pola diagnostyki edukacyjnej
17. McNamara T., ‘Interaction’ in second language performance assessment: Whose performance?,
„Applied Linguistics” 1997, nr 18(4), s. 446-466.
18. Messick S., Validity, [w:] R. Linn (ed.), Educational Measurement, Macmillan, New York 1989,
s. 13-103.
19. Myford, C.M. i Wolfe, E.W., When raters disagree, then what: examining a third-rating discrepancy resolution procedure and its utility for identifying unusual patterns of ratings, „Journal of
Applied Measurement” 2002, nr 3(3), s. 300-324.
20. Niemierko B., Pomiar wyników kształcenia, WSiP, Warszawa 1999.
21. Noizet G. i Caverni J.P., Psychologiczne aspekty oceniania osiągnięć szkolnych, PWN, Warszawa
1988.
22. Orr M., The FCE Speaking test: using rater reports to help interpret test scores, „System” 2002, nr
30, s. 143-154.
23. Smolik M., Ku porównywalności oceniania. Wykorzystanie wieloaspektowego modelu Rascha
(model Facets) w procesie szkolenia egzaminatorów: już rzeczywistość czy jeszcze science-fiction?,
[w:] B. Niemierko i G. Szyling (red.), Holistyczne i analityczne metody diagnostyki edukacyjnej. Perspektywy informatyczne egzaminów szkolnych, FRUG, Gdańsk 2005, s. 483-491.
24. Smolik M., Investigating scoring validity. Assessing the nowa matura speaking exam at the basic
level: the rater’s perspective, rozprawa doktorska, UMCS, Lublin, w przygotowaniu.
25. Weir C. J., Language testing and validation, Palgrave Macmillan, Basingstoke 2005.
26. Węziak D., Zastosowanie wieloczynnikowego skalowania Rascha do porównania sposobu oceniania egzaminatorów, [w:] B. Niemierko i G. Szyling (red.), Holistyczne i analityczne metody
diagnostyki edukacyjnej. Perspektywy informatyczne egzaminów szkolnych, FRUG, Gdańsk
2005, s. 474-482.
27. Wilson M. i Case H., An examination of variation in rater severity over time: a study in rater
drift, [w:] M. Wilson i B. Engelhard, Jr., Objective measurement theory into practice, volume
5, Ablex Publishing Corporation, Stamford, Connecticut 2000, s. 113-134.
134
wydawnictwo_kor_ok.indd 134
19-09-2006 19:51:27

Podobne dokumenty