jak zastosowanie komputerowego egzaminowania może podnieść

Transkrypt

jak zastosowanie komputerowego egzaminowania może podnieść
Anna Borkowska, Paweł Rubach
Szkoła Główna Handlowa w Warszawie
JAK ZASTOSOWANIE KOMPUTEROWEGO EGZAMINOWANIA
MOŻE PODNIEŚĆ JAKOŚĆ TESTU?
Egzaminowanie stanowi nieodłączny element procesu dydaktycznego, który można wspomóc
wdrażając nowoczesną technologię. Systemy informatyczne klasy CBA umożliwiają odciążanie
egzaminatora poprzez automatyzację najbardziej żmudnych czynności oceny egzaminów testowych,
przyczyniają się do obiektywizacji ocen oraz dodatkowo mogą doprowadzić do podniesienia
merytorycznej jakości egzaminów dzięki zastosowaniu mechanizmu wnioskowania opartego na
analizie statystycznej udzielonych odpowiedzi.
1
Wprowadzenie
Praca dydaktyczna wiąże się nieodłącznie z koniecznością obiektywnej weryfikacji wiedzy
i umiejętności zdobytych przez studentów w trakcie uczenia. Egzaminowanie może być przeprowadzane
w różnych formach. Obecnie, zwłaszcza w nauczaniu na kierunkach ekonomicznych, coraz rzadziej
stosuje się formę ustną, zastępując ją formą pisemną, w szczególności testową. Cały proces
egzaminowania, składający się, obok merytorycznego przygotowywania pytań, z wielu czynności
administracyjnych, uważany jest przez wielu dydaktyków za żmudny. Zastosowanie nowoczesnej
technologii informatycznej w procesie egzaminowania może nie tylko wesprzeć pracę dydaktyków, ale
również pozytywnie wpłynąć na jakość całości procesu dydaktycznego. Korzyści z komputeryzacji
egzaminowania są bardzo różnorodne, począwszy od przerzucenia ciężaru prac administracyjnych na
komputer, dającego dydaktykom możliwość skupienia się na merytorycznej zawartości egzaminu,
a skończywszy na analizie wyników egzaminów, pozwalającej wychwycić niewłaściwe pytania
i umożliwiającej wnioskowanie na temat wiedzy studentów w poszczególnych partiach materiału
dydaktycznego.
Niniejszy artykuł ma na celu omówienie zalet stosowania nowoczesnej technologii w procesie
egzaminowania na przykładzie autorskiego oprogramowania – Systemu Komputerowego Wspomagania
Egzaminowania tworzonego w Katedrze Informatyki Gospodarczej Szkoły Głównej Handlowej.
1
2
Korzyści z zastosowania nowoczesnych technologii w egzaminowaniu
Narzędzia pomagające w organizacji procesu egzaminowania należą do klasy systemów
informatycznych znanej w literaturze angielskiej pod pojęciem Computer Based Assessment (CBA).
Wspomagają one całość procesu egzaminowania, począwszy od wprowadzania pytań i listy osób
uprawnionych do zdawania, poprzez zbieranie odpowiedzi studentów, a skończywszy na prezentowaniu
wyników i ich ew. eksportowaniu do systemów zarządzania uczelnią, takich jak np.: Wirtualny Dziekanat
w przypadku Szkoły Głównej Handlowej. Dodatkowo narzędzia te mogą zautomatyzować ocenianie pytań
testowych, a także, poprzez archiwizowanie wyników w formie elektronicznej, dają możliwość łatwego ich
przeglądania i poddawania analizom statystycznym.
Wymieniona wyżej funkcjonalność tego typu aplikacji przekłada się bezpośrednio na obniżenie
obciążenia wykładowców, zmniejszenie ilości pracy wykonywanej przez pracowników administracji oraz
dziekanatu, a co za tym idzie, przyczynia się do obniżenia kosztów przeprowadzania procesu weryfikacji
wiedzy. Z drugiej strony korzyści odnoszą również studenci poddający się egzaminowaniu przy użyciu
narzędzi typu CBA. Należy do nich zaliczyć przede wszystkim przyśpieszenie całego procesu objawiające
się w natychmiastowym, automatycznym ocenianiu pytań testowych oraz zredukowaniu liczby błędów
popełnionych w trakcie oceniania egzaminów poprzez wyeliminowanie czynnika ludzkiego.
Z punktu widzenia organizacji procesu dydaktycznego istotnym czynnikiem, w jakim zastosowanie
narzędzia typu CBA może pomóc, jest postulowana przez Zespół Ekspertów Fundacji Promocji
i Akredytacji Kierunków Ekonomicznych w materiale do dyskusji pt.: Dobre praktyki w zakresie organizacji
procesu dydaktycznego1 obiektywizacja ocen na egzaminie. Zastosowanie systemu informatycznego
może wspomóc obiektywizację ocen dzięki:
•
automatycznemu ocenianiu pytań testowych,
•
automatycznemu podliczaniu wyników i wystawianiu ocen końcowych,
•
anonimowemu sprawdzaniu odpowiedzi na pytania otwarte – po pierwsze, pytania mogą być
sprawdzane pojedynczo bez możliwości określenia tożsamości autora odpowiedzi, nie ma
również ryzyka zidentyfikowania studenta na podstawie jego charakteru pisma; – po drugie,
pytania, które dany wykładowca ma ocenić mogą być automatycznie losowane, także w ten
sposób, aby każde pytanie było oceniane przez dwie lub więcej niezależnych osób, a liczba
punktów przyznana za pytanie stanowiła średnią liczbę punktów przyznaną przez każdego
z oceniających,
•
łatwej weryfikowalności wyników przez grono osób koordynujących egzaminowanie z danego
przedmiotu – koordynatorzy mają wgląd we wszystkie prace, ustalają punktację i skalę ocen,
której stosowanie system wymusza na sprawdzających – stanowi to znaczne utrudnienie dla
wszelkich prób korupcji bądź kumoterstwa.
Stosowanie narzędzi komputerowych w egzaminowaniu daje możliwości szczegółowej analizy wyników
studentów. Dzięki temu, że pytania w systemach CBA mogą być pogrupowane w różnych kategoriach
według zakresu tematycznego, trudności przejawiającej się różną liczbą możliwych do zdobycia punktów,
1
E. Gatnar, T. Gołębiowski, J. Machaczka. B. Pogonowska, S. Wrzosek, Dobre praktyki w zakresie organizacji procesu
dydaktycznego, http://www.fundacja.edu.pl/organizacja/index.php?DOC=dobre_praktyki [19.05.2005].
2
a także według rodzaju pytania (pytania otwarte, jedno- i wielokrotnego wyboru), możliwe jest porównanie
wyników uzyskanych przez studentów z różnych partii materiału. Taka analiza może pomóc
w dostosowaniu treści wykładu poprzez zwrócenie uwagi prowadzącego na zagadnienia mniej zrozumiałe
dla studentów.
3
Ocena jakości pytań testowych
Dzięki temu, że egzamin jest przeprowadzany komputerowo nie tylko możemy zmniejszyć nakład
pracy dydaktyka przeprowadzającego i sprawdzającego egzamin, wyeliminować potencjalne błędy
wynikające z czynnika ludzkiego oraz wskazać zagadnienia niezrozumiałe dla studentów, ale również
możliwe jest uzyskanie informacji zwrotnej na temat samego egzaminu. Należy do niej zaliczyć
odpowiedzi na pytania, czy egzamin był dla nich trudny, jaka jest średnia liczba uzyskanych punktów, jaki
jest rozkład punktów oraz ocen. Drugą grupę informacji, jakie komputerowy system egzaminowania
dostarcza, stanowią wnioski na temat jakości egzaminu oraz wnioski pozwalające wychwycić najczęściej
popełniane błędy w konstrukcji pytań testowych.
3.1
Typowe błędy w konstrukcji pytań testowych
Jak wiadomo jakość testu zależy od jakości pytań, z których jest on zbudowany. Najczęściej
spotykane problemy, na które każda osoba tworząca dobrej jakości egzamin musi być wyczulona to:
1. Błędnie oznaczone odpowiedzi prawidłowe, czyli pomyłki w kluczu odpowiedzi;
2. Pytania niepozwalające różnicować studentów – pytania zbyt łatwe lub zbyt trudne;
3. Pytania, w których dystraktory nie są mylące – gdy odpowiedź staje się dosyć oczywista
lub ograniczona do wyboru pośród dwóch/trzech alternatyw;
4. Pytania, które są źle sformułowane w taki sposób, że wskazanie poprawnej odpowiedzi
nie jest możliwe na podstawie ich treści.
W celu wychwycenia powyższych błędów, przyczyniających się do pogorszenia jakości zestawu
egzaminacyjnego system egzaminowania może analizować odpowiedzi studentów, w oparciu o klasyczną
teorię testów wyliczać następujące miary2: stopień trudności (facility) oraz siłę różnicowania
(discrimination power) każdego pytania a także rzetelność (reliability) całego testu, a następnie wyciągać
wnioski na temat każdego pytania i prezentować je dydaktykowi.
Taka analiza pozwala odnaleźć możliwe pomyłki w kluczu odpowiedzi, a także umożliwia
wychwycenie zbyt łatwych i zbyt trudnych pytań, które nie zwiększają siły różnicowania testu, pogarszając
jego jakość.
3.2
Kryteria oceny jakości pytań
Klasyczne podejście w teorii testów zakłada, że test jest jednorodny i wszystkie pytania mierzą tę
samą umiejętność/wiedzę studenta. Stopień trudności pytania Fac(X) jest stosunkiem średniej liczby
punktów x uzyskanych przez wszystkich odpowiadających na dane pytanie oraz maksymalnej liczby
2
C. Beevers, C. Milligan, R. Thomas, Item Analysis, Scottish Centre for Research into OnLine Learning and Assessement [online],
December 2003, http://www.scrolla.hw.ac.uk/focus/ia.html [09.10.2004].
3
punktów X max możliwych do zdobycia i wyraża się wzorem3:
Stopień trudności przyjmuje wartości z przedziału od 0 do 1, a im wyższy wynik, tym pytanie jest
łatwiejsze. Nie jest pożądane, aby pytanie miało stopień trudności niższy niż 0,15 lub wyższy niż 0,854.
Dodatkowo system wylicza częstości, z jakimi poszczególne podpunkty są zaznaczane przez studentów,
aby wyłapać alternatywy, które nie są mylące. Odpowiedzi niewybierane przez studentów powinny być
zastąpione innymi, ponieważ nie przyczyniają się do różnicowania pomiędzy lepszymi i gorszymi
wynikami5. W przypadku, gdy jeden z dystraktorów jest wybierany częściej niż odpowiedź prawidłowa,
należy sprawdzić poprawność klucza odpowiedzi, zwłaszcza gdy dystraktor ten pozytywnie koreluje
z wynikami w całym teście. Pozycje, na które prawie wszyscy studenci odpowiadają poprawnie są
bezużyteczne z punktu widzenia różnicowania studentów i powinny być zastąpione innymi pytaniami.
Siła różnicowania mierzy związek danego pytania z wynikiem uzyskanym w całym teście.
Wskaźnik różnicowania jest miarą korelacji Pearsona pomiędzy średnim wynikiem uzyskanym w danym
pytaniu oraz średnim wynikiem uzyskanym w teście przez studenta. Wyraża się ona następującym
wzorem6:
gdzie r xy jest współczynnikiem korelacji pomiędzy wynikiem uzyskanym w pytaniu x oraz całkowitym
wynikiem uzyskanym w teście przez danego studenta y;
x jest średnim wynikiem uzyskanym przez studentów w danym pytaniu;
y jest średnim całkowitym wynikiem uzyskanym przez studentów w teście;
Sx jest wartością odchylenia standardowego dla danego pytania;
Sy jest wartością odchylenia standardowego dla wyniku całkowitego;
N jest liczbą obserwacji, czyli liczbą studentów, którzy udzielili odpowiedzi na dane pytanie.
Współczynnik korelacji Pearsona może przyjmować wartości z przedziału od -1 do +1, a im
wyższa wartość współczynnika korelacji, tym większa jest siła różnicująca pytania. W idealnym przypadku
korelacja równa +1 oznacza, że wszyscy, którzy uzyskali wysokie wyniki w danym pytaniu, uzyskali
również wysokie wyniki w całym teście. Współczynnik korelacji Pearsona powinien zwykle być dodatni
3
M. McAlpine, A Summary of Methods of Item Analysis, CAA Centre Bluepaper Number 2, Robert Clark Center for Technological
Education, University of Glasgow, 2002, http://caacentre.lboro.ac.uk/dldocs/BP2final.pdf [09.10.2004].
4
Ibidem.
5
J. Kehoe, op cit.
6
M. McAlpine, op cit.
4
zakładając, że test jest jednowymiarowy i spójny. Pytania, które korelują na poziomie niższym niż 0,15
z całkowitym wynikiem w teście prawdopodobnie powinny być przedefiniowane, ponieważ istnieje szansa,
że nie mierzą tej samej umiejętności co cały test7.
Rzetelność testu jest miarą jego wewnętrznej spójności, stopniem, w jakim wszystkie pozycje
korelują ze sobą nawzajem. Każdy wynik pomiaru składa się z wyniku rzeczywistego oraz błędu.
Rzetelność jest stopniem wariancji wyniku rzeczywistego i wyraża się wartością współczynnika α –
Cronbacha8:
gdzie rα jest współczynnikiem α-Cronbacha;
k liczbą pozycji w teście;
S2i wariancją pytania i-tego;
St2 wariancją całego testu.
Współczynnik ten może przyjmować wartości od 0 do 1. Im wyższa jest wartość współczynnika, tym
większa wewnętrzna spójność i rzetelność testu, a mniejsza wariancja błędu pomiaru. Pożądanym
poziomem rzetelności testu jednokrotnego wyboru jest 0,909, dla testów posiadających od 10 do 15 pytań
satysfakcjonującym poziomem jest 0,5010.
3.3
Wnioski z analizy jakości przykładowego egzaminu
Opisany powyżej mechanizm oceny jakości testów egzaminacyjnych został zaimplementowany
w Systemie Komputerowego Wspomagania Egzaminowania, tworzonym w Katedrze Informatyki
Gospodarczej Szkoły Głównej Handlowej. Działanie systemu zostało empirycznie sprawdzone na
przykładzie testu z języka angielskiego, który składał się z 15 pytań. Pytania różniły się stopniem
trudności i posiadały tylko jedną poprawną odpowiedź. W celu sprawdzenia, czy system radzi sobie
w scenariuszach opisanych w punkcie 3.1 celowo wprowadzono pomyłki w kluczu odpowiedzi oraz
przeformułowano tak pytanie, aby jego treść była niezrozumiała i uniemożliwiała wskazanie poprawnej
odpowiedzi. Do testu przystąpiło 76-ciu studentów, a w wyniku analizy ich odpowiedzi uzyskano
przedstawione poniżej wnioski na temat jakości pytań egzaminacyjnych.
System trafnie zidentyfikował pytania, które dawały niewielkie możliwości różnicowania ocen
studentów, czyli były zbyt łatwe lub zbyt trudne i wszyscy studenci udzielali na nie zbliżonych odpowiedzi.
Podobnie bardzo dobrze wychwytywane były niskiej jakości dystraktory, czyli błędne odpowiedzi, które
powinni wybierać nieprzygotowani studenci.
Pytania, w których celowo wprowadzono pomyłkę w kluczu odpowiedzi były również
7
J. Kehoe, Basic Item Analysis for Multiple-Choice Tests [online]. ERIC/AE Digest., ERIC Clearinghouse on Assessment and
Evaluation., Washington, 1995, [http://www.ericfacility.net/databases/ERIC_Digests/ed398237.html] [09.10.2004].
8
M. McAlpine, op cit.
9
Ibidem.
10
J. Kehoe, op cit.
5
identyfikowane, ale mechanizm wnioskowania nie był w stanie odróżnić ich od pytań bardzo trudnych.
Analiza jakości nie wychwyciła jednak pytania sformułowanego w niezrozumiały sposób. Za
pomocą przedstawionej powyżej klasycznej teorii testów nie jest możliwe stwierdzenie, czy pytanie, na
które studenci udzielili odpowiedzi jest dla nich zrozumiałe.
Test empiryczny wykazał, że analiza jakości pytań w większości przypadków wymienionych
w punkcie 3.1 skutecznie zwraca uwagę egzaminatora na pytania, których jakość jest wątpliwa. Jedyny
przypadek, w którym muszą być zastosowane inne mechanizmy wnioskowania to pytania niezrozumiałe,
źle sformułowane. Rozwiązaniem tego problemu może być zastosowanie teorii cech latentnych (Latent
Trait Models)11, zamiast klasycznej teorii testów, a w szczególności teorii IRT (Item Response Theory).
Zauważono dodatkowo, że wadą klasycznej teorii testów jest zależność oceny pytań od poziomu wiedzy
aktualnie egzaminowanych studentów. Im bardziej jednorodna jest grupa studentów, tym mniejsza siła
różnicująca pytań. Również im wyższe są umiejętności studentów, tym trudność pytań oceniana jest niżej.
Zastosowanie teorii IRT pozwoliłoby uniezależnić ocenę pytań od charakterystyki egzaminowanych
studentów i w efekcie uzyskać bardziej obiektywne wskaźniki jakości12.
4
Czegóż więcej możemy oczekiwać od systemu egzaminowania? – podsumowanie
Zastosowanie systemu komputerowego w procesie egzaminowania może w dużej mierze
przyczynić się do poprawy jakości egzaminu, zmniejszyć nakład pracy egzaminatora, wspomóc
obiektywizację oceny oraz przyspieszyć sprawdzanie wyników testów. Naturalnie, nasuwa się więc
pytanie, czy może ono zastąpić człowieka w całym procesie egzaminowania – począwszy od tworzenia
pytań poprzez ocenę esejów i odpowiedzi na pytania otwarte? Aby to było możliwe komputer, musiałby
rozumieć tekst, który czyta. Prace nad komputerowym rozumieniem tekstów są obecnie prowadzone
i dwie dobrze znane aplikacje – Project Essay Grade oraz Intelligent Essay Assessor – już dziś mogą być
z powodzeniem stosowane podczas oceny wypowiedzi otwartych, napisanych w języku angielskim, jako
tzw. drugi egzaminator.13 W przyszłości kolejne generacje podobnych aplikacji znajdą zapewne
zastosowanie w egzaminowaniu i będą mogły już nie tylko wspierać, ale i zastąpić człowieka w roli
egzaminatora. Do rozważenia pozostaje jedynie pytanie, czy całkowicie zautomatyzowany, ale
jednocześnie odhumanizowany proces weryfikacji wiedzy, przyjmie się w środowisku akademickim?
11
M. McAlpine, op cit.
M. McAlpine, op cit.
13
P. Rubach, Czy komputer potrafi zrozumieć tekst? Pierwsze pakiety oprogramowania analizujące wypowiedzi otwarte, „e-Mentor”
2004, nr 4 (6), s. 29-33.
12
6
Bibliografia
P. Rubach, Czy komputer potrafi zrozumieć tekst? Pierwsze pakiety oprogramowania analizujące
wypowiedzi otwarte, „e-Mentor” 2004, nr 4 (6), s. 29-33.
Netografia
C. Beevers, C. Milligan, R. Thomas, Item Analysis, Scottish Centre for Research into OnLine Learning
and Assessement [online], December 2003, http://www.scrolla.hw.ac.uk/focus/ia.html [09.10.2004].
E. Gatnar, T. Gołębiowski, J. Machaczka. B. Pogonowska, S. Wrzosek, Dobre praktyki w zakresie
organizacji procesu dydaktycznego,
http://www.fundacja.edu.pl/organizacja/index.php?DOC=dobre_praktyki [19.05.2005].
J. Kehoe, Basic Item Analysis for Multiple-Choice Tests [online]. ERIC/AE Digest., ERIC Clearinghouse
on Assessment and Evaluation., Washington, 1995,
[http://www.ericfacility.net/databases/ERIC_Digests/ed398237.html] [09.10.2004]
M. McAlpine, A Summary of Methods of Item Analysis, CAA Centre Bluepaper, Number 2, Robert Clark
Center for Technological Education, University of Glasgow, 2002,
http://caacentre.lboro.ac.uk/dldocs/BP2final.pdf [09.10.2004]
Abstract
Information technology can be used in examination to help in fulfilling both administrative tasks as well as
in raising the quality of tests.
Presented results from exams conducted using the Computer Based
Assessment Tool developed at the Warsaw School of Economics which is based on classical test theory
show that very easy, very hard and non-distractive questions are well identified by the system but
misformed questions are treated similarly to very hard questions.
Nota o autorach
Anna Borkowska jest asystentką w Katedrze Informatyki Gospodarczej w Szkole Głównej Handlowej
w Warszawie. Od dwóch lat zajmuje się problematyką zastosowania systemów komputerowego
wspomagania egzaminowania oraz analizą jakości pytań egzaminacyjnych. Jest współautorką Systemu
Komputerowego Wspomagania Egzaminowania (SKWE), wykorzystywanego w Katedrze Informatyki
Gospodarczej.
Paweł Rubach jest asystentem w Szkole Głównej Handlowej w Warszawie, pracuje w Katedrze
Informatyki Gospodarczej. Jego zainteresowania naukowe skupiają się wokół zagadnień związanych
z systemami i metodami weryfikacji wiedzy. Ponadto autor interesuje się tematyką związaną z systemami
Workflow, oprogramowaniem Open Source, jego efektami ekonomicznymi oraz kwestią bezpieczeństwa
infrastruktury
informatycznej.
Jest
współautorem
Systemu
Komputerowego
Egzaminowania (SKWE), wykorzystywanego w Katedrze Informatyki Gospodarczej.
7
Wspomagania