jak zastosowanie komputerowego egzaminowania może podnieść
Transkrypt
jak zastosowanie komputerowego egzaminowania może podnieść
Anna Borkowska, Paweł Rubach Szkoła Główna Handlowa w Warszawie JAK ZASTOSOWANIE KOMPUTEROWEGO EGZAMINOWANIA MOŻE PODNIEŚĆ JAKOŚĆ TESTU? Egzaminowanie stanowi nieodłączny element procesu dydaktycznego, który można wspomóc wdrażając nowoczesną technologię. Systemy informatyczne klasy CBA umożliwiają odciążanie egzaminatora poprzez automatyzację najbardziej żmudnych czynności oceny egzaminów testowych, przyczyniają się do obiektywizacji ocen oraz dodatkowo mogą doprowadzić do podniesienia merytorycznej jakości egzaminów dzięki zastosowaniu mechanizmu wnioskowania opartego na analizie statystycznej udzielonych odpowiedzi. 1 Wprowadzenie Praca dydaktyczna wiąże się nieodłącznie z koniecznością obiektywnej weryfikacji wiedzy i umiejętności zdobytych przez studentów w trakcie uczenia. Egzaminowanie może być przeprowadzane w różnych formach. Obecnie, zwłaszcza w nauczaniu na kierunkach ekonomicznych, coraz rzadziej stosuje się formę ustną, zastępując ją formą pisemną, w szczególności testową. Cały proces egzaminowania, składający się, obok merytorycznego przygotowywania pytań, z wielu czynności administracyjnych, uważany jest przez wielu dydaktyków za żmudny. Zastosowanie nowoczesnej technologii informatycznej w procesie egzaminowania może nie tylko wesprzeć pracę dydaktyków, ale również pozytywnie wpłynąć na jakość całości procesu dydaktycznego. Korzyści z komputeryzacji egzaminowania są bardzo różnorodne, począwszy od przerzucenia ciężaru prac administracyjnych na komputer, dającego dydaktykom możliwość skupienia się na merytorycznej zawartości egzaminu, a skończywszy na analizie wyników egzaminów, pozwalającej wychwycić niewłaściwe pytania i umożliwiającej wnioskowanie na temat wiedzy studentów w poszczególnych partiach materiału dydaktycznego. Niniejszy artykuł ma na celu omówienie zalet stosowania nowoczesnej technologii w procesie egzaminowania na przykładzie autorskiego oprogramowania – Systemu Komputerowego Wspomagania Egzaminowania tworzonego w Katedrze Informatyki Gospodarczej Szkoły Głównej Handlowej. 1 2 Korzyści z zastosowania nowoczesnych technologii w egzaminowaniu Narzędzia pomagające w organizacji procesu egzaminowania należą do klasy systemów informatycznych znanej w literaturze angielskiej pod pojęciem Computer Based Assessment (CBA). Wspomagają one całość procesu egzaminowania, począwszy od wprowadzania pytań i listy osób uprawnionych do zdawania, poprzez zbieranie odpowiedzi studentów, a skończywszy na prezentowaniu wyników i ich ew. eksportowaniu do systemów zarządzania uczelnią, takich jak np.: Wirtualny Dziekanat w przypadku Szkoły Głównej Handlowej. Dodatkowo narzędzia te mogą zautomatyzować ocenianie pytań testowych, a także, poprzez archiwizowanie wyników w formie elektronicznej, dają możliwość łatwego ich przeglądania i poddawania analizom statystycznym. Wymieniona wyżej funkcjonalność tego typu aplikacji przekłada się bezpośrednio na obniżenie obciążenia wykładowców, zmniejszenie ilości pracy wykonywanej przez pracowników administracji oraz dziekanatu, a co za tym idzie, przyczynia się do obniżenia kosztów przeprowadzania procesu weryfikacji wiedzy. Z drugiej strony korzyści odnoszą również studenci poddający się egzaminowaniu przy użyciu narzędzi typu CBA. Należy do nich zaliczyć przede wszystkim przyśpieszenie całego procesu objawiające się w natychmiastowym, automatycznym ocenianiu pytań testowych oraz zredukowaniu liczby błędów popełnionych w trakcie oceniania egzaminów poprzez wyeliminowanie czynnika ludzkiego. Z punktu widzenia organizacji procesu dydaktycznego istotnym czynnikiem, w jakim zastosowanie narzędzia typu CBA może pomóc, jest postulowana przez Zespół Ekspertów Fundacji Promocji i Akredytacji Kierunków Ekonomicznych w materiale do dyskusji pt.: Dobre praktyki w zakresie organizacji procesu dydaktycznego1 obiektywizacja ocen na egzaminie. Zastosowanie systemu informatycznego może wspomóc obiektywizację ocen dzięki: • automatycznemu ocenianiu pytań testowych, • automatycznemu podliczaniu wyników i wystawianiu ocen końcowych, • anonimowemu sprawdzaniu odpowiedzi na pytania otwarte – po pierwsze, pytania mogą być sprawdzane pojedynczo bez możliwości określenia tożsamości autora odpowiedzi, nie ma również ryzyka zidentyfikowania studenta na podstawie jego charakteru pisma; – po drugie, pytania, które dany wykładowca ma ocenić mogą być automatycznie losowane, także w ten sposób, aby każde pytanie było oceniane przez dwie lub więcej niezależnych osób, a liczba punktów przyznana za pytanie stanowiła średnią liczbę punktów przyznaną przez każdego z oceniających, • łatwej weryfikowalności wyników przez grono osób koordynujących egzaminowanie z danego przedmiotu – koordynatorzy mają wgląd we wszystkie prace, ustalają punktację i skalę ocen, której stosowanie system wymusza na sprawdzających – stanowi to znaczne utrudnienie dla wszelkich prób korupcji bądź kumoterstwa. Stosowanie narzędzi komputerowych w egzaminowaniu daje możliwości szczegółowej analizy wyników studentów. Dzięki temu, że pytania w systemach CBA mogą być pogrupowane w różnych kategoriach według zakresu tematycznego, trudności przejawiającej się różną liczbą możliwych do zdobycia punktów, 1 E. Gatnar, T. Gołębiowski, J. Machaczka. B. Pogonowska, S. Wrzosek, Dobre praktyki w zakresie organizacji procesu dydaktycznego, http://www.fundacja.edu.pl/organizacja/index.php?DOC=dobre_praktyki [19.05.2005]. 2 a także według rodzaju pytania (pytania otwarte, jedno- i wielokrotnego wyboru), możliwe jest porównanie wyników uzyskanych przez studentów z różnych partii materiału. Taka analiza może pomóc w dostosowaniu treści wykładu poprzez zwrócenie uwagi prowadzącego na zagadnienia mniej zrozumiałe dla studentów. 3 Ocena jakości pytań testowych Dzięki temu, że egzamin jest przeprowadzany komputerowo nie tylko możemy zmniejszyć nakład pracy dydaktyka przeprowadzającego i sprawdzającego egzamin, wyeliminować potencjalne błędy wynikające z czynnika ludzkiego oraz wskazać zagadnienia niezrozumiałe dla studentów, ale również możliwe jest uzyskanie informacji zwrotnej na temat samego egzaminu. Należy do niej zaliczyć odpowiedzi na pytania, czy egzamin był dla nich trudny, jaka jest średnia liczba uzyskanych punktów, jaki jest rozkład punktów oraz ocen. Drugą grupę informacji, jakie komputerowy system egzaminowania dostarcza, stanowią wnioski na temat jakości egzaminu oraz wnioski pozwalające wychwycić najczęściej popełniane błędy w konstrukcji pytań testowych. 3.1 Typowe błędy w konstrukcji pytań testowych Jak wiadomo jakość testu zależy od jakości pytań, z których jest on zbudowany. Najczęściej spotykane problemy, na które każda osoba tworząca dobrej jakości egzamin musi być wyczulona to: 1. Błędnie oznaczone odpowiedzi prawidłowe, czyli pomyłki w kluczu odpowiedzi; 2. Pytania niepozwalające różnicować studentów – pytania zbyt łatwe lub zbyt trudne; 3. Pytania, w których dystraktory nie są mylące – gdy odpowiedź staje się dosyć oczywista lub ograniczona do wyboru pośród dwóch/trzech alternatyw; 4. Pytania, które są źle sformułowane w taki sposób, że wskazanie poprawnej odpowiedzi nie jest możliwe na podstawie ich treści. W celu wychwycenia powyższych błędów, przyczyniających się do pogorszenia jakości zestawu egzaminacyjnego system egzaminowania może analizować odpowiedzi studentów, w oparciu o klasyczną teorię testów wyliczać następujące miary2: stopień trudności (facility) oraz siłę różnicowania (discrimination power) każdego pytania a także rzetelność (reliability) całego testu, a następnie wyciągać wnioski na temat każdego pytania i prezentować je dydaktykowi. Taka analiza pozwala odnaleźć możliwe pomyłki w kluczu odpowiedzi, a także umożliwia wychwycenie zbyt łatwych i zbyt trudnych pytań, które nie zwiększają siły różnicowania testu, pogarszając jego jakość. 3.2 Kryteria oceny jakości pytań Klasyczne podejście w teorii testów zakłada, że test jest jednorodny i wszystkie pytania mierzą tę samą umiejętność/wiedzę studenta. Stopień trudności pytania Fac(X) jest stosunkiem średniej liczby punktów x uzyskanych przez wszystkich odpowiadających na dane pytanie oraz maksymalnej liczby 2 C. Beevers, C. Milligan, R. Thomas, Item Analysis, Scottish Centre for Research into OnLine Learning and Assessement [online], December 2003, http://www.scrolla.hw.ac.uk/focus/ia.html [09.10.2004]. 3 punktów X max możliwych do zdobycia i wyraża się wzorem3: Stopień trudności przyjmuje wartości z przedziału od 0 do 1, a im wyższy wynik, tym pytanie jest łatwiejsze. Nie jest pożądane, aby pytanie miało stopień trudności niższy niż 0,15 lub wyższy niż 0,854. Dodatkowo system wylicza częstości, z jakimi poszczególne podpunkty są zaznaczane przez studentów, aby wyłapać alternatywy, które nie są mylące. Odpowiedzi niewybierane przez studentów powinny być zastąpione innymi, ponieważ nie przyczyniają się do różnicowania pomiędzy lepszymi i gorszymi wynikami5. W przypadku, gdy jeden z dystraktorów jest wybierany częściej niż odpowiedź prawidłowa, należy sprawdzić poprawność klucza odpowiedzi, zwłaszcza gdy dystraktor ten pozytywnie koreluje z wynikami w całym teście. Pozycje, na które prawie wszyscy studenci odpowiadają poprawnie są bezużyteczne z punktu widzenia różnicowania studentów i powinny być zastąpione innymi pytaniami. Siła różnicowania mierzy związek danego pytania z wynikiem uzyskanym w całym teście. Wskaźnik różnicowania jest miarą korelacji Pearsona pomiędzy średnim wynikiem uzyskanym w danym pytaniu oraz średnim wynikiem uzyskanym w teście przez studenta. Wyraża się ona następującym wzorem6: gdzie r xy jest współczynnikiem korelacji pomiędzy wynikiem uzyskanym w pytaniu x oraz całkowitym wynikiem uzyskanym w teście przez danego studenta y; x jest średnim wynikiem uzyskanym przez studentów w danym pytaniu; y jest średnim całkowitym wynikiem uzyskanym przez studentów w teście; Sx jest wartością odchylenia standardowego dla danego pytania; Sy jest wartością odchylenia standardowego dla wyniku całkowitego; N jest liczbą obserwacji, czyli liczbą studentów, którzy udzielili odpowiedzi na dane pytanie. Współczynnik korelacji Pearsona może przyjmować wartości z przedziału od -1 do +1, a im wyższa wartość współczynnika korelacji, tym większa jest siła różnicująca pytania. W idealnym przypadku korelacja równa +1 oznacza, że wszyscy, którzy uzyskali wysokie wyniki w danym pytaniu, uzyskali również wysokie wyniki w całym teście. Współczynnik korelacji Pearsona powinien zwykle być dodatni 3 M. McAlpine, A Summary of Methods of Item Analysis, CAA Centre Bluepaper Number 2, Robert Clark Center for Technological Education, University of Glasgow, 2002, http://caacentre.lboro.ac.uk/dldocs/BP2final.pdf [09.10.2004]. 4 Ibidem. 5 J. Kehoe, op cit. 6 M. McAlpine, op cit. 4 zakładając, że test jest jednowymiarowy i spójny. Pytania, które korelują na poziomie niższym niż 0,15 z całkowitym wynikiem w teście prawdopodobnie powinny być przedefiniowane, ponieważ istnieje szansa, że nie mierzą tej samej umiejętności co cały test7. Rzetelność testu jest miarą jego wewnętrznej spójności, stopniem, w jakim wszystkie pozycje korelują ze sobą nawzajem. Każdy wynik pomiaru składa się z wyniku rzeczywistego oraz błędu. Rzetelność jest stopniem wariancji wyniku rzeczywistego i wyraża się wartością współczynnika α – Cronbacha8: gdzie rα jest współczynnikiem α-Cronbacha; k liczbą pozycji w teście; S2i wariancją pytania i-tego; St2 wariancją całego testu. Współczynnik ten może przyjmować wartości od 0 do 1. Im wyższa jest wartość współczynnika, tym większa wewnętrzna spójność i rzetelność testu, a mniejsza wariancja błędu pomiaru. Pożądanym poziomem rzetelności testu jednokrotnego wyboru jest 0,909, dla testów posiadających od 10 do 15 pytań satysfakcjonującym poziomem jest 0,5010. 3.3 Wnioski z analizy jakości przykładowego egzaminu Opisany powyżej mechanizm oceny jakości testów egzaminacyjnych został zaimplementowany w Systemie Komputerowego Wspomagania Egzaminowania, tworzonym w Katedrze Informatyki Gospodarczej Szkoły Głównej Handlowej. Działanie systemu zostało empirycznie sprawdzone na przykładzie testu z języka angielskiego, który składał się z 15 pytań. Pytania różniły się stopniem trudności i posiadały tylko jedną poprawną odpowiedź. W celu sprawdzenia, czy system radzi sobie w scenariuszach opisanych w punkcie 3.1 celowo wprowadzono pomyłki w kluczu odpowiedzi oraz przeformułowano tak pytanie, aby jego treść była niezrozumiała i uniemożliwiała wskazanie poprawnej odpowiedzi. Do testu przystąpiło 76-ciu studentów, a w wyniku analizy ich odpowiedzi uzyskano przedstawione poniżej wnioski na temat jakości pytań egzaminacyjnych. System trafnie zidentyfikował pytania, które dawały niewielkie możliwości różnicowania ocen studentów, czyli były zbyt łatwe lub zbyt trudne i wszyscy studenci udzielali na nie zbliżonych odpowiedzi. Podobnie bardzo dobrze wychwytywane były niskiej jakości dystraktory, czyli błędne odpowiedzi, które powinni wybierać nieprzygotowani studenci. Pytania, w których celowo wprowadzono pomyłkę w kluczu odpowiedzi były również 7 J. Kehoe, Basic Item Analysis for Multiple-Choice Tests [online]. ERIC/AE Digest., ERIC Clearinghouse on Assessment and Evaluation., Washington, 1995, [http://www.ericfacility.net/databases/ERIC_Digests/ed398237.html] [09.10.2004]. 8 M. McAlpine, op cit. 9 Ibidem. 10 J. Kehoe, op cit. 5 identyfikowane, ale mechanizm wnioskowania nie był w stanie odróżnić ich od pytań bardzo trudnych. Analiza jakości nie wychwyciła jednak pytania sformułowanego w niezrozumiały sposób. Za pomocą przedstawionej powyżej klasycznej teorii testów nie jest możliwe stwierdzenie, czy pytanie, na które studenci udzielili odpowiedzi jest dla nich zrozumiałe. Test empiryczny wykazał, że analiza jakości pytań w większości przypadków wymienionych w punkcie 3.1 skutecznie zwraca uwagę egzaminatora na pytania, których jakość jest wątpliwa. Jedyny przypadek, w którym muszą być zastosowane inne mechanizmy wnioskowania to pytania niezrozumiałe, źle sformułowane. Rozwiązaniem tego problemu może być zastosowanie teorii cech latentnych (Latent Trait Models)11, zamiast klasycznej teorii testów, a w szczególności teorii IRT (Item Response Theory). Zauważono dodatkowo, że wadą klasycznej teorii testów jest zależność oceny pytań od poziomu wiedzy aktualnie egzaminowanych studentów. Im bardziej jednorodna jest grupa studentów, tym mniejsza siła różnicująca pytań. Również im wyższe są umiejętności studentów, tym trudność pytań oceniana jest niżej. Zastosowanie teorii IRT pozwoliłoby uniezależnić ocenę pytań od charakterystyki egzaminowanych studentów i w efekcie uzyskać bardziej obiektywne wskaźniki jakości12. 4 Czegóż więcej możemy oczekiwać od systemu egzaminowania? – podsumowanie Zastosowanie systemu komputerowego w procesie egzaminowania może w dużej mierze przyczynić się do poprawy jakości egzaminu, zmniejszyć nakład pracy egzaminatora, wspomóc obiektywizację oceny oraz przyspieszyć sprawdzanie wyników testów. Naturalnie, nasuwa się więc pytanie, czy może ono zastąpić człowieka w całym procesie egzaminowania – począwszy od tworzenia pytań poprzez ocenę esejów i odpowiedzi na pytania otwarte? Aby to było możliwe komputer, musiałby rozumieć tekst, który czyta. Prace nad komputerowym rozumieniem tekstów są obecnie prowadzone i dwie dobrze znane aplikacje – Project Essay Grade oraz Intelligent Essay Assessor – już dziś mogą być z powodzeniem stosowane podczas oceny wypowiedzi otwartych, napisanych w języku angielskim, jako tzw. drugi egzaminator.13 W przyszłości kolejne generacje podobnych aplikacji znajdą zapewne zastosowanie w egzaminowaniu i będą mogły już nie tylko wspierać, ale i zastąpić człowieka w roli egzaminatora. Do rozważenia pozostaje jedynie pytanie, czy całkowicie zautomatyzowany, ale jednocześnie odhumanizowany proces weryfikacji wiedzy, przyjmie się w środowisku akademickim? 11 M. McAlpine, op cit. M. McAlpine, op cit. 13 P. Rubach, Czy komputer potrafi zrozumieć tekst? Pierwsze pakiety oprogramowania analizujące wypowiedzi otwarte, „e-Mentor” 2004, nr 4 (6), s. 29-33. 12 6 Bibliografia P. Rubach, Czy komputer potrafi zrozumieć tekst? Pierwsze pakiety oprogramowania analizujące wypowiedzi otwarte, „e-Mentor” 2004, nr 4 (6), s. 29-33. Netografia C. Beevers, C. Milligan, R. Thomas, Item Analysis, Scottish Centre for Research into OnLine Learning and Assessement [online], December 2003, http://www.scrolla.hw.ac.uk/focus/ia.html [09.10.2004]. E. Gatnar, T. Gołębiowski, J. Machaczka. B. Pogonowska, S. Wrzosek, Dobre praktyki w zakresie organizacji procesu dydaktycznego, http://www.fundacja.edu.pl/organizacja/index.php?DOC=dobre_praktyki [19.05.2005]. J. Kehoe, Basic Item Analysis for Multiple-Choice Tests [online]. ERIC/AE Digest., ERIC Clearinghouse on Assessment and Evaluation., Washington, 1995, [http://www.ericfacility.net/databases/ERIC_Digests/ed398237.html] [09.10.2004] M. McAlpine, A Summary of Methods of Item Analysis, CAA Centre Bluepaper, Number 2, Robert Clark Center for Technological Education, University of Glasgow, 2002, http://caacentre.lboro.ac.uk/dldocs/BP2final.pdf [09.10.2004] Abstract Information technology can be used in examination to help in fulfilling both administrative tasks as well as in raising the quality of tests. Presented results from exams conducted using the Computer Based Assessment Tool developed at the Warsaw School of Economics which is based on classical test theory show that very easy, very hard and non-distractive questions are well identified by the system but misformed questions are treated similarly to very hard questions. Nota o autorach Anna Borkowska jest asystentką w Katedrze Informatyki Gospodarczej w Szkole Głównej Handlowej w Warszawie. Od dwóch lat zajmuje się problematyką zastosowania systemów komputerowego wspomagania egzaminowania oraz analizą jakości pytań egzaminacyjnych. Jest współautorką Systemu Komputerowego Wspomagania Egzaminowania (SKWE), wykorzystywanego w Katedrze Informatyki Gospodarczej. Paweł Rubach jest asystentem w Szkole Głównej Handlowej w Warszawie, pracuje w Katedrze Informatyki Gospodarczej. Jego zainteresowania naukowe skupiają się wokół zagadnień związanych z systemami i metodami weryfikacji wiedzy. Ponadto autor interesuje się tematyką związaną z systemami Workflow, oprogramowaniem Open Source, jego efektami ekonomicznymi oraz kwestią bezpieczeństwa infrastruktury informatycznej. Jest współautorem Systemu Komputerowego Egzaminowania (SKWE), wykorzystywanego w Katedrze Informatyki Gospodarczej. 7 Wspomagania