wpďyw indywidualnego stylu ewaluacji na oceny

Transkrypt

Problemy ZarzÈdzania, vol. 12, nr 1 (45): 137 – 155
ISSN 1644-9584, © Wydziaï ZarzÈdzania UW
DOI 10.7172/1644-9584.45.9
Ewaluacja projektów ib abstraktów – wpïyw
indywidualnego stylu ewaluacji na oceny
Nadesïany: 30.10.13 | Zaakceptowany do druku: 20.12.13
Grzegorz Król*, Katarzyna Kinga Kowalczyk**
W artykule przedstawiamy zarys psychologicznego modelu ewaluacji oraz wynik analizy ocen 673 abstraktów zgïoszonych na miÚdzynarodowÈ konferencjÚ ib323 projektów badawczych. W obu przypadkach
jeden ewaluator (recenzent) dokonywaï oceny wielu projektów lub abstraktów, co pozwoliïo na wykazanie
wpïywu indywidualnych stylów ewaluacji (dla 18 ewaluatorów projektów badawczych ib 33 recenzentów
abstraktów), operacjonalizowanych przez poziom ïagodnoĂci/surowoĂci ib stopieñ róĝnicowania ocen.
Pokazano takĝe zwiÈzek kolejnoĂci oceniania zb surowoĂciÈ ocen (pierwsze 15 abstraktów ocenianych
byïo surowiej niĝ reszta), co zinterpretowano za pomocÈ dwóch alternatywnych wyjaĂnieñ: stabilizacji
utajonego wzorca porównawczego oraz zmÚczenia.
Sïowa kluczowe: ewaluacja, utajone wzorce, recenzje, efekt ïagodnoĂci, róĝnicowanie ocen.
Evaluation of grant proposals and abstracts – the influence
ofb individual evaluation style on ratings
Submitted: 30.10.13 | Accepted: 20.12.13
In this article we present an outline of psychological model of evaluation and results of ratings analysis for
673 abstracts submitted to international conference and 323 grant proposals. In both cases one evaluator
(reviewer) evaluated many proposals or abstracts, which allowed us to demonstrate individual evaluation
style (for 18 grant proposals evaluators and 33 abstract reviewers), operationalized by leniency/severity
level and degree of ratings differentiation. We showed as well relation between rank order and severity
rating (first 15 abstracts were rated more severely than others). It is suggested that this relation can
be explained by two alternative explanations: stabilization of implicit comparative standard and fatigue.
Keywords: evaluation, implicit standards, reviews, leniency terror, ratings differentiation.
JEL: C18
* Grzegorz Król – dr, Wydziaï ZarzÈdzania, Uniwersytet Warszawski.
** Katarzyna Kinga Kowalczyk – mgr, Wydziaï ZarzÈdzania, Uniwersytet Warszawski.
Adres do korespondencji: Uniwersytet Warszawski, Wydziaï ZarzÈdzania, ul. Szturmowa 1/3, 02-678bWarszawa;
e-mail: [email protected].
Grzegorz Król, Katarzyna Kinga Kowalczyk
1. Wprowadzenie
Ocena jakoĂci produktu materialnego (np. samochodu, ukïadów scalonych) czy usïug (np. biura podróĝy, banku) jest ob wiele ïatwiejsza niĝ
ocena produktu niematerialnego, takiego jak np. projekt badawczy, abstrakt wystÈpienia konferencyjnego czy dorobek naukowy. O ile wbprzypadku
wiÚkszoĂci przedmiotów materialnych istniejÈ precyzyjnie okreĂlone normy
(np. parametry techniczne), obtyle wbocenach produktów mentalnych proces
obiektywizacji oceny jest duĝym wyzwaniem.
Nic dziwnego, ĝe powstaïa caïa gaïÈě nauki zajmujÈca siÚ problemami
ewaluacji. W materiaïach Polskiego Towarzystwa Ewaluacyjnego (2008,
s.b 3–4) moĝemy przeczytaÊ, ĝe „Ewaluacja koncentruje siÚ na gromadzeniu
wiedzy, która jest podstawÈ do formuïowania sÈdów na temat wartoĂci podejmowanych dziaïañ (…). Dla powodzenia ewaluacji podstawowe znaczenie
ma: precyzyjnie ib logicznie spójne okreĂlenie przedmiotu ib celu ewaluacji,
okreĂlenie kluczowych pytañ, na które poszukuje siÚ odpowiedzi oraz kryteriów, zb zastosowaniem których przedmiot ewaluacji bÚdzie ewaluowany”.
Ze wzglÚdu na moment przeprowadzania badania wyróĝniane sÈ nastÚpujÈce
rodzaje ewaluacji (CiÚĝka, 2005): (1) ex-ante (przed rozpoczÚciem dziaïania);
(2) mid-term (w poïowie trwania dziaïania); (3) ad hoc/on-going (wykonywana na bieĝÈco, wbdowolnym momencie) oraz (4) ex-post (po zakoñczeniu
dziaïania).
NarzÚdzia ewaluacyjne sÈ wykorzystywane wb niemal kaĝdej dziedzinie
zarzÈdzania. Ich gïównym celem jest zapewnienie (precyzyjniej: zwiÚkszenie)
obiektywizmu ocen poprzez skwantyfikowanie wb ujÚciu iloĂciowym proponowanych kryteriów. Jest to jednak zadanie trudne ib obarczone wieloma
potencjalnymi bïÚdami. Ewaluatorzy dysponujÈ najczÚĂciej dostarczonymi
przez prowadzÈcego ewaluacjÚ liczbowymi skalami odpowiedzi, za pomocÈ
których majÈ wyraziÊ swoje opinie. W wiÚkszoĂci ankiet mogÈ równieĝ doïÈczyÊ sïowny komentarz.
W artykule przedstawiamy analizy ewaluacji zbioru 673 abstraktów
(nazywane dalej zbiorem A) zgïoszonych na miÚdzynarodowÈ konferencjÚ
ib 323 projektów badawczych (nazywane dalej zbiorem P), wiÚc rozwaĝania
teoretyczne bÚdziemy ilustrowaÊ przede wszystkimi tymi dwoma przykïadami. SÈ to ewaluacje ex-ante, których wyniki majÈ istotne konsekwencje.
Odrzucone wb jej wyniku projekty lub abstrakty nie uzyskujÈ finansowania
ib nie sÈ realizowane lub prezentowane. Zanim przejdziemy do psychologicznego modelu ewaluacji, przedstawiamy informacje obsposobie ewaluacji
wykorzystanym wb analizowanych danych.
Zbiór A zawiera oceny 673 abstraktów zgïoszonych na miÚdzynarodowÈ
konferencjÚ ob tematyce zdrowia publicznego wb 2011 r. Recenzentami byli
przedstawiciele miÚdzynarodowych organizacji pozarzÈdowych, naukowcy oraz
niezaleĝni eksperci zb caïego Ăwiata. Autorzy najlepszych abstraktów mogli
liczyÊ na stypendium konferencyjne, pokrywajÈce m.in. koszty podróĝy. Proces
138
DOI 10.7172/1644-9584.45.9
Ewaluacja projektów i abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny
ewaluacji abstraktów byï dwustopniowy, skïadaï siÚ zbfazy recenzji on-line oraz
fazy spotkania komitetu programowego, gdzie podejmowano ostateczne decyzje. Ocena abstraktów odbywaïa siÚ za poĂrednictwem narzÚdzi dostÚpnych
on-line, poprzez przeglÈdarkÚ internetowÈ, gdzie oceniajÈcy mieli dostÚp do
treĂci zgïoszeñ. Abstrakty prezentowane byïy anonimowo ibprzypisywane przez
system do recenzenta wb sposób losowy, zb zachowaniem kontroli konfliktu
interesów. Ewaluatorzy oceniali prace na 6 wymiarach, opisanych na skali
0 do 10 kaĝdy. Oceny czÈstkowe zostaïy przeksztaïcone wb ĂredniÈ ogólnÈ
zb nastÚpujÈcymi wagami: jakoĂÊ (waga 0,1), wartoĂÊ teoretyczna lub praktyczna (0,1), oryginalnoĂÊ (0,1), zgodnoĂÊ zbtematem konferencji (0,1), jakoĂÊ
prezentacji (0,1), ocena podsumowujÈca ib rekomendacjab (0,5).
Zbiór P zawiera oceny 323 projektów badawczych dokonane przez ekspertów wbramach jednej zbpolskich organizacji pozarzÈdowych. ZwyciÚskie
projekty otrzymywaïy finansowanie wbwysokoĂci 28 tys. zï. Zgïoszenia pogrupowane byïy wb 6 dziedzinach. Wszystkie projekty zb danej dziedziny byïy
oceniane niezaleĝnie przez tych samych 3 recenzentów, którzy przyznawali
im ocenÚ (na skali 1–5). Kolejny ekspert dokonywaï osobnego rankingu,
kierujÈc siÚ wïasnÈ ocena wniosków oraz uzyskanymi przez nie wczeĂniejszymi recenzjami.
Celem przeprowadzonej ewaluacji zbioru A ibP byïo liczbowe porównanie ocenianych obiektów. W obu przypadkach jeden ewaluator (recenzent)
dokonywaï ewaluacji wielu projektów lub abstraktów, co pozwala na analizÚ
wïaĂciwego dla niego stylu ewaluacji, który omówimy wbdalszej czÚĂci tekstu.
2. Psychologiczny model procesu ewaluacji1
Kaĝdy sÈd ewaluatywny, bÚdÈcy np. odpowiedziÈ na pytanie, czy projekt
badawczy zasïuguje na finansowanie, czy abstrakt zasïuguje na publicznÈ
prezentacjÚ wb trakcie konferencji oraz przyznanie stypendium, wymaga
porównania ocenianego obiektu zbjakimĂ standardem lub wzorcem. Zwraca
na to uwagÚ takĝe Wolfe, wbswoim modelu oceny esejów (Wolfe, 1997; za:
Eckes, 2012).
2.1. Utajone wzorce porównawcze
JednÈ zb podstawowych zdolnoĂci naszego umysïu jest kategoryzowanie
doĂwiadczeñ, ïÈczenie informacji ibodkrywanie zaleĝnoĂci, które krystalizujÈ
siÚ wb postaci wzorców. Wzorce zaleĝÈ od uprzednich kontaktów zb podobnymi obiektami (a wiÚc doĂwiadczenia) ib zestawienia informacji (a wiÚc
aktywnoĂci poznawczej).
Wzorcem uĝywanym do porównañ kolejnych obiektów moĝe byÊ:
1) wyabstrahowana ze szczegóïów reprezentacja bÚdÈca uĂrednieniem cech
napotkanych wczeĂniej obiektów,
2) teoretyczna wizja (nieistniejÈcego wb rzeczywistoĂci) egzemplarza,
3) jeden ze spotkanych wczeĂniej egzemplarzy danej kategorii.
Problemy ZarzÈdzania vol. 12, nr 1 (45), 2014
139
Jeĝeli oceniamy naszego szefa to wzorcem #1 bÚdzie uĂredniona reprezentacja naszej wiedzy na temat tego, jacy szefowie bywajÈ, wzorcem #2
wizja, jaki powinien byÊ szef, wzorcem #3 moĝe staÊ siÚ np. nasz poprzedni
szef, do którego bÚdziemy porównywaÊ aktualnego.
Proces wykorzystania róĝnych typów wzorców wbewaluacji wyjaĂnimy na
przykïadzie oceny trudno kwantyfikowalnego dorobku naukowego. Wbprzypadku postÚpowania obnadanie tytuïu profesora, recenzent – abwiÚc profesor
zb tytuïem – musi okreĂliÊ, jak dobry jest kandydat do tytuïu, trzeba wiÚc
okreĂliÊ jakoĂÊ jego dorobku.
Problem definiowania jakoĂci staje siÚ jasny, gdy przypomnimy opowieĂÊ
Pirsiga (2005). Wykïadowca poprosiï studentów, aby uszeregowali cztery
eseje wedïug ich jakoĂci. Wykonali oni to zadanie bez najmniejszego problemu. Kiedy zapytano ich, jak naleĝy zdefiniowaÊ jakoĂÊ, studenci zgodnie
wskazywali m.in. na takie aspekty, jak: spójnoĂÊ, ĝywy styl, siïa przekonywania, zaangaĝowanie emocjonalne, utrzymywanie czytelnika wb napiÚciu,
ale nie byli wb stanie podaÊ jej definicji. Musieli wiÚc przyznaÊ, ĝe chociaĝ
wbich gïowach istnieje porównawczy wzorzec jakoĂci, do którego odwoïywali
siÚ, rangujÈc eseje, to nie potrafiÈ go zwerbalizowaÊ. Skoro wzorzec nie
poddaje siÚ werbalizacji moĝna go nazwaÊ utajonym.
Profesor oceniajÈcy dorobek kandydata do tytuïu staje przed podobnym
problemem. Musi dokonaÊ porównania. I choÊ moĝe sobie tego nie uĂwiadamiaÊ, najczÚĂciej „ma do dyspozycji” trzy wzorce porównawcze: (1) wyabstrahowanÈ ze szczegóïów reprezentacjÚ bÚdÈcÈ uĂrednieniem cech recenzowanych wczeĂniej „profesur”, (2) idealnÈ wizjÚ (teoretycznie moĝliwÈ, ale
niekoniecznie istniejÈcÈ wb rzeczywistoĂci) dorobku profesora, (3) dorobek
innego profesora lub wïasny. Reprezentacja poznawcza wzorca ma budowÚ
prototypowÈ, tzn. skïada siÚ zbprototypu (wzorca) ibzakresu dopuszczalnych
transformacji. Metaforycznie moĝna powiedzieÊ, ĝe oceniajÈc podobieñstwo
dostarczonej dokumentacji do wzorca, dokonuje siÚ mentalnej transformacji
jednej reprezentacji wbdrugÈ. ChoÊ ostateczna decyzja ma charakter binarny
(kandydat na profesora speïnia wymagania lub nie), to jednak recenzenci
sÈ wbstanie okreĂliÊ „odlegïoĂÊ” dorobku kandydata od prototypu kategorii
„dorobek profesorski”. JeĂli odlegïoĂÊ przekracza zakres dopuszczalnych
transformacji prototypu (a wiÚc wbzbyt duĝym stopniu odbiega od wzorca),
recenzent odmawia swojego poparcia kandydaturze.
Kategoria „dorobek profesora” moĝe mieÊ parÚ prototypów (np. prototyp
profesora empirysty – publikujÈcego przede wszystkim artykuïy empiryczne,
prototyp profesora teoretyka – piszÈcego gïównie monografie; prototyp profesora praktyka – odnoszÈcego wielkie sukcesy wb zastosowaniach).
To, czy dorobek zostanie uznany za wystarczajÈcy do przyznania tytuïu,
nie zaleĝy tylko od jego zawartoĂci, ale teĝ od typu wzorca, zbjakim bÚdzie
porównywany (wzorzec typowego, idealnego lub konkretnego obiektu).
To, który wzorzec zostanie zaktywizowany, zaleĝy od nawykowych wyborów recenzenta (niektórzy zawsze koncentrujÈ siÚ na wzorcu idealnym)
140
DOI 10.7172/1644-9584.45.9
ib zmiennych czynników sytuacyjnych (np. ostatnio pisana recenzja). Moĝe
wystarczyÊ, aby ktoĂ przypomniaï recenzentowi podobny przypadek oceniany
2 lata wczeĂniej, ib wtedy Ălad pamiÚciowy dotyczÈcy tego kandydata staje
siÚ wzorcem porównawczym.
Analogicznie podczas oceny projektu badawczego/abstraktu utajonym
poznawczym wzorcem porównawczym dla ewaluatora moĝe byÊ np.:
1) wzorzec #1 – reprezentacja bÚdÈca uĂrednieniem cech abstraktów/projektów wczeĂniej ocenianych, powstajÈca jako odpowiedě na pytanie:
„Jak jest najczÚĂciej?”;
2) wzorzec #2 – reprezentacja „idealnego” projektu/abstraktu, powstajÈca
jako odpowiedě na pytanie „Jak byÊ powinno?” (taki obiekt jest wytworem myĂlenia abstrakcyjnego ib moĝe nie istnieÊ wb Ăwiecie realnym);
3) wzorzec #3 – reprezentacja konkretnego obiektu (ostatnio ocenianego
lub takiego, który zb jakiĂ wzglÚdów „zapadï wb pamiÚÊ”).
Moĝe siÚ zdarzyÊ, ĝe przystÚpujÈc do oceny, recenzenci nie majÈ gotowego
wzorca porównawczego – np. po raz pierwszy recenzujÈ projekty badawcze
wb tym konkursie – wtedy wzorzec zaczyna siÚ wyïaniaÊ wb trakcie kolejnych
ocen. Co waĝne, to pierwsze abstrakty ibprojekty wywierajÈ wiÚkszy wpïyw na
tworzenie siÚ tych prototypów niĝ pozostaïe. W psychologii prawidïowoĂÊ ta
okreĂlana jest jako efekt pierwszeñstwa. Przykïadowo, te same bïÚdy umieszczone wb pierwszej czÚĂci wypracowania majÈ wiÚkszy wpïyw na ocenÚ, niĝ
gdy byïy umieszczone wbjego dalszej czÚĂci. Student odpowiadajÈcy dobrze na
pierwsze pytania, popeïniajÈcy parÚ bïÚdów na koñcu, jest oceniany wyĝej niĝ
ten, który popeïnia te same bïÚdy na poczÈtku, abpotem odpowiada bezbïÚdnie,
mimo ĝe wb obu przypadkach liczba ib jakoĂÊ bïÚdów byïy identyczne (Jones,
Rock, Shaver, Goethals ib Ward, 1968). Badania nad efektem pierwszeñstwa
potwierdzajÈ obiegowÈ mÈdroĂÊ, ĝe liczy siÚ… pierwsze wraĝenie.
Ostatnio oceniane obiekty (projekty/abstrakty) stanowiÈ kontekst dla
kolejnych, mogÈ wiÚc wpïywaÊ na zmianÚ pierwszego typu wzorca porównawczego („Jak jest najczÚĂciej”) ibzmieniaÊ oceny. Wyniki dotychczasowych
badañ sugerujÈ, ĝe surowoĂÊ ocen pierwszych obiektów wbserii jest wyĝsza niĝ
obiektów ostatnich. Wykazano na przykïad, ĝe wyĝsze noty wb MiÚdzynarodowym Konkursie Muzycznym im. Królowej Elĝbiety Belgijskiej otrzymywali
muzycy wystÚpujÈcy wbpóěniejszych dniach (Flores ibGinsburgh, 1996), wbkonkursie gastronomicznym „Das Perfekte Dinner” czÚĂciej wygrywaïy osoby
gotujÈce wb piÈtki niĝ poniedziaïki (Haigner, Jenewein, Müller ib Wakolbinger, 2010), wb zawodach ïyĝwiarzy figurowych uczestnicy, którzy wystÚpowali
póěniej, otrzymywali lepsze noty zarówno wb pierwszej, jak ib drugiej rundzie
(Bruine de Bruin, 2006). Co waĝne, efekt ten wystÚpowaï niezaleĝnie od
stopnia znajomoĂci ocenianego obiektu ibkryterium oceny (Wedell, Parducci
ibLane, 1990; za: Skïad ibWieczorkowska, 2001). Jeĝeli zaïoĝymy, ĝe wzorzec
(prototyp oceny) wyïania siÚ podczas oceny pierwszych obiektów, to moĝna
sÈdziÊ, ĝe wb pewnym momencie serii dokona siÚ jego krystalizacja, co moĝe
siÚ przejawiaÊ wb zmianie wartoĂci Ăredniej.
141
W procesie ewaluacji podstawowÈ rolÚ odgrywa efekt zakotwiczenia
(anchoring effect). W wielu badaniach pokazano, ĝe podana liczba stanowi
punkt odniesienia (kotwicÚ) dla formuïowania dalszych ocen. Na przykïad
uczestników pytano, ile byliby skïonni przeznaczyÊ na wsparcie programu
ochrony ptaków morskich zagroĝonych przez tankowce; grupy badanych
róĝniïa suma wymienionÈ wbpytaniu „Czy byliby Pañstwo skïonni przekazaÊ
datek wbwysokoĂci x dolarów”. W grupie 1., wbktórej nie wymieniono sumy,
badani deklarowali gotowoĂÊ wpïacenia 64 dol., wbgrupie 2., pytanej ob5bdol.
Ărednia zbdeklaracji wyniosïa 20 dol., wbgrupie 3. pytanej ob400 dol.bĂrednia
wzrosïa do 143 dol. (Kahneman, 2011). Wprowadzona przez pytanie wartoĂÊ
(5 dol. vs 400 dol.) staïa siÚ wbumysïach badanych porównawczym wzorcem
(kotwicÈ) ib wpïynÚïa na udzielane odpowiedzi.
W analogiczny sposób zaktywizowany utajony wzorzec porównawczy dla
projektu badawczego czy abstraktu staje siÚ kotwicÈ ibwpïywa na jego ocenÚ.
PodsumowujÈc, wbprocesie oceny – oprócz wyartykuïowanych kryteriów
oceny dostarczonych przez zamawiajÈcego ewaluacjÚ – waĝnÈ rolÚ odgrywajÈ
utajone wzorce porównawcze, bÚdÈce efektem indywidualnego doĂwiadczenia recenzenta zb tÈ kategoriÈ obiektów oraz indywidualna strategia oceny
ewaluatora.
2.2. Strategie wb formuïowaniu sÈdów ewaluatywnych
Wpïyw na ocenÚ ma takĝe strategia, jakÈ zastosuje ewaluator. Przykïadowo, wbczasie gïosowania nad poparciem wniosku obnadanie tytuïu profesora czïonkowie Rady Wydziaïu (ewaluatorzy) mogÈ uĝyÊ jednej zbczterech
strategii formuïowania sÈdu (Forgas ib Vargas, 2005):
1. Strategii odtwarzania gotowych ocen – polegajÈcej na wyszukiwaniu
wbpamiÚci istniejÈcej juĝ wczeĂniej odpowiedzi. TakÈ gotowÈ ocenÈ jest
opinia Ărodowiska ob kandydacie, konkluzje wb recenzjach.
2. Strategii przetwarzania zmotywowanego – stosowanej wtedy, gdy mamy
silne preferencje dotyczÈce oceny, jakÈ mamy sformuïowaÊ. Jeĝeli lubimy
kandydata, to bÚdziemy gïosowaÊ na „tak”, nie zwaĝajÈc na argumenty
zawarte wb recenzjach.
3. Strategii heurystycznego (uproszczonego) przetwarzania informacji – wykorzystywanej wtedy, gdy nie zaleĝy nam bardzo na trafnoĂci lub jesteĂmy
przeciÈĝeni. Oceny heurystyczne opierajÈ siÚ na skojarzeniach – gïosujÈcy
moĝe decydowaÊ impulsywnie, ïatwo poddawaÊ siÚ efektowi zakotwiczenia.
4. Strategii przetwarzania analitycznego (szczegóïowego) – wymagajÈcej wyselekcjonowania ib zinterpretowania nowej informacji, ab nastÚpnie powiÈzania jej zb wiedzÈ. Jest ona stosowana, gdy gïosujÈcy ma wystarczajÈce
zdolnoĂci/umiejÚtnoĂci, aby zrozumieÊ np. ěródïo sprzecznych konkluzji
wb recenzjach, oraz zasoby poznawcze (nie jest zmÚczony) ib jest zainteresowany trafnoĂciÈ swojej oceny.
W psychologii panuje zgoda co do istnienia dwóch funkcjonalnie róĝnych systemów (por. Kahneman, 2011) przetwarzania informacji: (1) szyb142
DOI 10.7172/1644-9584.45.9
kiego – impulsywnego, dziaïajÈcego wbsposób automatyczny ibintuicyjny oraz
(2)bwolnego – refleksyjnego, odpowiadajÈcego za opanowanie automatycznych reakcji systemu pierwszego. System refleksyjny – zwiÈzany ze strategiami przetwarzania analitycznego – wymaga zasobów psychoenergetycznych
(np. Gailliot, Baumeister, DeWall, Maner, Plant, Tice ib Schmeichel, 2007;
Gailliot ib Baumeister, 2007), które wb warunkach presji czasowej lub zmÚczenia sÈ wyczerpywane. Powoduje to przeïÈczenie przetwarzania na system
pierwszy, zwiÈzany ze strategiami heurystycznego (a wiÚc uproszczonego)
przetwarzania informacji, co czÚsto prowadzi do powierzchownych ocen.
Znieksztaïcenia zb tym zwiÈzane sÈ „coraz wiÚksze wb warunkach nacisku
czasu ib koniecznoĂci szybkiego podejmowania decyzji oraz natychmiastowego dziaïania. Powstaje wtedy stan stresu informacyjnego, stanowiÈcego
dodatkowe ěródïo bïÚdów” (Nosal, 2001, s. 36).
Miïo byïoby twierdziÊ, ĝe ewaluatorzy zawsze stosujÈ strategie przetwarzania analitycznego, ale jeĝeli sobie wyobrazimy, ĝe niektórzy zb nich
dokonujÈ ewaluacji 61 abstraktów wb ciÈgu 1 dnia, to moĝna zaïoĝyÊ, ĝe
zmÚczenie, znuĝenie moĝe narastaÊ wb czasie ewaluacji.
PodsumowujÈc, ob wyborze strategii przetwarzania informacji decydujÈ
zarówno moĝliwoĂci ib preferencje poznawcze recenzenta (np. poziom refleksyjnoĂci), jego stan energetyczny (przeciÈĝenie, nastrój), cele wyznaczajÈce
stopieñ zaangaĝowania, jak ibcechy obiektu oceny (stopieñ znajomoĂci ibzïoĝonoĂci) oraz cechy sytuacji (presja czasowa, aprobata spoïeczna, konsekwencje
wb przypadku popeïnienia bïÚdu).
Na ewaluacjÚ wpïywa takĝe ïatwoĂÊ dostÚpu do informacji, ich wyrazistoĂÊ, ĂwieĝoĂci ibformy zakodowania (Nosal, 2001). Na tworzenie adekwatnej
reprezentacji sytuacji problemowej moĝe mieÊ takĝe wpïyw lÚkowe nastawienie, nadmierna koncentracja na szczegóïach, dogmatycznoĂÊ, podejrzliwoĂÊ
(Wieczorkowska-Siarkiewicz, 1992).
3. Indywidualny styl ewaluacji2
Zadaniem osoby oceniajÈcej zbiór obiektów (projektów, abstraktów)
jest dokonanie ich kategoryzacji na te, które sÈ warte poparcia, ibte, które
naleĝy odrzuciÊ (skala oceny dwuwartoĂciowa). NajczÚĂciej ewaluator proszony jest ob dokonanie oceny na skalach wielowartoĂciowych. Nawet gdy
skala oceny jest precyzyjnie okreĂlona (np. od 1 do 5), recenzenci mogÈ
wb róĝny sposób dokonywaÊ transformacji swojej skali wb skalÚ odpowiedzi (Wieczorkowska-Siarkiewicz, 1992). Jeden recenzent moĝe róĝnicowaÊ obiekty tylko na czÚĂci skali, np. 3–5, inny moĝe uĝywaÊ tylko dwóch
ocen, np. 2 ib 5. Jest to przejawem specyficznego dla danej osoby stylu
ewaluacji, który moĝe manifestowaÊ poprzez: (1) zbyt surowe (lub ïagodne)
oceny (Hoyt, 2000), (2) brak róĝnicowania czÈstkowych wymiarów oceny –
efekt halo (Landy, Vance, Barnes-Farrell ibSteele, 1980) – i/lub ocenianych
obiektów. Moĝna go wykryÊ ib oszacowaÊ tylko wtedy, gdy dysponujemy
143
ocenami serii obiektów dokonanymi przez tego samego ewaluatora. NajczÚĂciej jednak mamy do czynienia zbpojedynczymi ocenami dokonywanymi
przez róĝnych recenzentów, wiÚc wpïyw indywidualnego stylu ewaluatora
nie byï przedmiotem wielu badañ, ze wzglÚdu na brak odpowiednich
danych.
3.1. Styl ewaluatora: poziom ïagodnoĂci
Wszyscy wiedzÈ, ĝe egzaminatorzy róĝniÈ siÚ poziomem surowoĂci. Ubjednych trudno zdaÊ egzamin, u drugich duĝo ïatwiej, mimo ĝe teoretycznie
wymagania formalne sÈ takie same. JeĂli ewaluator wykazuje systematyczne
odchylenie od Ăredniej wbjednym kierunku (lub brak tej inklinacji), to moĝna
powiedzieÊ, ĝe charakteryzuje go indywidualny styl ewaluacji (Baron, 1985;
1986; za: Nosal, 1990). Wynika to zb róĝnic wb nawykowo aktywizowanych
wzorcach porównawczych. Ci bardziej surowi porównujÈ egzaminowanego do
teoretycznego wzorca opisujÈcego „Jak byÊ powinno”, ci ïagodniejsi zapewne
porównujÈ zb wzorcem typowym, opisujÈcym „Jak jest”. Moĝna to wykryÊ,
liczÈc ĂredniÈ zbwszystkich ocen wystawionych przez tego samego recenzenta.
W badaniachb pokazano, ĝe niektórzy ewaluatorzy konsekwentnie oceniali
eseje surowiej, podczas gdy inni charakteryzowali siÚ niezmiennie bardziej
pozytywnÈ ocenÈ tych samych prac. Jest to okreĂlane jako bïÈd ïagodnoĂci/surowoĂci (Holzbach, 1978). Jeĝeli oceniajÈcy stosuje strategie przetwarzania
zmotywowanego ib lubi stawiaÊ dobre oceny, bÚdzie bardziej wyrozumiaïy
wb ocenach, jeĝeli zaĂ lubi wytykaÊ bïÚdy, negatywne kategorie sÈ bardziej
dostÚpne ib sÈdy bÚdÈ surowsze (Feldman, 1981).
3.2. Styl ewaluatora: stopieñ róĝnicowania
TÚ samÈ ĂredniÈ ocenÚ, np. 3 na piÚciostopniowej skali, mogÈ uzyskaÊ
zarówno ewalutorzy, którzy sïabo róĝnicujÈ obiekty, przyznajÈc poïowie
projektów 4, ab poïowie 2, jak ib ci, którzy kaĝdÈ zb ocen 1, 2, 4, 5 przyznali
tyle samo razy. Nie róĝniÈ siÚ poziomem ïagodnoĂci wskaěnikowanym przez
ĂredniÈ, ale róĝniÈ siÚ istotnie stopniem róĝnicowania.
Wtedy, gdy recenzenci oceniajÈ obiekty na wymiarach czÈstkowych, tak
jak to byïo wb zbiorze abstraktów, stopieñ skorelowania ocen czÈstkowych
moĝe byÊ wynikiem opisywanego wb psychologii efektu halo (nazywanego
takĝe efektem aureoli), polegajÈcego na tym, ĝe przypisanie obiektowi jednej
waĝnej pozytywnej lub negatywnej cechy wpïywa na skïonnoĂÊ do przypisywania innych cech zgodnych ewaluatywnie (Brzeziñska, Brzeziñski ibEliasz,
2004). Moĝna wiÚc mówiÊ ob funkcjonalnym zróĝnicowaniu oceniajÈcego
„differential rater functioning” (Eckes, 2012).
4. Analizowane dane
W tabeli 1 przedstawiono róĝnice ib podobieñstwa miÚdzy dwoma zbiorami danych opisanymi we wprowadzeniu.
144
DOI 10.7172/1644-9584.45.9
Zbiór A.
Oceny abstraktów konferencyjnych
– zawiera oceny 673 abstraktów zgïoszo- –
nych na konferencjÚ
–
– wszystkie abstrakty byïy oceniane nieza- –
leĝnie przez 3 recenzentów
Zbiór P.
Oceny projektów badawczych
zawiera oceny 323 projektów badawczych
projekty dotyczyïy 6 dziedzin badawczych
wszystkie projekty zbdanej dziedziny byïy
oceniane niezaleĝnie przez tych samych
3 recenzentów
– kaĝdy zb 33 recenzentów oceniaï Ărednio
61 abstraktów (od 17 do 88)
– analizowano styl ewaluacji 18 recenzentów
– dla kaĝdego abstraktu recenzenci byli
losowani przez system, wiÚc róĝne abstrakty mogïy byÊ oceniane przez róĝne
zestawy recenzentów
Tab. 1. Analizowane dane. ½ródïo: opracowanie wïasne.
5. Wskaěniki stylu ewaluacji
5.1. Poziom ïagodnoĂci/surowoĂci
W zbiorze projektów przedmiotem analizy byï indywidualny styl ewaluacji
18 recenzentów. Dla kaĝdego zbnich tendencja centralna wzorca porównawczego byïa wskaěnikowana przez ĂredniÈ ocenianych przez niego projektów (liczba projektów dla jednego recenzenta zmieniaïa siÚ od 16 do 49
wb zaleĝnoĂci od dziedziny).
W zbiorze abstraktów przedmiotem analizy byï indywidualny styl ewaluacji 33 recenzentów. Dla kaĝdego zbnich tendencja centralna wzorca porównawczego byïa wskaěnikowana przez ĂredniÈ zb dokonanych przez niego
ocen okoïo 61 abstraktów (liczba abstraktów ocenionych przez jednego
recenzenta zmieniaïa siÚ od 17 do 88).
5.2. Stopieñ róĝnicowania
Róĝnicowanie przez recenzenta ocenianych projektów/abstraktów. Wbobu
zbiorach stopieñ róĝnicowania przez recenzenta ocenianych projektów/abstraktów byï wskaěnikowany przez odchylenie standardowe wystawionych
przez niego ocen, rozrzut ocen (róĝnica pomiÚdzy ocenÈ maksymalnÈ abminimalnÈ) oraz wspóïczynnik zmiennoĂci. W odróĝnieniu od odchylenia standardowego, które okreĂla bezwzglÚdne zróĝnicowanie cechy, wspóïczynnik
zmiennoĂci jest miarÈ wzglÚdnÈ, czyli zaleĝnÈ od wielkoĂci Ăredniej arytmetycznej. Wspóïczynniki zmiennoĂci obliczono, dzielÈc odchylenia standardowe przez ĂredniÈ ocen dla danego recenzenta.
Róĝnicowanie przez recenzenta ocen na wymiarach czÈstkowych. Przypomnijmy, ĝe wbzbiorze A ewaluatorzy oceniali (na skali 0 do 10) abstrakty
na 6 wymiarach, zb których 4 – tj. (I) wartoĂÊ teoretyczna lub praktyczna,
(II)boryginalnoĂÊ, (III) zgodnoĂÊ zbtematem konferencji, (IV) jakoĂÊ prezentacji – teoretycznie powinny byÊ niezaleĝne. Aby to sprawdziÊ, dla kaĝdego
145
zb 33 ewaluatorów wykonano analizÚ czynnikowÈ ocenianych przez niego
abstraktów na 4 wymienionych wyĝej wymiarach. Procent zmiennoĂci wyjaĂniony przez pierwszy czynnik byï miarÈ skorelowania wbumyĂle recenzenta
tych teoretycznie niezaleĝnych wymiarów.
5.3. KolejnoĂÊ oceniania
WysyïajÈc abstrakt na konferencjÚ, nie tylko nie wiemy, kto bÚdzie go
recenzowaï, ale nie wiemy takĝe, czy bÚdzie on oceniany przez wylosowanego przez system recenzenta jako pierwszy, drugi, ab moĝe ostatni. Aby
sprawdziÊ, czy to, którÈ pozycjÚ wbserii ocen miaï nasz abstrakt, wpïywa na
jego ocenÚ, dokonano agregacji ocen po abstraktach, co oznacza, ĝe kaĝdemu abstraktowi przypisano ĂredniÈ kolejnoĂÊ, wbjakiej byï oceniany. JeĂli
np. byï oceniany jako 15. przez recenzenta #1, jako 25. przez recenzenta
#2, jako 50. przez recenzenta #3, to Ărednia kolejnoĂÊ dla tego abstraktu
wynosiïa 30. W analogiczny sposób obliczono dla kaĝdego abstraktu ĂredniÈ
pozycjÚ zb ocen 3 recenzentów.
W zbiorze P kolejnoĂÊ, wb jakiej recenzenci oceniali projekty, nie byïa
znana, wiÚc analizy byïy przeprowadzone wyïÈcznie na zbiorze A. PrawdÈ
jest, ĝe wbzbiorze A oceny poszczególnych abstraktów nie sÈ od siebie niezaleĝne, poniewaĝ kaĝdy zbnich byï oceniany przez róĝny zestaw recenzentów,
ale ze wzglÚdu na losowanie ewaluatorów przez system zb 5456 moĝliwych
zestawów, wpïyw ewaluatora wb tej analizie moĝna zaniedbaÊ.
6. Wyniki analiz
6.1. PrawidïowoĂÊ 1. Ewaluatorzy róĝniÈ siÚ poziomem ïagodnoĂci
ib stopniem róĝnicowania projektów/abstraktów.
W zbiorze P, ze wzglÚdu na fakt, ĝe kaĝdy projekt byï oceniany przez
tÚb samÈ trójkÚ recenzentów, moĝna byïo policzyÊ efekt ïagodnoĂci ewaluatora.
Na rysunku 1 przedstawiono charakterystykÚ ocen (Ărednia, wspóïczynnik
zróĝnicowania wyraĝony wbproporcjach) trzech recenzentów dla 6 dziedzin.
Analiza wariancji wykazaïa istotny wpïyw ewaluatora wb 4 zb 6 dziedzin.
Stopieñ skorelowania Ăredniej ocen ewaluatorów byï róĝny wb róĝnych
zestawach. Analiza korelacji pozwala okreĂliÊ, ĝe np. wb dziedzinie 3 jeden
zb recenzentów oceniaï „inaczej” niĝ dwóch pozostaïych (zob. rysunek 1).
Wniosek: ewaluatorzy mogÈ róĝniÊ siÚ zarówno surowoĂciÈ (operacjonalizowanÈ przez ĂredniÈ), jak ibstopniem róĝnicowania projektów badawczych.
Takich analiz nie moĝna przeprowadziÊ dla zbioru A, ale na wykresach 2 ib 3 widaÊ, ĝe takĝe wb tym przypadku recenzenci róĝniÈ siÚ zarówno
poziomem ïagodnoĂci (dla 33 recenzentów Ărednia zmieniaïa siÚ od 3,44
do 8,40), jak ib stopniem róĝnicowania (wspóïczynnik zmiennoĂci od 0,12
do 0,46).
146
DOI 10.7172/1644-9584.45.9
Porównanie Ărednich
Porównanie wspóïczynników zmiennoĂci
Dziedzina 1
liczba ocenianych projektów k = 16
F(2, 30) = 3,04
Recenzent 3
Recenzent 3
Recenzent 2
Recenzent 2
Recenzent 1
Recenzent 1
3,0
3,5
4,0
4,5
0,0
Dziedzina 2
liczba ocenianych projektów k = 22 [fizyczne] F(2, 42) = 3,04
Recenzent 3
Recenzent 3
Recenzent 2
Recenzent 2
Recenzent 1
Recenzent 1
3,0
3,5
4,0
4,5
Dziedzina 3
F(2, 58) = 2,11
Recenzent 3
Recenzent 3
Recenzent 2
Recenzent 2
Recenzent 1
Recenzent 1
3,0
3,5
4,0
4,5
Dziedzina 4
Recenzent 3
Recenzent 2
Recenzent 2
Recenzent 1
Recenzent 1
3,5
4,0
0,0
4,5
F(2, 94) = 1,28
Recenzent 3
Recenzent 3
Recenzent 2
Recenzent 2
Recenzent 1
Recenzent 1
3,0
3,5
4,0
4,5
0,0
F(2, 42) = 8,71
Recenzent 3
Recenzent 3
Recenzent 2
Recenzent 2
Recenzent 1
Recenzent 1
3,0
3,5
4,0
0,1
0,2
0,3
0,4
0,2
0,3
0,4
0,2
0,3
0,4
0,2
0,3
0,4
0,2
0,3
0,4
0,2
0,3
0,4
p = 0,06
0,1
p = 0,12
0,1
F(2, 116) = 6,10 p = 0,03
Dziedzina 5
0,0
Recenzent 3
3,0
Dziedzina 6
0,0
p = 0,04
4,5
0,0
0,1
p = 0,28
0,1
p = 0,00
0,1
Rys. 1. Charakterystyka ocen (Ărednia, wspóïczynnik zróĝnicowania wyraĝony wb proporcjach) trzech recenzentów dla szeĂciu dziedzin. ½ródïo: opracowanie wïasne.
147
12,0
6,0
10,0
5,0
Częstość
Częstość
8,0
6,0
4,0
3,0
4,0
2,0
2,0
1,0
0,0
3,00
4,00
5,00
6,00
7,00
8,00
9,00
0,0
0,10
Średnia ocena
0,20
0,30
0,40
0,50
Współczynnik zmienności
Rys 2. Charakterystyka ocen (Ărednia, wspóïczynnik zróĝnicowania wyraĝony wbproporcjach)
dla 33 recenzentów. ½ródïo: opracowanie wïasne.
R1575
R1575
R1695
R1695
R2006
R2006
R1556
R1556
R1271
R1271
R1666
R1666
0
2
4
Średnia
6
8
10
0,0
0,1
0,2
0,3
0,4
0,5
Współczynnik zmienności
Rys 3. Charakterystyka ocen (Ărednia, wspóïczynnik zróĝnicowania wyraĝony wb proporcjach) dla trzech najniĝej ib trzech najwyĝej oceniajÈcych recenzentów abstraktów. ½ródïo:
opracowanie wïasne.
6.2. PrawidïowoĂÊ 2. Ocena abstraktu zaleĝy od kolejnoĂci, wb której
abstrakt byï oceniany (zbiór A)
W celu sprawdzenia zwiÈzku miÚdzy ĂredniÈ ocenÈ abstraktu oraz ĂredniÈ
kolejnoĂciÈ, wb jakiej byï on oceniany, przeprowadzono dla 673 abstraktów
analizÚ regresji, wb której wykazano liniowy zwiÈzek (a = 6,24; b = 0,007;
beta = 0,118; r2 = 0,014, F(1,671) = 9,51, p < 0,002;) obu zmiennych. Niski
wspóïczynnik dopasowania linii prostej r2 oraz wykres zaleĝnoĂci Ăredniej
oceny od Ăredniej kolejnoĂci dla 673 abstraktów (rysunek 4) pokazuje, iĝ
warto szukaÊ nieliniowego zwiÈzku pomiÚdzy kolejnoĂciÈ oceny ib Ărednim
poziomem oceny. Próba dopasowania zwiÈzku krzywoliniowego za pomocÈ
krzywej inverse daïa 3-krotnie wyĝszy poziom wyjaĂnionej zmiennoĂci wysokoĂci ocen. O ile dla poczÈtkowych 15–30 ocen model liniowy jest skutecznym narzÚdziem wyjaĂniania zwiÈzku ocen ib kolejnoĂci, dla caïoĂci danych
dopasowanie modelu krzywoliniowego jest wyĝsze (r2 = 0,014 oraz odpowiednio r2 = 0,048).
148
DOI 10.7172/1644-9584.45.9
10,00
Ocena
8,00
6,00
4,00
2,00
0,00
0,00
20,00
40,00
60,00
80,00
100,00
Kolejność oceniania
Rys 4. ¥rednia ocena abstraktu (oĂ OY) wb zaleĝnoĂci od Ăredniej kolejnoĂci oceny
(oĂb OX). Dopasowana krzywa wskazuje na zmianÚ wb Ărednich wynikach oceny po okoïo
15 ocenianych abstraktach. ½ródïo: opracowanie wïasne.
W kolejnym kroku okreĂlono punkt, wbktórym nastÚpuje zmiana relacji
pomiÚdzy ocenÈ ib kolejnoĂciÈ. Punkt ten wyznaczono poprzez maksymalizacjÚ wielkoĂci wyjaĂnionej wariancji dla wybranej liczby poczÈtkowych
ocen. Powyĝej tego punktu zwiÈzek pomiÚdzy tymi zmiennymi staje siÚ
statystycznie nieistotny. Na podstawie wartoĂci r2 wb regresji liniowej oraz
krzywoliniowej (inverse) okreĂlono, iĝ zmiana nastÚpuje po okoïo 15 ocenach.
r2 wb regresji
liniowej
b
r2 wb regresji
krzywoliniowej
B
10
0,09
0,21*
0,05
–2,20***
15
0,14
0,17***
0,08
–3,30***
20
0,12
0,11***
0,09
–3,35***
25
0,11
0,08***
0,10
–3,64***
CaïoĂÊ (685)
0,014
0,01**
0,05
–3,64***
Liczba poczÈtkowych
ocen
*
p<0,05;
**p<0,01;
***p<0,001.
Tab. 2. WartoĂci r2 wbanalizie regresji liniowej oraz krzywoliniowej (krzywa „odwrotna”) dla
róĝnych podzbiorów danych – zmienna zaleĝna: ïÈczna ocena. ½ródïo: opracowanie wïasne.
149
Przypomnijmy, ĝe kaĝdy recenzent oceniaï okoïo 61 abstraktów.
Wb nastÚpnym kroku dokonano podziaïu zbioru na 2 grupy: (1) abstrakty, które naleĝaïy do poczÈtku (pierwsze 15) serii ocen recenzentów,
ib (2)b te, które byïy oceniane póěniej (kolejnoĂÊ wyĝsza niĝ 15). Grupy
róĝniÈ siÚ istotnie ĂredniÈ (M1 = 5,81, M2 = 6,65) oraz wariancjÈ ocen
(SD1 = 0,15 ib SD2 = 0,06).
Moĝna wiÚc powiedzieÊ, ĝe abstrakty oceniane na poczÈtku otrzymujÈ
niĝsze oceny aĝ ob0,84 punktu. WiÚksze jest teĝ zróĝnicowanie ocen wbgrupie ocen poczÈtkowych niĝ wb grupie ocen dalszych, co moĝna przewidzieÊ
istotnoĂciÈ liniowego zwiÈzku miÚdzy kolejnoĂciÈ ab ocenÈ wb grupie abstraktów poczÈtkowych.
6.3. PrawidïowoĂÊ 3. WystÚpowanie efektu halo wb ocenach
recenzentów (zbiór A)
Przypomnijmy, ĝe wbcelu okreĂlenia poziomu skorelowania 4 ocen czÈstkowych dla kaĝdego recenzenta przeprowadzono analizÚ czynnikowÈ ocen
Ărednio 61 abstraktów na poszczególnych wymiarach.
Jeĝeli byïyby to niezaleĝne wymiary percepcji, to nie powinny siÚ daÊ
ïatwo zredukowaÊ do 1 czynnika. Okazaïo siÚ, ĝe dla wszystkich 33 recenzentów oceny czÈstkowe moĝna przeksztaïciÊ wbjeden czynnik, który wyjaĂniaï
od 47 do 91% zmiennoĂci ocen (rysunek 5). Ten procent jest wskaěnikiem
róĝnicowania wymiarów czÈstkowych oceny przez recenzenta. Bardzo wysoki
procent wyjaĂnionej wariancji przez jeden czynnik oznacza, ĝe recenzent
oceniaï abstrakty prawie identycznie we wszystkich 4 wymiarach czÈstkowych
(np. 1, 2, 1, 1 vs 7, 8, 7, 7), ab wiÚc sïabo róĝnicowaï wymiary.
Częstość
6,0
4,0
2,0
0,0
40,00
50,00
60,00
70,00
80,00
90,00
100,00
Procent wariancji wyjaśnionych przez pierwszy czynnik
Rys 5. Rozkïad wielkoĂci wariancji wyjaĂnionej przez pierwszy czynnik wbanalizie czynnikowej
czterech wymiarów czÈstkowych oceny. ½ródïo: opracowanie wïasne.
150
DOI 10.7172/1644-9584.45.9
7. Dyskusja wyników ib podsumowanie
PokazaliĂmy, ĝe recenzenci projektów/abstraktów róĝniÈ siÚ indywidualnym stylem ewaluacji, operacjonalizowanym przez stopieñ ïagodnoĂci/surowoĂci ib stopieñ róĝnicowania.
W zbiorze A, wbktórym znana byïa kolejnoĂÊ, wbjakiej recenzenci oceniali
abstrakty, stwierdziliĂmy tendencjÚ do niĝszego oceniania poczÈtkowych kilkunastu prac. Moĝe to byÊ interpretowane wbterminach ksztaïtowania siÚ wbumysïach recenzentów wb czasie recenzowania utajonego wzorca porównawczego.
Po ocenie kilkunastu prac wzorzec siÚ juĝ stabilizuje – co wb analizowanym
zbiorze owocowaïo wzrostem Ăredniej ocen dla abstraktów ocenianych póěniej.
Moĝna spekulowaÊ, ĝe recenzenci na poczÈtku aktywizujÈ wzorzec #2, bÚdÈcy
zapisem ich wyobraĝenia teoretycznie idealnego abstraktu (odpowiedě na
pytanie: „Jak byÊ powinno?”), pod wpïywem czytania kolejnych prac tworzy
siÚ wzorzec porównawczy #1, bÚdÈcy odpowiedziÈ na pytanie „Jak jest?”
ib oczekiwania siÚ obniĝajÈ, ab wiÚc oceny rosnÈ. Wpïyw kolejnoĂci oceniania
powinien byÊ najsilniejszy u recenzentów, którzy nie mieli wczeĂniejszych
doĂwiadczeñ. CzÚĂÊ recenzentów wykonywaïa tÚ samÈ pracÚ rok wczeĂniej
ibwarto byïoby wbkolejnych analizach spróbowaÊ dotrzeÊ do tego typu danych.
W badaniach (Marsh, Jayasinghe ib Bond, 2008) porównywano ewaluacje osób oceniajÈcych jeden lub wiÚcej projektów. Ze wzglÚdu na to, ĝe
wiÚkszoĂÊ recenzentów oceniaïa tylko jeden projekt, gdy ocenili go niĝej niĝ
pozostali recenzenci, nie wiemy, czy byï to efekt sïabego projektu ib ïagodnoĂci pozostaïych recenzentów, czy teĝ indywidualnego stylu ewaluacji.
Stwierdzono, ĝe oceny tych, którzy oceniali co najmniej 3 projekty, byïy
bardziej spójne zbocenami innych recenzentów tego samego projektu ibbardziej trafne (zgodne zb ocenami finaïowymi). Moĝna wiÚc sÈdziÊ, ĝe ocena
wiÚcej niĝ 1 projektu pozwalaïa na stworzenie wbumyĂle recenzenta wzorca
porównawczego. Stwierdzono takĝe, ĝe ich oceny byïy teĝ Ărednio bardziej
surowe niĝ tych, którzy oceniali tylko jeden projekt. Badacze podkreĂlajÈ
jednak, ĝe wbgrupie 15 ewaluatorów, którzy ocenili 10 lub wiÚcej projektów,
moĝna wskazaÊ osoby, które konsekwentnie sÈ bardziej ïagodne wb swoich
ocenach niĝ reszta, co potwierdza wpïyw indywidualnego stylu ewaluacji.
Alternatywna do stabilizacji wzorca porównawczego interpretacja podkreĂla rolÚ zmÚczenia recenzenta ibmoĝe zostaÊ zweryfikowana wbplanowanych
badaniach eksperymentalnych, wb których róĝni ewaluatorzy bÚdÈ oceniali
wb tej samej kolejnoĂci ten sam zestaw abstraktów.
PodsumowujÈc, przeprowadzona przez nas analiza pokazaïa, ĝe na ocenÚ
abstraktów ibprojektów badawczych wpïyw miaïy: indywidualny styl ewaluacji
(poziom ïagodnoĂci/surowoĂci, skïonnoĂÊ do róĝnicowania) oraz kolejnoĂÊ
abstraktów (pierwsze abstrakty oceniane byïy surowiej). PodsumowujÈcÈ
ilustracjÈ róĝnic wbstylach ewaluacji mogÈ byÊ przedstawione na rysunkub6
zaleĝnoĂci miÚdzy kolejnoĂciÈ oceny ab poziomem ïagodnoĂci ib stopniem
róĝnicowania pochodzÈce od 3 typów recenzentów ze zbioru A.
151
Łączna ocena
Łączna ocena
Łączna ocena
Identyﬁkator recenzenta: 1556
10,00
10,00
10,00
8,00
8,00
8,00
6,00
6,00
6,00
4,00
4,00
4,00
2,00
2,00
2,00
0,00
0,00
0
20
40
60
80
100
Kolejność oceny
6.a. Typ #1: Niska Ărednia
ocena ib wysokie róĝnicowanie abstraktów (M = 5,24;
sb =b 2,44, N = 69).
0
20
40
60
80
100
Kolejność oceny
0,00
0
20
40
60
80
100
Kolejność oceny
6.b. Typ #2: Wysoka Ărednia ocen ib maïe róĝnicowanie abstraktów (M = 8,40;
s = 1,14, N = 70).
6.c. Typ #3: Istotny wzrost
(p < 0,03) wysokoĂci oceny
wraz zbkolejnoĂciÈ oceniania
(M = 6,69; s = 1,73, N = 65).
Rys. 6. Przykïady stylów ewaluacji (Ărednia, zróĝnicowanie, zmiana oceny wraz zbkolejnoĂciÈ
ocenianego abstraktu) wbzbiorze A dotyczÈcym recenzji abstraktów konferencyjnych. ½ródïo:
opracowanie wïasne.
Czytelnik sam moĝe odpowiedzieÊ na pytanie, zbktórej kategorii chciaïby
wylosowaÊ recenzenta do oceny jego abstraktu, bo trzeba pamiÚtaÊ, ĝe
wb typowych warunkach konkursowych dla kaĝdego projektu dobierani sÈ
inni recenzenci. Moĝe siÚ wiÚc zdarzyÊ, ĝe wylosujemy 3 recenzentów zbjednej kategorii.
Indywidualny styl ewaluacji recenzenta nie miaï wpïywu na decyzje dotyczÈce finansowania projektów (zbiór P), poniewaĝ ci sami recenzenci oceniali
wszystkie projekty. Porównanie ocen moĝe byÊ utrudnione wb najczÚĂciej
spotykanym przypadku, gdy czÚĂÊ projektów jest oceniana przez bardziej
surowego, czÚĂÊ przez bardziej ïagodnego recenzenta. Tak byïo wbprzypadku
innego konkursu projektów badawczych (Michaïowicz, 2013), wb którym
dla aĝ 48 projektów (co stanowi 38%) róĝnica miÚdzy ocenÈ maksymalnÈ
ab minimalnÈ wyniosïa powyĝej 30 punktów na 100-stopniowej skali. Aĝ 13
recenzentów wystawiïo projektom oceny poniĝej 20 punktów (na 100-punktowej skali), 54 recenzentów wystawiïo oceny powyĝej 80 punktów. W tym
wypadku nie moĝna stwierdziÊ, czy recenzent, który oceniï projekt na 2,5
(jeden przypadek), jest nadmiernie surowy, czy teĝ trafiï na bardzo sïaby
projekt ibbardzo ïagodnych wspóïrecenzentów. W przypadku gdy ewaluator
ocenia tylko jeden projekt, nie moĝna okreĂliÊ jego indywidualnego stylu
ewaluacji (a wiec poziomu ïagodnoĂci, stopnia róĝnicowania).
Aby zminimalizowaÊ wpïyw indywidualnego stylu ewaluatorów, podejmuje siÚ róĝnego typu Ărodki zaradcze (Raymond ib Viswervaran, 1991;
Raymond ib Huston, 1990). Z jednej strony sÈ to programy szkoleniowe
dla oceniajÈcych, zb drugiej korekty statystyczne, np. podejmowanie decy-
152
DOI 10.7172/1644-9584.45.9
zji na podstawie wyników standaryzowanych. Niestety pierwsze rozwiÈzanie wymaga sporo czasu ib jest kosztowne, ab jego skutecznoĂÊ równieĝ
podlega dyskusji (Landy, Vance, Barnes-Farrell ib Steel, 1980; Bernardin ib Pence, 1980). W przypadku ocen pracowników zaleca siÚ (Landy
ib in., 1980):
– zwiÚkszenie liczby obserwacji pracownika lub liczby oceniajÈcych,
– standaryzowanie ocen wewnÈtrz grup pracowników (np. sprzedawców,
informatyków) ibprzyznawanie np. premii na podstawie ocen standaryzowanych, abnie surowych, co pozwoli na porównywanie ocen pracowników
wb róĝnych dziaïów ib na róĝnych stanowiskach,
– kontrolowanie wb analizach zaleĝnoĂci wpïywu zmiennych potencjalnie
znieksztaïcajÈcych relacje, np. staĝ pracy, wysokoĂÊ wynagrodzenia
Uwaĝamy, ĝe wb przypadku ocen projektów rozwiÈzaniem mogïo by
byÊ „kotwiczenie” osób oceniajÈcych, ab wiÚc rozpoczynanie przez nich procesu oceny od kilku obiektów ob znanej wartoĂci (np. 3 najlepsze projekty
vs 3 najgorsze projekty badawcze zb poprzedniego konkursu)3. Powinno
to zapewniÊ ewaluatorom zbliĝone wzorce porównawcze ib minimalizowaÊ
wpïyw utajonych wzorców porównawczym specyficznych dla kaĝdego recenzenta. Przedstawianie ewaluatorom jedynie ogólnych wytycznych zmusza do
samodzielnego przekïadania ich na wzorce. Wynik tej transformacji podlega
silnemu wpïywowi róĝnic indywidualnych wb stylach ewaluacji, które chcielibyĂmy wyeliminowaÊ. Jeĝeli dysponowalibyĂmy dla kaĝdego recenzenta
jego ocenami projektów/abstraktów obznanej abpriori wartoĂci, moglibyĂmy
policzyÊ ib uwzglÚdniaÊ wb ocenach jego styl ewaluacji. JeĂli recenzent X
oceniïby 3 bardzo dobre projekty jedynie na 4 na skali 7-stopniowej, to
moglibyĂmy uznaÊ, ĝe jest on surowym recenzentem ib waĝyÊ jego oceny
projektów obnieznanych wczeĂniej wartoĂciach wyĝej, niĝ recenzenta, który
wzorcowe obiekty oceniï na 7. MajÈc na uwadze czÚstotliwoĂÊ wykorzystywania narzÚdzi ewaluacyjnych ib ich znaczenie (od oceny ewaluatora zaleĝy
np. przyznanie dofinansowania), bardzo waĝne sÈ dalsze badania psychologicznych uwarunkowañ procesu ewaluacji.
Przypisy
1
Model jest kompilacjÈ roĝnych tez zawartych wbpublikacjach Wieczorkowskiej (1992;
1998; 2011). Autorzy dziÚkujÈ prof. G. Wieczorkowskiej za pomoc wb opisaniu
modelu.
2
Wpïyw indywidualnego stylu ewaluacji na oceny zajÚÊ akademickich jest przedmiotem
intensywnych badañ B. Michaïowicza: Michaïowicz, B. (2013). Koncepcja rozprawy
doktorskiej pt. „Ankiety ewaluacyjne wbszkolnictwie wyĝszym: wpïyw wyboru ewaluatorów”. Warszawa: Wydziaï ZarzÈdzania Uniwersytetu Warszawskiego.
3
Na przykïad podobne rozwiÈzania stosowane sÈ przy ocenie aplikacji wb ramach
amerykañskiego programu stypendialnego Graduate Research Fellowships wb NSF
(GRFP).
153
Bibliografia
Bernardin, H.J. ib Pence, E.C. (1980). Effects of Rater Training. Journal of Applied Psychology, 65, 60–66, http://dx.doi.org/10.1037/0021-9010.65.1.60.
Bruine de Bruin, W. (2006). Save the Last Dance II: Unwanted Serial Position Effects in
Figure Skating Judgments. Acta Psychologica, 123, 299–311, http://dx.doi.org/10.1016/
j.actpsy.2006.01.009.
Brzeziñska, A., Brzeziñski, J. ib Eliasz, A. (red.). (2004). Ewaluacja ab jakoĂÊ ksztaïcenia
wb szkole wyĝszej. Warszawa: Wydawnictwo SWPS „Academica”.
CiÚĝka, B. (2005). Ewaluacja – kwestie ogólne. Warszawa: Polskie Towarzystwo Ewaluacyjne.
Eckes, T. (2012). Operational Rater Types in Writing Assessment: Linking Rater Cognition to Rater Behavior. Language Assessment Quarterly, 9 (3), 270–292, http://dx.doi.
org/10.1080/15434303.2011.649381.
Feldman, J.M. (1981). Beyond Attribution Theory: Cognitive Processes in Performance Appraisal. Journal or Applied Psychology, 66 (2), 127–148, http://dx.doi.
org/10.1037/0021-9010.66.2.127.
Flôres Jr., R.G., ib Ginsburgh, V.A. (1996). The Queen Elisabeth Musical Competition: How Fair Is the Wnal Ranking? The Statistician, 45, 97–104, http://dx.doi.
org/10.2307/2348415.
Forgas, J.P. ib Vargas, P.T. (2005). Wpïyw nastroju na spoïeczne oceny ib rozumowanie.
W: M. Lewis ib J.M. Haviland-Jones (red.), Psychologia emocji. Gdañsk: GWP.
Gailliot, M.T. ib Baumeister, R.F. (2007). The Physiology of Willpower: Linking Blood
Glucose to Self-Control. Personality and Social Psychology Review, 11 (4), 303–327,
http://dx.doi.org/10.1177/1088868307303030.
Gailliot, M.T, Baumeister, R.F, DeWall, C., Maner, J., Plant, E., Tice, D. ib Schmeichel,
B. (2007). Self-Control Relies on Glucose as ab Limited Energy Source: Willpower
Is More Than ab Metaphor. Journal Of Personality And Social Psychology, 92 (2),
325–336, http://dx.doi.org/ 10.1037/0022-3514.92.2.325.
Hainger, S., Jenewein, S., Müller, H.-C. ib Wakolbinger, F. (2010). The First Shall Be
Last: Serial Position Effects in the Case Contestants Evaluate Each Other. Economics Bulletin, 30 (4), 3170–3176.
Holzbach, R.L. (1978). Rater Bias in Performance Ratings: Superior, Self-, and Peer Ratings. Journal of Applied Psychology, 63 (5), 579–588, http://dx.doi.org/10.2307/2348415.
Hoyt, W.T. (2000). Rater Bias in Psychological Research: When Is It ab Problem and
What Can We Do about It? Psychological Methods, 5 (1), 64–86, http://dx.doi.org/
IO.I037//I082-9S9X.5.1.64.
Johnson, J.S. ib Lim, G.S. (2009). The Influence of Rater Language Background on
Writing Performance Assessment. Language Testing, 26, 485–505, http://dx.doi.
org/10.1177/0265532209340186.
Jones, E.E., Rock, L., Shaver, K.G., Goethals, G.R. ib Ward, L.M. (1968). Pattern of
Performance and Ability Attribution: An Unexpected Primacy Effect. Journal of
Personality and Social Psychology, 10, 317–349, http://dx.doi.org/10.1037/h0026818.
Kahneman, D. (2011). Puïapki myĂlenia. Poznañ: Wydawnictwo Media Rodzina.
Landy, F.J., Vance, R.J., Barnes-Farrell, J.L. ib Steele, J.W. (1980). Statistical Control of
Halo Error in Performance Ratings. Journal of Applied Psychology, 65 (5), 501–506,
http://dx.doi.org/10.1037/0021-9010.75.3.290.
Marsh, H.W., Jayasinghe, U.W. ibBond, N.W. (2008). Improving the Peer-Review Process
for Grant Applications. Reliability, Validity, Bias, and Generalizability. American
Psychologist, 63 (3), 160–168, http://dx.doi.org/10.1037/0003-066X.63.3.160.
Michaïowicz, B. (2013). Koncepcja rozprawy doktorskiej pt. Ankiety ewaluacyjne wbszkolnictwie wyĝszym: wpïyw wyboru ewaluatorów. Warszawa: Wydziaï ZarzÈdzania Uniwersytetu Warszawskiego.
Nosal, C. (1990). Psychologiczne modele umysïu. Warszawa: PWN.
154
DOI 10.7172/1644-9584.45.9
Nosal, C. (2001). Psychologia myĂlenia ib dziaïania menedĝera. RozwiÈzywanie problemów.
Podejmowanie decyzji. Kreowanie strategii. Wrocïaw: Wydawnictwo AKADE.
Pirsig, R.M. (2005). Zen ibsztuka oporzÈdzania motocykla. Poznañ: Dom Wydawniczy Rebis.
Polskie Towarzystwo Ewaluacyjne. (2008). Standardy ewaluacji. Pozyskano z: http://www.
ewaluacja.org.pl/download/Standardy_ewaluacji_PTE.pdf (08.12.2013).
Raymond, M.R. ib Huston, W.M. (1990). Detecting and Correcting for Rater Effects in
Performance Assessment. Act Research Report Series, (December), 90–14.
Raymond, M.R. ib Viswesvaran, C. (1991). Least Squares Models to Correct for Rater
Effects in Performance Assessment. Journal of Educational Measurement, 30 (3),
253–268, http://dx.doi.org/10.1111/j.1745-3984.1993.tb00426.x.
Skïad, M. ib Wieczorkowska, G. (2001). Sztuka ukïadania ankiet ewaluacyjnych. W: Psychologia spoïeczna: Jednostka – spoïeczeñstwo – pañstwo (s. 250–266). Gdañsk: GWP.
Wieczorkowska-Nejtardt, G. (1998). Inteligencja motywacyjna: mÈdre strategie wyboru celu
ib sposobu dziaïania. Warszawa: WISS.
Wieczorkowska-Siarkiewicz, G. (1992). Punktowe ib przedziaïowe reprezentacje celu. Uwarunkowania ib konsekwencje. Warszawa: Oficyna Wydawnicza Wydziaïu Psychologii
Uniwersytetu Warszawskiego.
Wieczorkowska-Wierzbiñska, G. (2011). Psychologiczne ograniczenia. Warszawa: Wydawnictwo Naukowe Wydziaïu ZarzÈdzania UW.
155

wpďyw indywidualnego stylu ewaluacji na oceny

Transkrypt

Podobne dokumenty

CENTRALNA KOMISJA DO SPRAW STOPNI I ryTULOW Palac

II Studenckie Forum Badań nad Językiem

II Studenckie Forum Badań nad Językiem

Arkusz oceny projektu konkursowego Tytuł projektu: Kierownik

Informacje o konferencji

Jak napisać efektywny abstrakt? Część pierwsza

zakres zadań KM RPO L2020

Formularz recenzji