wpďyw indywidualnego stylu ewaluacji na oceny
Transkrypt
wpďyw indywidualnego stylu ewaluacji na oceny
Problemy ZarzÈdzania, vol. 12, nr 1 (45): 137 – 155 ISSN 1644-9584, © Wydziaï ZarzÈdzania UW DOI 10.7172/1644-9584.45.9 Ewaluacja projektów ib abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny Nadesïany: 30.10.13 | Zaakceptowany do druku: 20.12.13 Grzegorz Król*, Katarzyna Kinga Kowalczyk** W artykule przedstawiamy zarys psychologicznego modelu ewaluacji oraz wynik analizy ocen 673 abstraktów zgïoszonych na miÚdzynarodowÈ konferencjÚ ib323 projektów badawczych. W obu przypadkach jeden ewaluator (recenzent) dokonywaï oceny wielu projektów lub abstraktów, co pozwoliïo na wykazanie wpïywu indywidualnych stylów ewaluacji (dla 18 ewaluatorów projektów badawczych ib 33 recenzentów abstraktów), operacjonalizowanych przez poziom ïagodnoĂci/surowoĂci ib stopieñ róĝnicowania ocen. Pokazano takĝe zwiÈzek kolejnoĂci oceniania zb surowoĂciÈ ocen (pierwsze 15 abstraktów ocenianych byïo surowiej niĝ reszta), co zinterpretowano za pomocÈ dwóch alternatywnych wyjaĂnieñ: stabilizacji utajonego wzorca porównawczego oraz zmÚczenia. Sïowa kluczowe: ewaluacja, utajone wzorce, recenzje, efekt ïagodnoĂci, róĝnicowanie ocen. Evaluation of grant proposals and abstracts – the influence ofb individual evaluation style on ratings Submitted: 30.10.13 | Accepted: 20.12.13 In this article we present an outline of psychological model of evaluation and results of ratings analysis for 673 abstracts submitted to international conference and 323 grant proposals. In both cases one evaluator (reviewer) evaluated many proposals or abstracts, which allowed us to demonstrate individual evaluation style (for 18 grant proposals evaluators and 33 abstract reviewers), operationalized by leniency/severity level and degree of ratings differentiation. We showed as well relation between rank order and severity rating (first 15 abstracts were rated more severely than others). It is suggested that this relation can be explained by two alternative explanations: stabilization of implicit comparative standard and fatigue. Keywords: evaluation, implicit standards, reviews, leniency terror, ratings differentiation. JEL: C18 * Grzegorz Król – dr, Wydziaï ZarzÈdzania, Uniwersytet Warszawski. ** Katarzyna Kinga Kowalczyk – mgr, Wydziaï ZarzÈdzania, Uniwersytet Warszawski. Adres do korespondencji: Uniwersytet Warszawski, Wydziaï ZarzÈdzania, ul. Szturmowa 1/3, 02-678bWarszawa; e-mail: [email protected]. Grzegorz Król, Katarzyna Kinga Kowalczyk 1. Wprowadzenie Ocena jakoĂci produktu materialnego (np. samochodu, ukïadów scalonych) czy usïug (np. biura podróĝy, banku) jest ob wiele ïatwiejsza niĝ ocena produktu niematerialnego, takiego jak np. projekt badawczy, abstrakt wystÈpienia konferencyjnego czy dorobek naukowy. O ile wbprzypadku wiÚkszoĂci przedmiotów materialnych istniejÈ precyzyjnie okreĂlone normy (np. parametry techniczne), obtyle wbocenach produktów mentalnych proces obiektywizacji oceny jest duĝym wyzwaniem. Nic dziwnego, ĝe powstaïa caïa gaïÈě nauki zajmujÈca siÚ problemami ewaluacji. W materiaïach Polskiego Towarzystwa Ewaluacyjnego (2008, s.b 3–4) moĝemy przeczytaÊ, ĝe „Ewaluacja koncentruje siÚ na gromadzeniu wiedzy, która jest podstawÈ do formuïowania sÈdów na temat wartoĂci podejmowanych dziaïañ (…). Dla powodzenia ewaluacji podstawowe znaczenie ma: precyzyjnie ib logicznie spójne okreĂlenie przedmiotu ib celu ewaluacji, okreĂlenie kluczowych pytañ, na które poszukuje siÚ odpowiedzi oraz kryteriów, zb zastosowaniem których przedmiot ewaluacji bÚdzie ewaluowany”. Ze wzglÚdu na moment przeprowadzania badania wyróĝniane sÈ nastÚpujÈce rodzaje ewaluacji (CiÚĝka, 2005): (1) ex-ante (przed rozpoczÚciem dziaïania); (2) mid-term (w poïowie trwania dziaïania); (3) ad hoc/on-going (wykonywana na bieĝÈco, wbdowolnym momencie) oraz (4) ex-post (po zakoñczeniu dziaïania). NarzÚdzia ewaluacyjne sÈ wykorzystywane wb niemal kaĝdej dziedzinie zarzÈdzania. Ich gïównym celem jest zapewnienie (precyzyjniej: zwiÚkszenie) obiektywizmu ocen poprzez skwantyfikowanie wb ujÚciu iloĂciowym proponowanych kryteriów. Jest to jednak zadanie trudne ib obarczone wieloma potencjalnymi bïÚdami. Ewaluatorzy dysponujÈ najczÚĂciej dostarczonymi przez prowadzÈcego ewaluacjÚ liczbowymi skalami odpowiedzi, za pomocÈ których majÈ wyraziÊ swoje opinie. W wiÚkszoĂci ankiet mogÈ równieĝ doïÈczyÊ sïowny komentarz. W artykule przedstawiamy analizy ewaluacji zbioru 673 abstraktów (nazywane dalej zbiorem A) zgïoszonych na miÚdzynarodowÈ konferencjÚ ib 323 projektów badawczych (nazywane dalej zbiorem P), wiÚc rozwaĝania teoretyczne bÚdziemy ilustrowaÊ przede wszystkimi tymi dwoma przykïadami. SÈ to ewaluacje ex-ante, których wyniki majÈ istotne konsekwencje. Odrzucone wb jej wyniku projekty lub abstrakty nie uzyskujÈ finansowania ib nie sÈ realizowane lub prezentowane. Zanim przejdziemy do psychologicznego modelu ewaluacji, przedstawiamy informacje obsposobie ewaluacji wykorzystanym wb analizowanych danych. Zbiór A zawiera oceny 673 abstraktów zgïoszonych na miÚdzynarodowÈ konferencjÚ ob tematyce zdrowia publicznego wb 2011 r. Recenzentami byli przedstawiciele miÚdzynarodowych organizacji pozarzÈdowych, naukowcy oraz niezaleĝni eksperci zb caïego Ăwiata. Autorzy najlepszych abstraktów mogli liczyÊ na stypendium konferencyjne, pokrywajÈce m.in. koszty podróĝy. Proces 138 DOI 10.7172/1644-9584.45.9 Ewaluacja projektów i abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny ewaluacji abstraktów byï dwustopniowy, skïadaï siÚ zbfazy recenzji on-line oraz fazy spotkania komitetu programowego, gdzie podejmowano ostateczne decyzje. Ocena abstraktów odbywaïa siÚ za poĂrednictwem narzÚdzi dostÚpnych on-line, poprzez przeglÈdarkÚ internetowÈ, gdzie oceniajÈcy mieli dostÚp do treĂci zgïoszeñ. Abstrakty prezentowane byïy anonimowo ibprzypisywane przez system do recenzenta wb sposób losowy, zb zachowaniem kontroli konfliktu interesów. Ewaluatorzy oceniali prace na 6 wymiarach, opisanych na skali 0 do 10 kaĝdy. Oceny czÈstkowe zostaïy przeksztaïcone wb ĂredniÈ ogólnÈ zb nastÚpujÈcymi wagami: jakoĂÊ (waga 0,1), wartoĂÊ teoretyczna lub praktyczna (0,1), oryginalnoĂÊ (0,1), zgodnoĂÊ zbtematem konferencji (0,1), jakoĂÊ prezentacji (0,1), ocena podsumowujÈca ib rekomendacjab (0,5). Zbiór P zawiera oceny 323 projektów badawczych dokonane przez ekspertów wbramach jednej zbpolskich organizacji pozarzÈdowych. ZwyciÚskie projekty otrzymywaïy finansowanie wbwysokoĂci 28 tys. zï. Zgïoszenia pogrupowane byïy wb 6 dziedzinach. Wszystkie projekty zb danej dziedziny byïy oceniane niezaleĝnie przez tych samych 3 recenzentów, którzy przyznawali im ocenÚ (na skali 1–5). Kolejny ekspert dokonywaï osobnego rankingu, kierujÈc siÚ wïasnÈ ocena wniosków oraz uzyskanymi przez nie wczeĂniejszymi recenzjami. Celem przeprowadzonej ewaluacji zbioru A ibP byïo liczbowe porównanie ocenianych obiektów. W obu przypadkach jeden ewaluator (recenzent) dokonywaï ewaluacji wielu projektów lub abstraktów, co pozwala na analizÚ wïaĂciwego dla niego stylu ewaluacji, który omówimy wbdalszej czÚĂci tekstu. 2. Psychologiczny model procesu ewaluacji1 Kaĝdy sÈd ewaluatywny, bÚdÈcy np. odpowiedziÈ na pytanie, czy projekt badawczy zasïuguje na finansowanie, czy abstrakt zasïuguje na publicznÈ prezentacjÚ wb trakcie konferencji oraz przyznanie stypendium, wymaga porównania ocenianego obiektu zbjakimĂ standardem lub wzorcem. Zwraca na to uwagÚ takĝe Wolfe, wbswoim modelu oceny esejów (Wolfe, 1997; za: Eckes, 2012). 2.1. Utajone wzorce porównawcze JednÈ zb podstawowych zdolnoĂci naszego umysïu jest kategoryzowanie doĂwiadczeñ, ïÈczenie informacji ibodkrywanie zaleĝnoĂci, które krystalizujÈ siÚ wb postaci wzorców. Wzorce zaleĝÈ od uprzednich kontaktów zb podobnymi obiektami (a wiÚc doĂwiadczenia) ib zestawienia informacji (a wiÚc aktywnoĂci poznawczej). Wzorcem uĝywanym do porównañ kolejnych obiektów moĝe byÊ: 1) wyabstrahowana ze szczegóïów reprezentacja bÚdÈca uĂrednieniem cech napotkanych wczeĂniej obiektów, 2) teoretyczna wizja (nieistniejÈcego wb rzeczywistoĂci) egzemplarza, 3) jeden ze spotkanych wczeĂniej egzemplarzy danej kategorii. Problemy ZarzÈdzania vol. 12, nr 1 (45), 2014 139 Grzegorz Król, Katarzyna Kinga Kowalczyk Jeĝeli oceniamy naszego szefa to wzorcem #1 bÚdzie uĂredniona reprezentacja naszej wiedzy na temat tego, jacy szefowie bywajÈ, wzorcem #2 wizja, jaki powinien byÊ szef, wzorcem #3 moĝe staÊ siÚ np. nasz poprzedni szef, do którego bÚdziemy porównywaÊ aktualnego. Proces wykorzystania róĝnych typów wzorców wbewaluacji wyjaĂnimy na przykïadzie oceny trudno kwantyfikowalnego dorobku naukowego. Wbprzypadku postÚpowania obnadanie tytuïu profesora, recenzent – abwiÚc profesor zb tytuïem – musi okreĂliÊ, jak dobry jest kandydat do tytuïu, trzeba wiÚc okreĂliÊ jakoĂÊ jego dorobku. Problem definiowania jakoĂci staje siÚ jasny, gdy przypomnimy opowieĂÊ Pirsiga (2005). Wykïadowca poprosiï studentów, aby uszeregowali cztery eseje wedïug ich jakoĂci. Wykonali oni to zadanie bez najmniejszego problemu. Kiedy zapytano ich, jak naleĝy zdefiniowaÊ jakoĂÊ, studenci zgodnie wskazywali m.in. na takie aspekty, jak: spójnoĂÊ, ĝywy styl, siïa przekonywania, zaangaĝowanie emocjonalne, utrzymywanie czytelnika wb napiÚciu, ale nie byli wb stanie podaÊ jej definicji. Musieli wiÚc przyznaÊ, ĝe chociaĝ wbich gïowach istnieje porównawczy wzorzec jakoĂci, do którego odwoïywali siÚ, rangujÈc eseje, to nie potrafiÈ go zwerbalizowaÊ. Skoro wzorzec nie poddaje siÚ werbalizacji moĝna go nazwaÊ utajonym. Profesor oceniajÈcy dorobek kandydata do tytuïu staje przed podobnym problemem. Musi dokonaÊ porównania. I choÊ moĝe sobie tego nie uĂwiadamiaÊ, najczÚĂciej „ma do dyspozycji” trzy wzorce porównawcze: (1) wyabstrahowanÈ ze szczegóïów reprezentacjÚ bÚdÈcÈ uĂrednieniem cech recenzowanych wczeĂniej „profesur”, (2) idealnÈ wizjÚ (teoretycznie moĝliwÈ, ale niekoniecznie istniejÈcÈ wb rzeczywistoĂci) dorobku profesora, (3) dorobek innego profesora lub wïasny. Reprezentacja poznawcza wzorca ma budowÚ prototypowÈ, tzn. skïada siÚ zbprototypu (wzorca) ibzakresu dopuszczalnych transformacji. Metaforycznie moĝna powiedzieÊ, ĝe oceniajÈc podobieñstwo dostarczonej dokumentacji do wzorca, dokonuje siÚ mentalnej transformacji jednej reprezentacji wbdrugÈ. ChoÊ ostateczna decyzja ma charakter binarny (kandydat na profesora speïnia wymagania lub nie), to jednak recenzenci sÈ wbstanie okreĂliÊ „odlegïoĂÊ” dorobku kandydata od prototypu kategorii „dorobek profesorski”. JeĂli odlegïoĂÊ przekracza zakres dopuszczalnych transformacji prototypu (a wiÚc wbzbyt duĝym stopniu odbiega od wzorca), recenzent odmawia swojego poparcia kandydaturze. Kategoria „dorobek profesora” moĝe mieÊ parÚ prototypów (np. prototyp profesora empirysty – publikujÈcego przede wszystkim artykuïy empiryczne, prototyp profesora teoretyka – piszÈcego gïównie monografie; prototyp profesora praktyka – odnoszÈcego wielkie sukcesy wb zastosowaniach). To, czy dorobek zostanie uznany za wystarczajÈcy do przyznania tytuïu, nie zaleĝy tylko od jego zawartoĂci, ale teĝ od typu wzorca, zbjakim bÚdzie porównywany (wzorzec typowego, idealnego lub konkretnego obiektu). To, który wzorzec zostanie zaktywizowany, zaleĝy od nawykowych wyborów recenzenta (niektórzy zawsze koncentrujÈ siÚ na wzorcu idealnym) 140 DOI 10.7172/1644-9584.45.9 Ewaluacja projektów i abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny ib zmiennych czynników sytuacyjnych (np. ostatnio pisana recenzja). Moĝe wystarczyÊ, aby ktoĂ przypomniaï recenzentowi podobny przypadek oceniany 2 lata wczeĂniej, ib wtedy Ălad pamiÚciowy dotyczÈcy tego kandydata staje siÚ wzorcem porównawczym. Analogicznie podczas oceny projektu badawczego/abstraktu utajonym poznawczym wzorcem porównawczym dla ewaluatora moĝe byÊ np.: 1) wzorzec #1 – reprezentacja bÚdÈca uĂrednieniem cech abstraktów/projektów wczeĂniej ocenianych, powstajÈca jako odpowiedě na pytanie: „Jak jest najczÚĂciej?”; 2) wzorzec #2 – reprezentacja „idealnego” projektu/abstraktu, powstajÈca jako odpowiedě na pytanie „Jak byÊ powinno?” (taki obiekt jest wytworem myĂlenia abstrakcyjnego ib moĝe nie istnieÊ wb Ăwiecie realnym); 3) wzorzec #3 – reprezentacja konkretnego obiektu (ostatnio ocenianego lub takiego, który zb jakiĂ wzglÚdów „zapadï wb pamiÚÊ”). Moĝe siÚ zdarzyÊ, ĝe przystÚpujÈc do oceny, recenzenci nie majÈ gotowego wzorca porównawczego – np. po raz pierwszy recenzujÈ projekty badawcze wb tym konkursie – wtedy wzorzec zaczyna siÚ wyïaniaÊ wb trakcie kolejnych ocen. Co waĝne, to pierwsze abstrakty ibprojekty wywierajÈ wiÚkszy wpïyw na tworzenie siÚ tych prototypów niĝ pozostaïe. W psychologii prawidïowoĂÊ ta okreĂlana jest jako efekt pierwszeñstwa. Przykïadowo, te same bïÚdy umieszczone wb pierwszej czÚĂci wypracowania majÈ wiÚkszy wpïyw na ocenÚ, niĝ gdy byïy umieszczone wbjego dalszej czÚĂci. Student odpowiadajÈcy dobrze na pierwsze pytania, popeïniajÈcy parÚ bïÚdów na koñcu, jest oceniany wyĝej niĝ ten, który popeïnia te same bïÚdy na poczÈtku, abpotem odpowiada bezbïÚdnie, mimo ĝe wb obu przypadkach liczba ib jakoĂÊ bïÚdów byïy identyczne (Jones, Rock, Shaver, Goethals ib Ward, 1968). Badania nad efektem pierwszeñstwa potwierdzajÈ obiegowÈ mÈdroĂÊ, ĝe liczy siÚ… pierwsze wraĝenie. Ostatnio oceniane obiekty (projekty/abstrakty) stanowiÈ kontekst dla kolejnych, mogÈ wiÚc wpïywaÊ na zmianÚ pierwszego typu wzorca porównawczego („Jak jest najczÚĂciej”) ibzmieniaÊ oceny. Wyniki dotychczasowych badañ sugerujÈ, ĝe surowoĂÊ ocen pierwszych obiektów wbserii jest wyĝsza niĝ obiektów ostatnich. Wykazano na przykïad, ĝe wyĝsze noty wb MiÚdzynarodowym Konkursie Muzycznym im. Królowej Elĝbiety Belgijskiej otrzymywali muzycy wystÚpujÈcy wbpóěniejszych dniach (Flores ibGinsburgh, 1996), wbkonkursie gastronomicznym „Das Perfekte Dinner” czÚĂciej wygrywaïy osoby gotujÈce wb piÈtki niĝ poniedziaïki (Haigner, Jenewein, Müller ib Wakolbinger, 2010), wb zawodach ïyĝwiarzy figurowych uczestnicy, którzy wystÚpowali póěniej, otrzymywali lepsze noty zarówno wb pierwszej, jak ib drugiej rundzie (Bruine de Bruin, 2006). Co waĝne, efekt ten wystÚpowaï niezaleĝnie od stopnia znajomoĂci ocenianego obiektu ibkryterium oceny (Wedell, Parducci ibLane, 1990; za: Skïad ibWieczorkowska, 2001). Jeĝeli zaïoĝymy, ĝe wzorzec (prototyp oceny) wyïania siÚ podczas oceny pierwszych obiektów, to moĝna sÈdziÊ, ĝe wb pewnym momencie serii dokona siÚ jego krystalizacja, co moĝe siÚ przejawiaÊ wb zmianie wartoĂci Ăredniej. Problemy ZarzÈdzania vol. 12, nr 1 (45), 2014 141 Grzegorz Król, Katarzyna Kinga Kowalczyk W procesie ewaluacji podstawowÈ rolÚ odgrywa efekt zakotwiczenia (anchoring effect). W wielu badaniach pokazano, ĝe podana liczba stanowi punkt odniesienia (kotwicÚ) dla formuïowania dalszych ocen. Na przykïad uczestników pytano, ile byliby skïonni przeznaczyÊ na wsparcie programu ochrony ptaków morskich zagroĝonych przez tankowce; grupy badanych róĝniïa suma wymienionÈ wbpytaniu „Czy byliby Pañstwo skïonni przekazaÊ datek wbwysokoĂci x dolarów”. W grupie 1., wbktórej nie wymieniono sumy, badani deklarowali gotowoĂÊ wpïacenia 64 dol., wbgrupie 2., pytanej ob5bdol. Ărednia zbdeklaracji wyniosïa 20 dol., wbgrupie 3. pytanej ob400 dol.bĂrednia wzrosïa do 143 dol. (Kahneman, 2011). Wprowadzona przez pytanie wartoĂÊ (5 dol. vs 400 dol.) staïa siÚ wbumysïach badanych porównawczym wzorcem (kotwicÈ) ib wpïynÚïa na udzielane odpowiedzi. W analogiczny sposób zaktywizowany utajony wzorzec porównawczy dla projektu badawczego czy abstraktu staje siÚ kotwicÈ ibwpïywa na jego ocenÚ. PodsumowujÈc, wbprocesie oceny – oprócz wyartykuïowanych kryteriów oceny dostarczonych przez zamawiajÈcego ewaluacjÚ – waĝnÈ rolÚ odgrywajÈ utajone wzorce porównawcze, bÚdÈce efektem indywidualnego doĂwiadczenia recenzenta zb tÈ kategoriÈ obiektów oraz indywidualna strategia oceny ewaluatora. 2.2. Strategie wb formuïowaniu sÈdów ewaluatywnych Wpïyw na ocenÚ ma takĝe strategia, jakÈ zastosuje ewaluator. Przykïadowo, wbczasie gïosowania nad poparciem wniosku obnadanie tytuïu profesora czïonkowie Rady Wydziaïu (ewaluatorzy) mogÈ uĝyÊ jednej zbczterech strategii formuïowania sÈdu (Forgas ib Vargas, 2005): 1. Strategii odtwarzania gotowych ocen – polegajÈcej na wyszukiwaniu wbpamiÚci istniejÈcej juĝ wczeĂniej odpowiedzi. TakÈ gotowÈ ocenÈ jest opinia Ărodowiska ob kandydacie, konkluzje wb recenzjach. 2. Strategii przetwarzania zmotywowanego – stosowanej wtedy, gdy mamy silne preferencje dotyczÈce oceny, jakÈ mamy sformuïowaÊ. Jeĝeli lubimy kandydata, to bÚdziemy gïosowaÊ na „tak”, nie zwaĝajÈc na argumenty zawarte wb recenzjach. 3. Strategii heurystycznego (uproszczonego) przetwarzania informacji – wykorzystywanej wtedy, gdy nie zaleĝy nam bardzo na trafnoĂci lub jesteĂmy przeciÈĝeni. Oceny heurystyczne opierajÈ siÚ na skojarzeniach – gïosujÈcy moĝe decydowaÊ impulsywnie, ïatwo poddawaÊ siÚ efektowi zakotwiczenia. 4. Strategii przetwarzania analitycznego (szczegóïowego) – wymagajÈcej wyselekcjonowania ib zinterpretowania nowej informacji, ab nastÚpnie powiÈzania jej zb wiedzÈ. Jest ona stosowana, gdy gïosujÈcy ma wystarczajÈce zdolnoĂci/umiejÚtnoĂci, aby zrozumieÊ np. ěródïo sprzecznych konkluzji wb recenzjach, oraz zasoby poznawcze (nie jest zmÚczony) ib jest zainteresowany trafnoĂciÈ swojej oceny. W psychologii panuje zgoda co do istnienia dwóch funkcjonalnie róĝnych systemów (por. Kahneman, 2011) przetwarzania informacji: (1) szyb142 DOI 10.7172/1644-9584.45.9 Ewaluacja projektów i abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny kiego – impulsywnego, dziaïajÈcego wbsposób automatyczny ibintuicyjny oraz (2)bwolnego – refleksyjnego, odpowiadajÈcego za opanowanie automatycznych reakcji systemu pierwszego. System refleksyjny – zwiÈzany ze strategiami przetwarzania analitycznego – wymaga zasobów psychoenergetycznych (np. Gailliot, Baumeister, DeWall, Maner, Plant, Tice ib Schmeichel, 2007; Gailliot ib Baumeister, 2007), które wb warunkach presji czasowej lub zmÚczenia sÈ wyczerpywane. Powoduje to przeïÈczenie przetwarzania na system pierwszy, zwiÈzany ze strategiami heurystycznego (a wiÚc uproszczonego) przetwarzania informacji, co czÚsto prowadzi do powierzchownych ocen. Znieksztaïcenia zb tym zwiÈzane sÈ „coraz wiÚksze wb warunkach nacisku czasu ib koniecznoĂci szybkiego podejmowania decyzji oraz natychmiastowego dziaïania. Powstaje wtedy stan stresu informacyjnego, stanowiÈcego dodatkowe ěródïo bïÚdów” (Nosal, 2001, s. 36). Miïo byïoby twierdziÊ, ĝe ewaluatorzy zawsze stosujÈ strategie przetwarzania analitycznego, ale jeĝeli sobie wyobrazimy, ĝe niektórzy zb nich dokonujÈ ewaluacji 61 abstraktów wb ciÈgu 1 dnia, to moĝna zaïoĝyÊ, ĝe zmÚczenie, znuĝenie moĝe narastaÊ wb czasie ewaluacji. PodsumowujÈc, ob wyborze strategii przetwarzania informacji decydujÈ zarówno moĝliwoĂci ib preferencje poznawcze recenzenta (np. poziom refleksyjnoĂci), jego stan energetyczny (przeciÈĝenie, nastrój), cele wyznaczajÈce stopieñ zaangaĝowania, jak ibcechy obiektu oceny (stopieñ znajomoĂci ibzïoĝonoĂci) oraz cechy sytuacji (presja czasowa, aprobata spoïeczna, konsekwencje wb przypadku popeïnienia bïÚdu). Na ewaluacjÚ wpïywa takĝe ïatwoĂÊ dostÚpu do informacji, ich wyrazistoĂÊ, ĂwieĝoĂci ibformy zakodowania (Nosal, 2001). Na tworzenie adekwatnej reprezentacji sytuacji problemowej moĝe mieÊ takĝe wpïyw lÚkowe nastawienie, nadmierna koncentracja na szczegóïach, dogmatycznoĂÊ, podejrzliwoĂÊ (Wieczorkowska-Siarkiewicz, 1992). 3. Indywidualny styl ewaluacji2 Zadaniem osoby oceniajÈcej zbiór obiektów (projektów, abstraktów) jest dokonanie ich kategoryzacji na te, które sÈ warte poparcia, ibte, które naleĝy odrzuciÊ (skala oceny dwuwartoĂciowa). NajczÚĂciej ewaluator proszony jest ob dokonanie oceny na skalach wielowartoĂciowych. Nawet gdy skala oceny jest precyzyjnie okreĂlona (np. od 1 do 5), recenzenci mogÈ wb róĝny sposób dokonywaÊ transformacji swojej skali wb skalÚ odpowiedzi (Wieczorkowska-Siarkiewicz, 1992). Jeden recenzent moĝe róĝnicowaÊ obiekty tylko na czÚĂci skali, np. 3–5, inny moĝe uĝywaÊ tylko dwóch ocen, np. 2 ib 5. Jest to przejawem specyficznego dla danej osoby stylu ewaluacji, który moĝe manifestowaÊ poprzez: (1) zbyt surowe (lub ïagodne) oceny (Hoyt, 2000), (2) brak róĝnicowania czÈstkowych wymiarów oceny – efekt halo (Landy, Vance, Barnes-Farrell ibSteele, 1980) – i/lub ocenianych obiektów. Moĝna go wykryÊ ib oszacowaÊ tylko wtedy, gdy dysponujemy Problemy ZarzÈdzania vol. 12, nr 1 (45), 2014 143 Grzegorz Król, Katarzyna Kinga Kowalczyk ocenami serii obiektów dokonanymi przez tego samego ewaluatora. NajczÚĂciej jednak mamy do czynienia zbpojedynczymi ocenami dokonywanymi przez róĝnych recenzentów, wiÚc wpïyw indywidualnego stylu ewaluatora nie byï przedmiotem wielu badañ, ze wzglÚdu na brak odpowiednich danych. 3.1. Styl ewaluatora: poziom ïagodnoĂci Wszyscy wiedzÈ, ĝe egzaminatorzy róĝniÈ siÚ poziomem surowoĂci. Ubjednych trudno zdaÊ egzamin, u drugich duĝo ïatwiej, mimo ĝe teoretycznie wymagania formalne sÈ takie same. JeĂli ewaluator wykazuje systematyczne odchylenie od Ăredniej wbjednym kierunku (lub brak tej inklinacji), to moĝna powiedzieÊ, ĝe charakteryzuje go indywidualny styl ewaluacji (Baron, 1985; 1986; za: Nosal, 1990). Wynika to zb róĝnic wb nawykowo aktywizowanych wzorcach porównawczych. Ci bardziej surowi porównujÈ egzaminowanego do teoretycznego wzorca opisujÈcego „Jak byÊ powinno”, ci ïagodniejsi zapewne porównujÈ zb wzorcem typowym, opisujÈcym „Jak jest”. Moĝna to wykryÊ, liczÈc ĂredniÈ zbwszystkich ocen wystawionych przez tego samego recenzenta. W badaniachb pokazano, ĝe niektórzy ewaluatorzy konsekwentnie oceniali eseje surowiej, podczas gdy inni charakteryzowali siÚ niezmiennie bardziej pozytywnÈ ocenÈ tych samych prac. Jest to okreĂlane jako bïÈd ïagodnoĂci/surowoĂci (Holzbach, 1978). Jeĝeli oceniajÈcy stosuje strategie przetwarzania zmotywowanego ib lubi stawiaÊ dobre oceny, bÚdzie bardziej wyrozumiaïy wb ocenach, jeĝeli zaĂ lubi wytykaÊ bïÚdy, negatywne kategorie sÈ bardziej dostÚpne ib sÈdy bÚdÈ surowsze (Feldman, 1981). 3.2. Styl ewaluatora: stopieñ róĝnicowania TÚ samÈ ĂredniÈ ocenÚ, np. 3 na piÚciostopniowej skali, mogÈ uzyskaÊ zarówno ewalutorzy, którzy sïabo róĝnicujÈ obiekty, przyznajÈc poïowie projektów 4, ab poïowie 2, jak ib ci, którzy kaĝdÈ zb ocen 1, 2, 4, 5 przyznali tyle samo razy. Nie róĝniÈ siÚ poziomem ïagodnoĂci wskaěnikowanym przez ĂredniÈ, ale róĝniÈ siÚ istotnie stopniem róĝnicowania. Wtedy, gdy recenzenci oceniajÈ obiekty na wymiarach czÈstkowych, tak jak to byïo wb zbiorze abstraktów, stopieñ skorelowania ocen czÈstkowych moĝe byÊ wynikiem opisywanego wb psychologii efektu halo (nazywanego takĝe efektem aureoli), polegajÈcego na tym, ĝe przypisanie obiektowi jednej waĝnej pozytywnej lub negatywnej cechy wpïywa na skïonnoĂÊ do przypisywania innych cech zgodnych ewaluatywnie (Brzeziñska, Brzeziñski ibEliasz, 2004). Moĝna wiÚc mówiÊ ob funkcjonalnym zróĝnicowaniu oceniajÈcego „differential rater functioning” (Eckes, 2012). 4. Analizowane dane W tabeli 1 przedstawiono róĝnice ib podobieñstwa miÚdzy dwoma zbiorami danych opisanymi we wprowadzeniu. 144 DOI 10.7172/1644-9584.45.9 Ewaluacja projektów i abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny Zbiór A. Oceny abstraktów konferencyjnych – zawiera oceny 673 abstraktów zgïoszo- – nych na konferencjÚ – – wszystkie abstrakty byïy oceniane nieza- – leĝnie przez 3 recenzentów Zbiór P. Oceny projektów badawczych zawiera oceny 323 projektów badawczych projekty dotyczyïy 6 dziedzin badawczych wszystkie projekty zbdanej dziedziny byïy oceniane niezaleĝnie przez tych samych 3 recenzentów – kaĝdy zb 33 recenzentów oceniaï Ărednio 61 abstraktów (od 17 do 88) – analizowano styl ewaluacji 18 recenzentów – dla kaĝdego abstraktu recenzenci byli losowani przez system, wiÚc róĝne abstrakty mogïy byÊ oceniane przez róĝne zestawy recenzentów Tab. 1. Analizowane dane. ½ródïo: opracowanie wïasne. 5. Wskaěniki stylu ewaluacji 5.1. Poziom ïagodnoĂci/surowoĂci W zbiorze projektów przedmiotem analizy byï indywidualny styl ewaluacji 18 recenzentów. Dla kaĝdego zbnich tendencja centralna wzorca porównawczego byïa wskaěnikowana przez ĂredniÈ ocenianych przez niego projektów (liczba projektów dla jednego recenzenta zmieniaïa siÚ od 16 do 49 wb zaleĝnoĂci od dziedziny). W zbiorze abstraktów przedmiotem analizy byï indywidualny styl ewaluacji 33 recenzentów. Dla kaĝdego zbnich tendencja centralna wzorca porównawczego byïa wskaěnikowana przez ĂredniÈ zb dokonanych przez niego ocen okoïo 61 abstraktów (liczba abstraktów ocenionych przez jednego recenzenta zmieniaïa siÚ od 17 do 88). 5.2. Stopieñ róĝnicowania Róĝnicowanie przez recenzenta ocenianych projektów/abstraktów. Wbobu zbiorach stopieñ róĝnicowania przez recenzenta ocenianych projektów/abstraktów byï wskaěnikowany przez odchylenie standardowe wystawionych przez niego ocen, rozrzut ocen (róĝnica pomiÚdzy ocenÈ maksymalnÈ abminimalnÈ) oraz wspóïczynnik zmiennoĂci. W odróĝnieniu od odchylenia standardowego, które okreĂla bezwzglÚdne zróĝnicowanie cechy, wspóïczynnik zmiennoĂci jest miarÈ wzglÚdnÈ, czyli zaleĝnÈ od wielkoĂci Ăredniej arytmetycznej. Wspóïczynniki zmiennoĂci obliczono, dzielÈc odchylenia standardowe przez ĂredniÈ ocen dla danego recenzenta. Róĝnicowanie przez recenzenta ocen na wymiarach czÈstkowych. Przypomnijmy, ĝe wbzbiorze A ewaluatorzy oceniali (na skali 0 do 10) abstrakty na 6 wymiarach, zb których 4 – tj. (I) wartoĂÊ teoretyczna lub praktyczna, (II)boryginalnoĂÊ, (III) zgodnoĂÊ zbtematem konferencji, (IV) jakoĂÊ prezentacji – teoretycznie powinny byÊ niezaleĝne. Aby to sprawdziÊ, dla kaĝdego Problemy ZarzÈdzania vol. 12, nr 1 (45), 2014 145 Grzegorz Król, Katarzyna Kinga Kowalczyk zb 33 ewaluatorów wykonano analizÚ czynnikowÈ ocenianych przez niego abstraktów na 4 wymienionych wyĝej wymiarach. Procent zmiennoĂci wyjaĂniony przez pierwszy czynnik byï miarÈ skorelowania wbumyĂle recenzenta tych teoretycznie niezaleĝnych wymiarów. 5.3. KolejnoĂÊ oceniania WysyïajÈc abstrakt na konferencjÚ, nie tylko nie wiemy, kto bÚdzie go recenzowaï, ale nie wiemy takĝe, czy bÚdzie on oceniany przez wylosowanego przez system recenzenta jako pierwszy, drugi, ab moĝe ostatni. Aby sprawdziÊ, czy to, którÈ pozycjÚ wbserii ocen miaï nasz abstrakt, wpïywa na jego ocenÚ, dokonano agregacji ocen po abstraktach, co oznacza, ĝe kaĝdemu abstraktowi przypisano ĂredniÈ kolejnoĂÊ, wbjakiej byï oceniany. JeĂli np. byï oceniany jako 15. przez recenzenta #1, jako 25. przez recenzenta #2, jako 50. przez recenzenta #3, to Ărednia kolejnoĂÊ dla tego abstraktu wynosiïa 30. W analogiczny sposób obliczono dla kaĝdego abstraktu ĂredniÈ pozycjÚ zb ocen 3 recenzentów. W zbiorze P kolejnoĂÊ, wb jakiej recenzenci oceniali projekty, nie byïa znana, wiÚc analizy byïy przeprowadzone wyïÈcznie na zbiorze A. PrawdÈ jest, ĝe wbzbiorze A oceny poszczególnych abstraktów nie sÈ od siebie niezaleĝne, poniewaĝ kaĝdy zbnich byï oceniany przez róĝny zestaw recenzentów, ale ze wzglÚdu na losowanie ewaluatorów przez system zb 5456 moĝliwych zestawów, wpïyw ewaluatora wb tej analizie moĝna zaniedbaÊ. 6. Wyniki analiz 6.1. PrawidïowoĂÊ 1. Ewaluatorzy róĝniÈ siÚ poziomem ïagodnoĂci ib stopniem róĝnicowania projektów/abstraktów. W zbiorze P, ze wzglÚdu na fakt, ĝe kaĝdy projekt byï oceniany przez tÚb samÈ trójkÚ recenzentów, moĝna byïo policzyÊ efekt ïagodnoĂci ewaluatora. Na rysunku 1 przedstawiono charakterystykÚ ocen (Ărednia, wspóïczynnik zróĝnicowania wyraĝony wbproporcjach) trzech recenzentów dla 6 dziedzin. Analiza wariancji wykazaïa istotny wpïyw ewaluatora wb 4 zb 6 dziedzin. Stopieñ skorelowania Ăredniej ocen ewaluatorów byï róĝny wb róĝnych zestawach. Analiza korelacji pozwala okreĂliÊ, ĝe np. wb dziedzinie 3 jeden zb recenzentów oceniaï „inaczej” niĝ dwóch pozostaïych (zob. rysunek 1). Wniosek: ewaluatorzy mogÈ róĝniÊ siÚ zarówno surowoĂciÈ (operacjonalizowanÈ przez ĂredniÈ), jak ibstopniem róĝnicowania projektów badawczych. Takich analiz nie moĝna przeprowadziÊ dla zbioru A, ale na wykresach 2 ib 3 widaÊ, ĝe takĝe wb tym przypadku recenzenci róĝniÈ siÚ zarówno poziomem ïagodnoĂci (dla 33 recenzentów Ărednia zmieniaïa siÚ od 3,44 do 8,40), jak ib stopniem róĝnicowania (wspóïczynnik zmiennoĂci od 0,12 do 0,46). 146 DOI 10.7172/1644-9584.45.9 Ewaluacja projektów i abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny Porównanie Ărednich Porównanie wspóïczynników zmiennoĂci Dziedzina 1 liczba ocenianych projektów k = 16 F(2, 30) = 3,04 Recenzent 3 Recenzent 3 Recenzent 2 Recenzent 2 Recenzent 1 Recenzent 1 3,0 3,5 4,0 4,5 0,0 Dziedzina 2 liczba ocenianych projektów k = 22 [fizyczne] F(2, 42) = 3,04 Recenzent 3 Recenzent 3 Recenzent 2 Recenzent 2 Recenzent 1 Recenzent 1 3,0 3,5 4,0 4,5 Dziedzina 3 liczba ocenianych projektów k = 30 F(2, 58) = 2,11 Recenzent 3 Recenzent 3 Recenzent 2 Recenzent 2 Recenzent 1 Recenzent 1 3,0 3,5 4,0 4,5 Dziedzina 4 liczba ocenianych projektów k = 59 Recenzent 3 Recenzent 2 Recenzent 2 Recenzent 1 Recenzent 1 3,5 4,0 0,0 4,5 F(2, 94) = 1,28 Recenzent 3 Recenzent 3 Recenzent 2 Recenzent 2 Recenzent 1 Recenzent 1 3,0 3,5 4,0 4,5 liczba ocenianych projektów k = 22 0,0 F(2, 42) = 8,71 Recenzent 3 Recenzent 3 Recenzent 2 Recenzent 2 Recenzent 1 Recenzent 1 3,0 3,5 4,0 0,1 0,2 0,3 0,4 0,2 0,3 0,4 0,2 0,3 0,4 0,2 0,3 0,4 0,2 0,3 0,4 0,2 0,3 0,4 p = 0,06 0,1 p = 0,12 0,1 F(2, 116) = 6,10 p = 0,03 liczba ocenianych projektów k = 48 Dziedzina 5 0,0 Recenzent 3 3,0 Dziedzina 6 0,0 p = 0,04 4,5 0,0 0,1 p = 0,28 0,1 p = 0,00 0,1 Rys. 1. Charakterystyka ocen (Ărednia, wspóïczynnik zróĝnicowania wyraĝony wb proporcjach) trzech recenzentów dla szeĂciu dziedzin. ½ródïo: opracowanie wïasne. Problemy ZarzÈdzania vol. 12, nr 1 (45), 2014 147 12,0 6,0 10,0 5,0 Częstość Częstość Grzegorz Król, Katarzyna Kinga Kowalczyk 8,0 6,0 4,0 3,0 4,0 2,0 2,0 1,0 0,0 3,00 4,00 5,00 6,00 7,00 8,00 9,00 0,0 0,10 Średnia ocena 0,20 0,30 0,40 0,50 Współczynnik zmienności Rys 2. Charakterystyka ocen (Ărednia, wspóïczynnik zróĝnicowania wyraĝony wbproporcjach) dla 33 recenzentów. ½ródïo: opracowanie wïasne. R1575 R1575 R1695 R1695 R2006 R2006 R1556 R1556 R1271 R1271 R1666 R1666 0 2 4 Średnia 6 8 10 0,0 0,1 0,2 0,3 0,4 0,5 Współczynnik zmienności Rys 3. Charakterystyka ocen (Ărednia, wspóïczynnik zróĝnicowania wyraĝony wb proporcjach) dla trzech najniĝej ib trzech najwyĝej oceniajÈcych recenzentów abstraktów. ½ródïo: opracowanie wïasne. 6.2. PrawidïowoĂÊ 2. Ocena abstraktu zaleĝy od kolejnoĂci, wb której abstrakt byï oceniany (zbiór A) W celu sprawdzenia zwiÈzku miÚdzy ĂredniÈ ocenÈ abstraktu oraz ĂredniÈ kolejnoĂciÈ, wb jakiej byï on oceniany, przeprowadzono dla 673 abstraktów analizÚ regresji, wb której wykazano liniowy zwiÈzek (a = 6,24; b = 0,007; beta = 0,118; r2 = 0,014, F(1,671) = 9,51, p < 0,002;) obu zmiennych. Niski wspóïczynnik dopasowania linii prostej r2 oraz wykres zaleĝnoĂci Ăredniej oceny od Ăredniej kolejnoĂci dla 673 abstraktów (rysunek 4) pokazuje, iĝ warto szukaÊ nieliniowego zwiÈzku pomiÚdzy kolejnoĂciÈ oceny ib Ărednim poziomem oceny. Próba dopasowania zwiÈzku krzywoliniowego za pomocÈ krzywej inverse daïa 3-krotnie wyĝszy poziom wyjaĂnionej zmiennoĂci wysokoĂci ocen. O ile dla poczÈtkowych 15–30 ocen model liniowy jest skutecznym narzÚdziem wyjaĂniania zwiÈzku ocen ib kolejnoĂci, dla caïoĂci danych dopasowanie modelu krzywoliniowego jest wyĝsze (r2 = 0,014 oraz odpowiednio r2 = 0,048). 148 DOI 10.7172/1644-9584.45.9 Ewaluacja projektów i abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny 10,00 Ocena 8,00 6,00 4,00 2,00 0,00 0,00 20,00 40,00 60,00 80,00 100,00 Kolejność oceniania Rys 4. ¥rednia ocena abstraktu (oĂ OY) wb zaleĝnoĂci od Ăredniej kolejnoĂci oceny (oĂb OX). Dopasowana krzywa wskazuje na zmianÚ wb Ărednich wynikach oceny po okoïo 15 ocenianych abstraktach. ½ródïo: opracowanie wïasne. W kolejnym kroku okreĂlono punkt, wbktórym nastÚpuje zmiana relacji pomiÚdzy ocenÈ ib kolejnoĂciÈ. Punkt ten wyznaczono poprzez maksymalizacjÚ wielkoĂci wyjaĂnionej wariancji dla wybranej liczby poczÈtkowych ocen. Powyĝej tego punktu zwiÈzek pomiÚdzy tymi zmiennymi staje siÚ statystycznie nieistotny. Na podstawie wartoĂci r2 wb regresji liniowej oraz krzywoliniowej (inverse) okreĂlono, iĝ zmiana nastÚpuje po okoïo 15 ocenach. r2 wb regresji liniowej b r2 wb regresji krzywoliniowej B 10 0,09 0,21* 0,05 –2,20*** 15 0,14 0,17*** 0,08 –3,30*** 20 0,12 0,11*** 0,09 –3,35*** 25 0,11 0,08*** 0,10 –3,64*** CaïoĂÊ (685) 0,014 0,01** 0,05 –3,64*** Liczba poczÈtkowych ocen * p<0,05; **p<0,01; ***p<0,001. Tab. 2. WartoĂci r2 wbanalizie regresji liniowej oraz krzywoliniowej (krzywa „odwrotna”) dla róĝnych podzbiorów danych – zmienna zaleĝna: ïÈczna ocena. ½ródïo: opracowanie wïasne. Problemy ZarzÈdzania vol. 12, nr 1 (45), 2014 149 Grzegorz Król, Katarzyna Kinga Kowalczyk Przypomnijmy, ĝe kaĝdy recenzent oceniaï okoïo 61 abstraktów. Wb nastÚpnym kroku dokonano podziaïu zbioru na 2 grupy: (1) abstrakty, które naleĝaïy do poczÈtku (pierwsze 15) serii ocen recenzentów, ib (2)b te, które byïy oceniane póěniej (kolejnoĂÊ wyĝsza niĝ 15). Grupy róĝniÈ siÚ istotnie ĂredniÈ (M1 = 5,81, M2 = 6,65) oraz wariancjÈ ocen (SD1 = 0,15 ib SD2 = 0,06). Moĝna wiÚc powiedzieÊ, ĝe abstrakty oceniane na poczÈtku otrzymujÈ niĝsze oceny aĝ ob0,84 punktu. WiÚksze jest teĝ zróĝnicowanie ocen wbgrupie ocen poczÈtkowych niĝ wb grupie ocen dalszych, co moĝna przewidzieÊ istotnoĂciÈ liniowego zwiÈzku miÚdzy kolejnoĂciÈ ab ocenÈ wb grupie abstraktów poczÈtkowych. 6.3. PrawidïowoĂÊ 3. WystÚpowanie efektu halo wb ocenach recenzentów (zbiór A) Przypomnijmy, ĝe wbcelu okreĂlenia poziomu skorelowania 4 ocen czÈstkowych dla kaĝdego recenzenta przeprowadzono analizÚ czynnikowÈ ocen Ărednio 61 abstraktów na poszczególnych wymiarach. Jeĝeli byïyby to niezaleĝne wymiary percepcji, to nie powinny siÚ daÊ ïatwo zredukowaÊ do 1 czynnika. Okazaïo siÚ, ĝe dla wszystkich 33 recenzentów oceny czÈstkowe moĝna przeksztaïciÊ wbjeden czynnik, który wyjaĂniaï od 47 do 91% zmiennoĂci ocen (rysunek 5). Ten procent jest wskaěnikiem róĝnicowania wymiarów czÈstkowych oceny przez recenzenta. Bardzo wysoki procent wyjaĂnionej wariancji przez jeden czynnik oznacza, ĝe recenzent oceniaï abstrakty prawie identycznie we wszystkich 4 wymiarach czÈstkowych (np. 1, 2, 1, 1 vs 7, 8, 7, 7), ab wiÚc sïabo róĝnicowaï wymiary. Częstość 6,0 4,0 2,0 0,0 40,00 50,00 60,00 70,00 80,00 90,00 100,00 Procent wariancji wyjaśnionych przez pierwszy czynnik Rys 5. Rozkïad wielkoĂci wariancji wyjaĂnionej przez pierwszy czynnik wbanalizie czynnikowej czterech wymiarów czÈstkowych oceny. ½ródïo: opracowanie wïasne. 150 DOI 10.7172/1644-9584.45.9 Ewaluacja projektów i abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny 7. Dyskusja wyników ib podsumowanie PokazaliĂmy, ĝe recenzenci projektów/abstraktów róĝniÈ siÚ indywidualnym stylem ewaluacji, operacjonalizowanym przez stopieñ ïagodnoĂci/surowoĂci ib stopieñ róĝnicowania. W zbiorze A, wbktórym znana byïa kolejnoĂÊ, wbjakiej recenzenci oceniali abstrakty, stwierdziliĂmy tendencjÚ do niĝszego oceniania poczÈtkowych kilkunastu prac. Moĝe to byÊ interpretowane wbterminach ksztaïtowania siÚ wbumysïach recenzentów wb czasie recenzowania utajonego wzorca porównawczego. Po ocenie kilkunastu prac wzorzec siÚ juĝ stabilizuje – co wb analizowanym zbiorze owocowaïo wzrostem Ăredniej ocen dla abstraktów ocenianych póěniej. Moĝna spekulowaÊ, ĝe recenzenci na poczÈtku aktywizujÈ wzorzec #2, bÚdÈcy zapisem ich wyobraĝenia teoretycznie idealnego abstraktu (odpowiedě na pytanie: „Jak byÊ powinno?”), pod wpïywem czytania kolejnych prac tworzy siÚ wzorzec porównawczy #1, bÚdÈcy odpowiedziÈ na pytanie „Jak jest?” ib oczekiwania siÚ obniĝajÈ, ab wiÚc oceny rosnÈ. Wpïyw kolejnoĂci oceniania powinien byÊ najsilniejszy u recenzentów, którzy nie mieli wczeĂniejszych doĂwiadczeñ. CzÚĂÊ recenzentów wykonywaïa tÚ samÈ pracÚ rok wczeĂniej ibwarto byïoby wbkolejnych analizach spróbowaÊ dotrzeÊ do tego typu danych. W badaniach (Marsh, Jayasinghe ib Bond, 2008) porównywano ewaluacje osób oceniajÈcych jeden lub wiÚcej projektów. Ze wzglÚdu na to, ĝe wiÚkszoĂÊ recenzentów oceniaïa tylko jeden projekt, gdy ocenili go niĝej niĝ pozostali recenzenci, nie wiemy, czy byï to efekt sïabego projektu ib ïagodnoĂci pozostaïych recenzentów, czy teĝ indywidualnego stylu ewaluacji. Stwierdzono, ĝe oceny tych, którzy oceniali co najmniej 3 projekty, byïy bardziej spójne zbocenami innych recenzentów tego samego projektu ibbardziej trafne (zgodne zb ocenami finaïowymi). Moĝna wiÚc sÈdziÊ, ĝe ocena wiÚcej niĝ 1 projektu pozwalaïa na stworzenie wbumyĂle recenzenta wzorca porównawczego. Stwierdzono takĝe, ĝe ich oceny byïy teĝ Ărednio bardziej surowe niĝ tych, którzy oceniali tylko jeden projekt. Badacze podkreĂlajÈ jednak, ĝe wbgrupie 15 ewaluatorów, którzy ocenili 10 lub wiÚcej projektów, moĝna wskazaÊ osoby, które konsekwentnie sÈ bardziej ïagodne wb swoich ocenach niĝ reszta, co potwierdza wpïyw indywidualnego stylu ewaluacji. Alternatywna do stabilizacji wzorca porównawczego interpretacja podkreĂla rolÚ zmÚczenia recenzenta ibmoĝe zostaÊ zweryfikowana wbplanowanych badaniach eksperymentalnych, wb których róĝni ewaluatorzy bÚdÈ oceniali wb tej samej kolejnoĂci ten sam zestaw abstraktów. PodsumowujÈc, przeprowadzona przez nas analiza pokazaïa, ĝe na ocenÚ abstraktów ibprojektów badawczych wpïyw miaïy: indywidualny styl ewaluacji (poziom ïagodnoĂci/surowoĂci, skïonnoĂÊ do róĝnicowania) oraz kolejnoĂÊ abstraktów (pierwsze abstrakty oceniane byïy surowiej). PodsumowujÈcÈ ilustracjÈ róĝnic wbstylach ewaluacji mogÈ byÊ przedstawione na rysunkub6 zaleĝnoĂci miÚdzy kolejnoĂciÈ oceny ab poziomem ïagodnoĂci ib stopniem róĝnicowania pochodzÈce od 3 typów recenzentów ze zbioru A. Problemy ZarzÈdzania vol. 12, nr 1 (45), 2014 151 Grzegorz Król, Katarzyna Kinga Kowalczyk Łączna ocena Łączna ocena Łączna ocena Identyfikator recenzenta: 1556 Identyfikator recenzenta: 1575 Identyfikator recenzenta: 1565 10,00 10,00 10,00 8,00 8,00 8,00 6,00 6,00 6,00 4,00 4,00 4,00 2,00 2,00 2,00 0,00 0,00 0 20 40 60 80 100 Kolejność oceny 6.a. Typ #1: Niska Ărednia ocena ib wysokie róĝnicowanie abstraktów (M = 5,24; sb =b 2,44, N = 69). 0 20 40 60 80 100 Kolejność oceny 0,00 0 20 40 60 80 100 Kolejność oceny 6.b. Typ #2: Wysoka Ărednia ocen ib maïe róĝnicowanie abstraktów (M = 8,40; s = 1,14, N = 70). 6.c. Typ #3: Istotny wzrost (p < 0,03) wysokoĂci oceny wraz zbkolejnoĂciÈ oceniania (M = 6,69; s = 1,73, N = 65). Rys. 6. Przykïady stylów ewaluacji (Ărednia, zróĝnicowanie, zmiana oceny wraz zbkolejnoĂciÈ ocenianego abstraktu) wbzbiorze A dotyczÈcym recenzji abstraktów konferencyjnych. ½ródïo: opracowanie wïasne. Czytelnik sam moĝe odpowiedzieÊ na pytanie, zbktórej kategorii chciaïby wylosowaÊ recenzenta do oceny jego abstraktu, bo trzeba pamiÚtaÊ, ĝe wb typowych warunkach konkursowych dla kaĝdego projektu dobierani sÈ inni recenzenci. Moĝe siÚ wiÚc zdarzyÊ, ĝe wylosujemy 3 recenzentów zbjednej kategorii. Indywidualny styl ewaluacji recenzenta nie miaï wpïywu na decyzje dotyczÈce finansowania projektów (zbiór P), poniewaĝ ci sami recenzenci oceniali wszystkie projekty. Porównanie ocen moĝe byÊ utrudnione wb najczÚĂciej spotykanym przypadku, gdy czÚĂÊ projektów jest oceniana przez bardziej surowego, czÚĂÊ przez bardziej ïagodnego recenzenta. Tak byïo wbprzypadku innego konkursu projektów badawczych (Michaïowicz, 2013), wb którym dla aĝ 48 projektów (co stanowi 38%) róĝnica miÚdzy ocenÈ maksymalnÈ ab minimalnÈ wyniosïa powyĝej 30 punktów na 100-stopniowej skali. Aĝ 13 recenzentów wystawiïo projektom oceny poniĝej 20 punktów (na 100-punktowej skali), 54 recenzentów wystawiïo oceny powyĝej 80 punktów. W tym wypadku nie moĝna stwierdziÊ, czy recenzent, który oceniï projekt na 2,5 (jeden przypadek), jest nadmiernie surowy, czy teĝ trafiï na bardzo sïaby projekt ibbardzo ïagodnych wspóïrecenzentów. W przypadku gdy ewaluator ocenia tylko jeden projekt, nie moĝna okreĂliÊ jego indywidualnego stylu ewaluacji (a wiec poziomu ïagodnoĂci, stopnia róĝnicowania). Aby zminimalizowaÊ wpïyw indywidualnego stylu ewaluatorów, podejmuje siÚ róĝnego typu Ărodki zaradcze (Raymond ib Viswervaran, 1991; Raymond ib Huston, 1990). Z jednej strony sÈ to programy szkoleniowe dla oceniajÈcych, zb drugiej korekty statystyczne, np. podejmowanie decy- 152 DOI 10.7172/1644-9584.45.9 Ewaluacja projektów i abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny zji na podstawie wyników standaryzowanych. Niestety pierwsze rozwiÈzanie wymaga sporo czasu ib jest kosztowne, ab jego skutecznoĂÊ równieĝ podlega dyskusji (Landy, Vance, Barnes-Farrell ib Steel, 1980; Bernardin ib Pence, 1980). W przypadku ocen pracowników zaleca siÚ (Landy ib in., 1980): – zwiÚkszenie liczby obserwacji pracownika lub liczby oceniajÈcych, – standaryzowanie ocen wewnÈtrz grup pracowników (np. sprzedawców, informatyków) ibprzyznawanie np. premii na podstawie ocen standaryzowanych, abnie surowych, co pozwoli na porównywanie ocen pracowników wb róĝnych dziaïów ib na róĝnych stanowiskach, – kontrolowanie wb analizach zaleĝnoĂci wpïywu zmiennych potencjalnie znieksztaïcajÈcych relacje, np. staĝ pracy, wysokoĂÊ wynagrodzenia Uwaĝamy, ĝe wb przypadku ocen projektów rozwiÈzaniem mogïo by byÊ „kotwiczenie” osób oceniajÈcych, ab wiÚc rozpoczynanie przez nich procesu oceny od kilku obiektów ob znanej wartoĂci (np. 3 najlepsze projekty vs 3 najgorsze projekty badawcze zb poprzedniego konkursu)3. Powinno to zapewniÊ ewaluatorom zbliĝone wzorce porównawcze ib minimalizowaÊ wpïyw utajonych wzorców porównawczym specyficznych dla kaĝdego recenzenta. Przedstawianie ewaluatorom jedynie ogólnych wytycznych zmusza do samodzielnego przekïadania ich na wzorce. Wynik tej transformacji podlega silnemu wpïywowi róĝnic indywidualnych wb stylach ewaluacji, które chcielibyĂmy wyeliminowaÊ. Jeĝeli dysponowalibyĂmy dla kaĝdego recenzenta jego ocenami projektów/abstraktów obznanej abpriori wartoĂci, moglibyĂmy policzyÊ ib uwzglÚdniaÊ wb ocenach jego styl ewaluacji. JeĂli recenzent X oceniïby 3 bardzo dobre projekty jedynie na 4 na skali 7-stopniowej, to moglibyĂmy uznaÊ, ĝe jest on surowym recenzentem ib waĝyÊ jego oceny projektów obnieznanych wczeĂniej wartoĂciach wyĝej, niĝ recenzenta, który wzorcowe obiekty oceniï na 7. MajÈc na uwadze czÚstotliwoĂÊ wykorzystywania narzÚdzi ewaluacyjnych ib ich znaczenie (od oceny ewaluatora zaleĝy np. przyznanie dofinansowania), bardzo waĝne sÈ dalsze badania psychologicznych uwarunkowañ procesu ewaluacji. Przypisy 1 Model jest kompilacjÈ roĝnych tez zawartych wbpublikacjach Wieczorkowskiej (1992; 1998; 2011). Autorzy dziÚkujÈ prof. G. Wieczorkowskiej za pomoc wb opisaniu modelu. 2 Wpïyw indywidualnego stylu ewaluacji na oceny zajÚÊ akademickich jest przedmiotem intensywnych badañ B. Michaïowicza: Michaïowicz, B. (2013). Koncepcja rozprawy doktorskiej pt. „Ankiety ewaluacyjne wbszkolnictwie wyĝszym: wpïyw wyboru ewaluatorów”. Warszawa: Wydziaï ZarzÈdzania Uniwersytetu Warszawskiego. 3 Na przykïad podobne rozwiÈzania stosowane sÈ przy ocenie aplikacji wb ramach amerykañskiego programu stypendialnego Graduate Research Fellowships wb NSF (GRFP). Problemy ZarzÈdzania vol. 12, nr 1 (45), 2014 153 Grzegorz Król, Katarzyna Kinga Kowalczyk Bibliografia Bernardin, H.J. ib Pence, E.C. (1980). Effects of Rater Training. Journal of Applied Psychology, 65, 60–66, http://dx.doi.org/10.1037/0021-9010.65.1.60. Bruine de Bruin, W. (2006). Save the Last Dance II: Unwanted Serial Position Effects in Figure Skating Judgments. Acta Psychologica, 123, 299–311, http://dx.doi.org/10.1016/ j.actpsy.2006.01.009. Brzeziñska, A., Brzeziñski, J. ib Eliasz, A. (red.). (2004). Ewaluacja ab jakoĂÊ ksztaïcenia wb szkole wyĝszej. Warszawa: Wydawnictwo SWPS „Academica”. CiÚĝka, B. (2005). Ewaluacja – kwestie ogólne. Warszawa: Polskie Towarzystwo Ewaluacyjne. Eckes, T. (2012). Operational Rater Types in Writing Assessment: Linking Rater Cognition to Rater Behavior. Language Assessment Quarterly, 9 (3), 270–292, http://dx.doi. org/10.1080/15434303.2011.649381. Feldman, J.M. (1981). Beyond Attribution Theory: Cognitive Processes in Performance Appraisal. Journal or Applied Psychology, 66 (2), 127–148, http://dx.doi. org/10.1037/0021-9010.66.2.127. Flôres Jr., R.G., ib Ginsburgh, V.A. (1996). The Queen Elisabeth Musical Competition: How Fair Is the Wnal Ranking? The Statistician, 45, 97–104, http://dx.doi. org/10.2307/2348415. Forgas, J.P. ib Vargas, P.T. (2005). Wpïyw nastroju na spoïeczne oceny ib rozumowanie. W: M. Lewis ib J.M. Haviland-Jones (red.), Psychologia emocji. Gdañsk: GWP. Gailliot, M.T. ib Baumeister, R.F. (2007). The Physiology of Willpower: Linking Blood Glucose to Self-Control. Personality and Social Psychology Review, 11 (4), 303–327, http://dx.doi.org/10.1177/1088868307303030. Gailliot, M.T, Baumeister, R.F, DeWall, C., Maner, J., Plant, E., Tice, D. ib Schmeichel, B. (2007). Self-Control Relies on Glucose as ab Limited Energy Source: Willpower Is More Than ab Metaphor. Journal Of Personality And Social Psychology, 92 (2), 325–336, http://dx.doi.org/ 10.1037/0022-3514.92.2.325. Hainger, S., Jenewein, S., Müller, H.-C. ib Wakolbinger, F. (2010). The First Shall Be Last: Serial Position Effects in the Case Contestants Evaluate Each Other. Economics Bulletin, 30 (4), 3170–3176. Holzbach, R.L. (1978). Rater Bias in Performance Ratings: Superior, Self-, and Peer Ratings. Journal of Applied Psychology, 63 (5), 579–588, http://dx.doi.org/10.2307/2348415. Hoyt, W.T. (2000). Rater Bias in Psychological Research: When Is It ab Problem and What Can We Do about It? Psychological Methods, 5 (1), 64–86, http://dx.doi.org/ IO.I037//I082-9S9X.5.1.64. Johnson, J.S. ib Lim, G.S. (2009). The Influence of Rater Language Background on Writing Performance Assessment. Language Testing, 26, 485–505, http://dx.doi. org/10.1177/0265532209340186. Jones, E.E., Rock, L., Shaver, K.G., Goethals, G.R. ib Ward, L.M. (1968). Pattern of Performance and Ability Attribution: An Unexpected Primacy Effect. Journal of Personality and Social Psychology, 10, 317–349, http://dx.doi.org/10.1037/h0026818. Kahneman, D. (2011). Puïapki myĂlenia. Poznañ: Wydawnictwo Media Rodzina. Landy, F.J., Vance, R.J., Barnes-Farrell, J.L. ib Steele, J.W. (1980). Statistical Control of Halo Error in Performance Ratings. Journal of Applied Psychology, 65 (5), 501–506, http://dx.doi.org/10.1037/0021-9010.75.3.290. Marsh, H.W., Jayasinghe, U.W. ibBond, N.W. (2008). Improving the Peer-Review Process for Grant Applications. Reliability, Validity, Bias, and Generalizability. American Psychologist, 63 (3), 160–168, http://dx.doi.org/10.1037/0003-066X.63.3.160. Michaïowicz, B. (2013). Koncepcja rozprawy doktorskiej pt. Ankiety ewaluacyjne wbszkolnictwie wyĝszym: wpïyw wyboru ewaluatorów. Warszawa: Wydziaï ZarzÈdzania Uniwersytetu Warszawskiego. Nosal, C. (1990). Psychologiczne modele umysïu. Warszawa: PWN. 154 DOI 10.7172/1644-9584.45.9 Ewaluacja projektów i abstraktów – wpïyw indywidualnego stylu ewaluacji na oceny Nosal, C. (2001). Psychologia myĂlenia ib dziaïania menedĝera. RozwiÈzywanie problemów. Podejmowanie decyzji. Kreowanie strategii. Wrocïaw: Wydawnictwo AKADE. Pirsig, R.M. (2005). Zen ibsztuka oporzÈdzania motocykla. Poznañ: Dom Wydawniczy Rebis. Polskie Towarzystwo Ewaluacyjne. (2008). Standardy ewaluacji. Pozyskano z: http://www. ewaluacja.org.pl/download/Standardy_ewaluacji_PTE.pdf (08.12.2013). Raymond, M.R. ib Huston, W.M. (1990). Detecting and Correcting for Rater Effects in Performance Assessment. Act Research Report Series, (December), 90–14. Raymond, M.R. ib Viswesvaran, C. (1991). Least Squares Models to Correct for Rater Effects in Performance Assessment. Journal of Educational Measurement, 30 (3), 253–268, http://dx.doi.org/10.1111/j.1745-3984.1993.tb00426.x. Skïad, M. ib Wieczorkowska, G. (2001). Sztuka ukïadania ankiet ewaluacyjnych. W: Psychologia spoïeczna: Jednostka – spoïeczeñstwo – pañstwo (s. 250–266). Gdañsk: GWP. Wieczorkowska-Nejtardt, G. (1998). Inteligencja motywacyjna: mÈdre strategie wyboru celu ib sposobu dziaïania. Warszawa: WISS. Wieczorkowska-Siarkiewicz, G. (1992). Punktowe ib przedziaïowe reprezentacje celu. Uwarunkowania ib konsekwencje. Warszawa: Oficyna Wydawnicza Wydziaïu Psychologii Uniwersytetu Warszawskiego. Wieczorkowska-Wierzbiñska, G. (2011). Psychologiczne ograniczenia. Warszawa: Wydawnictwo Naukowe Wydziaïu ZarzÈdzania UW. Problemy ZarzÈdzania vol. 12, nr 1 (45), 2014 155