Dokument Ewaluacja programów wydatków Unii
Transkrypt
Dokument Ewaluacja programów wydatków Unii
Dokument Ewaluacja programów wydatków Unii Europejskiej. Przewodnik. umieszczony jest na stronach internetowych Komisji Europejskiej - Dyrekcji Generalnej odpowiedzialnej za budżet. Poniższe tłumaczenie nieoficjalne zostało wykonane w ramach umowy bliźniaczej PL99/IB/OT/1b, realizowanej przez Urząd Komitetu Integracji Europejskiej oraz francuskie Krajowe Centrum Terytorialnej Służby Cywilnej (Centre National de la Fonction Publique Territoriale). Ewaluacja programów wydatków Unii Europejskiej: Przewodnik Ewaluacja w połowie okresu i ex-post XIX/02 – Synthèse budgétaire et évaluation Dyrekcja Generalna XIX – Budżet Komisja Europejska 1 wydanie, styczeń 1997 Ewaluacja programów wydatków Unii Europejskiej: Przewodnik Ewaluacja w połowie okresu i ex-post XIX/02 – Synthèse budgétaire et évaluation Dyrekcja Generalna XIX – Budżet Komisja Europejska 1 wydanie, styczeń 1997 Niniejszy przewodnik został przygotowany przez pracowników Sekcji „Synthèse budgétaire et évaluation” Dyrekcji Generalnej ds. Budżetu Komisji Europejskiej. Autorzy dziękują swoim kolegom z różnych wydziałów Komisji oraz dwóm niezależnym ekspertom, za ich pomocne komentarze i sugestie. Przedmowa Ewaluacja stanowi kluczowy element praktyki nowoczesnego zarządzania w sektorze publicznym. To właśnie z tego powodu systematyczna ewaluacja programów wydatków Unii Europejskiej stała się jednym z głównych składników inicjatywy Komisji pod nazwą SEM 2000 (Sound and Efficient Management 2000). Wraz z przyjęciem Komunikatu w sprawie ewaluacji w dniu 8 maja 1996 r., Komisja przedstawiła zespół konkretnych działań służących promowaniu najlepszych praktyk w tej dziedzinie. Uwzględniając fakt, że wydziały operacyjne odpowiedzialne są za zapewnienie ewaluacji przede wszystkim ich własnych programów, Komisja nałożyła na służby finansowe obowiązek opracowania pewnej liczby instrumentów wsparcia. Pośród tych instrumentów znajdują się instrukcje użytkowania do wykorzystania przez nie-specjalistów, przedstawiające cele, metody zarządzania i koncepcję ewaluacji, wybrane kluczowe pytania metodologiczne oraz podstawowe standardy dobrych praktyk zawodowych. Niniejszy przewodnik porusza zagadnienia ewaluacji w połowie okresu i ewaluacji ex-post programów wydatków. Przeznaczony jest dla osób zarządzających programami w ramach służb Komisji, jak również dla innych użytkowników potrzebujących ogólnego wprowadzenia do teorii i praktyki ewaluacji. Mam nadzieję, że przewodnik ten stanowić będzie z jednej strony przydatny wkład w pracę szerokiego zakresu służb, a z drugiej – czytelny dowód rozwoju kultury ewaluacji w ramach Komisji. Erkki Liikanen Członek Komisji odpowiedzialny za sprawy budżetu i administracji SPIS TREŚCI PRZEDMOWA ......................................................................................................................................................... 4 1 WSTĘP............................................................................................................................................................. 8 1.1 CZYM JEST EWALUACJA................................................................................................................................ 9 1.1.1 W kierunku zdefiniowania ewaluacji ................................................................................................. 9 1.1.2 Czym ewaluacja nie jest................................................................................................................... 10 1.2 DLACZEGO PRZEPROWADZA SIĘ EWALUACJĘ PROGRAMÓW?..................................................................... 11 1.3 EWALUACJA PROGRAMÓW EU ................................................................................................................... 12 1.4 CO MOŻE ZOSTAĆ PODDANE EWALUACJI? .................................................................................................. 14 1.5 JAKIE ZAGADNIENIA PORUSZANE SĄ PODCZAS EWALUACJI?...................................................................... 15 1.5.1 Program i jego logika działania ...................................................................................................... 15 1.5.2 Kluczowe zagadnienia ewaluacji..................................................................................................... 17 1.5.3 Inne ważne zagadnienia ................................................................................................................... 20 1.6 KTO JEST WŁĄCZONY W PROCES EWALUACJI? ........................................................................................... 21 1.7 JAKIE RODZAJE EWALUACJI MOŻNA WYRÓŻNIĆ? ....................................................................................... 21 1.7.1 Ewaluacja formująca i podsumowująca.......................................................................................... 22 1.7.2 Ewaluacja cząstkowa i ewaluacja ex-post....................................................................................... 22 1.7.3 Ewaluacja wewnętrzna i zewnętrzna ............................................................................................... 22 2 PRZYGOTOWANIE I ZARZĄDZANIE EWALUACJĄ....................................................................... 24 2.1 OKREŚLENIE STRUKTURY ZARZĄDZAJĄCEJ ................................................................................................ 24 2.2 OPRACOWANIE PROJEKTU EWALUACJI ....................................................................................................... 26 2.2.1 Określenie celów ewaluacji ............................................................................................................. 26 2.2.2 Ustalenie zakresu ewaluacji ............................................................................................................ 27 2.2.3 Opracowanie agendy analitycznej................................................................................................... 28 2.2.4 Ustalanie mierników (benchmarks) ................................................................................................. 30 2.2.5 Inwentaryzacja dostępnych informacji ............................................................................................ 32 2.2.6 Ustalenie planu pracy ...................................................................................................................... 32 2.2.7 Wybór ewaluatora............................................................................................................................ 33 2.3 OPRACOWANIE WARUNKÓW KONTRAKTU (TOR) ...................................................................................... 34 2.3.1 Podstawa prawna i uzasadnienie ewaluacji.................................................................................... 35 2.3.2 Przyszłe wykorzystanie i użytkownicy ewaluacji............................................................................. 35 2.3.3 Opis programu, który ma zostać poddany ewaluacji ...................................................................... 35 2.3.4 Zakres ewaluacji .............................................................................................................................. 35 2.3.5 Główne zagadnienia ewaluacyjne ................................................................................................... 36 2.3.6 Wymagana metodologia zbierania i analizy danych....................................................................... 36 2.3.7 Plan pracy, struktura organizacyjna i budżet ................................................................................. 36 2.3.8 Struktura końcowego raportu z ewaluacji....................................................................................... 37 3 PRZEPROWADZANIE EWALUACJI..................................................................................................... 38 3.1 PRZEDSTAWIENIE MODELI EWALUACJI ....................................................................................................... 38 3.1.1 Przyczynowość i idealny model eksperymentalny ........................................................................... 39 3.1.2 Zagrożenia dla wnioskowania przyczynowego ............................................................................... 41 3.1.3 Podejście przyczynowe do modelów ewaluacji ............................................................................... 42 3.1.4 Podejście opisowe do modelu ewaluacji ......................................................................................... 44 3.2 TECHNIKI ZBIERANIA DANYCH ................................................................................................................... 45 3.2.1 Klasyfikacja danych ......................................................................................................................... 45 3.2.2 Badania ankietowe ........................................................................................................................... 46 3.2.3 Studia przypadku .............................................................................................................................. 47 3.2.4 Obserwacje z natury......................................................................................................................... 48 3.2.5 Opinie ekspertów.............................................................................................................................. 48 3.2.6 Przegląd dokumentów programu..................................................................................................... 49 3.2.7 Przeglądy literatury ......................................................................................................................... 49 3.3 TECHNIKI ANALIZY DANYCH ...................................................................................................................... 50 3.3.1 Analiza statystyczna ......................................................................................................................... 50 3.3.2 Wykorzystanie modeli....................................................................................................................... 51 3.3.3 Analiza niestatystyczna .................................................................................................................... 52 3.3.4 4 Techniki oceny.................................................................................................................................. 52 RAPORTOWANIE I ROZPOWSZECHNIANIE EWALUACJI .......................................................... 55 4.1 OPTYMALIZACJA WYKORZYSTANIA EWALUACJI ........................................................................................ 55 4.2 PRZEDSTAWIANIE RAPORTU Z EWALUACJI ................................................................................................. 56 4.2.1 Struktura raportu z ewaluacji .......................................................................................................... 56 4.2.2 Przejrzystość raportu z ewaluacji.................................................................................................... 57 4.3 ROZPOWSZECHNIANIE EWALUACJI ............................................................................................................. 58 ANEKS 1. SŁOWNIK TERMINÓW Z ZAKRESU EWALUACJI................................................................. 61 ANEKS 2 OCENA JAKOŚCI RAPORTU Z EWALUACJI ............................................................................ 78 ANEKS 3. KILKA ZALECEŃ I PRZECIWWSKAZAŃ DOTYCZĄCYCH EWALUACJI ...................... 80 WYBRANA BIBLIOGRAFIA.............................................................................................................................. 84 I Bóg stworzył ewaluatora1 Na początku Bóg stworzył niebo i ziemię. A Bóg widział, że wszystko co uczynił było bardzo dobre. I tak upłynął wieczór i poranek - dzień szósty. Siódmego dnia, po całej pracy, Bóg odpoczywał. Podszedł więc do niego Jego archanioł i zapytał Go: „Boże, skąd wiesz, że to co stworzyłeś jest ‘dobre’? Jakie są Twoje kryteria? Na jakich danych oparłeś swoją ocenę? Nie uważasz, że jesteś zbyt zaangażowany by móc przeprowadzić ewaluację sprawiedliwą i bezstronną?” Bóg zastanawiał się nad tymi pytaniami przez cały dzień i bardzo Mu to przeszkadzało w odpoczynku. Ósmego dnia Bóg wykrzyknął: „Lucyferze, idź do piekła!” 1 Halcolm, The Real Story of Paradise Lost, cytat za Patton (1986). 1 Wstęp Ewaluacja może być postrzegana przez niektórych jako zadanie iście diaboliczne. Jednakże, jeśli ewaluacja przeprowadzona jest w sposób właściwy a jej wyniki wykorzystywane przez osoby podejmujące decyzje, może ona przyczynić się do poprawy jakości programów publicznych, wzrostu przejrzystości i odpowiedzialności, a także poprawy relacji kosztyefekty. Ewaluacja nie jest nowością. W niektórych obszarach działań wspólnotowych występuje już od kilku lat. Podobnie, niektóre Państwa Członkowskie mają stosunkowo bogate doświadczenie w przeprowadzaniu ewaluacji i wykorzystywaniu jej wyników. W innych krajach, zarówno w Europie, jak i na pozostałym obszarze, istnieje coraz silniejsza tendencja do jej wprowadzania. Inicjatywa Komisji pod nazwą Sound and Efficient Management 2000 (znana jako SEM 2000) przewiduje, że ewaluacja stanie się kluczowym elementem procesu poprawy kultury zarządzania w samej Komisji. Jedną z zasadniczych nowości inicjatywy SEM 2000 jest wymóg wprowadzenia systematycznej ewaluacji do wszystkich programów UE. Wymóg ten został wzmocniony przez Komisję Komunikacie w sprawie Ewaluacji, przyjętym w dniu 8 maja 1996 r. Oprócz nałożenia na wydziały odpowiednich obowiązków w zakresie ewaluacji, Komunikat przewidywał również opracowanie pewnej liczby instrumentów oddanych do dyspozycji służb w celu wsparcia ich w wypełnianiu wspomnianych obowiązków. Niniejszy przewodnik jest jednym z tych instrumentów. Przewodnik ten ma na celu przedstawienie urzędnikom głównych aspektów zarządzania ewaluacjami oraz dostarczenie szerokiego zarysu podstawowych problemów technicznych. Skierowany jest raczej do osób typowych funkcjonariuszy zarządzających programami, niż do specjalistów z zakresu ewaluacji, a więc jest na przykład dla osób, które chciałyby zrozumieć jak zarządzać ewaluacją zewnętrzną lub jak przeprowadzić podstawową ewaluację wewnętrzną programów wydatków UE. Ewaluacja pomocy nie związanej z wydatkami budżetowymi ani ewaluacja projektów i polityk nie są tematami niniejszego przewodnika. Tym niemniej wiele pojęć zaprezentowanych w przewodniku może zainteresować osoby zajmujące się ewaluacją projektów lub polityk. Niniejszy przewodnik koncentruje się przede wszystkim na ewaluacji ex-post (przeprowadzanej bądź pod koniec, bądź po zakończeniu pomocy) oraz na ewaluacji w połowie okresu (prowadzonej podczas wdrażania pomocy). Opublikowany zostanie odrębny przewodnik dotyczący ewaluacji ex-ante (przeprowadzanej przed wdrożeniem pomocy), która bywa określana również mianem oceny (appraisal). Struktura przewodnika przedstawia się w sposób następujący: • Rozdział 2 wprowadza kluczowe pojęcia i definicje z zakresu ewaluacji: – co może zostać poddane ewaluacji? – jakie zagadnienia poruszane są podczas ewaluacji? – kto jest włączony w proces ewaluacji? – jakie rodzaje ewaluacji można obecnie wyróżnić? • Rozdział 3 dotyczy przygotowania i zarządzania ewaluacją. Znajdują się w nim porady na temat: – ustanowienia struktury zarządzania ewaluacją, – przygotowania projektu ewaluacji, – opracowania warunków kontraktu (ToR). • Rozdział 4 dotyczy przeprowadzania ewaluacji. Zapoznaje on czytelnika z głównymi problemami, które dotyczą: – modeli ewaluacji, – technik zbierania danych, – technik analizy danych. • Rozdział 5 dotyczy raportu i rozpowszechniania wyników ewaluacji. Przedstawia on mianowicie: – optymalizację wykorzystania ewaluacji, – przedstawienie raportu z ewaluacji, – rozpowszechnienia wyników ewaluacji. Pozostała część pierwszego rozdziału poświęcona jest dwóm głównym pytaniom: • Co to jest ewaluacja? • Dlaczego programy poddawane są ewaluacji? Po nich nastąpi ogólna dyskusja na temat specyficznych czynników, które powinny być wzięte pod uwagę podczas przeprowadzania ewaluacji programów Unii Europejskiej. 1.1 Czym jest ewaluacja 1.1.1 W kierunku zdefiniowania ewaluacji Czym więc jest ewaluacja? Odpowiedź na to pytanie nie jest tak łatwa, jak mogłoby się wydawać. Istnieje wiele definicji terminu „ewaluacja”, każda z nich ma swoje zalety i wady. Oto przykłady kilku możliwych definicji: „Krytyczne i niezaangażowane spojrzenie na cele i sposób w jaki są one osiągane2” „Przeprowadzić ewaluację polityki, to zbadać, czy wdrożone przez program środki prawne, administracyjne i finansowe umożliwiły osiągnięcie zakładanych efektów danej polityki oraz osiągnięcie przypisanych jej celów3” „Proces, który ma na celu określenie, w sposób tak systematyczny i obiektywny jak to tylko możliwe, trafności, skuteczności i efektów danej działalności w stosunku do jej celów4” 2 HM Treasury (1998). UK Government 3 Conseil Scientifique de l’Evaluation (1996) 4 Organizacja Narodów Zjednoczonych „Systematyczne stosowanie metody badawczej w naukach społecznych, mającej na celu ocenienie koncepcji, zaprojektowania, wdrażania i użyteczności programów publicznych5” „Niezależne, obiektywne badanie kontekstu, celów, rezultatów, działań i wdrożonych środków, w celu wyciągnięcia wniosków na przyszłość, które mogą być szerzej zastosowane6” „Ocena działań publicznych w zależności od ich rezultatów, oddziaływania i potrzeb, które mają zaspokoić7” „Przeprowadzić ewaluację polityki, to sformułować ocenę jej wartości8” Biorąc pod uwagę, że prawdopodobnie nie jest możliwe uzgodnienie jednej definicji „ewaluacji”, która cieszyłaby się powszechną aprobatą, zdecydowaliśmy się zidentyfikować pewne kluczowe elementy, które powinny charakteryzować ewaluację: • ewaluacja powinna być analityczna – powinna opierać się na uznawanych technikach badawczych; • ewaluacja powinna być systematyczna – wymaga dokładnego zaplanowania i spójnego wykorzystywania wybranych technik; • ewaluacja powinna być rzetelna – ustalenia ewaluacji powinny być podobne w przypadku przeprowadzania jej przez różnych ewaluatorów mających dostęp do tych samych danych i wykorzystujących te same metody analizy danych; • ewaluacja powinna być skoncentrowana na problemach – ewaluacja powinna odnosić się do istotnych problemów dotyczących programu, mianowicie jego trafności, efektywności i skuteczności; • ewaluacja powinna być przydatna dla użytkowników – oznacza to po prostu, że ewaluacja powinna być zaprojektowana i wdrażana w taki sposób, który zapewni dostarczenie użytecznych informacji dla osób podejmujących decyzje, w zależności od okoliczności politycznych, ograniczeń projektu oraz dostępnych zasobów. 1.1.2 Czym ewaluacja nie jest Choć nie jest łatwo powiedzieć czym jest ewaluacja, łatwiej można określić czym ewaluacja nie jest. Po pierwsze, ewaluacja różni się od badań naukowych. Oba procesy powinny być analityczne, systematyczne i rzetelne. Jednak, podczas gdy naukowcy mogą podejmować badania w celu powiększenia zasobów wiedzy ludzkiej i często ograniczają się do jednej wąsko wyspecjalizowanej dziedziny, ewaluacja jest podejmowana z bardziej praktycznych powodów. Ma ona mieć cele praktyczne, takie jak wyjaśnianie decyzji, wskazywanie możliwości, zmniejszanie poziomu niepewności i ogólnie dostarczanie informacji na temat 5 Zaadaptowane z Rossi i Freeman (1993) 6 Słownik MEANS 7 Komisja Europejska, Direction Générale du Développement (1993) 8 Viveret (1989) programów w ramach ich specyficznego kontekstu. Ewaluacja powinna także odwoływać się do szerokiej gamy metod analitycznych. Ewaluacja nie jest również audytem. Audyt obejmuje przede wszystkim weryfikacje legalności i zgodności z przepisami wdrażania zasobów (środków) przez program. Ewaluacja z kolei jest z konieczności bardziej analityczna. Bada ona program z punktu widzenia społeczeństwa (zdefiniowanego z różnych możliwych punktów widzenia). Weryfikuje ona słuszność przyjętej strategii, a następnie bada, czy jej cele są odpowiednie, wziąwszy pod uwagę problemy, które powinny być rozwiązane i korzyści, które mają być osiągnięte. Audytorzy mają często kompetencje władcze, czasem określone w aktach prawnych, podczas gdy ewaluatorzy muszą często polegać na dobrej woli oraz na sile swoich argumentów. Audyt tradycyjnie obejmuje takie czynności jak weryfikację ksiąg finansowych (audyt finansowy). Jedna z ostatnich innowacji jest znana pod nazwą audyt wykonania (performance audit), która koncepcyjnie jest bliższa ewaluacji. Audyt wykonania koncentruje się szczególnie na zagadnieniach efektywności (bezpośrednie wyniki programu) oraz dobrego zarządzania. Audyt wykonania i ewaluacja mają ten sam cel, jakim jest poprawa jakości programu, ale ewaluacja idzie w tym kierunku znacznie dalej. Zajmuje się ona również takimi zagadnieniami jak trwałość, trafność i długoterminowe konsekwencje programu. Ponadto, należy rozróżnić ewaluację i monitorowanie. Monitoring bada wyniki programu (towary i usługi dostarczone przez program) dla określonych uprzednio beneficjentów. Jest on procesem ciągłym, przeprowadzanym w trakcie realizacji programu, w celu natychmiastowego skorygowania jakichkolwiek odchyleń w stosunku do celów operacyjnych. Ewaluacja przeciwnie, przeprowadzana jest w ściśle określonym momencie cyklu życia programu i stanowi badanie pogłębione. Monitorowanie ma kluczowe znaczenie dla poprawy wykonania (performance) programu i udana ewaluacja często zależy od udanego monitorowania, na przykład dlatego, że monitoring dostarcza danych, które mogą zostać wykorzystane w ewaluacji. 1.2 Dlaczego przeprowadza się ewaluację programów? Głównym celem przeprowadzania ewaluacji programów jest oczywiście ich ulepszenie. Ewaluację można także przeprowadzić z zamiarem określenia efektów programu dla społeczeństwa lub wsparcia osób podejmujących decyzję w wyrobieniu sobie opinii na temat wartości programu. W niniejszym przewodniku wykroczymy poza te ogólne powody przeprowadzania ewaluacji programów i rozróżniać będziemy trzy następujące przyczyny: • usprawnienie zarządzania; • dla celów odpowiedzialności; • wsparcie alokacji zasobów finansowych. Ewaluacja ex-post i w połowie okresu często podejmowana jest dla celów zarządzania, np. w celu ocenienia i usprawnienia wdrażania programu. Z zasady osoby zaangażowane w zarządzanie programem powinny wiedzieć jakie są jego silne i słabe strony, jak może on być usprawniony, jakie aspekty programu funkcjonują prawidłowo, a jakie nie i jaki jest stosunek klientów, pracowników i innych osób do realizowanego programu. Może to doprowadzić osoby odpowiedzialne za zarządzanie programem i podejmowanie decyzji do powtórnego przemyślenia problemów, które leżą u podłoża programu. Odpowiedzialność jest kolejnym ważnym powodem przeprowadzania ewaluacji, zwłaszcza w kontekście UE, gdzie staje się ona coraz częściej obowiązkiem wynikającym z przepisów prawa. Przeprowadzeniem ewaluacji zainteresowani są zarówno zwolennicy, jak i przeciwnicy programu, a także przeciętni obywatele. Ewaluacja przeprowadzana dla celów odpowiedzialności koncentruje się najczęściej na oddziaływaniu programu (stopniu w jakim przyczynia się on do osiągnięcia zakładanych efektów) oraz na relacji jego efektów do kosztów (value for money) i ma na celu poprawę przejrzystości. Ewaluacja może być wreszcie wykorzystywana w celu poprawy alokacji zasobów finansowych w ramach danej organizacji. W kontekście UE, powód ten jest ściśle związany z zagadnieniem odpowiedzialności. Jego znaczenie zwiększyło się w świetle inicjatywy SEM 2000. Ograniczenia budżetowe w powiązaniu z ogólną troską o wzrost wartości współczynnika value-for-money dla podatnika unijnego, zachęcają do przesuwania środków z programów nieefektywnych i nieskutecznych do programów, które są bardziej skuteczne i lepiej odpowiadają ewoluującym celom UE. 1.3 Ewaluacja programów EU Przy ewaluacji programów UE należy wziąć pod uwagę pewne specyficzne czynniki, które mogą zostać streszczone w następujący sposób: • zdecentralizowane zarządzanie – im bardziej podejmowanie decyzji oddalone jest od codziennego zarządzania i od końcowego beneficjenta programu, tym bardziej centrum potrzebuje ewaluacji. W przypadku wielu programów UE odległość (zarówno geograficzna jak i w hierarchii) pomiędzy podejmowaniem decyzji, zarządzaniem i oddziaływaniem w terenie jest znaczna. Niektóre programy są administrowane przez regionalne lub lokalne agencje w różnych krajach. Może to spowodować luki w zakresie informacji. Ewaluacja może przyczynić się do wypełnienia tej luki. • subsydiarność – art. 3b Traktatu o Unii Europejskiej (Traktatu z Maastricht) stanowi, że „W zakresie, który nie podlega jej wyłącznej kompetencji, Wspólnota podejmuje działania, zgodnie z zasadą subsydiarności, tylko wówczas i tylko w takim zakresie, w jakim cele proponowanych działań nie mogą być zrealizowane w sposób wystarczający przez państwa członkowskie, natomiast z uwagi na skalę lub skutki proponowanych działań, mogą zostać lepiej zrealizowane przez Wspólnotę.” Poprzez rzucenie światła na wartość dodaną różnych programów, ewaluacja może przyczynić się w sposób bardzo istotny do odpowiedzi na pytanie czy jest właściwe, aby dany program był przeprowadzany na poziome wspólnotowym. • odnowienie programu – zasadniczo, programy UE mają czas trwania określony przez odpowiednie przepisy ustanawiające dany program, tzn. przez ich podstawę prawną. Jeśli po tym okresie program ma nadal być kontynuowany niezbędna jest nowa podstawa prawna. Pozwala to na przerwanie nieskutecznych programów oraz na odnowienie bądź rozszerzenie programów efektywnych. Ewaluacja może więc stanowić przydatny wkład w proces podejmowania decyzji. Podejmowanie decyzji w Unii Europejskiej jest skomplikowane i ma nieuchronnie istotny wymiar polityczny. Ewaluacja nie może zastąpić tego procesu. Stara się raczej go naświetlić. Komisja odgrywa kluczową rolę w tym procesie i rozsądne wykorzystywanie ewaluacji stanowić będzie ważny element. Ewaluacja, która jest dobrze zaplanowana i właściwie przeprowadzona może być bardzo przydatna dla osób których dotyczą programy UE. Na Komisji ciąży więc odpowiedzialność za zapewnienie, że ewaluacja jest przeprowadzana zgodnie z wysokimi standardami zawodowymi oraz że jej wyniki są odpowiednio przedstawione w sprawozdaniu. Mając to na względzie, niniejszy przewodnik zawiera praktyczne porady przeznaczone dla osób zarządzających programami, którzy chcieliby skorzystać z ewaluacji w celu poprawy i lepszego uzasadnienia swojej pracy. __________________________________________________________________________________________ Gdzie szukać dalszych informacji? Użytecznym źródłem informacji są materiały na temat ewaluacji opracowane przez różne wydziały w ramach Komisji. Jednostka organizacyjna lub funkcjonariusz odpowiedzialny za ewaluację w każdej dyrekcji generalnej lub wydziale powinien umieć wskazać szczegółową dokumentację dotyczącą ewaluacji danych programów. Zainteresowany czytelnik może również przejrzeć podstawowe teksty na temat ewaluacji, z których część są zamieszczone w Wyborze bibliografii na końcu przewodnika. Obejmują one następujące pozycje: Patton (1996), Rossi i Freeman (1993) oraz Mohr (1995). Rozróżnienie pomiędzy ewaluacją, audytem i monitorowaniem wyjaśnione jest w MEANS (1995) i Conseil Scientifique de l’Evaluation (1996). Egzemplarz Komunikatu w sprawie Ewaluacji, przyjętego przez Komisję 8 maja 1996 r. powinien być dostępny w jednostkach organizacyjnych lub u funkcjonariuszy odpowiedzialnych za ewaluację w każdej Dyrekcji Generalnej lub wydziale. Kluczowe pojęcia i definicje: W tym rozdziale zostaną przedstawione krótko kluczowe pojęcia z dziedziny ewaluacji. Przedstawimy je w odniesieniu do następujących istotnych pytań: • co może zostać poddane ewaluacji? • jakie zagadnienia poruszane są podczas ewaluacji? • kto jest włączony w proces ewaluacji? • jakie rodzaje ewaluacji można obecnie wyróżnić? Czytelnik może również skorzystać z Aneksu nr 1 do przewodnika, który zawiera słownik terminów technicznych. 1.4 Co może zostać poddane ewaluacji? Ewaluacja jest pojęciem bardzo szerokim i w sposób ogólny można przeprowadzić ewaluację prawie wszystkiego. W praktyce jednak możemy stwierdzić, że termin ten stosowany jest zwłaszcza w odniesieniu do działań sektora publicznego na jednym lub kilku z następujących poziomów: • projekt – pojedyncze, niepodzielne działanie, mające określony harmonogram i określoną alokację budżetową. przykłady: projekt poprawy systemu irygacyjnego w określonym regionie lub kraju rozwijającym się; szkolenie skierowane do określonej grupy w danym regionie państwa członkowskiego. • bezrobotnych program – zestaw uporządkowanych, ale często zróżnicowanych działań (program może obejmować kilka różnych projektów, działań lub procesów) zorientowanych na osiągnięcie szczegółowych celów. Programy również mają zazwyczaj określony harmonogram i budżet. przykłady: program MEDIA, zaprojektowany w celu wsparcia rozwoju produkcji, dystrybucji i finansowania programów telewizyjnych; Inicjatywa Wspólnotowa LEADER (program w ramach Funduszy Strukturalnych), przeznaczony do wsparcia rozwoju i strukturalnych dostosowań terenów wiejskich; program PHARE wspierający transformację gospodarczą w państwach stowarzyszonych oraz ich akcesję do UE. • polityka – zestaw działań, które mogą być różnego rodzaju i skierowane do różnych bezpośrednich beneficjentów, ale które zorientowane są na osiągnięcie wspólnych celów ogólnych. W przeciwieństwie do projektów i programów, polityki zazwyczaj nie są ograniczone określonym harmonogramem ani budżetem. przykłady: Wspólna Polityka Rolna Wspólna Polityka Zagraniczna i Bezpieczeństwa Prezentowany przewodnik koncentruje się na ewaluacji programów. Pewne specyficzne aspekty związane z ewaluacją projektów i polityk znajdują się poza zakresem przewodnika. Tym niemniej wiele z punktów podniesionych w trakcie dyskusji nad programami będzie przydatnych dla osób zainteresowanych przeprowadzaniem ewaluacji programów lub polityk. Przewodnik będzie również przydatny dla osób zainteresowanych tzw. ewaluacjami tematycznymi, tzn. ewaluacjami jednego lub kilku zagadnień wspólnych dla kilku różnych programów lub działań (np. oddziaływania na środowisko lub na małe i średnie przedsiębiorstwa). 1.5 Jakie zagadnienia poruszane są podczas ewaluacji? 1.5.1 Program i jego logika działania Osoba przeprowadzająca ewaluację musi opisać program, który jest przedmiotem ewaluacji. Zadanie to obejmuje określenie potrzeb, które program stara się zaspokoić, celów, które zostały ustalone oraz wskaźników, które pozwalają na ocenę jego wykonania. Ewaluator musi jednak wyjść poza prosty opis programu. Jednym z jego zasadniczych zadań jest weryfikacja słuszności logiki działania programu. Pokrótce przedstawimy każe z tych pojęć. Programy tworzone są zawsze pod kątem określonego zestawu potrzeb. Potrzebami tymi są problemy społeczo-gospodarcze, które program stara się rozwiązać, wyrażone z punktu widzenia jego szczególnej grupy docelowej, tj. jego określonych beneficjentów. Weźmy przykład programu, którego celem jest zmniejszenie bezrobocia wśród długoterminowych bezrobotnych (populacja docelowa). Grupa ta może cierpieć na brak adekwatnych kompetencji zawodowych (problem społeczno-gospodarczy do rozwiązania). Istnieje więc potrzeba polepszenia perspektyw zatrudnienia dla tej grupy. W celu zmierzenia się z problemami społeczno-gospodarczymi i zaspokojenia potrzeb grupy docelowej, programy zmierzają do osiągnięcia pewnych celów (oczekiwanych efektów). Dla programów wydatków, cele te mogą być wyrażone w kategoriach: • wyników (dobra i usługi sfinansowane i bezpośrednio wyprodukowane przez program) • oddziaływania (zmiany społeczno-gospodarcze będące skutkiem programu) Aby podkreślić to rozróżnienie możemy powiedzieć, że wyniki to rzeczy, które program produkuje, oddziaływanie to efekty, które program wywołuje. Oddziaływanie może być dalej podzielone na: • rezultaty (początkowe oddziaływanie programu) • konsekwencje (oddziaływanie programu w dłuższym okresie) Rozróżnieniu wyników, rezultatów i konsekwencji odpowiada podział na trzy typy celów: • cele operacyjne – wyrażone w kategoriach wyników (np. zapewnić kurs kształcenia zawodowego długoterminowym bezrobotnym); • cele szczegółowe – wyrażone są w kategoriach rezultatów (np. polepszyć zdolność do zatrudnienia długoterminowych bezrobotnych poprzez podniesienie ich kompetencji). Należy zauważyć, że program może mieć różne grupy docelowe odpowiadające różnym jego celom szczegółowym; • cele ogólne – wyrażone są w kategoriach konsekwencji (np. zmniejszenie bezrobocia wśród dotychczasowych długoterminowych bezrobotnych). Skąd możemy wiedzieć, czy program osiągnął swoje różne cele? Dla oceny wykonania (realizacji) programu pod tym względem musimy oprzeć się na wskaźnikach. Dla celów niniejszego opracowania wskaźnik jest to cecha lub atrybut, który może zostać zmierzony w celu oceny programu pod kątem wyników i oddziaływania. Wskaźniki są nieuniknionym uproszczeniem złożonej rzeczywistości. Mogą być one albo wymierne (np. PKB na osobę) lub jakościowe (np. opinie uczestników szkolenia na temat jego użyteczności i przydatności). Wskaźniki wyników są zazwyczaj proste i dostępne, gdyż osoby zarządzające programem mają zazwyczaj informacje na temat dóbr i usług dostarczonych przez program. Ponadto jest to zadanie systemu monitorowania. Wskaźniki oddziaływania mogą być trudniejsze do wyodrębnienia, np. z powodu trudności w określeniu jakie efekty są rzeczywiście spowodowane właśnie przez program lub z powodu kosztów i pracochłonności bezpośredniego mierzenia tych efektów. Z tych powodów, często trzeba polegać na wskaźnikach pośrednich. Rozpatrzmy dla przykładu program mający na celu podniesienie stopnia umiejętności czytania i pisania na obszarze całego kraju. Ocena umiejętności czytania całego społeczeństwa w różnych punktach w czasie byłaby bardzo kosztowna i pracochłonna. Zamiast tego można oprzeć się na danych dotyczących sprzedaży gazet i książek, pamiętając jednocześnie, że mogą wystąpić problemy z właściwą interpretacją wskaźników. Dla przykładu, na sprzedaż gazet i książek może mieć wpływ konkurencja ze strony radia i telewizji. Prowadzi nas to do pojęcia logiki działania programu. Odnosi się ono do powiązania pomiędzy nakładami programu (zasoby ludzkie i finansowe poświęcone na ten program) oraz jego wynikami, i, w następstwie, osiągnięciem rezultatów i konsekwencji programu. Wyczerpująca ewaluacja systematycznie badać będzie aktualność tej logiki. Rysunek 2.1. poniżej ukazuje jak należy rozumieć logikę działania typowego programu. (Warto zauważyć, że logika działania projektu lub polityki będzie się nieco różnić). Logika działania programu jest po prostu wyjaśnieniem co program ma osiągnąć i sposobu w jaki ma to osiągnąć. Badanie logiki działania programu będzie zagadnieniem najważniejszym w przypadku większości ewaluacji. Ewaluator musi zadać sobie pytanie jak nakłady wykorzystane przez program prowadzą do różnych wyników i jak te wyniki z kolei prowadzą do rezultatów i oddziaływania, którego oczekuje się po programie. Innymi słowy jak program osiąga cele szczegółowe i w jaki sposób cele szczegółowe przyczyniają się do osiągnięcia celu ogólnego. Rys. 2.1. Logika działania programu Konsekwencje (oddziaływanie w długim okresie) cele ogólne Oddziaływanie a (wpływ na społeczeństwo) Rezultaty (początkowe oddziaływanie) Wyniki (wyprodukowane dobra i usługi) Nakłady (zasoby ludzkie i finansowe) cele szczegółowe Cele programu cele operacyjne Działanie programu Zasadniczo, logika działania programu zawierać będzie pewne ukryte założenia (na temat związków przyczynowych pomiędzy programem i jego oczekiwanymi efektami oraz na temat wpływu programu na otoczenie i wpływu innych czynników na program). Ważnym zadaniem jest zidentyfikowanie tych ukrytych założeń w celu poddania ich krytycznej ocenie przez ewaluatora. 1.5.2 Kluczowe zagadnienia ewaluacji Po opisaniu programu i zbadaniu przez ewaluatora jego logiki działania, należy przejść do odpowiedzi, najlepiej na wszystkie, z poniższych zagadnień: • trafność – do jakiego stopnia cele programu są odpowiednie w stosunku do ewoluujących potrzeb i priorytetów zarówno na poziomie krajowym jak i UE? • efektywność – jak oszczędnie poszczególne nakłady zostały przekształcone w wyniki i rezultaty? • skuteczność – do jakiego stopnia oddziaływanie programu przyczyniło się do osiągnięcia celów szczegółowych i ogólnych? • użyteczność – do jakiego stopnia oddziaływanie programu odpowiada potrzebom grupy docelowej? • trwałość - w jakim zakresie można oczekiwać, że pozytywne zmiany będą trwać po zakończeniu programu? Rysunek 2.2. poniżej pokazuje, w jakiej relacji z ewaluowanym programem znajduje się każde z omówionych powyżej kluczowych zagadnień ewaluacji9. Diagram dzieli się na trzy różne poziomy. Najniższy poziom to poziom oceny. Każda z pięciu wymienionych kwestii wchodzi w zakres zadań ewaluatora, który używając racjonalnych technik analitycznych powinien uzyskać ocenę każdej z tych kwestii. 9 Diagram został adaptowany na podstawie diagramu używanego przez C3E, Lyon. Drugi poziom to poziom samego programu. Cele programu to zagadnienia, które go uzasadniają. Aby osiągnąć te cele, na rzecz programu przekazuje się nakłady (zasoby ludzkie i finansowe) oraz przypisuje się je do różnych działań programu. Proces ten prowadzi do wygenerowania przez program dóbr i usług, które stanowią jego wyniki. Najwyższy poziom to poziom problemów społeczno-gospodarczych. To na tym poziomie należy rozpatrywać potrzeby grupy docelowej oraz szczególne problemy, które program ma za zadanie rozwiązać. Rezultaty i konsekwencje programu znajdują się na tym poziomie, ponieważ oddziałują one na te potrzeby i problemy. Przerywana linia służy wskazaniu, że te trzy poziomy pojęciowo różnią się od siebie. Dla przykładu trudne może być zidentyfikowanie efektów, które rzeczywiście zostały spowodowane przez program i oddzielenie tych efektów od dziesiątków innych czynników wpływających na problemy społeczno-gospodarcze. Rys. 2.2. Kluczowe zagadnienia ewaluacyjne Konsekwencje Problemy społeczno-gospodarcze Potrzeby Rezultaty program Cele Nakłady Działania ocena Trafność Skuteczność Wyniki Efektywność Użyteczność i Trwałość Wróćmy teraz do poziomu oceny i przeanalizujmy każde z kluczowych zagadnień ewaluacyjnych. Ważność kryterium trafności (relevance) polega na tym, że może ono prowadzić do decyzji o tym, czy pozwolić, by program był kontynuowany w obecnym kształcie, czy należy go zmienić w istotny sposób, czy też dopuścić aby wygasł. Podczas badania kryterium trafności ewaluator będzie zazwyczaj zadawał pytania czy istotne zmiany w społeczeństwie zmieniły rację bytu programu lub czy mogą to uczynić w przyszłości. Dyskusja na temat przyszłej trafności pociąga za sobą badanie alternatyw dla programu. Jak zobaczyliśmy powyżej, skuteczność polega na porównaniu nakładów (zasobów) z wynikami programu (dobrami i usługami których dostarcza) oraz rezultatami (jego początkowym oddziaływaniem). Badanie skuteczności obejmuje następujące pytania: czy te same korzyści można było osiągnąć wykorzystując mniejsze nakłady? Albo odwrotnie, czy te same nakłady mogły przynieść większe korzyści? Dyskusja zagadnienia skuteczności z konieczności pociąga za sobą porównania z alternatywami dla programu. Główną trudnością w tej dziedzinie jest więc wybór odpowiednich mierników (benchmarks). Ewaluator powinien wyszczególnić, które mierniki stanowić będą wzór dla pomiaru skuteczności programu. Trudności mogą wyniknąć w sytuacji, gdy nie ma porównywalnych programów, a ewaluator nie ma doświadczenia w pracy z podobnymi programami. Rozdział 3 niniejszego przewodnika zawiera pogłębioną dyskusję na temat mierników. Innym ważnym punktem, którego nie można pominąć, jest fakt, że nawet jeśli program jest skuteczny, może być nienajlepiej zaprojektowany. Doprowadza nas to do dyskusji na temat efektywności (porównanie oddziaływania programu z jego celami). Warto pamiętać, że w przypadku takich słabo zaprojektowanych programów, cele mogą być określone niedostatecznie precyzyjnie lub może ich w ogóle brakować. Na ewaluatorze może w takiej sytuacji spoczywać zadanie przekształcenia nieokreślonych lub ogólnych zamierzeń w weryfikowalne cele. Ponadto, należy pamiętać, że efektywność dotyczy tylko jednego aspektu oddziaływania programu, mianowicie pozytywnych, oczekiwanych efektów. Program może mieć także pozytywne, ale nieprzewidziane efekty, jak również efekty negatywne (zarówno oczekiwane, jak i nieoczekiwane). Ewaluator będzie się zazwyczaj starał wyjść poza zagadnienie efektywności po to, by ocenić całkowite oddziaływanie programu, nawet jeśli ustalenie związków przyczynowych jest często trudne. Aby ocenić ogólne oddziaływanie programu, ewaluator musi ustalić związek przyczynowoskutkowy pomiędzy tym programem a pozytywnymi i negatywnymi, zarówno oczekiwanymi, jak i nieprzewidzianymi, zmianami, które nastąpiły. Przypisanie przyczynowości jest problemem kluczowym w projekcie ewaluacji. Należy jednocześnie zidentyfikować i podać inne możliwe wytłumaczenia zaistniałych zmian, które mogą być przypisane realizacji programu, i jeśli jest to możliwe należy je wykluczyć, aby ewaluator mógł wykazać, że dane zmiany nie wystąpiłyby gdyby nie realizacja programu. Zagadnienie przyczynowości jest przeanalizowane dokładniej w rozdziale 4. W ten sposób dochodzimy do pojęcia użyteczności, która polega na porównaniu oddziaływania programu oraz potrzeb, które stanowiły przyczynę jego powstania. Programy można określić jako użyteczne tylko jeśli wywołują w społeczeństwie takiego zmiany, które są korzystne w odniesieniu do potrzeb grupy docelowej. Podczas badania użyteczności programów UE, uprawnione jest pytanie o przestrzeganie zasady subsydiarności. Czy program jest użyteczny w porównaniu do istniejących programów na szczeblu krajowym i regionalnym? Czy program byłby bardziej użyteczny, gdyby był realizowany na innym poziomie administracji? Szczególny problem związany z pojęciem użyteczności polega na tym, że istnieje tak wiele różnych interesów związanych z pomocą publiczną, iż trudno jest jednoznacznie zdefiniować, w sposób satysfakcjonujący dla wszystkich zainteresowanych, pojęcie potrzeb. Bezrobotni mogą zdefiniować swoje własne potrzeby szkoleniowe w sposób całkowicie inny od osób które administrują programem szkoleniowym. Dochodzimy wreszcie do pojęcia trwałości, blisko związanego z pojęciem użyteczności. Nawet jeśli program powoduje powstawanie korzyści odpowiadających potrzebom grupy docelowej, nie będzie miał wielkiej wartości, jeśli korzyści te nie będą trwały przez dłuższy czas. Trwałość dotyczy więc tego, co dzieje się po zakończeniu programu. Na przykład, nie jest użyteczne kształcenie bezrobotnych w zawodach (kwalifikacjach), które prawdopodobnie będą przestarzałe po upływie kilku lat. Jeśli program ma być wartościowy w kategoriach trwałości, musi powodować trwałe korzyści dla grupy (grup) docelowej. Wracając do rysunku 2.2. powyżej, stwierdzimy, że każde z przeanalizowanych w tej części zagadnień wymaga od ewaluatora dokonania oceny na temat: • w odniesieniu do samego programu – trafności i efektywności (poprzez prostą analizę jak nakłady są przekształcane w wyniki); lub • w odniesieniu do programu i problemów społeczno-gospodarczych, które ma rozwiązać – skuteczności (poprzez porównanie środków i rezultatów, a nie tylko wyników), efektywności, użyteczności i trwałości. Przeprowadziliśmy powyżej konceptualne rozróżnienie pomiędzy poziomem oceny, poziomem funkcjonowania programu i poziomem problemów społeczno-gospodarczych. Rozróżnienie to jest bardzo ważne. Wyniki programu powinny być łatwo identyfikowalne, ale zidentyfikowanie jego rezultatów i konsekwencji może okazać się znaczne trudniejsze. Rezultaty i konsekwencje przejawiają się w całej serii potencjalnie złożonych interakcji pomiędzy programem i społeczeństwem. Ponadto, prawdopodobnie istnieją bardzo liczne inne czynniki, które należałoby uwzględnić. Ewaluator musi się więc odwoływać do racjonalnych technik analitycznych w celu określenia sposobu, w jaki program zmienił społeczeństwo. 1.5.3 Inne ważne zagadnienia Poza pięcioma kluczowymi zagadnieniami ewaluacji które zostały przedstawione powyżej, ewaluacja może również obejmować inne ważne kwestie. Te pozostałe problemy zależą głównie od cech charakterystycznych programu (programów), poddawanego ewaluacji. Ewaluacje tematyczne, na przykład, koncentrują się na jednym lub kilku aspektach wspólnych w ewaluacji różnych programów lub działań (np. oddziaływania na środowisko lub na małe i średnie przedsiębiorstwa). Można wskazać trzy szczególnie istotne dla ewaluacji wydatków publicznych zagadnienia, mianowicie: efekt deadweight, efekt przesunięcia i efekt substytucji. Krótko przeanalizujemy każde z nich. Efekt deadweight, jest definiowany jako skutki, które wystąpiłyby nawet w sytuacji, gdyby program wydatków publicznych nie miał miejsca. Deadweight powstaje zazwyczaj jako rezultat nieadekwatnych mechanizmów realizacji programu (rozwiązania organizacyjne dostarczające określonym beneficjentom dobra i usługi finansowane przez program). Dzieje się tak zwłaszcza w sytuacji, gdy mechanizmy te nie są poprawnie zorientowane na zakładanych beneficjentów programu. W rezultacie inne osoby i grupy, które nie należą do grupy docelowej, stają się beneficjentami korzyści wygenerowanych przez program. Dla przykładu, program szkoleniowy przeznaczony dla bezrobotnych długoterminowych może objąć osoby, które podjęłyby szkolenie nawet, gdyby dany program nie miał miejsca (np. poprzez podjęcie studiów wyższych lub uczestnicząc w prywatnych programach kształcenia) i w rzeczywistości mogłyby nie być długoterminowymi bezrobotnymi. Dla wielu programów, deadweight może być do pewnego stopnia nieuchronny. Stanowi jednak ważne zagadnienie w ewaluacji programów wydatków z tego powodu, że istotne jest zidentyfikowanie zakresu w jakim program odpowiada potrzebom jego grupy docelowej oraz redukcja marnotrawstwa i nieefektywności wydatków publicznych. Powinno być jasne, że problem ten jest ściśle związany z przedstwionym wyżej zagadnieniem nieefektywności: efekt ten jest w rzeczywistości szczególnym przypadkiem nieefektywności programu. Przesunięcie i substytucja są terminami blisko ze sobą związanymi, używanymi do określenia sytuacji, w której efekty programu w odniesieniu do pewnych osób, grup lub obszarów zostały uzyskane kosztem innych osób, grup lub obszarów. Rozpatrzmy dla przykładu sytuację, w której celem programu jest wspieranie miejsc pracy poprzez ich subsydiowanie. W danym przedsiębiorstwie, pracownicy korzystający z subsydiów mogą przejąć miejsca pracy osób nie korzystających z tej formy pomocy, a którzy w przeciwnym wypadku byliby przez tę firmę zatrudnieni. Efekt ten nazywa się substytucją. Odwrotnie, przedsiębiorstwo korzystające z subsydiowania miejsc pracy może przejąć rynek przedsiębiorstwa, które nie korzysta z programu. Korzyść z utworzenia miejsc pracy w przedsiębiorstwie uczestniczącym w programie może więc być w części lub całkowicie zniwelowana przez utratę miejsc pracy w innych przedsiębiorstwach. Ten z kolei efekt nazywa się przesunięciem. Efekty przesunięcia i substytucji są szczególnymi przypadkami negatywnych efektów programu, o których mowa była wyżej. Analiza całkowitego oddziaływania programu powinna obejmować te negatywne efekty. 1.6 Kto jest włączony w proces ewaluacji? Ewaluator, który jest bezpośrednio odpowiedzialny za przeprowadzenie ewaluacji, powinien mieć świadomość, że wiele różnych grup i osób może mieć swój uzasadniony interes w jego pracy. Określenie „strony uczestniczące” bywa używane w stosunku do różnych osób i organizacji, na które realizacja i rezultaty danego programu mają wpływ w sposób pośredni lub bezpośredni i którzy mogą mieć interes w jego ewaluacji. Lista stron uczestniczących, które mogą bądź bezpośrednio uczestniczyć w ewaluacji bądź być zainteresowane tym procesem, może więc obejmować: • polityków i osoby podejmujące decyzje; • osoby odpowiedzialne za ewaluację programu; • grupę docelową programu; • osoby zarządzające i administrujące programem; • inne osoby i grupy mające uzasadniony interes w programie. Ewaluator jest zazwyczaj wybierany przez zleceniodawców ewaluacji i przed nimi jest bezpośrednio odpowiedzialny. W przypadku programów UE, będzie to zazwyczaj zarządzająca Dyrekcja Generalna lub wydziały w ramach Komisji Europejskiej. Rozdział 3 zawiera szczegółową analizę relacji pomiędzy ewaluatorem a różnymi grupami stron uczestniczących. Osoby redagujące raport z ewaluacji powinny wykazać się zrozumieniem różnych potrzeb w zakresie informacji w zależności od uczestniczącej strony, a także względnej ważności różnych stron uczestniczących na różnych etapach ewaluacji. Zagadnienie to zostanie przedstawione dokładniej w rozdziale 5. 1.7 Jakie rodzaje ewaluacji można wyróżnić? Rozdział ten podzielony jest na trzy części. W pierwszej wyjaśniony został podział na ewaluację formującą i ewaluację podsumowującą. Zanim podejmie się decyzję o przeprowadzeniu ewaluacji, należy jasno odpowiedzieć sobie na pytanie czy ma to być ewaluacja bardziej formująca czy podsumowująca. W drugiej części zostanie wyjaśnione rozróżnienie pomiędzy ewaluacją cząstkową (w trakcie trwania programu) i ewaluacją expost. Trzecia część dotyczy rozróżnienia pomiędzy ewaluacją wewnętrzną i zewnętrzną. 1.7.1 Ewaluacja formująca i podsumowująca Rodzaj pytań, które zostaną postawione w trakcie ewaluacji zależy w dużej mierze od tego, kim będą jej adresaci oraz z jakich powodów jest ona zlecana. Aby zilustrować to zagadnienie, przydatne jest rozróżnienie pomiędzy: • ewaluacją formującą – która ma na celu zbadanie sposobów poprawy i wzmocnienia zarządzania i wdrażania programu. Ewaluacja taka będzie raczej przeprowadzana dla osób zarządzających programem w celu usprawnienia ich pracy; oraz • ewaluacją podsumowującą – ma na celu określenie zasadniczej skuteczności programu. Ewaluacja taka będzie raczej przeprowadzana z myślą o podmiotach zewnętrznych (grup, które nie są bezpośrednio zaangażowane w zarządzanie programem), z uwagi na określenie odpowiedzialności oraz wsparcia w alokacji środków budżetowych. Mimo że przedstawione tu rozróżnienie pomiędzy ewaluacją formującą i podsumowującą może wydawać się jasne, w praktyce często okazuje się nieostre. Ogólna troska o usprawnienie programów publicznych zazwyczaj wymaga połączenia obu podejść. W niniejszym przewodniku będziemy zajmowali się przede wszystkim ewaluacją podsumowującą, lub przynajmniej ewaluacją o znacznym udziale składnika podsumowującego. 1.7.2 Ewaluacja cząstkowa i ewaluacja ex-post Niniejszy przewodnik koncentruje się na ewaluacji cząstkowej i ewaluacji ex-post. Różnica pomiędzy nimi jest głównie kwestią terminu: • ewaluacja cząstkowa jest przeprowadzana w trakcie wdrażania programu; • ewaluacja ex-post jest po zakończeniu pomocy. przeprowadzana albo w momencie zakończenia, albo W wielu przypadkach ewaluacja cząstkowa koncentruje się często na wynikach programu i nie stara się przeprowadzić systematycznej analizy jego oddziaływania. Będzie ona więc w bardzo dużym stopniu opierała się na informacjach dostarczonych przez system monitorujący. Ewaluacja cząstkowa będzie też miała raczej charakter kształtujący, tzn. jej głównym zadaniem będzie poprawa mechanizmów realizacyjnych programu. W pozostałych przypadkach ewaluacja cząstkowa stara się wziąć pod uwagę rzeczywiste oddziaływanie programu, ale tylko w ograniczonym zakresie. Ewaluacja ex-post z natury będzie raczej podsumowująca i motywem jej przeprowadzenia będzie często zamiar przeanalizowania oddziaływania programu. Jednak z uwagi na fakt, że często informacje niezbędne do oceny rzeczywistego oddziaływania programu nie są dostępne przez wiele lat po zakończeniu programu, ewaluacja ex-post ma w wielu przypadkach ograniczoną zdolność do dostarczenia pełnej oceny oddziaływania programu. Ponieważ wiele programów UE zastępowanych jest kolejnymi programami (d’une autre origine), nawet na etapie oceny ex-post uzasadnione mogą być pytania charakterystyczne dla ewaluacji kształtującej. 1.7.3 Ewaluacja wewnętrzna i zewnętrzna Wybór pomiędzy ewaluacją wewnętrzną i zewnętrzną stanowi kluczową decyzję w każdej ewaluacji. Te dwa terminy mogą zostać zdefiniowane w sposób następujący: • ewaluacja wewnętrzna przeprowadzana jest przez członków organizacji, która prowadzi działania poddawane ewaluacji; • ewaluacja zewnętrzna jest przeprowadzana przez osoby spoza organizacji zarządzającej pomocą. W Unii Europejskiej, przeprowadzenie zdecydowanej większości ewaluacji zleca się konsultantom zewnętrznym i jest to typowe dla ewaluacji cząstkowych i ex-post. Z korzystaniem z ekspertów zewnętrznych wiążą się oczywiście ogromne korzyści. Powinni oni być w stanie wyrazić niezależną opinię na temat programów UE. Innymi słowy, ewaluatorzy zewnętrzni powinni móc przeprowadzić obiektywną ewaluację. Dysponują oni często wiedzą ekspercką z zakresu praktyki ewaluacji a zlecanie podwykonawstwa zadań związanych z ewaluacją konsultantom zewnętrznym może być najbardziej praktycznym i najmniej kosztownym rozwiązaniem. Ewaluacja wewnętrzna może również mieć pozytywne strony. W szczególności pozwala ona na promowanie podejścia „uczenie się przez działanie” (learning by doing), zważywszy na fakt, że same wydziały zarządzające są ściśle włączone w problematykę „jak” i „dlaczego” swojej własnej działalności. Tym niemniej, w wielu przypadkach przeprowadzenie ewaluacji cząstkowej i ex-post o charakterze wewnętrznym mogłoby nie być praktyczne, oszczędne a nawet pożądane. Dla przykładu, może być trudno przekonać inne strony uczestniczące, że ewaluacja wewnętrzna będzie przeprowadzona w sposób obiektywny. Jest to przyczyna, dla której liczne wydziały Komisji zdają się na ewaluację zewnętrzną. W celu zapewnienia, że ewaluacja zewnętrzna zostanie przeprowadzona prawidłowo, wydziały Komisji muszą zwracać szczególną uwagę na opracowanie warunków kontraktu. Ponadto, o ile nie ma właściwego nadzoru ze strony zleceniodawców nad ewaluatorami zewnętrznymi podczas przeprowadzania ewaluacji mogą pojawić się pewne problemy. Na przykład: • raport z ewaluacji przygotowany przez konsultantów zewnętrznych może zawierać błędne rekomendacje, ponieważ został zredagowany przez osoby posiadające niewystarczającą wiedzę na temat kontekstu organizacyjnego i politycznego UE; • powstać mogą problemy z komunikacją; ewaluatorzy zewnętrzni mogą być zbyt oddaleni od hierarchii zarządzającej by ich rekomendacje były wzięte pod uwagę. Ponadto bezwzględnie konieczne jest zadbanie o to, by nadzór nad osobami przeprowadzającymi ewaluację ze strony osób, które ją zleciły nie naruszał niezależności ewaluatorów. Grupa sterująca powinna być w tym zakresie szczególnie przydatna. Wybierając pomiędzy ewaluacją zewnętrzną i wewnętrzną należy brać pod uwagę zarówno zalety i wady jednej i drugiej. Kompetencje techniczne i niezależność konsultanta zewnętrznego powinny być równoważne potencjalnym zaletom przeprowadzenia ewaluacji wewnętrznej. W rozdziale 3 zawarto dodatkowe praktyczne porady na temat wyboru ewaluatora. _________________________________________________________________________________________ Gdzie szukać dalszych informacji? Aneks 1 niniejszego przewodnika zawiera słownik pojęć technicznych. 2 Przygotowanie i zarządzanie ewaluacją Ewaluację nazywa się czasami „zdrowym rozsądkiem stosowanym”. Jednak w odróżnieniu od zdrowego rozsądku, przeprowadzenie ewaluacji wymaga jej dobrego przygotowania i właściwego zarządzania. • jeśli ewaluacja nie jest dobrze przygotowana, istnieje niebezpieczeństwo, że może ona zostać przeprowadzona w sposób nieefektywny. Bardzo łatwo jest zignorować zasadnicze pytania (czy w ogóle można przeprowadzić ewaluację danego programu? Co będzie, a co nie będzie poddane ewaluacji? W jakim celu? Jakimi środkami?), na które należy odpowiedzieć przed rozpoczęciem ewaluacji. Pytania te mogą wydawać się oczywiste po ewaluacji, ale stosowna odpowiedź na nie musi być udzielona wcześniej. • jeśli ewaluacja nie jest dobrze zarządzana istnieje podobne niebezpieczeństwo. Nawet w przypadku dobrze zaprojektowanej ewaluacji sprawy mogą się źle potoczyć lub okoliczności mogą zmienić się w nieprzewidziany sposób. Należy więc w takiej sytuacji przestrzegać odpowiednich zasad zarządzania. Jeżeli ewaluacja nie jest dobrze przygotowana lub nie jest dobrze zarządzana może budzić wątpliwości co do wiarygodności. Sytuacja taka zmniejsza szansę na to, że wnioski i rekomendacje wypływające z niej zostaną szeroko przyjęte przez strony uczestniczące. W takich okolicznościach, przydatność ewaluacji byłaby bardzo ograniczona. W tym rozdziale przeanalizowane zostaną główne składowe przygotowania i zarządzania ewaluacją. Zamieszczone zostały one w Ramce 3.1. Ramka 3.1 Główne składniki przygotowania i zarządzania ewaluacją • określenie struktury zarządzającej – obejmuje to ustanowienie przejrzystej hierarchii, która pozwala na ogólne zarządzanie ewaluacją; • opracowanie projektu ewaluacji – składa się z sekwencji logicznych kroków od podstawowych problemów i interesów stanowiących uzasadnienie dla ewaluacji, po pytania, na które można odpowiedzieć w analitycznie akceptowalny sposób; • opracowanie warunków kontraktu (ToR) – polega na określeniu relacji pomiędzy osobami odpowiedzialnymi za zlecenie ewaluacji (zleceniodawcami ewaluacji) oraz tymi, którzy odpowiedzialni są za jej rzeczywiste przeprowadzenie. Każdy z powyższych składników zostanie poniżej przedstawiony szczegółowo. 2.1 Określenie struktury zarządzającej Struktura zarządzająca pozwala na zarządzanie całością ewaluacji a w szczególności zaprojektowanie ewaluacji. Efektywna struktura zarządzająca powinna stanowić gwarancję, że raport z ewaluacji będzie wysokiej jakości, dostępny w odpowiednim czasie i sporządzony przy nakładzie uzasadnionych kosztów. Główne zadanie struktury zarządzającej polega na przygotowaniu projektu ewaluacji (patrz część 3.2. poniżej) oraz opracowaniu warunków kontraktu (patrz część 3.3. poniżej), w szczególności, gdy przeprowadzenie ewaluacji jest zlecane ekspertom zewnętrznym. Taka struktura zarządzająca powinna składać się przynajmniej z: • zarządu programu (osób zarządzających programem), i • jednostki, sektora lub urzędnika w ramach tej samej Dyrekcji Generalnej lub wydziały odpowiedzialnej za ewaluację. Często jest jednak bardzo przydatne poszerzenie struktury zarządzającej poprzez stworzenie grupy sterującej. Dotyczy to zwłaszcza programów stanowiących istotne obciążenie dla budżetu lub o kontrowersyjnym charakterze, a także w sytuacji, gdy ewaluacja dotyczy nie tylko wdrażania danego programu, lecz obejmuje również ocenę jego skuteczności i przyszłej trafności. Oprócz DG lub wydziałem odpowiedzialnym za program, do takiej grupy sterującej są zwykle włączane inne DG i oraz te wydziały, które są szczególnie zainteresowane programem lub są ogólnie odpowiedzialne za ewaluację. Mogą w jej skład wchodzić przedstawiciele Rady UE i Parlamentu Europejskiego, jako przedstawiciele władzy legislacyjnej i władzy odpowiedzialnej za kształt budżetu. Strony uczestniczące o dużym znaczeniu spoza instytucji UE również mogą być w niej reprezentowane. Dodatkowo, mogą się w niej znaleźć niezależni eksperci, których zadaniem będzie wsparcie opracowywania projektu złożonej ewaluacji oraz zapewnienie kontroli jakości samej ewaluacji. Kluczowym pytaniem które powstaje podczas powoływania grupy sterującej jest to, czy należy do niej włączać przedstawicieli osób odpowiedzialnych za rzeczywiste wdrażanie danego programu (np. agencji wykonawczej). Jeśli tacy przedstawiciele są członkami grupy sterującej, należy zwracać szczególną uwagę na to, by nie stanowiło to naruszenia niezależności ewaluacji. Istnienie grupy sterującej ma liczne zalety: • zachęca różne strony uczestniczące do aktywnego włączenia się w ewaluację; • zmniejsza ryzyko, że osoby zarządzające programem będą zbyt blisko związane z ewaluatorem, co może naruszyć jego niezależność; • pozwala na kontrolę jakości ewaluacji przez ekspertów. Utworzenie grupy sterującej stanowi gwarancję, że ewaluacja będzie postrzegana jako proces włączający. Strony uczestniczące będą w ten sposób miały prawdopodobnie większe zaufanie do wniosków i rekomendacji wynikających z ewaluacji, zwłaszcza jeśli mogły wpłynąć na jej kształt. Należy jednak uważać, by grupa sterująca nie stała się zbyt liczna. Mogła by w ten sposób nie wypełniać właściwie roli ciała zarządzającego i stać się za to forum negocjacji, zagrażając bezstronności przedsięwzięcia. Ewaluacja nigdy nie powinna być uwikłana w negocjacje. Niezależnie od tego czy grupa sterująca została utworzona czy nie, odpowiedzialność za rozwiązywanie problemów wynikłych np. ze zmian występujących już po rozpoczęciu ewaluacji, należy do struktury zarządzającej. Problemy takie mogą obejmować m.in.: • brak porozumienia pomiędzy grupą sterującą i ewaluatorem w sprawie podstawowych aspektów kształtu ewaluacji. Nie jest rzadkością żądanie przez grupy sterujące rzeczy niemożliwych, na przykład ewaluacji, która będzie jednocześnie kształtująca i podsumowująca i która obejmować będzie ocenę skuteczności programu pomimo faktu, że dane niezbędne do sformułowania takiej oceny nie będą dostępne przez kilka dalszych lat. Tego rodzaju problemów można łatwo uniknąć, jeśli od samego początku projekt ewaluacji jest opracowywany właściwie. • ewaluator może dojść do wniosku, że pierwotny projekt ewaluacji nie może zostać w pełni zrealizowany w wymaganym czasie. Taka sytuacja może mieć miejsce nawet przy stosunkowo dobrym zaplanowaniu ewaluacji. Podobnie ewaluator może chcieć zasugerować zmiany w pierwotnym projekcie tak, by więcej czasu zostało przeznaczone na badanie takich elementów programu, które nie znalazły się w pierwotnym projekcie. • w trakcie trwania ewaluacji, ewaluator może spotkać się z oporem ze strony osób administrujących programem, beneficjentów programu lub innych stron uczestniczących. Dla przykładu mogą oni odmówić udostępnienia odpowiednich danych. Struktura zarządzająca powinna mieć świadomość możliwości wystąpienia takich problemów podczas trwania ewaluacji. 2.2 Opracowanie projektu ewaluacji Projekt ewaluacji jest sekwencją logicznych kroków począwszy od sformułowania problemów i interesów stanowiących uzasadnienie przeprowadzenia ewaluacji po serię pytań, na które można odpowiedzieć w analitycznie akceptowalny sposób. Opracowanie projektu ewaluacji obejmuje siedem przedstawionych poniżej etapów: • określenie celów ewaluacji; • ustalenie zakresu ewaluacji; • opracowanie agendy analitycznej; • ustalenie mierników (benchmarks); • zinwentaryzowanie dostępnych danych; • opracowanie planu pracy; • wybór ewaluatora. Powyższe siedem etapów opracowywania projektu ewaluacji powinno mieć miejsce praktycznie w przypadku każdej ewaluacji. W dalszej części tego rozdziału zostaną one po kolei przeanalizowane. 2.2.1 Określenie celów ewaluacji Pierwsze pytanie, jaki musi zostać postawione podczas przygotowywania ewaluacji to: dlaczego? W jakim celu będziemy przeprowadzali ewaluację? Odpowiedzi na to pierwsze pytanie będzie miało istotny wpływ na odpowiedzi na wszystkie kolejne pytania. W wielu przypadkach przeprowadzenie ewaluacji wynika z obowiązku zawartego w podstawie prawnej programu, stanowiącej najczęściej, że sprawozdanie powinno być dostępne przed datą zakończenia programu. Począwszy od przyjęcia Komunikatu w sprawie ewaluacji (w dniu 8 maja 1996 r.) w ramach inicjatywy SEM 2000, wprowadzona została ogólna zasada, zgodnie z którą propozycja odnowienia programu wieloletniego musi opierać się na ewaluacji jego dotychczasowych wyników. Programy wydatków poza ramami wieloletnimi powinny być oceniane przynajmniej raz na sześć lat. Jak wspomniano w rozdziale pierwszym, są trzy specyficzne powody, dla których przeprowadza się ewaluację programu: • usprawnienie zarządzania; • dla celów odpowiedzialności; • wsparcie alokacji zasobów finansowych. Zawartość ewaluacji i styl raportu będzie się różnił w zależności od tego, jaką relatywną ważność przypiszemy tym poszczególnym elementom. Jeśli nacisk zostanie położony na usprawnienie zarządzania, centralne miejsce zajmować będzie przegląd mechanizmów wdrażania i dostarczania. Raport taki może mieć bardzo techniczny charakter, zważywszy że jego głównymi odbiorcami będą wydziały Komisji, pośrednicy oraz bezpośredni beneficjenci. Jeśli na pierwszym miejscu zostanie umieszczona odpowiedzialność, ewaluacja skoncentruje się prawdopodobnie na skuteczności programu, przejawiającej się poprzez dane empiryczne oraz postrzeganie go przez główne strony uczestniczące, a także na ewentualnych efektach ubocznych i szczegółowych kwestiach związanych na przykład z równością i przejrzystością. Styl raportu powinien uwzględniać fakt, że szersza grupa odbiorców może nie dysponować specjalistycznym słownictwem i szczegółową wiedzą techniczną związaną z programem. Jeśli, tak jak w przypadku ewaluacji wynikającej z obowiązków nałożonych przez SEM 2000, nacisk jest położony częściowo na odnowieniu programu i na związanych z nim potrzebach budżetowych, celem ewaluacji powinno być, między innymi, rzucenie światła na rentowność programu, jego dalszą trafność i (ewentualnie) analiza porównawcza rozwiązań alternatywnych. W tym przypadku styl raportu powinien gwarantować jego zrozumienie przez osoby odpowiedzialne za podejmowanie decyzji i formułowanie opinii. Cele ewaluacji powinny oczywiście być realistyczne. Rozważmy dla przykładu pierwszą generację programu czteroletniego. Biorąc pod uwagę czas potrzebny zazwyczaj na przyjęcie nowej propozycji przez władzę prawodawczą, raport z ewaluacji powinien być zasadniczo gotowy w drugiej połowie trzeciego roku. Wynika z tego, że ewaluacja powinna się rozpocząć nie później niż w pierwszej połowie tego roku. W tym czasie jednak możliwa będzie obserwacja jedynie dwóch pierwszych lat realizacji programu, w najlepszym razie, co pozwoli na przygotowanie jedynie raportu z realizacji, zawierającego ocenę wyników oraz bardzo wstępne wskazanie rezultatów. Z drugiej strony, w przypadku programów drugiej lub kolejnej generacji, powinno być możliwe przeprowadzenie ewaluacji dotyczącej rezultatów i oddziaływania, a więc ewaluacja może objąć kluczowe zagadnienia takie jak skuteczność. Do innych czynników, które mogą wpływać na osiąganie celów ewaluacji należy na przykład jej budżet. Ponadto, w niektórych przypadkach, kontrowersje wokół programu mogą powodować, że od chwili poruszenia zasadniczych kwestii może wzrosnąć ryzyko wplątania ewaluacji w spory polityczne. Mogłoby to obniżyć wiarygodność ewaluacji. W takich przypadkach najlepszym wyjściem byłoby ograniczenie ambicji ewaluacji. 2.2.2 Ustalenie zakresu ewaluacji Ustalenie zakresu ewaluacji polega na odpowiedzi na pytanie: co ma być poddane ewaluacji? Niezależnie od tego, jak bardzo wyczerpująca ma być naszym zdaniem ewaluacja, ustalenie jej zakresu jest bardzo ważną częścią projektu ewaluacji. Byłoby zadaniem wręcz niekończącym się analizowanie każdej możliwej strony danego programu bądź wszystkich możliwych jego potencjalnych lub rzeczywistych powiązań z innymi programami na poziomie wspólnotowym lub krajowym. Przykładowo, jeśli chcielibyśmy poddać ewaluacji, w sposób naprawdę wyczerpujący, wspólnotową politykę rozwoju obszarów wiejskich, powinniśmy ocenić nie tylko efekty wydatków dotyczących Celu 5b w ramach Funduszy Strukturalnych, ale także wpływ na obszary wiejskie wszystkich polityk europejskich a także interakcji tych polityk z politykami na poziomie krajowym. Zasadniczo, pole badań w ramach ewaluacji, zwłaszcza część, która ma zostać przeanalizowana w sposób pogłębiony, powinna być ograniczona z punktu widzenia instytucjonalnego (poziom wspólnotowy a poziom krajowy lub lokalny), czasowego (analizowany okres) i geograficznego (część obszaru Unii Europejskiej). Drugie zasadnicze pytanie dotyczące zakresu ewaluacji, związane z powyższymi uwagami dotyczącymi celów ewaluacji, zawiera się w pytaniu, które główne zagadnienia ewaluacji mają być obserwowane i mierzone. Jak zostało wyjaśnione w punkcie 2.2.2. powyżej, należą do nich trafność, efektywność, skuteczność i trwałość. Poza odpowiedzią na poprzednie pytania dotyczące celów ewaluacji, wybór ten będzie uzależniony od takich czynników jak dostępność danych, wymagania czasowe i ograniczenia zasobów finansowych. Główną cechą zakresu ewaluacji, która ma za zadanie dostarczenie lekcji dla przyszłości programu i jego zarządzania, jest to, że analizuje ona, z pewnego dystansu, słuszność logiki działania programu (por. punkt 2.2.1. powyżej), sformułowanej w chwili rozpoczynania programu. Głównym pytaniem, które należy zadać, jest: czy wystąpiły, tak jak było to początkowo zakładane, związki przyczynowe między nakładami (zasobami finansowymi i ludzkimi) a wynikami (dobrami i usługami wyprodukowanymi przez program), a następnie osiągnięciem rezultatów i oddziaływania, a jeśli nie, to dlaczego? Poniżej przeanalizujemy to zagadnienie szczegółowo. 2.2.3 Opracowanie agendy analitycznej Gdy cele, którym służyć ma ewaluacja, oraz zasadnicze pytania, na które ma odpowiedzieć, zostały już precyzyjnie zdefiniowane, kolejny etap w przygotowywaniu ewaluacji polega na opracowaniu agendy analitycznej. Jest to logiczny schemat, obejmujący różne pytania stawiane w trakcie ewaluacji. Celem agendy analitycznej jest przekształcenie ogólnych, często niejasnych pytań, które mają na myśli zleceniodawców ewaluację, w pytania wystarczająco precyzyjne, by mogły być podstawą dla metod badawczych (opartych, niezmiennie, na metodach badawczych wywiedzionych z ekonomii, nauk społecznych, zarządzania, etc.). Proces ten został przedstawiony na rysunku 3.1. poniżej. Rys. 3.1. Proces formułowania agendy analitycznej Logika działania programu (włącznie z zakładanymi związkami przyczynowymi) Ogólne pytania, które muszą być zadane w trakcie ewaluacji agenda analityczna Pytania na tyle precyzyjne, że ewaluacja może dać na nie odpowiedź wrażenia na temat programu głównych stron uczestniczących Agenda analityczna jest po prostu sposobem przekształcania ogólnych pytań w pytania bardziej precyzyjne. Dwa główne źródła pytań ogólnych stanowią: • początkowa logika działania programu, tzn. „teoria” co ma zostać osiągnięte i jak ma to zostać osiągnięte; oraz • wrażenia głównych stron uczestniczących. W ramach agendy analitycznej szczególną uwagę należy zwrócić na hipotezy przyczynowe, które zazwyczaj są ukryte. Najważniejsze założenie dotyczy tego, w jaki sposób program ma wygenerować zakładane efekty oraz stanu środowiska zewnętrznego programu (tzn. jak program związany jest z innymi działaniami pomocowymi i innymi czynnikami zewnętrznymi). Zrekonstruowanie początkowej logiki działania programu jest czasem trudniejsze od mówienia o tym. Oficjalne dokumenty rzadko zawierają szczegółowy opis hipotez przyczynowych. Same cele programu mogą być wyrażone w sposób bardzo ograniczony. Ponadto, zbiorowa pamięć służb Komisji może być stosunkowo krótka (np. z powodu częstych zmian personalnych wśród odpowiedzialnych za program). Często niezbędne będzie szczegółowe badanie dokumentów, w celu zrekonstruowania właściwej interpretacji oficjalnych celów. W każdym przypadku, gdy cele programu nie są podane w sposób dostatecznie przejrzysty i precyzyjny, bardzo trudne będzie ocenienie czy spełnił swoje zadania. Gdy w celu zrekonstruowania celów programu konieczne jest wychodzenie od zera, zadanie to powinno być przeprowadzone w sposób przejrzysty przez strukturę zarządzającą, najlepiej pod nadzorem grupy sterującej. Drugim przydatnym wkładem w proces opracowywania agendy analitycznej jest zebranie i przedstawienie wrażeń na temat programu głównych stron uczestniczących (jego sukcesów, porażek, ewoluującego kontekstu, itp.). W trakcie ewaluacji powinny one być badane pod kątem krytycznym, jako „hipotezy robocze”. Proces ten zarówno wzbogaci agendy analitycznej, jak i wzmocni jej koncentrację na użyteczności. Nie powinien on jednak stać się przyczyną uprzedzeń w stosunku do wniosków, do których ma doprowadzić ewaluacja. Po zidentyfikowaniu głównych pytań, należy opracować agendę. Zasadniczo oznacza to uzyskanie zestawu precyzyjnych pytań, na które ewaluator powinien odpowiedzieć przy użyciu przyjętych metod badawczych. Agenda analityczna na różne pytania, na które należy odpowiedzieć, nakłada pewien logiczny schemat. Najprostsza schematem używanym w tym celu jest hierarchia. Na najniższym poziomie tej hierarchii znajdują się pytania najbardziej szczegółowe i najbardziej rozbudowane. Są one na tyle precyzyjne i konkretne, że można na nie odpowiedzieć przy użyciu przyjętych metod badawczych. W miarę przesuwania się w górę w tej hierarchii powinno być jasne, że bardziej szczegółowe pytania (leżące „niżej”), stanowią podstawę do badań dotyczących bardziej ogólnych pytań (leżących „wyżej”). Prosty przykład takiej hierarchii przedstawiony jest na rysunku 3.2., który oparty został na ewaluacji projektu - kampanii mającej na celu podniesienie świadomości dotyczącej bezpieczeństwa na drogach w średniej wielkości mieście. Kampania skierowana była do ogółu ludności, ale ze szczególnym uwzględnieniem młodzieży szkolnej, zwłaszcza tej z obszarów „wysokiego ryzyka” i kierowców – mężczyzn w wieku od 18 do 24 lat. Ewaluator został poproszony o zbadanie, do kogo kampania dotarła i czy wpłynęła na zmianę zachowania kierowców. Dla uproszczenia wybraliśmy przykład ewaluacji projektu, ale te same zasady mają zastosowanie wobec opracowywania AA ewaluacji programu. Rys. 3.2. AA ustanawia hierarchię pytań stawianych w trakcie ewaluacji Przykład: kampania informacyjna, mająca na celu podniesienie świadomości dotyczącej bezpieczeństwa na drogach Czy kampania dotarła do grupy docelowej? Czy kampania zmieniła zachowanie użytkowników dróg? Do jakiej części młodzieży dotarła? Do jakiej części kierowców dotarła? Czy zmniejszyła się liczba wypadków? Czy zmniejszyła się średnia prędkość jazdy? Do jakiej części młodzieży szkolnej w obszarach „wysokiego ryzyka dotarła? Do jakiej części kierowcówmężczyzn w wieku 18-24 lata dotarła? Czy liczba wypadków w obszarach „wysokiego ryzyka” zmniejszyła się w większym stopniu niż ogólna liczba wypadków? Czy średnia prędkość w obszarach „wysokiego ryzyka” zmniejszyła się w większym stopniu niż prędkość ogólna? Po opracowaniu AA osoby odpowiedzialne za zlecenie ewaluacji powinny odpowiedzieć na pytanie, czy w rzeczywistości program może zostać poddany ewaluacji. Ewaluator, przy wykorzystaniu odpowiednich metodologii badawczych, powinien być w stanie udzielić odpowiedzi na pytania zidentyfikowane w procesie opracowywania AA. Aby wiedzieć, czy można udzielić odpowiedzi na pytania z możliwym do zaakceptowania poziomem wiarygodności, często zalecane jest przeprowadzenie analizy wykonalności ewaluacji. Jeśli nie można przeprowadzić ewaluacji programu (np. ponieważ nie są jeszcze dostępne odpowiednie dane), może to doprowadzić do podjęcia decyzji o przełożeniu ewaluacji na późniejszy termin lub do opracowania nowej, bardziej realistycznej agendy analitycznej. Tym niemniej, należy zawsze pamiętać, że lepiej dysponować nieprecyzyjnymi odpowiedziami na ważne pytania, niż precyzyjnymi odpowiedziami na pytania nieistotne. Zatem, nawet jeśli można dokonać tylko częściowej ewaluacji programu na co wskazuje agenda analityczna, nadal może być przydatne przeprowadzenie ewaluacji. 2.2.4 Ustalanie mierników (benchmarks) Celem ewaluacji jest ustalenie „wartości” programu. Zadanie to obejmuje wyrażanie oceny wartościującej na temat w jakim stopniu wykonanie programu (performance) było „dobre” lub „złe”. Z góry określone i przejrzyste mierniki są niezbędne dla zagwarantowania, że ocena wartościująca nie będzie arbitralna. Za pomocą jakich kryteriów należy ocenić zaobserwowane efekty danego programu? W oparciu o jakie standardy można wypowiadać się na temat dobrego funkcjonowania lub sukcesu danego programu? Oczywistym punktem wyjścia będą tu cele tego programu, takie jakie zostały zapisane w formie oczekiwanych wyników, rezultatów i konsekwencji. Tym niemniej, w niektórych przypadkach ustalenie takich mierników może okazać się trudne m.in. z następujących powodów: • cele mogą być wyrażone w sposób bardzo nieprecyzyjny; • jeden program może mieć wiele celów, zarówno w kategoriach wyników jak i rezultatów, niektóre z nich mogą mieć stosunkowo większe znaczenie lub mogą nie dawać się pogodzić z innymi; • cele mogą zmieniać się w czasie, zgodnie ze zmianami w środowisku danego programu. Doskonałym przykładem jest tu program PHARE na rzecz pomocy dla państw stowarzyszonych Europy Środkowej i Wschodniej, którego cele przeszły istotne modyfikacje od chwili rozpoczęcia jego realizacji. Ustalenie mierników polega jednak na czymś więcej niż tylko prostej rekonstrukcji, wyjaśnieniu i uporządkowaniu celów. Byłoby idealnie, gdyby mierniki pozwoliły na porównanie wykonania danego programu z wykonaniem innych instrumentów polityki w tym samym lub zbliżonym obszarze działań. Jest to uwaga bardzo ważna, gdyż nie zawsze gdy program nie osiągnął zakładanych celów nie musi to oznaczać niezadowalające jego wykonanie. Może ono wypaść pozytywnie w porównaniu z rezultatami osiągniętymi przez podobny program realizowany w przeszłości lub z realizowanym przez władze krajowe, lokalne, czy też przez państwa spoza Unii. Perspektywa porównawcza może wykazać, że oczekiwania wobec programu były nierealistycznie wysokie, a nie że to sam program zawiódł. Zasadniczo wyróżniamy trzy różne osie, które mogą stanowić podstawę dla ustalania mierników: • czas – mierniki, które porównują ten sam program w czasie (do jakiego stopnia cele programu zostały osiągnięte w porównaniu z zeszłym rokiem?); • przestrzeń – mierniki, które porównują ten sam program na różnych obszarach (do jakiego stopnia cele programu zostały osiągnięte na danym obszarze w porównaniu z innym obszarem?); • czas i przestrzeń – mierniki, które porównują program z innymi, w miarę podobnymi instrumentami polityki. Podczas dokonywania oceny wykonania programu za pomocą mierników, należy bezwzględnie pamiętać o tym, że mierniki mogły zostać osiągnięte na skutek rozwoju sytuacji, którego nie można przypisać działaniom danego programu. W ramach ewaluacji należy starać się rozdzielić te zmiany, w celu ustalenia efektów netto danego programu na osiągnięcie jego celów. Dane dotyczące mierników powinny być ostrożnie interpretowane. Jest to szczególnie istotne w przypadku celów, na które mogły mieć wpływ różne inne czynniki zewnętrzne, takie jak polityki narodowe, na które program UE miał niewielki lub żaden wpływ. Kwestia przypisania netto jest kwestią zasadniczą w wyborze modelu ewaluacji, co zostanie szczegółowo przedstawione w rozdziale 4. 2.2.5 Inwentaryzacja dostępnych informacji Kolejnym etapem w przygotowywaniu projektu ewaluacji jest inwentaryzacja dostępnych danych. W przypadku większości programów, system monitorowania powinien stanowić pierwsze źródło informacji. Jakość danych pochodzących z systemu monitorowania będzie miała zasadnicze znaczenie dla sukcesu ewaluacji. Jednak te dane w niewielu przypadkach będą w pełni wystarczające. Do innych dostępnych materiałów można zaliczyć literaturę fachową, publikacje dziennikarskie, dane administracyjne lub opublikowane statystyki. Często przydatne jest opracowanie pewnej syntezy badawczej dotyczącej aktualnego stanu wiedzy na temat problemu i sposobów jego rozwiązania za pomocą działania polityki i wydatków publicznych. Może ona służyć jako przewodnik do analizy ewaluacji i wyboru metody, zwłaszcza w odniesieniu do kwestii trafności i skuteczności. Jest oczywiste, że program oparty na rzetelnej ewaluacji ex-ante będzie brał pod uwagę wiedzę istniejącą w momencie jego powstania. Jednak nie wszystkie programy UE korzystały w przeszłości z takiego systematycznego badania, a nawet jeśli tak było, od czasu ich powstania upłynął pewien okres, co wymaga uaktualnienia danej syntezy badawczej. Inwentaryzacja dostępnych informacji i porównanie ich z potrzebami wynikającymi z agendy analitycznej, wskaże główne luki w informacji, które z kolei stanowić będą podstawę określenia zadań w zakresie zbierania i interpretacji danych podczas ewaluacji. Należy jednak postępować bardzo ostrożnie. Dana agenda analityczna może być rezultatem podejścia maksymalistycznego, stawiającego pytania, które wymagają danych niepewnych lub osiągalnych jedynie po bardzo dużych kosztach. Niektóre z tych pytań mogą być tylko luźno związane z głównymi celami danego programu. Ewaluacja jest ograniczona czasowo i finansowo, dlatego przed rozpoczęciem zbierania danych należy zdecydować, które dane mogą dostarczyć nowych i istotnych informacji na badany temat. Należy również pamiętać, że ewaluator może zawsze sięgnąć do istniejącej literatury jako źródła danych podczas przeprowadzania ewaluacji. Jeśli zakłada się przegląd istniejącej literatury jako jedną z potencjalnych technik zbierania danych, przeprowadzanie syntezy badawczej może być zbędne. 2.2.6 Ustalenie planu pracy Po zakończeniu przedstawionych wyżej etapów będzie możliwe opracowanie planu pracy, który zawierać będzie badania do przeprowadzenia podczas ewaluacji, mając na uwadze główne pytania zawarte w agendzie analitycznej oraz zidentyfikowane braki w informacji. Badania te powinny być opisane dostatecznie precyzyjnie, zarysowując w sposób przejrzysty, choć prowizoryczny, zaplanowane zadania zbierania i analizy danych oraz, o ile to możliwe, wykorzystywaną metodologię. Aby zakładanymi zadaniami można było zarządzać, często użyteczne jest podzielenie ich na różne etapy i określenie odpowiednich harmonogramów przedkładania kolejnych części ewaluacji (np. raportów cząstkowych). Plan pracy jest odpowiednim miejscem do określenia kosztu ewaluacji oraz jego składników. W przypadku gdy przeprowadzana będzie ewaluacja wewnętrzna, należy podać szacunkowy ogólny czas pracy, który będą musieli jej poświęcić urzędnicy, a także pozostałe wydatki administracyjne. W przypadku, gdy odwołujemy się do ekspertów zewnętrznych, szacunki kosztów powinny być przeprowadzone przed ogłoszeniem przetargu. Procedura ta ma na celu zagwarantowanie, że budżet zarezerwowany na ewaluację przeprowadzaną przez ekspertów zewnętrznych jest zgodny z zakresem agendy analitycznej, zawartym w planie pracy. Komunikat Komisji w sprawie ewaluacji z 8 maja 1996 r. podaje, że ogólny budżet przeznaczony na wszystkie działania związane z ewaluacją w trakcie trwania programu może wynosić do 0,5% budżetu danego programu. Szacowanie kosztów zawsze powinno być realistyczne. Zbyt często ewaluacja jest podejmowana zbyt późno lub nie spełnia ustalonych zadań, ponieważ początkowe oczekiwania były zbyt wysokie. Dla przykładu, bardzo kosztowne może być angażowanie się w poważne zadania dotyczące zbierania danych, które nie mogą być uzyskane przy pomocy systemu monitorowania. Podobnie, czas i pieniądz są tylko częściowo swoimi substytutami. Zwiększenie budżetu może skrócić potrzebny na ewaluację czas, ale zazwyczaj relacje pomiędzy tymi czynnikami są bardziej złożone. 2.2.7 Wybór ewaluatora Opracowanie agendy analitycznej i ustalenie planu pracy są bardzo ważnymi etapami, które należy przeprowadzić przed wyborem ewaluatora. W szczególności, gdy jest już ustalone na jakiego rodzaju pytania ewaluacja będzie musiała znaleźć odpowiedź, gdy budżet i harmonogram ewaluacji zostały określone, łatwiej wybrać pomiędzy ewaluacją wewnętrzną i zewnętrzną. Zadania stawiane przed ewaluacją są bardzo różne, co powinno znaleźć odbicie w wyborze ewaluatora. Niektóre działania z zakresu ewaluacji są technicznie bardzo skomplikowane, kosztowne i trwają tak długo, że wymagają aktywnego uczestnictwa wysoko wykwalifikowanych specjalistów. Z drugiej strony, jest wiele działań, dość prostych, które mogą być przeprowadzone przez osoby nieposiadające specyficznej wiedzy na temat danego sektora. Przy tym pewien dystans zawodowy w stosunku do badanego przedmiotu często stanowić może atut w zakresie w jakim pozwala ewaluatorowi na bardziej obiektywne i niezależne spojrzenie na program. Zdolność techniczna ewaluatora jest ważnym kryterium wyboru, ale nie wystarczającym samo w sobie. Inne ważne przy wyborze ewaluatora kwestie obejmują: • zdolność do uzyskania dostępu do odpowiednich informacji i uczestników; • wiedzę i dotychczasowe doświadczenie w dziedzinie programu; • niezależność ewaluatora od stron uczestniczących; • specyficzne cechy związane z dziedziną działania (np. ewaluator może być zobowiązany do pracy w niebezpiecznych warunkach). Jeżeli została podjęta decyzja o przeprowadzeniu ewaluacji zewnętrznej, należy pamiętać, że istnieją różne rodzaje organizacji, które mogą przeprowadzić ewaluację zewnętrzną. Najczęściej wykorzystywane z nich to: • firmy doradcze (consultingowe) – mogą one obejmować duże, międzynarodowe przedsiębiorstwa, które mają znaczące doświadczenie w przeprowadzaniu różnego rodzaju ewaluacji, a także małe firmy, mające węższą, wysoce specjalistyczna wiedzę ekspercką. Przedsiębiorstwa tego rodzaju często są postrzegane przez strony uczestniczące jako reprezentujące podejście „biznesowe” (choć w pewnym kontekście sektora publicznego może być to niekorzystne). Generalnie, tego typu organizacje mogą przeprowadzić ewaluację stosunkowo szybko i zazwyczaj posiadają doskonałe umiejętności w zakresie prezentacji. Mimo to, mogą one mieć pewne mankamenty. Po pierwsze ich ceny mogą być stosunkowo wysokie w porównaniu z innymi rodzajami instytucji. Jeśli ich ceny są konkurencyjne, może to stanowić celową próbę zdobycia dodatkowych zamówień poprzez zaniżanie kosztów. Czasami, mogą one próbować zmniejszyć koszty własne przez stosowanie gotowych rozwiązań dla danego problemu ewaluacyjnego, zamiast starać się dostosować ewaluację do potrzeb zleceniodawców ją oraz do potrzeb głównych stron uczestniczących. Istnieje wreszcie ryzyko, że firmy konsultacyjne mogą obiecać ewaluację, ale przeprowadzić audyt. • instytucje akademickie – eksperci akademiccy często mogą zaoferować wysoki poziom ekspertyzy metodologicznej w zakresie ewaluacji. Niektórzy mogą ponadto posiadać wysoki poziom wiedzy specjalistycznej. Strony uczestniczące mogą mieć tendencję do postrzegania pracowników nauki jako stosunkowo niezależnych i stanowić to może ich przewagę w stosunku do firm doradczych, które mogą wzbudzać pewne obawy. Instytucja uniwersytecka lub badawcza może gwarantować lepszą gospodarność (relację kosztów do korzyści) ale może też okazać się mniej elastyczna. Istnieje jednak ryzyko, że instytucje naukowe mogą obiecać ewaluację, ale przeprowadzić badania naukowe. W przypadku dużych programów, albo programów mających zmienne oddziaływanie regionalne, często jest przydatne zwrócenie się do konsorcjów ewaluatorów. Pozwala to na łączne wykorzystywanie różnych rodzajów organizacji przeprowadzających ewaluację. W typowym przypadku jedna organizacja będzie nadzorować całość prac nad ewaluacją oraz przygotowywać syntetyczny raport. Szczegółowe aspekty programu (lub poszczególne regiony) mogą zostać podzielone pomiędzy różnych członków konsorcjum. Jest wiele kryteriów, które powinien spełniać idealny ewaluator: specjalistyczna wiedza w określonej dziedzinie, doświadczenie w ewaluacji, niezależność i zbieżność zewnętrzna , zdolność do pracy w wyznaczonych ramach czasowych, gospodarność (relacja koszty/efekty) oraz uczciwość. Oczywiście nikt w całości nie spełni wszystkich tych kryteriów. W rzeczywistym świecie wybór ewaluatora z konieczności pociąga za sobą ustępstwa w jednym lub kilku wymienionych punktach. 2.3 Opracowanie warunków kontraktu (ToR) Precyzyjnie określone warunki kontraktu mają zasadnicze znaczenie w przypadku, gdy ewaluacja ma być przeprowadzana przez eksperta zewnętrznego, ale mogą być równie istotne, gdy ma być przeprowadzona ewaluacja wewnętrzna. Warunki kontraktu określają zakres pracy do wykonania przez ewaluatora, zagadnienia, które należy poruszyć oraz harmonogram prac. Pozwalają one zleceniodawcom ewaluacji określić własne potrzeby, a ewaluatorowi zrozumieć czego oczekuje się od wykonywanego zadania. Warunki kontraktu powinny brać pod uwagę specyfikę programu podlegającego ewaluacji. W przypadku ewaluacji powierzonych podwykonawcom zewnętrznym, warunki kontraktu stanowiące załącznik do kontraktu mogą różnić się od tych, które zostały opracowane początkowo, na potrzeby przetargu, na skutek negocjacji i dyskusji z wybranym podwykonawcą, który może wnieść do niego własną wiedzę i doświadczenie. W tym przypadku ważne jest, by potencjalni ewaluatorzy wiedzieli w jakim zakresie mogą zredefiniować początkowy projekt ewaluacji przed uzgodnieniem warunków kontraktu i podpisaniem kontraktu. W warunkach kontraktu powinny się zazwyczaj znaleźć następujące elementy: • podstawa prawna i uzasadnienie ewaluacji; • przyszłe wykorzystanie i użytkownicy ewaluacji; • opis programu, który ma zostać poddany ewaluacji; • zakres ewaluacji; • główne zagadnienia ewaluacji; • wymagana metodologia zbierania danych i ich analizy; • plan pracy, struktura organizacyjna i budżet; • kryteria wyboru ewaluatorów zewnętrznych; • oczekiwana struktura ostatecznego raportu z ewaluacji. Poniżej zostaną krótko przedstawione kolejne punkty. 2.3.1 Podstawa prawna i uzasadnienie ewaluacji Zarówno dla ewaluatora, jak i dla zleceniodawców ewaluacji, jest przydatne, jeśli w warunkach kontraktu przedstawiona jest podstawa prawna i wymagania kontraktowe, na których oparta będzie ewaluacja. 2.3.2 Przyszłe wykorzystanie i użytkownicy ewaluacji Ewaluator powinien wiedzieć, w jaki sposób zostaną wykorzystane wyniki danej ewaluacji i kto jest przewidywanym głównym użytkownikiem oraz jakich rezultatów oczekuje się po ewaluacji. Odpowiedzi na te pytania pozwolą mu zidentyfikować główne przyczyny, dla których zlecone zostało przeprowadzenie ewaluacji. Przyczyny te, z kolei, będą wpływać na szczegółowe zagadnienia, którymi będzie się zajmował ewaluator podczas pracy, na odpowiednie potraktowanie zagadnienia wdrażania programu oraz na stopień szczegółowości odpowiedzi na pytania dotyczące programu. 2.3.3 Opis programu, który ma zostać poddany ewaluacji Warunki kontraktu powinny zazwyczaj obejmować zwięzły, ale pełny opis programu, który ma zostać poddany ewaluacji (w tym, na przykład, jego grupy docelowej, celów ogólnych i szczegółowych, nakładów i wyników oraz mechanizmów realizacji). 2.3.4 Zakres ewaluacji Warunki kontraktu powinny precyzować którą część programu powinna objąć ewaluacja i jakie aspekty programu należy wziąć pod uwagę. Na tym etapie można odnieść się do przedstawionego powyżej projektu ewaluacji (w szczególności rozdział 3.2.2.). Do ważnych pytań, na które należy sobie odpowiedzieć podczas decydowania o zakresie ewaluacji, należą: • Czy oczekuje się, że ewaluacją zostanie objęta całość programu? Jeśli nie, warunki kontraktu powinny precyzyjnie określać, która część programu powinna być wyłączona z ewaluacji (wielkość budżetu, obszar geograficzny, terminy, specyficzne zagadnienia, działania lub grupy klientów); • Czy ewaluacji powinien zostać poddany program izolowany, czy też od ewaluatora wymagać się będzie zbadania powiązań pomiędzy tym, a innymi programami UE?; • Czy od ewaluatora oczekuje się oceny w jakim zakresie zostały zrealizowane oczekiwane wyniki, rezultaty i oddziaływanie programu (tzn. zakres, w jakim zostały osiągnięte cele szczegółowe i ogólne)? Czy należałoby zbadać jednocześnie niespodziewane rezultaty i oddziaływanie, zarówno pozytywne jak i negatywne? 2.3.5 Główne zagadnienia ewaluacyjne Ważne jest przedstawienie zagadnień ewaluacji opracowanych na podstawie agendy analitycznej (jak wyjaśniono w rozdziale 3.2.3. powyżej) w celu dostarczenia ewaluatorowi precyzyjnych wytycznych dotyczących dokładnych potrzeb zleceniodawców ewaluacji i stron uczestniczących w ewaluacji w zakresie informacji. Potrzeby informacyjne będą zazwyczaj różne, zależnie od tego, czy przeprowadzana będzie ewaluacja formująca czy podsumowująca. Jednym z zasadniczych zagadnień, które należy rozpatrzyć podczas ewaluacji będzie oczywiście weryfikacja, czy logika działania programu nadal jest aktualna. Należy pamiętać, że logika działania opisuje sposób, w jaki nakłady programu (zasoby ludzkie i finansowe) są przekształcane w wyniki (dobra i usługi wyprodukowane przez program) i jak one z kolei prowadzą do uzyskania rezultatów i oddziaływania. 2.3.6 Wymagana metodologia zbierania i analizy danych Podczas opracowywania warunków kontraktu zleceniodawcy ewaluacji chciałyby zazwyczaj przedstawić przejrzyste wytyczne w zakresie zbierania danych i metod ich analizy, których ewaluator powinien przestrzegać. Choć należy przyznać, że zarówno ewaluatorzy zewnętrzni jak i wewnętrzni prawdopodobnie skorzystaliby na takich wytycznych, trzeba jednocześnie pamiętać, że nie ma żadnej jednej, uniwersalnej, w każdym przypadku możliwej do zastosowania metodologii. Metodologia, która ma być wykorzystana przy zbieraniu danych i ich analizie, musi być dostosowana do specyficznych okoliczności ewaluowanego programu oraz szczegółowych zagadnień będących przedmiotem badania. W przypadku ewaluacji zewnętrznej zaleca się ogólnie sformułowane wytyczne, przynajmniej na etapie przetargów. Pozwala to wybranemu ewaluatorowi na wykorzystanie całej wiedzy i doświadczenia do ewentualnej redefinicji sugerowanego podejścia w drodze dyskusji i negocjacji ze zleceniodawcami ewaluacji. Ostateczne warunki kontraktu, stanowiące załącznik do kontraktu, mogą w ten sposób być znacznie bardziej precyzyjne. 2.3.7 Plan pracy, struktura organizacyjna i budżet Plan pracy dotyczący ewaluacji powinien uwzględniać między innymi takie czynniki jak czas trwania kontraktu i termin przedstawienia raportu. Może być również przydatne przekazanie ewaluatorowi wytycznych na temat istniejących źródeł danych (np. danych pochodzących z systemu monitorowania) oraz informacji o odpowiednich kontaktach, które powinien nawiązać. Określenie struktury organizacyjnej ewaluacji obejmuje wyznaczenie roli poszczególnych uczestników (co jest szczególnie ważne w sytuacji, gdy zadanie ewaluacji ma być podzielone pomiędzy różnych ewaluatorów – na przykład między ewaluatorów wewnętrznych i zewnętrznych); ustalenie obowiązków w zakresie sprawozdawczości (w tym, tam gdzie stosowne, kontaktów z grupą sterującą ewaluacją, osobami zarządzającymi programem, innymi służbami Komisji lub administracją państwa członkowskiego) oraz ustalenie procedury, której należy przestrzegać w trakcie rozpowszechniania i wykorzystywania rezultatów ewaluacji. Z wyjątkiem przypadku, gdy ewaluacja ma być przeprowadzona w całości w sposób wewnętrzny, powinien zostać tu wskazany także budżet przeznaczony na to zadanie, , obejmujący diety dzienne i kwalifikowalne koszty podróży. 2.3.8 Struktura końcowego raportu z ewaluacji Nie istnieje jedna, powszechnie przyjęta, struktura raportu z ewaluacji, choć wszystkie raporty powinny zawierać streszczenie oraz kopię warunków kontraktu (zazwyczaj w aneksie). Typowa struktura raportu z ewaluacji przedstawiona jest w punkcie 5.2.1. _________________________________________________________________________________________ Gdzie szukać dodatkowych informacji? Zainteresowany czytelnik może znaleźć odpowiednie informacje w różnych źródłach dotyczących przygotowywania i przeprowadzania ewaluacji, w tym Conseil Scientifique de l’Evaluation (1996). Podręcznik MEANS tom 1 Organisation des évaluations intermédiaires dans le contexte de partenariats jest pomyślany szczególnie dla wykorzystania w przypadku funduszy strukturalnych UE. Tym niemniej zawiera wiele informacji, które mogą być wykorzystane w innych obszarach działań UE. Zawiera on również przykład typowych warunków kontraktu opracowany przez C3E. 3 Przeprowadzanie ewaluacji Przeprowadzenie ewaluacji wymaga wyboru konkretnego modelu ewaluacji, który stanowi ramy pozwalające na opis programu oraz weryfikację hipotez dotyczących jego efektów. Dany model ewaluacji pozwala ewaluatorowi na wybór jednej lub kilku technik zbierania danych. Chodzi tu o metody wykorzystywane do gromadzenia informacji dotyczących programu. Modele ewaluacji prowadzą do wyboru techniki analizy danych. W tym przypadku chodzi o metody wykorzystywane do interpretacji informacji, które zostały zgromadzone. Na początku warto uwypuklić złotą regułę dotyczącą technik ewaluacji: Złota reguła: nie ma złotych reguł. Innymi słowy, nie ma jednej metodologii ewaluacji, która mogłaby być powszechnie stosowana. Wybór techniki powinien być zdeterminowany raczej przez specyficzne problemy danej ewaluacji. • Niska jakość ewaluacji jest często wynikiem arbitralnego wyboru metody na początku przedsięwzięcia (oparcie się na przykład na przypadkowych danych, które były dostępne w danym momencie), która następnie okazuje się nieadekwatna; • W dobrej ewaluacji wykorzystuje się sprawdzone techniki zbierania i analizy danych, a wybór techniki jest uzasadniony w stosunku do problemów stawianych przed konkretną ewaluacją. Taka ewaluacja często wykorzystuje więcej niż jedną technikę, tak by mocne strony jednej z nich równoważyły ewentualne słabe strony innej, dając możliwość poczynienia dodatkowych ustaleń. W tym rozdziale przedstawimy pojęcie modelu ewaluacji i wykażemy jego rolę w określeniu wiarygodności i analitycznego rygoru ewaluacji. Zaprezentujemy następnie kilka technik zbierania i analizy danych, które mogą być wykorzystywane w różnych modelach ewaluacji. Niniejszy przewodnik nie może dostarczyć pełnego opisu wszystkich możliwych technik analitycznych ze wszystkich dziedzin statystyki, ekonomii czy nauk społecznych. Zawiera on natomiast przegląd podstawowych zasad badań ewaluacyjnych, o których warto pamiętać przeprowadzając rzeczywistą ewaluację. 3.1 Przedstawienie modeli ewaluacji Model ewaluacji, to model wykorzystywany do opisu programu i przedstawienia dowodów dotyczących efektów, które mogą być przypisane danemu programowi. Modele ewaluacji mają kluczowe znaczenie dla weryfikacji słuszności logiki działania programu, to znaczy teorii sposobu, dzięki któremu program osiąga swoje cele poprzez generowanie określonych efektów. W tej sekcji zostaną przedstawione niektóre główne cechy modeli ewaluacji. W celu uproszczenia przyjmiemy, że program może być poddany ewaluacji za pomocą pojedynczego modelu ewaluacji. Dla licznych programów UE, nie jest to oczywiście założenie właściwe. Bardzo często programy mają różnorodny zakres efektów (często w ich ramach istnieją podprogramy lub duże projekty, które powinny być poddane oddzielnej ewaluacji). W rzeczywistości trzeba więc często wykorzystywać kombinację kilku modeli ewaluacji. Dla przejrzystości tej prezentacji rozpoczniemy od analizy idealnego modelu eksperymentalnego, który jest przede wszystkim konstrukcją teoretyczną. Jak zobaczymy, w rzeczywistości nie istnieje idealny eksperyment. Następnie przejdziemy do analizy zagrożeń dla wnioskowania przyczynowego, które mogą wystąpić w prawdziwym świecie, a następnie zajmiemy się opisem różnych modeli ewaluacji w rzeczywistych sytuacjach. Możemy wyróżnić dwa podejścia dotyczące modeli ewaluacji, dostępne w prawdziwym świecie. Pierwszy z nich opiera się na próbach przypisania przyczynowości; chodzi tu o modele, które pozwalają nam stwierdzić, czy zaobserwowane efekty są czy też nie są spowodowane przez program. Drugi opiera się na opisie programu i jego zakładanych efektach. 3.1.1 Przyczynowość i idealny model eksperymentalny Modele ewaluacji pomagają nam w zbadaniu efektów, które mogą być przypisane istnieniu programu. Są więc blisko związane z pojęciem przyczynowości. Przypomnijmy przykład dotyczący lokalnej kampanii na rzecz uwrażliwienia na problem bezpieczeństwa na drogach, który przywołany był w poprzednim rozdziale. Załóżmy, że po kampanii zaobserwowano zmniejszenie się liczby wypadków na drogach na tym obszarze. Czy ten pozytywny skutek można bez żadnych wątpliwości przypisać samej kampanii? Kampania mogła rozpocząć się w momencie wprowadzenia w całym kraju zmniejszenia dopuszczalnej prędkości dla samochodów. Przypuśćmy z kolei, że po kampanii zaobserwowano wzrost liczby wypadków na lokalnych drogach. Czy oznacza to, że kampania nie przyniosła żadnych korzyści? Niekoniecznie, zakładając że liczba wypadków mogłaby wzrosnąć jeszcze bardziej, gdyby kampania nie miała w ogóle miejsca. Podobnie, utrzymanie się liczby wypadków po przeprowadzeniu kampanii może oznaczać, że kampania odniosła sukces poprzez powstrzymanie wzrostu wypadków na drogach. Istnienie danego programu może być koniecznym warunkiem wystąpienia rezultatów, ale warunek ten może nie być wystarczający. Dla przykładu, ewaluator programu dotyczącego uwrażliwienia na kwestie bezpieczeństwa na drogach może stwierdzić, że bez programu nie byłoby zmniejszenia się liczby wypadków na lokalnych drogach. Może jednak być też prawdą, że pewne inne czynniki (np. stan lokalnych dróg, stosunkowo młody wiek osób prowadzących pojazdy mechaniczne, etc.) są również konieczne do wystąpienia zaobserwowanych efektów. I przeciwnie, program może być wystarczający, ale nie niezbędny. W przypadku programu mającego na celu podniesienie świadomości dotyczącej bezpieczeństwa na drogach wspomnianego wyżej, ewaluator może stwierdzić, że zmniejszenie się liczby wypadków na drogach lokalnych zaobserwowane po przeprowadzeniu kampanii i tak by nastąpiło, na przykład na skutek wprowadzenia nowego ograniczenia prędkości lub sprzyjających warunków atmosferycznych na lokalnych drogach. Ostatecznie program może nie być ani niezbędny, ani wystarczający. Zaobserwowane efekty mogły wystąpić bez jakiegokolwiek związku z programem. Gdy mówimy, że dane efekty zostały wyprodukowane lub spowodowane przez program, oznacza to, że gdyby program nie miał miejsca, lub miałby miejsce w innej formie lub stopniu, te efekty nie wystąpiłyby lub nie wystąpiłyby w tym samym stopniu. Oznacza to, że ważne jest, by mieć precyzyjny obraz tego, co stałoby się bez programu. Nazywa się to sytuacją kontrfaktyczną. W sytuacji idealnej chcielibyśmy wywnioskować sytuację kontrfaktyczną z całkowitą pewnością. Moglibyśmy dokonać tego porównując dwie grupy identyczne pod wszystkimi względami z wyjątkiem tego, że jedna z nich (nazwijmy ją grupą programową) jest wystawiona na działanie programu, podczas gdy druga grupa (którą nazywamy grupą kontrolną) nie jest objęta programem. Ilustracja takiego idealnego modelu eksperymentu przedstawiona jest na rysunku 4.1. poniżej. Rys. 4.1 Idealny model eksperymentu Przykład: program szkoleniowy dla długoterminowych bezrobotnych mający na celu zwiększenie ich szans na znalezienie pracy Czynniki wpływające GRUPY dany program grupa programowa 100 długoterminowych bezrobotnych 75 osób znalazło nową pracę EFEKTY 75% szansa znalezienia pracy w przypadku uczestniczenia w programie wszystkie pozostałe czynniki grupa kontrolna 100 długoterminowych bezrobotnych 50 osób znalazło nową prace 50% szansa znalezienia pracy bez uczestniczenia w programie (sytuacja kontrfaktyczna) Efektem netto programu szkoleniowego jest wzrost szans na znalezienie pracy przez długoterminowych bezrobotnych W tym przykładzie mamy do czynienia z programem szkoleniowym adresowanym, którego celem jest zwiększenie szans długoterminowych bezrobotnych na znalezienie nowej pracy. Dwustu bezrobotnych długoterminowych, mających identyczne kompetencje i doświadczenie, zostało podzielonych na dwie grupy: grupę programową i grupę kontrolną. Stu członków grupy programowej poddanych było działaniu programu szkoleniowego, podczas gdy stu członków grupy kontrolnej nie było. Poza tym grupy są identyczne pod każdym innym względem i obie są wystawione na działanie wszelkich innych czynników poza programem. Po zakończeniu programu 50 bezrobotnych w grupie kontrolnej znalazło nową pracę. Jest to nasz szacunek sytuacji kontrfaktycznej – bez programu istnieje 50% szansa, że bezrobotny znajdzie nową pracę. Jednak wśród członków grupy programowej 75 pracowników znalazło nową pracę. Możemy więc wysnuć wniosek, że efektem netto programu jest wzrost o połowę szans długoterminowo bezrobotnych na znalezienie pracy. W świecie rzeczywistym jednakże, taki idealny eksperyment nie istnieje, ponieważ nigdy nie możemy być absolutnie pewni, że grupa programowa i grupa kontrolna są całkiem identyczne pod wszystkimi względami poza ekspozycją na działanie programu. Te dwie grupy składają się ponadto z różnych osób i choćby pod tym względem będą różne, nawet jeśli różnic tych nie widać ujęciach liczbowych. Potencjalna nierównoważność obu grup oznacza, że sytuacja kontrfaktyczna musi być raczej szacowana niż wyprowadzana. Osłabia to oczywiście trafność jakiegokolwiek wnioskowania przyczynowego dotyczącego programu. Innymi słowy, istnieją możliwe do przyjęcia rozwiązania alternatywne, które mogą wyjaśniać efekty, jakie w przeciwnym wypadku mogłyby być przypisane samemu programowi. Możliwe do przyjęcia alternatywy stwarzają problemy dla wnioskowania przyczynowego. Do zadań ewaluatora należy próba przezwyciężenia tych problemów poprzez wybór takiego modelu ewaluacji, który jest na nie odporny. Zobaczmy jak unikanie różnego rodzaju problemów pomaga w wyborze modelu ewaluacji w prawdziwym świecie. Aby to uczynić, musimy najpierw bardziej szczegółówo przeanalizować zagrożenia dla wnioskowania przyczynowego. 3.1.2 Zagrożenia dla wnioskowania przyczynowego W rzeczywistym świecie, w którym nie występują idealne eksperymenty podobne do tego przedstawionego powyżej i gdzie mamy do czynienia z potencjalnymi zagrożeniami dla prawdziwości jakiegokolwiek wnioskowania przyczynowego, potrzebny jest jakiś sposób wyboru pomiędzy różnymi modelami ewaluacji. Główne kryteria, którymi należy się kierować przy wyborze modelu ewaluacji, to zbieżność wewnętrzna i zewnętrzna. Zbieżność wewnętrzna odnosi się do zaufania jakie możemy mieć w stosunku do wniosków dotyczących rzeczywistych efektów programu. Jednym z zagrożeń dla zbieżności wewnętrznej jest fakt, że związki pomiędzy programem i zaobserwowanymi efektami są niepewne z uwagi na słabości projektu ewaluacji. Zagadnienie to może być postrzegane jako pytanie: jakie zaufanie można mieć w stosunku do szacunków dotyczących sytuacji kontrfaktycznej? Czy zaobserwowane efekty mogą być przypisane innym, zewnętrznym w stosunku do programu, czynnikom? Dla przykładu, do jakiego stopnia możemy być pewni, że programy promujące wykorzystanie alternatywnych źródeł energii przyczyniły się do wzrostu udziału tych źródeł w całkowitej konsumpcji energii? Zbieżność zewnętrzna odnosi się do zaufania, jaki możemy mieć w stosunku do możliwości uogólnienia wniosków dotyczących programu na okoliczności, okresy, osoby itp. inne niż te, których dotyczył sam program. Zagrożeniem dla zbieżności zewnętrznej jest obawa, że model ewaluacji nie pozwala na uogólnienie wnioskowania przyczynowego dotyczącego programu na czas, miejsca i osoby inne niż te badane podczas ewaluacji. Na przykład, jeśli przeprowadzimy ewaluację pomocy dla małych i średnich przedsiębiorstw w regionie Saary, w jakim stopniu wnioski te będą mogły być przeniesione na inne regiony, np. Bawarię, Pikardię lub Andaluzję? Zewnętrzna zbieżność jest zagadnieniem bardzo istotnym podczas badań studium przypadku, a także podczas ewaluacji działań pilotażowych. Powinna zawsze być brana pod uwagę podczas określania zakresu ewaluacji (porównaj punkt 3.2.2. powyżej). Ewaluatorzy powinni zadać sobie pytanie jakiego rodzaju decyzje mogą zostać podjęte w wyniku ewaluacji i mieć świadomość problemów związanych ze zbieżnością wewnętrzną i zewnętrzną. 3.1.3 Podejście przyczynowe do modelów ewaluacji Teraz możemy przedstawić krótko główne modele ewaluacji dostępne w rzeczywistości. Pierwsza część obejmuje modele, które mogą być wykorzystywane przez ewaluatora w celu przeprowadzenia wnioskowania przyczynowego, nawet jeśli nie można powtórzyć warunków eksperymentu idealnego. W drugiej części przedstawione zostaną modele odpowiednie w sytuacjach, w których zadaniem ewaluatora jest dostarczenie opisu programu i jego zakładanych efektów. Modele ewaluacji w podejściu przyczynowym starają się raczej w pewien sposób oszacować sytuację kontrfaktyczną, niż wywnioskować ją jak w przypadku idealnego eksperymentu. Użyteczną metodą klasyfikowania modeli przyczynowości jest postawienie pytania, czy szacunki są dokonane na podstawie (i) tych samych podmiotów w jednym lub kilku poprzednich okresach, czy (ii) grupy podmiotów porównywalnych, np. grupy kontrolnej. Rysunek 4.2. poniżej, przedstawia kryteria, jakie mogą być przydatne podczas wyboru pomiędzy różnymi modelami, które zostaną zaprezentowane. Rysunek 4.2. Kryteria wyboru modelu ewaluacji (podejście przyczynowe) czy jest możliwe utworzenie grupy kontrolnej? czy początkowa identyczność z grupą programową może być zapewniona poprzez przypadkowe przypisanie do grup przed wzięciem udziału w programie? tak czy jest możliwe dokonanie pomiaru szerszej grupy niż ta, z której wybrane zostały osoby biorące udział w programie? nie tak tak nie czy przypisanie do grup może być dokonane na podstawie czynników, które racjonalnie nie mogą być przyczynami zaobserwowanych efektów? rozważ czysty model eksperymentalny tak rozważ model zmiany porównawczej nie rozważ model, który nie jest oparty na grupach kontrolnych lub rozważ podejście opisowe zamiast przyczynowego nie rozpatrz model kryterium populacji czy jest możliwe dokonanie pomiaru beneficjentów programu przed i po wzięciu udziału w programie? tak nie czy jest możliwe dokonanie pomiaru w różnych punktach w czasie? tak czy jest możliwe stworzenie grupy kontrolnej rozważ raczej podejście opisowe zamiast przyczynowego nie czy jest możliwe stworzenie grupy kontrolnej Jedno z podejść opartych na grupach kontrolnych uzyskujemy dzięki czystemu modelowi eksperymentalnemu. Czyste eksperymenty to takie, które w rzeczywistości najbardziej zbliżają się do eksperymentu idealnego. Biorąc pod uwagę problem potencjalnej nieidentyczności grupy programowej i kontrolnej, czyste modele eksperymentalne starają się zapewnić początkową identyczność obu grup poprzez formowanie ich w drodze procesu losowego (np. dzięki wybieraniu nazwisk z kapelusza). Wnioskowanie przyczynowe jest w takich modelach zazwyczaj bardzo uzasadnione, gdyż większość czynników wpływających na efekty poza programem powinna być rozłożona równomiernie pomiędzy obiema grupami – zostały one przecież wybrane w drodze losowania. W praktyce jednak modele takie bardzo trudno jest utworzyć i wdrożyć. Konkretnie, bardzo rzadko ewaluator znajduje się w sytuacji, w której może sam określić przed rozpoczęciem programu, kto ma w nim wziąć udział, a kto nie. Z tego powodu jest prawie niemożliwe zastosowanie czystego modelu eksperymentalnego dla ewaluacji, na przykład, wpływu stypendiów przyznawanych w ramach programu ERASMUS na kariery i postawy jego beneficjentów, gdyż studenci, którzy wzięli w nim udział nie zostali dobrani w sposób losowy. Bardziej praktyczne podejście jest możliwe dzięki wykorzystaniu modelu quasieksperymentalnego. Grupy kontrolne mogą być w nim wykorzystywane, jednak muszą być one utworzone w sposób nie-losowy. Albo też można badać beneficjentów programu przed i po ich udziale w programie. Pierwszy quasi-eksperymentalny, model który zostanie tu przedstawiony jest nazywany modelem przed-i-po. W przypadku tego podejścia porównuje się po prostu sytuację zaobserwowaną po programie z sytuacją istniejącą przed programem, a wszystkie różnice przypisuje się programowi. Przeprowadzenie ewaluacji przed-i-po jest stosunkowo proste, ale związki przyczynowe będą raczej słabe. Zawsze istnieje możliwość, że coś poza programem może stanowić przyczynę wszystkich lub większości zaobserwowanych zmian w czasie. Udoskonaleniem modelu przed-i-po jest model przerywanych serii czasowych. Jak możemy zobaczyć na rysunku 4.2., zakłada on uzyskanie dodatkowych informacji w czasie, przed i po realizacji programu w celu stworzenia serii czasowych obserwacji. Zasadniczo, z większa ufnością możemy stwierdzić, że program był przyczyną pewnych efektów, dzięki zaobserwowaniu, że zmiany mające miejsce po działaniu programu w istotny sposób różnią się od zmian, które wystąpiłyby bez działania programu. Możemy jednak nadal chcieć oprzeć się na grupach kontrolnych, ale akceptując fakt, że muszą zostać stworzone w sposób nie-losowy. Pozwala nam to uczynić model zmiany porównawczej. Dla przykładu, wszystkie osoby, które są kwalifikowalne do uzyskania korzyści z programu w danym regionie lub mieście, mogą stanowić grupę programową, podczas gdy osoby zamieszkałe w innym regionie lub mieście stają się grupą kontrolną. Warunkiem jest tutaj zagwarantowanie, że przypisanie do obu grup odbyło się na podstawie czynników, które nie mogą racjonalnie być przyczyną zaobserwowanych efektów. Jednak zawsze istnieje możliwość wyboru stronniczego. Bardzo często istnieją uzasadnione powody, dla których niektóre osoby uczestniczą w programie, podczas gdy inne, również kwalifikowalne, nie biorą w nim udziału. W przypadku programu ERASMUS, beneficjenci będą mieli raczej wyższe niż średnie wyniki w nauce i będą raczej pochodzić z rodzin o wysokim dochodzie i bardziej otwartych na kontakty międzynarodowe. Nie byłoby stosowne porównywanie studentów programu ERASMUS ze studentami o słabszych wynikach lub pochodzących z rodzin o znacznie niższym statusie społeczno-gospodarczym. Czynniki te mogą dostarczyć alternatywnych wytłumaczeń efektów, które w innym przypadku byłyby przypisane programowi. Model odniesienia do populacji stanowi dalsze udoskonalenie modelu zmiany porównawczej, ponieważ, jak można zobaczyć na rysunku 4.2., nie wymaga on istnienia odrębnej grupy kontrolnej. W modelu zmiany porównawczej zarówno grupa programowa, jak i grupa kontrolna, są dwiema odrębnymi grupami wydzielonymi z większej grupy ludności. W modelu odniesienia do populacji przeciwnie, ta większa grupa ludności stanowi podstawę do porównań. W tym przypadku możliwość stronniczego wyboru ograniczona jest tylko do jednej grupy – grupy programowej. Ewaluator może się jedynie martwić tym, że grupa programowa, nawet bez uczestniczenia w programie, może nie być reprezentatywna w stosunku do całej populacji. Model ten jest szczególnie stosowny w sytuacjach, gdzie ewaluator nie może dowolnie utworzyć grupy kontrolnej, ale dysponuje informacjami dotyczącymi większej populacji, z której została wyodrębniona grupa programowa. 3.1.4 Podejście opisowe do modelu ewaluacji Podejście przyczynowe do modelu ewaluacji jest odpowiednie w sytuacjach, w których ewaluator musi uzyskać uzasadniony, zazwyczaj skwantyfikowany, szacunek sytuacji kontrfaktycznej, w celu ustalenia, czy zaobserwowane zmiany rzeczywiście zostały spowodowane przez program. Nie we wszystkich sytuacjach jest ono jednak odpowiednie. Bardzo często ewaluator ma za zadanie przedstawić szczegółowy opis programu, obejmujący opisowe studium jego zakładanych efektów. W takim przypadku stosowne jest wybranie innego modelu ewaluacji, który nie jest oparty na podejściu przyczynowym. Może wystąpić również inny przypadek, w którym ewaluator stwierdza, że po prostu nie ma warunków niezbędnych do przyjęcia modelu przyczynowego ewaluacji, które, jak widać na rysunku 4.2. są szczególnie trudne do spełnienia. Dla przykładu, wiele programów ma charakter powszechny, to znaczy że wszyscy członkowie kwalifikowalnej grupy są beneficjentami programu (przypadek Wspólnej Polityki Rolnej, gdzie wszyscy kwalifikowalni rolnicy są jednocześnie beneficjentami). W przypadku takich programów model oparty na grupach kontrolnych nie byłby możliwy. Ewaluator może więc zdecydować, że bardziej stosowne będzie tu podejście opisowe. Opisowy model ewaluacji również może dostarczyć wielu użytecznych informacji na temat programu. Jednym z często wykorzystywanych opisowych modeli ewaluacji jest model ex post facto (nie należy mylić go z ewaluacją ex post). Model ten jest wykorzystywany w sytuacjach, w których ewaluator ma ograniczone możliwości dokonywania porównań. Nie może podejmować decyzji, które podmioty będą objęte działaniem programu a które nie, nie może również decydować do jakiego stopnia każdy z nich ma uczestniczyć w programie. Jest to istotne w przypadku programów, które mogą mieć różne poziomy wdrażania, na przykład w różnych regionach. Ponadto ewaluator może dokonać badań beneficjentów dopiero po ich uczestnictwie w programie i stąd termin „ex post facto”. W zasadzie jest jednak możliwe uzyskanie szacunków dotyczących sytuacji kontrfaktycznej. Jeśli wielkość próbki jest dostatecznie duża, można dokonać analizy statystycznej, aby powiązać różne poziomy uczestnictwa w programie z różnicami w zaobserwowanych efektach, kontrolując jednocześnie inne czynniki. Częstym problemem jest jednak fakt, że każda zidentyfikowana relacja może być niepewna i nieprawdziwa. Tym niemniej, modele ex post facto są powszechnie stosowane w celu analizy programów, które były dostępne w przeszłości dla całej populacji (programy o charakterze powszechnym). Istnieje także grupa modeli opisowych, które można nazwać modelami studium przypadku. Studia przypadku są ujęte poniżej jako technika zbierania danych, która może być wykorzystywana w połączeniu z innymi metodami gromadzenia danych. Tym niemniej, często zdarza się, że model ewaluacji opiera się na pogłębionych badaniach jednego lub kilku szczególnych przypadków lub sytuacji. Modele studium przypadku są często wykorzystywane w sytuacjach, w których program poddany ewaluacji jest bardzo złożony lub gdzie konieczne jest pełne zrozumienie, jak działa dany program oraz tam, gdzie konieczne jest wyjaśnienie dużej grupy różnorodnych efektów. Modele studium przypadku oparte na pojedynczym przypadku mogą być odpowiednie w sytuacji, gdy nie ma potrzeby uogólnienia ustaleń (tzn. gdy zbieżność zewnętrzna nie jest problemem) lub gdy konieczna jest szczegółowa analiza jednego specyficznego przypadku lub sytuacji. Prawdopodobnie nie będą one jednak odpowiednie w sytuacjach, w których konieczne jest rozważenie, czy wnioski mogą być zastosowane do większej grupy. W takim przypadku należy odwołać się do modelu ewaluacji opartego na wielu przypadkach. Głównym zadaniem, przed którym stoi ewaluator w takim modelu, jest dokonanie uzasadnionego wyboru przypadków do badania, jednocześnie zapewniając pewien poziom zróżnicowania pomiędzy nimi tak, by były one reprezentatywne. 3.2 Techniki zbierania danych „Najpierw zbierz fakty, a potem możesz je do woli przekręcać” Rudyard Kipling, From sea to sea Relacje pomiędzy danym programem i jego efektami mogą być ustalone tylko wtedy, jeśli dostępne są odpowiednie dane. Dane można zdefiniować jako znane fakty wykorzystywane jako podstawa do wnioskowania. Najbardziej bezpośrednim źródłem danych dotyczących programu powinien zazwyczaj być system monitorowania. Jednak dane pochodzące z tego systemu ograniczają się zazwyczaj do wyników. W większości przypadków nie będą one wystarczające. Wybór techniki gromadzenia danych ma miejsce po wyborze modelu ewaluacji. W tej części przeanalizujemy wybrane podstawowe techniki gromadzenia danych wykorzystywane w ewaluacji programów. Zanim to jednak uczynimy, krótko opiszemy różne sposoby klasyfikacji danych. Przeanalizowane zostaną następujące techniki gromadzenia danych: ankiety, studium przypadku, naturalne obserwacje, opinie ekspertów, analiza dokumentów programu, przeglądy literatury. 3.2.1 Klasyfikacja danych Mówimy o danych subiektywnych, jeżeli dotyczą osobistych uczuć, postaw lub wrażeń oraz o danych obiektywnych, jeśli odnoszą się do obserwowalnych faktów, które, przynajmniej w teorii, nie dotyczą opinii osobistych. Dane określamy mianem kwantytatywnych (ilościowych), jeśli dotyczą obserwacji liczbowych (np. liczba jednostek danego dobra lub usługi wyprodukowanych przez program, wielkość budżetu programu przeznaczonego na osiągnięcie danego celu, liczba beneficjentów programu, poziom objęcia wynikami programu). Dane jakościowe nie są wyrażalne w liczbach i dotyczą kategorii (np. płeć beneficjentów programu, ich umiejscowienie geograficzne, itp.). Zarówno subiektywne jak i obiektywne dane mogą być zmierzone w sposób ilościowy i jakościowy. Zbieranie danych jakościowych dotyczących programu (np. opinii ekspertów, beneficjentów lub administratorów programu) nie stoi w sprzeczności z wymogami analitycznego rygoru, o którym wspomniano na początku tego rozdziału. W rzeczywistości, oprócz faktu, że wiele istotnych aspektów programów nie daje się wyrazić w sposób ilościowy, dane jakościowe mogą być niezbędne dla właściwej interpretacji informacji liczbowych. Ponadto, dane ilościowe, które uchodzą za „obiektywne” mogą okazać się mniej rzetelne, na przykład jeśli popełnione zostały błędy podczas mierzenia istotnych zmiennych (określane mianem błędu pomiarowego). Innym sposobem klasyfikacji danych jest rozróżnienie pomiędzy danymi podłużnymi (longitudinalnymi), zbieranymi w miarę upływu czasu i danymi przekrojowymi, które są zbierane w jednym czasie, ale z różnych obszarów geograficznych. Ostatnią klasyfikacją jest podział na dane pierwotne i dane wtórne. Dane pierwotne są uzyskiwane z pierwszej ręki i zbierane bezpośrednio u źródła. Dane wtórne, z kolei, to dane, które poddane uprzednio zostały pewnym manipulacjom i interpretacji. Dokładność danych powinna być szczególnie ważna zarówno dla tych, którzy ewaluację przeprowadzają, jak i dla tych, którzy ją zlecają. Należy zawsze być świadomym, że istnieje możliwość popełnienia błędu pomiarowego. Ponadto niektóre definicje mogą nie być całkowicie neutralne. W większości ewaluacji wykorzystuje się kombinacji technik zbierania danych zarówno, by rozpracować różnego rodzaju zagadnienia, jak i po to, by słabe strony jednej techniki zostały zrównoważone przez mocne strony innej. Poniżej przeanalizujemy szczegółowo każdą z tych technik. 3.2.2 Badania ankietowe Badania ankietowe są bardzo często wykorzystywane przy przeprowadzaniu ewaluacji. Jest to bardzo dogodny sposób zbierania danych podstawowych, ilościowych lub jakościowych, w oparciu o próbkę wybraną z większej populacji. Podstawowym celem przeprowadzania ankiet jest zagregowanie i uogólnienie rezultatów uzyskanych z próbki na szerszą populację, tak, aby można było wyciągnąć wnioski dotyczące elementów, które nie należą do próbki, a także tych, które należą. Aby było to możliwe, ankiety często opierają się na tzw. próbie losowej, gdzie dla każdego elementu populacji istnieje znane, różne od zera prawdopodobieństwo, że zostanie wybrany do próby. Wnioski z takiego rodzaju próby mogą podlegać projekcji, w granicach błędu statystycznego, na szerszą populację. Informacje uzyskiwane są zazwyczaj za pośrednictwem wywiadów lub ankiet prowadzonych za pomocą samodzielnie wypełnianych kwestionariuszy. Stosuje się trzy podstawowe metody uzyskiwania odpowiedzi na ankiety: za pomocą poczty, telefonu lub osobistych rozmów. Zważywszy że ewaluator musi zagwarantować, uzyskanie jednorodnych danych od każdego elementu próby, informacje będą zasadniczo zbierane w formie pytań zamkniętych, tzn. respondenci wybierać będą spośród wcześniej zdefiniowanych odpowiedzi zawartych na kwestionariuszu lub przedstawionych przez osobę przeprowadzającą wywiady. Wyróżnić możemy dwa główne typy badań ankietowych: • badania przekrojowe– polegają na pomiarze dokonanym w jednym czasie. Badanie przekrojowe jest najkorzystniejsze w przypadku, gdy wymagana jest opisowa informacja dotycząca dużej populacji. Oprócz ich przydatności w uzyskiwaniu informacji faktycznej, badania takie mogą być również wykorzystywana przy badaniu postaw i opinii. Z drugiej strony, trudno jest wykorzystać badania przekrojowe jeśli informacja, której się poszukuje, musi być uzyskana za pomocą pytań pośrednich, badających i gdy pełny obraz wydarzeń i okoliczności musi być złożony z fragmentów otrzymywanych z odpowiedzi na różne pytania od różnych respondentów. • badania panelowe – polegają na pomiarze dokonanym w dwóch lub więcej punktach w czasie. Badania panelowe mogą być szczególnie odpowiednie w sytuacjach, gdy wymagane są raczej informacje dynamiczne (informacje dotyczące zmian) niż statyczne. Mogą one być również wykorzystywane dla celów wnioskowania przyczynowego, np. dla określenia, który z dwóch powiązanych ze sobą czynników jest przyczyną, a który skutkiem. Z drugiej strony, z panelami wiążą się specyficzne trudności administracyjne. Ewaluator musi być świadomy faktu, że skład próby może zmieniać się w czasie i musi unikać błędnego utożsamiania zmian zachodzących w próbie ze zmianami warunków, które są przedmiotem ewaluacji. Wywiady mogą być dogodną metodą gromadzenia danych. Jeśli są przeprowadzone prawidłowo, mogą być źródłem rzetelnych i cennych informacji. Tym niemniej, należy zaznaczyć, że badania tego rodzaju mają liczne wady jako technika zbierania danych. Wymagają wiedzy eksperckiej przy ich projektowaniu, przeprowadzaniu i interpretacji. Jeśli techniki badawcze są błędnie użyte, dane pochodzące z nich będą nierzetelne i nieprzydatne. Istnieje obszerna literatura na temat technik prowadzenia badań ankietowych oraz jak unikać licznych pułapek związanych z wykorzystywaniem wywiadów, takich jak różne formy uprzedzeń i błędów, które mogą wystąpić. 3.2.3 Studia przypadku Studia przypadku polegają na badaniu ograniczonej liczby specyficznych przypadków lub sytuacji, które zdaniem ewaluatora będą znamienne dla programu jako całości. Przeanalizowaliśmy już wykorzystanie studium przypadku jako modelu ewaluacji. W tym rozdziale zajmować się będziemy specyficznym użyciem studium przypadku jako techniki zbierania danych. Jako technika zbierania danych, studium przypadku będzie odpowiednie w przypadkach, w których wybór próbki dostatecznie dużej, by mogła być statystycznie reprezentatywna dla całości populacji, byłby skrajnie trudny; tam, gdzie uogólnienie nie jest istotne; tam gdzie wymagane są pogłębione, zazwyczaj opisowe dane oraz tam, gdzie przypadki lub projekty, które mają zostać zbadane, będą prawdopodobnie bardzo złożone. Zamiast starać się o uzyskanie statystycznie typowej próby (tak jak w przypadku próby losowej przy stosowaniu ankiet), ewaluator będzie próbował uzyskać różnorodność badanych przypadków, w nadziei, że pozwoli to uniknąć stronniczości w skonstruowanym obrazie programu. Metoda wykorzystywana do zagwarantowania różnorodności polega na wyborze przypadków na podstawie wcześniej przyjętej typologii, opisującej główne typy przypadków, które powinny zostać uwzględnione. Wykorzystanie studium przypadków składa się z kilku różnych etapów: • ustalenie typologii przypadków; • wybór przypadków i uzasadnienie tego wyboru za pomocą powyższej typologii; • zgromadzenie wszystkich adekwatnych wiadomości dotyczących każdego z przypadków; • opis przypadków z wyróżnieniem ważnych ustaleń; • porównanie różnych przypadków, które zostały wybrane; • próba uogólnienia, wychodząc z wybranych przypadków, na pozostałe sytuacje. Studia przypadku mają tę przewagę, że pozwalają ewaluatorowi na przeprowadzenie pogłębionej analizy, ale wybrana przez niego próba nie będzie statystycznie miarodajna – i stąd trudno będzie uogólnić wnioski. Przeprowadzenie analizy za pomocą studium przypadków może być bardzo czasochłonne i kosztowne. Ponadto należy podkreślić, że badacz zazwyczaj nie będzie wiedział, czy dane studium przypadku jest reprezentatywne, dopóki go nie przeprowadzi. 3.2.4 Obserwacje z natury Ta technika gromadzenia danych zakłada, że ewaluator udaje się z wizytą na miejsce, gdzie realizowany jest program i bezpośrednio obserwuje co się dzieje. Dane z obserwacji mogą być wykorzystywane do opisu ram programu, działań, które w tych ramach mają miejsce, osób uczestniczących w tych działaniach (które mogą, ale nie muszą być świadome tego, że są obserwowane) oraz znaczenia tych działań dla danych osób. Wartość obserwacji z natury polega na tym, że ewaluator może lepiej zrozumieć działania i efekty programu jeśli bezpośrednio obserwuje, co się dzieje i w jaki sposób ludzie na to reagują. Ewaluator będzie również miał szansę zobaczyć rzeczy, które mogą umknąć administratorom programu lub takie, o których niechętnie mówi się podczas wywiadów. Z drugiej strony zarówno wewnętrzna jak i zewnętrzna zbieżność uzyskanych danych może być ograniczona, ponieważ inna osoba przeprowadzająca taką samą wizytę na miejscu mogłaby poczynić inne obserwacje niż ewaluator. Ponadto, występuje tu specyficzny problem, zwany efektem Hawthorne, który przypomina nam, że personel programu i beneficjenci mogą zachowywać się zupełnie inaczej niż zazwyczaj, jeśli wiedzą że są obserwowani (zob. ramka 4.1. poniżej). Ramka 4.1. Efekt Hawthorne W późnych latach dwudziestych i wczesnych trzydziestych XX wieku, badania przeprowadzone w fabryce w Hawthorne, w Chicago, wykazały, że produkcja wzrastała tylko dlatego, że eksperymenty, które zostały tam prowadzone przekonały pracowników, że zarząd troszczy się o nich. Wyrażenie efekt Hawthorne używane jest na określenie sytuacji, w której eksperymentowi nie można ufać, gdyż sam fakt, że został on przeprowadzony, ma wpływ na uzyskane rezultaty. Naukowcy badający skutki działania nowego leku często stosują go na grupie badanej, podczas gdy grupie kontrolnej podają placebo nie wywołujące skutków. Żadna z grup nie wie, czy to co otrzymuje jest rzeczywistym lekarstwem czy też jest to placebo, w celu wyeliminowania efektu Hawthorna. W praktyce jednak, rzadko kiedy można być tego całkowicie pewnym. 3.2.5 Opinie ekspertów Opinie ekspertów opierają się na subiektywnych z konieczności opiniach osób będących ekspertami w danej dziedzinie jako źródle danych stanowiących podstawę odpowiedzi na zagadnienia ewaluacji. Eksperci wybierani są na podstawie ich kwalifikacji oraz wiedzy i doświadczenia w danej dziedzinie. Istnieją różne sposoby systematyzowania opinii ekspertów, np. metoda delficka, licznik Régniera. Ze względu na oszczędność miejsca zostały one zdefiniowane w słowniku, stanowiącym Aneks nr 1 do przewodnika. Uzyskiwanie opinii ekspertów jest specyficznym przypadkiem badań ankietowych, więc uwagi dotyczące badań przedstawione w punkcie 4.2.2. powyżej będą miały zastosowanie również tutaj. Jednak jako technika zbierania danych, opinie ekspertów mają pewne specyficzne mocne i słabe strony. Do mocnych stron tej techniki należy fakt, że opinie ekspertów mogą być wykorzystywane do pomiarów w obszarach, w których występuje deficyt obiektywnych danych. Ponadto jest to stosunkowo szybka i niezbyt kosztowna technika. Z drugiej strony, podobnie jak w przypadku innych ocen subiektywnych, występuje przy niej problem wiarygodności. Ewaluator może mieć trudności z wyborem dostatecznie szerokiej lub dostatecznie dużej grupy ekspertów, by stanowiła ona wiarygodne źródło danych. Poszczególne strony uczestniczące mogą podważać opinie różnych ekspertów. W każdym wypadku, jest raczej niemożliwe, by wszyscy eksperci dysponowali identyczną wiedzą dotyczącą danego obszaru, konieczne więc jest wprowadzenie swoistego systemu wag. Ponadto, może dojść do sytuacji, w której opinie niektórych, najbardziej wymownych, ekspertów będą się wyróżniały, chociaż opinie te nie będą reprezentatywne dla całości grupy (chatty bias). Z tych powodów należy unikać wykorzystywania opinii ekspertów jako jedynego źródła danych. 3.2.6 Przegląd dokumentów programu Ewaluator jest zazwyczaj w stanie uzyskać informacje na temat programu poddawanego ewaluacji poprzez analizę ogólnych dokumentów dotyczących programu, jego protokołów administracyjnych i finansowych, a także dokumentów szczegółowych projektów. W ten sposób może on zidentyfikować braki w dostępnych danych wtórnych i uzupełnić je wykorzystując metody gromadzenia danych pierwotnych. Przegląd dokumentów programu może dostarczyć ewaluatorowi bardzo precyzyjnych informacji dotyczących okoliczności programu oraz jego otoczenia i w ten sposób umieścić efekty programu w odpowiednim kontekście. Może to stanowić użyteczne ramy i podstawę do dalszego gromadzenia danych pierwotnych. Ponadto, przeglądy dokumentów programu są stosunkowo szybką i tanią metodą gromadzenia danych. Jednak zazwyczaj będą one rzucały światło tylko na wyniki programu, a nie jego rezultaty i oddziaływanie. W praktyce też rzadko kiedy dostarczają informacji na temat grup kontrolnych. 3.2.7 Przeglądy literatury Kolejnym źródłem danych wtórnych są przeglądy literatury, które umożliwiają ewaluatorowi optymalne wykorzystanie wcześniej przeprowadzonych prac w terenie i dzięki temu naukę na podstawie doświadczenia i ustaleń osób, które wykonywały już podobne lub pokrewne zadania w przeszłości. W badaniach literatury możemy wykorzystać dwa rodzaje dokumentów. Do pierwszego należą opublikowane dokumenty, raporty i opracowania przygotowane przez naukowców, ekspertów i instytucje urzędowe. Do drugiego – szczegółowe badania w danej dziedzinie, w tym wcześniejsze ewaluacje. Przegląd literatury stanowi stosunkowo oszczędny i efektywny sposób gromadzenia danych wtórnych. Ponadto wcześniejsze badania mogą sugerować hipotezy do zweryfikowania i specyficzne techniki pozwalające na przezwyciężenie trudności metodologiczne a także zagadnienia ewaluacji, które powinny zostać przeanalizowane w trakcie aktualnego badania. Słabości tej metody związane są z wewnętrzną naturą danych wtórnych. Dane mogą nie dotyczyć lub być niedostatecznie spójne z zagadnieniami ewaluacji, by mogły być przydane w aktualnym badaniu. Ponadto dokładność danych wtórnych jest często trudna do określenia. Jeśli synteza badań została już przeprowadzona jako część projektu ewaluacji (por. punkt 3.2.5.), ewaluator powinien mieć tego świadomość. W przeciwnym razie istnieje ryzyko powtarzania się. 3.3 Techniki analizy danych Ewaluacja jest zasadniczo zajęciem analitycznym. Obejmuje ona analizę zebranych danych zgodnie z przyjętym modelem ewaluacji i techniką gromadzenia danych w celu sformułowania wiarygodnej oceny programu. Zrozumienie technik wykorzystywanych do analizy danych dotyczących ewaluacji jest kluczowe dla wyciągania trafnych wniosków na temat programu. Niniejszy rozdział przedstawia w skrócie niektóre podstawowe techniki analizy danych, które mogą być wykorzystywane w ewaluacji. Zważywszy że niektóre z zaproponowanych metod są bardzo złożone, nie jest możliwe zamieszczenie tu niczego ponad powierzchowne przedstawienie różnych technik oraz ich słabych i mocnych stron. 3.3.1 Analiza statystyczna Wykorzystanie statystyki jako metody analizy danych jest bardzo częste w ewaluacji. Analiza statystyczna jest powszechnie używana dla opisania zjawisk w sposób zwięzły i przejrzysty. Podejście to jest znane jako statystyka opisowa. Może ona być również wykorzystywana do badania związków pomiędzy zmiennymi oraz uogólniania ustaleń na szerszą populację. Określa się to mianem wnioskowania statystycznego. Sprawozdanie z wyników ewaluacji prawie zawsze obejmuje wykorzystanie w pewnym stopniu statystyki opisowej. Oprócz przedstawiania i opisywania danych w formie tabel i wykresów, ewaluator często wykorzystuje takie powszechne pojęcia ze statystyki jak średnia i odchylenie standardowe. Średnia wskazuje nam przeciętną wartość dla zestawu wielkości. Przykładowo możemy chcieć poznać średnią liczbę tygodni zanim długoterminowy bezrobotny znajdzie nową pracę po ukończeniu programu szkoleniowego. Odchylenie standardowe jest miarą rozproszenia. Przypuśćmy, że jesteśmy zainteresowani porównaniem dwóch różnych programów szkoleń skierowanych do dwóch odrębnych grup długoterminowych bezrobotnych. W przypadku pierwszego programu wielu bezrobotnych znalazło pracę natychmiast po zakończeniu szkolenia, podczas gdy wielu innych znalazło ją dopiero po upływie ponad roku. W przypadku drugiego programu, większość bezrobotnych znalazła nową pracę po upływie od czterech do ośmiu miesięcy po ukończeniu szkolenia. Przeciętny czas potrzebny na znalezienie nowej pracy przez bezrobotnego może być jednakowy dla obu programów (tzn. że mogą mieć identyczną średnią), ale jest oczywiste, że odchylenie standardowe w przypadku pierwszego programu jest większe, ponieważ wartości są bardziej rozproszone wokół średniej. Jest wiele innych metod statystycznych, które mogą być wykorzystane w celu opisu danych. Poza statystyką opisową, ewaluatorzy używają również metody wnioskowania statystycznego w celu ustalenia relacji pomiędzy zmiennymi, oszacowania stopnia widocznych zależności relacji oraz uogólnienia wniosków na szerszą populację. Dla przykładu przypuśćmy, że chcielibyśmy wiedzieć, czy różnica w liczbie wypadków drogowych w dowolnym dniu pomiędzy dwoma miastami o podobnej wielkości jest przypadkowa, czy też istnieją w rzeczywistości różnice systematyczne, które należy wyjaśnić. Jedną z technik powszechnie wykorzystywanych w statystyce jest analiza wariancji (ANOVA – ANalyse Of VAriance), która polega na porównaniu zmiennych między próbami oraz zmiennych w próbach. Aby utworzyć nasze dwie próbki, policzymy liczbę wypadków drogowych w dwóch miastach w określonej liczbie dni. Pozwoli nam to na porównanie wariancji wypadków drogowych pomiędzy miastami z wariancją wypadków drogowych w ramach każdego z miast. Metody takie jak analiza regresji mogą być wykorzystane dla ustalenia siły zależności (korelacji) pomiędzy interesującymi nas zmiennymi, np. płci długoterminowego bezrobotnego i ilości czasu zanim on lub ona znajdą nową pracę po ukończeniu programu szkoleniowego. W analizie regresji staramy się ustalić, czy wariancja jednej zmiennej (określanej jako zmienna zależna) może być wyjaśniona wariancją jednej lub kilku innych zmiennych (określanych jako zmienne niezależne). Zmienna zależna ma często charakter ilościowy, np. dochód danej osoby może być związany z poziomem jego wykształcenia, liczbą godzin pracy w tygodniu, wieku, itp. Specjalne techniki mogą być wykorzystane w sytuacji, w której zmienna zależna ma charakter jakościowy, np. gdy fakt, że dana osoba posiada lub nie posiada samochodu może być zależny od jej dochodu, zamożności, wieku, płci, itp. Należy zauważyć, że korelacja nie implikuje przyczynowości. Przyczynowość, w powszechnym znaczeniu tego terminu, nigdy nie może zostać udowodniona statystycznie, choć może być bardzo silnie sugerowana. W przypadku analizy wariancji, opisanej powyżej, nie możemy udowodnić, że różnica w liczbie wypadków na drogach zaobserwowana pomiędzy dwoma miastami wynika z faktu, że tylko jedno z nich korzystało z kampanii w sprawie bezpieczeństwa na drogach. Zadaniem ewaluatora jest przedstawienie przekonujących argumentów, które pozwolą na odrzucenie możliwych do przyjęcia alternatyw (zagrożeń dla zbieżności wewnętrznej) dla programu jako przyczyn zaobserwowanych efektów. Mocną stroną analizy statystycznej jako techniki zbierania danych jest fakt, że stanowi ona uprawniony sposób oceny wiarygodności statystycznej, która pozwala ewaluatorowi na wyciągnięcie wniosków z danych i pozwala na podsumowanie ustaleń ewaluacji w sposób jasny, przejrzysty i rzetelny. Z drugiej strony jednak nie wszystkie efekty programów można analizować za pomocą statystyki. Ponadto dobra analiza statystyczna wymaga pewnego poziomu wiedzy eksperckiej. Sposób klasyfikowania danych może zarówno zacierać, jak i ukazywać istotne różnice. Użytkownicy analizy statystycznej muszą być świadomi tych założeń, a także ograniczeń przyjętej techniki statystycznej, jak również innych problemów związanych z rzetelnością i wiarygodnością opracowywanych danych. 3.3.2 Wykorzystanie modeli Kolejnym stopniem wykorzystania metod statystycznych jest opracowanie przez ewaluatora modelu analitycznego w celu przedstawienia, w jaki sposób program wpływa na istotne zmienne społeczno-gospodarcze. Modele takie są zazwyczaj opracowywane na podstawie poprzednich badań. Możemy wyróżnić następujące główne typy modeli: • modele wejścia-wyjścia – pozwalają badaczowi na systematyczną analizę powiązań pomiędzy różnymi częściami gospodarki, zważywszy, że nakłady jednej gałęzi działalności mogą być traktowane jako produkty innej gałęzi; • modele mikroekonomiczne – przeznaczone są do badania zachowania się gospodarstw domowych i przedsiębiorstw w specyficznych gałęziach działalności i rynkach, przy pomocy równań, które przedstawiają funkcje popytu i podaży dla danego dobra lub usługi; • modele makroekonomiczne – wykorzystywane są do modelowania zachowania gospodarki jako całości oraz ewolucji w czasie istotnych zmiennych makroekonomicznych (takich jak inflacja, poziom zatrudnienia, wzrost gospodarczy i bilans handlowy); • modele statystyczne – często wykorzystywane są dla badania związków pomiędzy poszczególnymi efektami programu. Są one bardziej elastyczne niż inne rodzaje modeli, ale mniej nadają się do uogólnień. Wykorzystując modele w ewaluacji należy pamiętać przede wszystkim, że bardzo ważne jest określenie założeń, na których oparty jest dany model, w celu właściwego zrozumienia i interpretacji uzyskanych dzięki niemu informacji. Modele są uproszczonym przedstawieniem rzeczywistego świata. Uproszczenie jest niezbędne w celu wyodrębnienia i skoncentrowania się na efektach programu. Jednak uproszczenie może również prowadzić do błędnej interpretacji. Ewaluator musi wykazać się zdrowym rozsądkiem, aby odpowiednio wykorzystać model. Szczególny problem dotyczący modeli makroekonomicznych stanowi ich chwiejność. Innymi słowy mała zmiana w założeniach leżących u podstaw modelu może powodować uzyskiwanie bardzo różnych wyników. W celu rozwiązania tego problemu zazwyczaj przeprowadza się analizę wrażliwości. Innym rozwiązaniem jest wykorzystanie kilku różnych modeli w celu przekonania się, czy ich wyniki są zbieżne. 3.3.3 Analiza niestatystyczna Analiza niestatystyczna przeprowadzana jest w większości przypadków na podstawie danych jakościowych i zazwyczaj wykorzystywana w połączeniu z analizą statystyczną danych ilościowych. Użycie analizy niestatystycznej powinno obejmować ocenę rzetelności wszystkich ustaleń uzyskanych na podstawie tych metod. Ponadto ewaluator powinien wykazać się profesjonalnym rozsądkiem dla oceny trafności i ważności dostępnych danych dla odpowiednich zagadnień ewaluacji. Podstawowe zalety analizy niestatystycznej polegają na tym, że przy jej użyciu może być rozpatrywanych wiele zagadnień i pojęć, które trudno jest skwantyfikować, i że możliwe jest osiągnięcie bardziej ogólnego punktu widzenia, często przy stosunkowo niewielkich kosztach. Główną jej wadą jest to, że wnioski oparte na analizie niestatystycznej będą zależeć od wiarygodności ewaluatora i logiki argumentów, które przedstawi. W każdym przypadku wnioski oparte wyłącznie na analizie niestatystycznej są mniej wiarygodne niż wnioski oparte na różnych metodach analizy. 3.3.4 Techniki oceny Na zakończenie rozpatrzymy trzy specyficzne techniki analityczne, które mogą być wykorzystywane do formułowania ocen na temat programów. Ich użycie jest częstsze w ewaluacji ex-ante, ale często stanowią przydatny sposób formułowania sądów w ewaluacji cząstkowej i ewaluacji ex post. Te trzy techniki to: analiza kosztów i korzyści (cost-benefit analysis), analiza gospodarności (kosztów i skuteczności - cost-effectiveness analisys) oraz analiza wieloczynnikowa (multi-criteria analysis). W analizie kosztów i korzyści badacz porównuje wszystkie społeczne i prywatne koszty i korzyści programu w celu określenia, czy korzyści przewyższają koszty i jeśli tak, to w jakim stopniu. Główną trudność napotykaną w tym podejściu stanowi ocena społecznych kosztów i korzyści. Społeczne koszty (takie jak utrata obszaru o wyjątkowych walorach przyrodniczych) i społeczne korzyści (takie jak zmniejszenie liczby wypadków drogowych) powinny zasadniczo być mierzone za pomocą środków pośrednich, a następnie przekształcane w jednostki monetarne, tak aby możliwe było porównanie z kosztami i korzyściami prywatnymi. Co więcej, w wielu przypadkach nie będzie właściwe posługiwanie się aktualnymi cenami rynkowymi. Rozpatrzmy sytuację, w której mamy do czynienia z bardzo wysokim bezrobociem. W takim przypadku rzeczywiste koszty pracy mogą być znacznie niższe niż aktualna rynkowa cena pracy. Rozwiązanie alternatywne (praca za zaniżoną płacę - drugie najlepsze rozwiązanie dla bezrobotnych osób w przypadku, gdyby projekt nie doszedł do skutku – niektórzy i tak znaleźliby pracę, ale wielu pozostałoby bezrobotnymi) jest niższa niż rynkowy poziom płacy i to rozwiązanie alternatywne musi zostać przedstawione jako cena pozorna (shadow price), którą należy w jakiś sposób wyprowadzić. Ponadto, gdy ustali się wyrażone w jednostkach monetarnych wartości wszystkich społecznych i prywatnych kosztów i korzyści należy je zdyskontować do wspólnego punktu w czasie. Stosowna stopa procentowa, która może być wykorzystana do dyskontowania różnych kosztów i korzyści, powinna być wybierana w sposób bardzo ostrożny. W analizie gospodarności (kosztów i skuteczności) badacz stara się skwantyfikować koszty i korzyści związane z programem w oparciu o te same zasady, które stosuje się do analizy kosztów i korzyści, ale w tym przypadku nie ma konieczności przekształcenia korzyści w wartości wyrażalne w jednostkach monetarnych. Analiza gospodarności programu dotyczącego świadomości bezpieczeństwa na drogach, o którym była mowa poprzednio, mogłaby wykazać, że każde 1000 Euro wydatków programu powoduje zmniejszenie się liczby wypadków rocznie średnio o X. W tym przypadku, w przeciwieństwie do analizy kosztów i korzyści, nie wymaga się przekształcenia korzyści (zmniejszenia się liczby wypadków drogowych) w jednostki monetarne. To, czy program jest gospodarny, zależy od tego, czy program ten jest lepszy niż program konkurencyjny w osiąganiu celów przy niższych kosztach. Na przykład, jeśli celem jest zmniejszenie liczby wypadków drogowych na danym obszarze o określoną wielkość, poziom kosztów związanych z osiągnięciem tego celu poprzez kampanię dotyczącą świadomości bezpieczeństwa drogowego mógłby być porównany z osiągnięciem tego celu poprzez ograniczenie dopuszczalnej prędkości lub poprzez zamontowanie większej liczby świateł drogowych, powiększenie stref ruchu pieszego lub zwiększenie liczby progów zwalniających. Z tego powodu analiza gospodarności jest szczególnie przydatną techniką, gdy chodzi o porównanie różnych sposobów osiągnięcia tych samych celów. Poza problemami metodologicznymi, o których wspomnieliśmy wyżej, należy podkreślić, że ani analiza kosztów i korzyści, ani analiza gospodarności nie może być wykorzystywana w celu wyjaśnienia konkretnych rezultatów lub konsekwencji. Nie mogą one również dostarczyć wskaźników dotyczących efektów dystrybucji programu, tzn. tego kto traci, a kto zyskuje i jak wiele. Analiza wieloczynnikowa, stanowiąca przede wszystkim narzędzie podejmowania decyzji, które może być zaadaptowane do celów formułowania ocen dotyczących programu, różni się od metod przedstawionych powyżej. Analiza wieloczynnikowa pozwala na sformułowanie oceny na podstawie wielu kryteriów, które mogą nie mieć wspólnej skali i mogą różnić się względnym ciężarem gatunkowym. Rozpatrzmy każdy z tych elementów po kolei. Programy powodują zazwyczaj wiele różnych efektów. Jeśli naszym zadaniem jest sformułowanie oceny programu, oznacza to, że musimy wziąć pod uwagę te różnorodne efekty (np. stopień osiągnięcia każdego ze szczegółowych celów programu). Problem polega na tym, jak połączyć szacunki tych efektów, w sytuacji, gdy nie mają one wspólnej skali, np. w przypadku programów funduszy strukturalnych zazwyczaj jesteśmy zainteresowani efektami w dziedzinie zatrudnienia (liczba utworzonych miejsc pracy, liczba utrzymanych miejsc pracy), w dziedzinie przedsiębiorstw (liczba nowopowstałych MSP), w dziedzinie środowiska itd. Jak można doprowadzić do połączenia wszystkich tych efektów w celu sformułowania oceny na temat programu jako całości? Kolejnym problemem może być to, że niektóre z tych kryteriów są ważniejsze niż inne. Technika analizy wieloczynnikowej pozwala osobom podejmującym kluczowe decyzje na przypisanie punktów dla poszczególnych kryteriów stanowiących podstawę oceny programu, które następnie mogą zostać zmierzone i użyte do ustalenia ogólnej oceny programu. Analiza wieloczynnikowa używana jest w kontekście UE w przypadku funduszy strukturalnych, ale nie może być bezpośrednio przeniesiona na inne sytuacje podlegające ewaluacji. Tym niemniej, technika ta jest przydatna. Gdzie szukać dalszych informacji? Literatura poświęcona modelom ewaluacji jest dość obszerna, ale dwa najbardziej przydatne teksty to Mohr (1995) i Treasury Board of Canada (1991). Drugi z nich zawiera również wartościową dyskusję dotyczącą różnych technik zbierania i analizy danych opisanych w niniejszym przewodniku, a także doskonałą bibliografię. Podstawowym punktem odniesienia dla wykorzystania studium przypadku jest Yin (1994). Nie jest możliwe podanie w tym miejscu pełnej listy tekstów wprowadzających do statystyki. Dobrym punktem wyjścia może być zapoznanie się z bibliografią tekstów dotyczących ewaluacji. Podręcznik MEANS, tom 4, nt. zastosowania metody wieloczynnikowej do ewaluacji programów strukturalnych, stanowi przydatne wprowadzenie do tej metody w specyficznym kontekście funduszy strukturalnych. __________________________________________________________________________________________ 4 Raportowanie i rozpowszechnianie ewaluacji Jak wskazaliśmy w rozdziale 1, ewaluacja różni się od typowych badań naukowych tym, że jej celem jest użyteczność na poziomie operacyjnym. Użyteczność ewaluacji zależeć będzie od jej ustaleń, wniosków i rekomendacji, a także od jakości raportu i tego, jak dobrze został rozpowszechniony. Raportowanie ma miejsce w momencie przekazywania ewaluacji przez ewaluatora (zazwyczaj w formie sprawozdania z działań i rezultatów) zleceniodawców ewaluacji oraz gdy z kolei te osoby przekazują kopię (lub streszczenie) innym zainteresowanym podmiotom w Komisji, w tym w innych służbach. Rozpowszechnianie odnosi się do zestawu działań, dzięki którym wiedza na temat ewaluacji zostaje udostępniona szerokiej opinii publicznej. Niniejszy rozdział ukazuje, jak raportowanie i rozpowszechnianie ewaluacji może przyczynić się do jej wykorzystania. Pomimo że zagadnienia raportowania i rozpowszechniania ewaluacji pozostawiono na ostatni rozdział, zleceniodawcy ewaluacji powinni zacząć myśleć o strategii komunikacyjnej dotyczącej rezultatów w tym samym czasie, gdy zaczynają planować samą ewaluację. 4.1 Optymalizacja wykorzystania ewaluacji W tej sekcji przeanalizujemy niektóre praktyczne metody gwarantujące optymalne wykorzystanie ewaluacji. Pierwszym warunkiem jest ukierunkowanie przekazu w zależności od odbiorców. Może się to wydawać oczywiste, ale często jest pomijane, gdy dochodzi do prezentowania i rozpowszechniania ewaluacji. Tak więc kiedy myślimy o optymalizacji potencjalnego wykorzystania ewaluacji, powinniśmy mieć jasne pojęcie o potrzebach potencjalnych użytkowników ewaluacji w zakresie informacji. Wspomniane potrzeby informacyjne będą się różnić, zależnie od tego, czy ewaluacja została przeprowadzona: • w celu usprawnienia zarządzania, • dla przyczyn odpowiedzialności, • w celu wsparcia alokacji zasobów budżetowych. Raport z ewaluacji, której zadaniem było przede wszystkim usprawnienie zarządzania programem powinien być opracowany z myślą o odbiorcach posiadających specjalistyczną wiedzę. Przykładowo, można sobie w takiej sytuacji pozwolić na poczynienie pewnych skrótów i zawarcie bardziej technicznych kwestii niż w większości raportów ewaluacyjnych. Jednak może również wystąpić konieczność zawarcia w nim streszczenia o charakterze nietechnicznym, sformułowanego na przykład w bardziej opisowy sposób, dostępnego dla użytkowników, którzy nie są bezpośrednio zaangażowani w proces zarządzania programem i którym brakować może specjalistycznej wiedzy. Ewaluacja przeprowadzona dla przyczyn odpowiedzialności lub w celu wsparcia alokacji zasobów budżetowych zazwyczaj będzie miała szerszy i bardziej różnorodny krąg użytkowników. Dla przykładu, osoby podejmujące kluczowe decyzje mogą nie mieć ani czasu, ani ochoty na czytanie złożonych analiz. W takiej sytuacji konieczne może być opracowanie szeregu dokumentów przedstawiających te same zagadnienia, a różniących się stylem opisu. W każdym razie jest bardzo ważne, by dysponować odrębnym streszczeniem, które może służyć zaspokojeniu potrzeb informacyjnych wyższych urzędników Komisji, komisarzy, przedstawicieli Rady, członków Parlamentu Europejskiego i mediów. Drugim warunkiem jest zapewnienie, by raporty z ewaluacji były dostępne w wyznaczonym czasie. Innymi słowy, zleceniodawcy ewaluacji powinny zapewnić przygotowanie raportów wtedy, gdy prawdopodobnie będą one najbardziej przydatne (np. w momencie, w którym mogą przyczynić się do podjęcia decyzji o odnawianiu lub nie danego programu). Obejmuje to odpowiednio wcześniejsze planowanie oraz przygotowanie realistycznych symulacji tego, co musi być zrobione by zmieścić się w założonych terminach. Aby pomóc służbom Komisji w realizacji tego zadania, przyjęty 8 maja 1996 r. przez Komisję Komunikat w sprawie Ewaluacji nałożył na wszystkie wydziały operacyjne obowiązek wprowadzenia ich własnych harmonogramów zadań dotyczących ewaluacji. W harmonogramach tych powinny zostać zamieszczone planowane w okresie najbliższych dwóch lat ewaluacje, należy również dostarczyć informacji na temat decyzji, do podjęcia których przyczynić się mają planowane ewaluacje. Ostatnim warunkiem jest konieczność włączenia stron uczestniczących w projektowanie ewaluacji. Ewaluator oraz zleceniodawcy ewaluacji mogą zwiększyć potencjalną użyteczność ewaluacji poprzez zapewnienie szerszego uczestnictwa w projektowaniu ewaluacji. Celem jest nie tylko zagwarantowanie wzięcia pod uwagę interesów różnych stron uczestniczących, ale także poinformowanie ich o przyszłych planach wykorzystania i rozpowszechnienia ewaluacji. Stanowi to kontynuację idei ewaluacji, jako procesu włączającego, jak zostało to przedstawione w rozdziale 3. 4.2 Przedstawianie raportu z ewaluacji Raport z ewaluacji stanowi końcowy produkt samej ewalucji. Ważne jest, by był on dobrze napisany i dobrze przedstawiony. 4.2.1 Struktura raportu z ewaluacji Raport z ewaluacji powinien posiadać logiczną strukturę. W wielu przypadkach precyzyjna struktura (a czasem również długość) oczekiwanego raportu będzie z góry szczegółowo opisana w warunkach kontraktu. Ramka 5.1 poniżej przedstawia typową strukturę raportu z ewaluacji. Należy pamiętać, że nie ma jednej uniwersalnej struktury raportu z ewaluacji (choć wiele Dyrekcji Generalnych i służb Komisji ma własne ulubione układy raportów). Przeciwnie, struktura raportu powinna raczej odpowiadać potrzebom zleceniodawców ewaluacji, a także najważniejszym stronom uczestniczącym. W przypadku dużych programów, dla których zadanie ewaluacji ma być podzielone pomiędzy kilku ewaluatorów zewnętrznych (np. w podziale na kraje lub regiony), jest oczywiście bardzo pomocne, jeśli raporty mają wspólną strukturę, co ułatwia ich czytanie i przygotowanie syntetycznego raportu ogólnego. Stwierdzając, że nie ma jednej możliwej do powszechnego zastosowania struktury raportu, trzeba jednocześnie podkreślić wagę faktu, że wszystkie raporty powinny zawierać streszczenie nie przekraczające 5 stron. Najlepiej byłoby gdyby zostało ono zamieszczone na początku raportu. Powinno być także możliwe rozpowszechnianie tego streszczenia jako samodzielnego dokumentu. Do obowiązków jednostki ewaluacyjnej (lub urzędnika odpowiedzialnego za ewaluację) w każdej DG lub służbie Komisji należy przekazanie kopii streszczenia każdej ewaluacji do DG XIX. Użyteczne jest także zamieszczenie w raporcie kopii warunków kontraktu. Ramka 5.1 Przykład struktury raportu z ewaluacji Strona tytułowa • tytuł i rodzaj ewaluacji (np. ex post) • tytuł programu, generacja, czas trwania • wskazanie autora, daty przedstawienia, zleceniodawcy opracowania raportu Spis treści • główne rozdziały i podrozdziały • spis zestawień liczbowych i wykresów Streszczenie • streszczenie całości raportu nie przekraczające 5 stron • analiza mocnych i słabych stron wybranego modelu ewaluacji Wstęp • • • • opis programu w kategoriach potrzeb, celów, logiki działania, etc. kontekst w jakim realizowany jest program cel ewaluacji w kategoriach zakresu i głównych zagadnień ewaluacyjnych opis podobnych badań przeprowadzonych we wcześniejszym okresie Metodologia badań • model badawczy • realizacja badania i zbieranie danych • analiza danych Rezultaty ewaluacji • ustalenia • wnioski • rekomendacje Aneksy • warunki kontraktu • dodatkowe zestawienia • przypisy i źródła • słownik terminów 4.2.2 Przejrzystość raportu z ewaluacji Aby ewaluacja była skuteczna, musi zostać zrozumiana. Odpowiedzialność za to ponosi przede wszystkim ewaluator, ale zleceniodawcy ewaluacji mogą znaleźć się w sytuacji, gdy będą musieli bronić raportu przed stronami uczestniczącymi lub innymi odbiorcami, a więc część odpowiedzialności spada również na nich. Potencjalny czytelnik raportu z ewaluacji musi być w stanie zrozumieć: • cel ewaluacji; • co dokładnie było poddane ewaluacji; • w jaki sposób ewaluacja została zaprojektowana i przeprowadzona; • do jakich ustaleń doszli autorzy raportu; • jakie wnioski zostały wyciągnięte; i • jakie ewentualne rekomendacje zostały poczynione. Redagowanie raportu z ewaluacji może stanowić trudne zadanie, ponieważ wymaga ono stosowania różnych stylów pisania w odniesieniu do różnych części raportu: części metodologicznej, opisu programu i jego efektów, wniosków wyciągniętych z poprzednich badań, analizy opartej na nowych ustaleniach oraz wynikających z nich wniosków i rekomendacji. Z jednej strony, raport powinien dostarczać wystarczających informacji podanych w ściśle analityczny sposób, by stanowić solidną podstawę dla wniosków i rekomendacji. Z drugiej strony, raport powinien być zrozumiały dla inteligentnego nie-specjalisty. Oznacza to ograniczenie do niezbędnego minimum języka technicznego, a także konieczność objaśniania pojęć technicznych lub nieznanych powszechnie. Pod tym względem przydane byłoby zamieszczenie w formie aneksu słowniczka terminów oraz innych technicznych zagadnień . Jest prawdopodobne, że tylko niewielu spośród docelowych odbiorów przeczyta raport w całości. Dlatego bardzo ważne jest, by streszczenie zostało napisane jak najlepiej. Często pojawia się problem polegający na tym, że streszczenia są przygotowywane w pośpiechu i dają czytelnikowi słabe pojęcie o argumentach i analizach zawartych w głównym raporcie. Innymi słowy, nie są to ani prawdziwe „streszczenia”, ani nie pozwalają podejmować na ich podstawie decyzji „wykonawczych”. Poniżej znajduje się lista problemów, które mogą szkodzić przejrzystości raportu: • opis programu poddanego ewaluacji nie jest dostatecznie szczegółowy (tzn. taki, który pozwala każdemu kto czyta raport z ewaluacji, poznać program i uzasadnienie jego działania); • metody wykorzystane przy ewaluacji w celu zbierania i analizy danych nie zostały opisane, a wybór zastosowanych metod oraz ich mocne i słabe strony uzasadnione; • informacje prezentowane są bez podania źródła pochodzenia; • dokonywanie ustaleń, które nie są oparte na wystarczających dowodach; • wyciągane wnioski nie są uzasadnione (tzn. nie są systematycznie wspierane przez ustalenia), przez co niezależny czytelnik nie może ocenić ich prawomocności; • udzielanie rekomendacji, które nie są adekwatne do wyciągniętych wniosków. 4.3 Rozpowszechnianie ewaluacji Rozpowszechnianie obejmuje cały zakres działań, poprzez które informacje zawarte w raporcie z ewaluacji stają się dostępne dla szerszego grona odbiorców. Poniżej znajduje się lista grup stron uczestniczących, które potencjalnie mogą być odbiorcami ewaluacji: • najważniejsze osoby odpowiedzialne za ukierunkowywanie polityki i podejmowanie decyzji – w przypadku ewaluacji programów UE, grupa ta może obejmować Komisję, Parlament Europejski, Radę oraz administrację narodową; • zleceniodawcy programu (program sponsors) – zazwyczaj jednostka w zarządzającej Dyrekcji Generalnej lub służbie, która jest odpowiedzialna za zainicjowanie i finansowanie programu poddanego ewaluacji; • zleceniodawcy ewaluacji (evaluation sponsors) – organizacje, które inicjują i finansują ewaluację. (Uwaga: grupa ta może być tożsama z grupą zleceniodawców programu, zależnie od specyficznych uregulowań obowiązujących w zarządzającej Dyrekcji Generalnej lub wydziale); • beneficjenci programu – osoby lub grupy, które otrzymują dobra i usługi dostarczone przez poddawany ewaluacji program; • zarządzający programem – osoby lub grupy odpowiedzialne za nadzór i koordynację samego programu. W przypadku wielu programów UE, gdzie codzienne zadania z zakresu zarządzania zostały zlecone jednostkom prywatnym, osoby odpowiedzialne za zarządzanie programem są często różne od zleceniodawców realizacji programu; • inne zainteresowane grupy oraz społeczność naukowa – organizacje, grupy i osoby w bezpośrednim środowisku programu lub ogólnie zainteresowane programem i jego ewaluacją (np. World-Wide Fund for Nature w przypadku wielu programów dotyczących środowiska naturalnego), a także naukowcy ogólnie z przyczyn naukowych zainteresowani poddawanym ewaluacji programem. Zważywszy na znaczące różnice pomiędzy potencjalnymi odbiorcami raportu, jest ważne, by ustalenia dotyczące ewaluacji zostały przekazane w sposób dostosowany do każdej z tych grup. Poza rozpowszechnianiem całego raportu, komunikacja może mieć miejsce poprzez przekazywanie streszczenia lub poprzez ustne prezentacje oparte na materiałach audiowizualnych. Jeśli ewaluatorzy lub zleceniodawcy ewaluacji chcieliby zapewnić rozpowszechnienie informacji pochodzących z ewaluacji w sposób inny niż rozpowszechnianie samego raportu, ich najważniejszym zadaniem będzie ukierunkowanie prezentacji tak, by odpowiadała jej odbiorcom. Ramka 5.2 zawiera kilka podstawowych pytań, na które należy odpowiedzieć podczas analizy grupy docelowej prezentacji. Ramka 5.2. Analiza docelowych odbiorców • Jaki jest skład grupy docelowej? • Jakich informacji potrzebują i dlaczego? • Jaka jest ich wiedza na temat ewaluacji? • Czy byli zaangażowani w projektowanie ewaluacji? Jeśli tak, do jakiego stopnia? Jeśli nie, to dlaczego? • W jaki sposób można ich zachęcić do wzięcia udziału w prezentacji? • Jakie korzyści i jakie szkody mogą wynikać dla nich z ewaluacji? • Jakie zagadnienia ewaluacji najbardziej ich interesują? • Jaki inne kwestie mogą być dla nich ważne? • Czy jest możliwe, że zgłoszą sprzeciw wobec jakichś ustaleń, wniosków lub rekomendacji? • W jaki sposób można to odeprzeć? • Jakie znaczenie będą dla nich miały precyzyjne szczegóły w porównaniu z ogólnym obrazem całości? Należy zawsze pamiętać, że różne strony uczestniczące prawdopodobnie w inny sposób zareagują na prezentację rezultatów ewaluacji. Beneficjenci programu stwarzają szczególne trudności. Są oni często niezorganizowani i geograficznie rozproszeni w porównaniu z innymi stronami uczestniczącymi. W przypadku niektórych programów beneficjenci mogą być nawet niechętni, by się ujawnić. Tam, gdzie zabierają głos, czynią to za pośrednictwem organizacji mających na celu reprezentowanie ich interesów. Na zakończenie, należy pamiętać, że tam, gdzie jest wiele stron uczestniczących konflikty interesów są do pewnego stopnia nieuniknione. Dlatego należy zawsze brać pod uwagę następujące kwestie: • konflikty interesów najlepiej rozwiązać na samym początku poprzez przyjęcie szerokiej, „włączającej” struktury zarządzającej; • poprzez czytelne rozdzielenie ustaleń, wniosków i rekomendacji, ewaluator może wprowadzić rozróżnienie pomiędzy ustaleniami dotyczącymi programu i swoimi własnymi opiniami. W ten sposób niektóre strony uczestniczące – nawet jeśli zdecydują się odrzucić pewne rekomendacje – mogą być mniej skłonne do podważania ustaleń i wniosków; • zarządzający programem mogą, jeśli zachodzi taka potrzeba, sformułować własne obserwacje na temat raportu przygotowanego przez ekspertów zewnętrznych; • w żadnym wypadku ewaluacja nie powinna być uwikłana w negocjacje. Wiedza ekspercka i zawodowa rzetelność ewaluatora zewnętrznego powinna stanowić wystarczającą gwarancję bezstronności i wiarygodności jego ustaleń i wniosków. __________________________________________________________________________________________ Gdzie szukać dalszych informacji? Przydatnym źródłem informacji na temat strategii raportowania i rozpowszechniania ewaluacji będzie zazwyczaj jednostka lub urzędnik odpowiedzialny za ewaluację w każdej Dyrekcji Generalnej lub służbie. The Joint Committee on Standards for Educational Evaluation (1994) opracował listę standardów zawodowych, które powinien spełniać ewaluator. Wiele z tych standardów ma zastosowanie w raportowaniu i rozpowszechnianiu ewaluacji. Pomimo że opracowywane z myślą o ewaluacji programów edukacyjnych, standardy zaproponowane w tym tekście mają potencjalnie znacznie szersze zastosowanie. Por. także Podręcznik MEANS, tom 1, na temat L’Organisation de l’évaluation intermédiaire dans le cadre de partenariats. Przydatny jest także tekst Rossi i Freeman (1993). W pracy Breakwell i Millward (1995) znajduje się bardzo użyteczny rozdział na temat prezentacji rezultatów ewaluacji. Aneks 1. Słownik terminów z zakresu ewaluacji Agenda analityczna (ang. analitical agenda analityczna, fr. questionnement) Struktura logiczna nakładana na różne pytania, które mają być zadane w ramach ewaluacji. Służy ona przekształcaniu ogólnych, często niejasnych pytań, które mają na myśli zleceniodawcy ewaluacji w pytania, które są na tyle precyzyjne, że można szukać na nie odpowiedzi za pomocą metod badawczych z zakresu ewaluacji. Po opracowaniu agendy analistycznej osoby odpowiedzialne za zlecenie ewaluacji muszą odpowiedzieć na pytanie, czy interwencja może zostać poddana ewaluacji w ramach agendy. Zobacz także ocenialność, projekt ewaluacji, logika działania. Analiza (ang. analysis, fr. analyse) Zobacz analiza danych Analiza danych (ang. data analysis, fr. analyse de données) Podstawowe techniki stosowane do interpretacji informacji na temat interwencji wykorzystywane w ewaluacji to: analiza statystyczna, użycie modeli, analiza niestatystyczna oraz techniki oceny, takie jak analiza kosztów i korzyści, analiza gospodarności, analiza wieloczynnikowa. Zobacz także analiza kosztów i korzyści, analiza gospodarności, gromadzenie danych, modele, analiza wieloczynnikowa, analiza niestatystyczna, analiza statystyczna. Analiza gospodarności (ang. cost-efectiveness analysis, fr. analyse coût-efficacité) Technika oceny, w której badacz kwantyfikuje koszty i korzyści związane z programem w oparciu o te same zasady, które stosuje się do analizy kosztów i korzyści, ale w której nie ma obowiązku wyrażania korzyści we wspólnych jednostkach monetarnych. Zobacz także analiza kosztów i korzyści, skuteczność. Analiza kosztów i korzyści (ang. cost-benefit analysis, fr. analyse coût-bénéfices) Technika oceny, w której badacz porównuje wszystkie społeczne i prywatne koszty i korzyści danego programu w celu określenia, czy korzyści przewyższają koszty, a jeśli tak, to o ile. Społeczne koszty i społeczne korzyści powinny zasadniczo być mierzone za pomocą środków pośrednich a następnie przekształcane w jednostki monetarne, tak aby możliwe było porównanie z kosztami i korzyściami prywatnymi. Co więcej, w wielu przypadkach nie będzie właściwe posługiwanie się aktualnymi cenami rynkowymi. Rozpatrzmy sytuację, w której mamy do czynienia z bardzo wysokim bezrobociem. W takim przypadku rzeczywiste koszty pracy mogą być znacznie niższe niż aktualna rynkowa cena pracy. Koszt alternatywny (drugie najlepsze rozwiązanie dla bezrobotnych osób w przypadku, gdyby projekt nie doszedł do skutku – niektórzy i tak znaleźli by pracę, ale wielu pozostałoby bezrobotnymi) jest niższy niż rynkowy poziom płacy i ten niski koszt alternatywny musi zostać przedstawiony jako cena pozorna (shadow price), którą należy w jakiś sposób wyprowadzić. Zobacz także analiza gospodarności. Analiza niestatystyczna (ang. non-statistical analysis, fr. analyse non statistique) Ogólny termin używany do opisu analizy głównie jakościowych danych, która jest zazwyczaj wykorzystywana w połączeniu z analizą statystyczną (danych ilościowych bądź jakościowych). Zazwyczaj obejmuje ona ocenę rzetelności ustaleń opartych na tej metodzie. Zobacz także dane, analiza danych, analiza statystyczna. Analiza regresji (ang. regression analysis, fr. analyse de regression) Technika wnioskowania statystycznego, która może być wykorzystywana do ustalenia siły zależności (korelacji) pomiędzy interesującymi nas zmiennymi, np. płci długoterminowego bezrobotnego i ilości czasu zanim on lub ona znajdą nową pracę po ukończeniu programu szkoleniowego. W analizie regresji staramy się ustalić, czy wariancja jednej zmiennej (określanej jako zmienna zależna) może być wyjaśniona wariancją jednej lub kilku innych zmiennych (określanych jako zmienne niezależne). Zmienna zależna ma często charakter ilościowy, np. dochód danej osoby może być związany z poziomem jej wykształcenia, liczbą godzin pracy w tygodniu, wieku, itp. Specjalne techniki mogą być wykorzystane w sytuacji, w której zmienna zależna ma charakter jakościowy, np. gdy fakt, że dana osoba posiada lub nie posiada samochodu może być zależny od jej dochodu, zamożności, wieku, płci, itp. Zobacz także analiza statystyczna. Analiza statystyczna (ang. statistical analisys, fr. analyse statistique) Powszechnie używana technika analizy danych. Analiza statystyczna jest często wykorzystywana do opisu zjawisk w sposób zwięzły i zawierający wiele informacji. Jest to znane jako analiza opisowa. Może być również wykorzystywana do badania związków pomiędzy zmiennymi w celu uogólnienia ustaleń na szerszą populację. Zobacz także gromadzenie danych, analiza nie-statystyczna. Analiza wariancji (ang. analysis of variance, fr. analyse de variance), ANOVA Szeroko rozpowszechniona technika wnioskowania statystycznego, oparta na porównaniu wariancji pomiędzy próbami z wariancją w ramach prób. Może nam ona powiedzieć czy pomiędzy próbami występują systematyczne różnice, które powinny być wyjaśnione. Zobacz także próba, analiza statystyczna, wariancja Analiza wieloczynnikowa (ang. multi-criteria analysis, fr. analyse multicritères) Narzędzie podejmowania decyzji, które może zostać zaadaptowane w celu formułowania ocen na temat interwencji. Analiza wieloczynnikowa pozwala formułować oceny na podstawie wielu czynników, które mogą nie mieć wspólnej skali i mogą różnić się względną ważnością. ANOVA (ang. ANOVA, fr. ANOVA) Zobacz analiza wariancji Audyt (ang. audit, fr. audit) Funkcja kontrolna, polegająca przede wszystkim na weryfikacji legalności i prawidłowości wdrażania zasobów w danym programie. Audyt obejmuje tradycyjnie takie dziedziny jak weryfikacja danych finansowych (audyt finansowy). Zobacz także audyt wykonania, ewaluacja Audyt finansowy (ang. financial audit, fr. audit financier) Zobacz audyt Audyt wykonania (ang. performance audit, fr. audit de performance) Koncepcyjnie bliższy ewaluacji niż tradycyjny audyt, audyt wykonania jest silnie związany z pytaniem o efektywność (pośrednich wyników interwencji) i dobre zarządzanie. Audyt wykonania i ewaluacja mają wspólny cel, jakim jest usprawnienie jakości programu, ale ewaluacja idzie pod tym względem dalej. Bada ona bowiem również takie zagadnienia jak trwałość, trafność i konsekwencje programu w długim okresie. Zobacz także audyt, ewaluacja. Badania ankietowe (ang. surveys, fr. enquêtes) Szeroko wykorzystywana technika gromadzenia danych pochodzących z próby wylosowanej z szerszej populacji. Badania często opierają się na losowym doborze próby, a informacja pochodząca z badań jest zazwyczaj gromadzona za pomocą wywiadów kierowanych lub samodzielnie wypełnianych kwestionariuszy. Wywiady przekrojowe polegają na pomiarze dokonanym w jednym punkcie w czasie. Wywiady panelowe polegają na pomiarze dokonanym w dwóch lub więcej punktach w czasie. Zobacz także gromadzenie danych, populacja, dobór próby, próba. Badania naukowe (ang. scientific studies, fr. études scientifiques) Podczas gdy naukowcy mogą podejmować badania w celu powiększenia zasobów wiedzy ludzkiej i często ograniczają się do jednej wąsko wyspecjalizowanej dziedziny, ewaluacja jest podejmowana z bardziej praktycznych powodów. Ma ona cele praktyczne, takie jak wyjaśnianie decyzji, wyjaśnianie możliwości, zmniejszanie poziomu niepewności i ogólnie dostarczanie informacji na temat programów w ramach ich specyficznego kontekstu. Zobacz także ewaluacja. Badania panelowe (ang. panel surveys, fr. enquêtes par panel) Zobacz badania ankietowe Badania przekrojowe (cross-sectional surveys, fr. enquêtes transversales Zobacz badania Cele (ang. objectives, fr. objectifs) Pożądane efekty interwencji. Zobacz także cele ogólne, potrzeby, cele operacyjne, cele szczegółowe. Cele ogólne (ang. general objectives, fr. objectifs généraux) Pożądane efekty interwencji wyrażone w kategoriach oddziaływania, tj. wpływu danej interwencji na społeczeństwo w długim okresie (np. zmniejszenie bezrobocia wśród osób długotrwale bezrobotnych). Zobacz także logika działania, cele, cele operacyjne, oddziaływanie, cele szczegółowe. Cele operacyjne (ang. operational objectives, fr. objectifs opérationnels) Pożądane efekty interwencji wyrażone w kategoriach wyników, tzn. dóbr i usług wyprodukowanych przez interwencję (np. dostarczenie kursów szkolenia zawodowego dla długoterminowych bezrobotnych). Zobacz także cele ogólne, interwencja, logika działania, cele, wyniki, cele szczegółowe. Cele szczegółowe (ang. specific objectives, fr. objectifs spécifiques) Pożądane efekty interwencji wyrażone w kategoriach rezultatów, tzn. początkowego oddziaływania interwencji na społeczeństwo (np. poprawa. zdolności do zatrudnienia długoterminowych bezrobotnych poprzez podniesienie poziomu ich umiejętności). Zobacz także oddziaływanie, interwencja, logika działania, wyniki, konsekwencje, cele ogólne, cele, struktura organizacyjna, rezultaty. Cena pozorna (ang. shadow price, fr. prix fictif) Zobacz analiza kosztów i korzyści. Chatty bias (ang. chatty bias, fr. biais de „prolixité”) Ogólny problem powstający w sytuacji, gdy opinie bardziej wymownych osób (np. ekspertów) wyróżniają się, pomimo że poglądy te mogą nie być reprezentatywne. Zobacz także opinie ekspertów. Czysty model eksperymentalny (ang. true experimental design, expérimentaux purs) fr. modèles Najlepsze z możliwych w praktyce przybliżeń do idealnego modelu eksperymentalnego, w którym ewaluator stara się zagwarantować początkową identyczność grupy programowej i grupy kontrolnej poprzez wcześniejsze utworzenie ich, za pomocą losowego przypisania do grupy. Choć wnioskowanie przyczynowe oparte na takim modelu ma zazwyczaj silne podstawy, czyste modele eksperymentalne są zazwyczaj trudne w administrowaniu i wdrażaniu. Na ich oznaczenie używa się także określenia „randomizowany (losowo dobrany) model eksperymentalny”. Zobacz także grupa kontrolna, modele ewaluacji, idealny model ewaluacji, logika działania, grupa programowa, modele quasi-eksperymentalne. Dane (ang. data, fr. données) Znane fakty, które mogą być wykorzystane jako podstawa do wnioskowania. Dane subiektywne dotyczą osobistych odczuć, postaw i postrzegania; dane obiektywne dotyczą obserwowalnych faktów. Dane ilościowe obejmują obserwacje liczbowe; dane jakościowe są nie-liczbowe i dotyczą kategorii. Dane podłużne (longitudinalne) zbierane są przez dłuższy czas, dane przekrojowe zbierane są w tym samym momencie, ale w wielu różnych geograficznie miejscach, itp. Dane pierwotne pochodzą bezpośrednio ze źródła lub są zebrane z pierwszej ręki, dane wtórne poddane zostały uprzednio pewnym manipulacjom i interpretacji. Zobacz także analiza danych, gromadzenie danych. Dane ilościowe (ang. quantitative data, fr. données quantitatives) Zobacz dane. Dane jakościowe (ang. qualitative data, fr. données qualitatives) Zobacz dane. Dane obiektywne (ang. objective data, fr. données objectives) Zobacz dane. Dane pierwotne (ang. primary data, fr. données primaires) Zobacz dane. Dane podłużne (longitudinalne) (ang. longitudinal data, fr. données longitudinales) Zobacz dane. Dane przekrojowe (ang. cross-sectional data, fr. données transversales) Zobacz dane Dane subiektywne (ang. subjective data, fr. données subjectives) Zobacz dane. Dane wtórne (ang. secondary data, fr. données secondaires) Zobacz dane. Deadweight (ang. deadweight, fr. effet d’aubaine) Deadweight definiowany jest jako efekty, które wystąpiłyby nawet gdyby interwencja nie miała miejsca. Deadweight zwykle pojawia się na skutek nieprawidłowych mechanizmów dostarczania programu, które niedostatecznie ukierunkowują program na docelowych beneficjentów. W rezultacie, inne osoby i grupy, które nie mieściły się w populacji docelowej, stają się odbiorcami korzyści wyprodukowanych przez interwencję. Deadweight jest w rzeczywistości szczególnym przypadkiem nieefektywności programu. Zobacz także mechanizmy dostarczania, efektywność, populacja docelowa. Dobór próby (ang. probability sampling, fr. échantillonnage de probabilité) Technika statystyczna wykorzystywana do uzyskiwania prób z danej populacji, podczas której każdy element populacji ma znane niezerowe prawdopodobieństwo, że będzie wylosowany do próby. Wnioski z tego typu próby mogą być w takim wypadku rzutowane, ze statystyczną możliwością błędu, na szersza populację. Zobacz także populacja, próba. Double loop learning (ang. double-loop learning, fr. apprentisage double) Rodzaj sprzężenia zwrotnego, w którym informacje zgromadzone w trakcie ewaluacji wykorzystywane są do zakwestionowania samego istnienia pomocy lub do spowodowania istotnych zmian w jej podstawowych założeniach. Double loop learning jest prawie zawsze wynikiem ewaluacji podsumowującej. Odgrywa ono kluczową rolę w ukierunkowywaniu działań Unii Europejskiej na zaspokajanie zmieniających się potrzeb jej obywateli. Zobacz także sprzężenie zwrotne, ewaluacja formująca, single-loop learning, ewaluacja podsumowująca. Efekt Hawthorne (ang. Hawthorne effect, fr. effet Hawthorne) Wyrażenie „Efekt Hawthorne” jest wykorzystywane do wyjaśnienia sytuacji, w której wyniki eksperymentu nie są wiarygodne, gdyż sam fakt przeprowadzenia eksperymentu wpływa na otrzymane rezultaty. Zjawisko to przypomina nam o tym, że pracownicy programu i beneficjenci mogą zachowywać się zupełnie odmiennie niż normalnie, jeżeli mają świadomość, że są obserwowani. Zobacz także obserwacje z natury. Efektywność (ang. efficience, fr. efficience) W jakim stopniu nakłady zostały przekształcone przez interwencję na wyniki i rezultaty w sposób oszczędny? Zobacz także nakłady, logika działania, wyniki, rezultaty. Ewaluacja (ang. evaluation, fr. évaluation) Pogłębione badanie, które odbywa się w określonym momencie i w którym uznane metody badawcze wykorzystywane są w sposób systematyczny i analityczny w celu sformułowania sądu na temat wartości interwencji. Ewaluacja cząstkowa (ang. intermediate evaluation, fr. evaluation intermédiaire) Ewaluacja przeprowadzana w trakcie wdrażania interwencji. Zobacz także ewaluacja ex ante, ewaluacja ex post. ewaluacja, Ewaluacja ex ante (ang. ex ante evaluation, fr. évaluation ex ante) Ewaluacja przeprowadzana przed rozpoczęciem wdrażania danej formy pomocy. Określana również jako „ocena” (ang. appraisal, fr. appréciation). Zobacz także ewaluacja, ewaluacja ex post, ewaluacja cząstkowa. Ewaluacja ex post (ang. ex post evaluation, fr. évaluation ex post) Ewaluacja przeprowadzana albo na zakończenie, albo po zakończeniu realizacji interwencji. Zobacz także ewaluacja, ewaluacja ex ante, ewaluacja cząstkowa. Ewaluacja formująca (ang. formative evaluation, fr. évaluation formative) Ewaluacja koncentrująca się na badaniu sposobów udoskonalenia i usprawnienia wdrażania oraz zarządzania interwencją. Ewaluacja formująca przeprowadzana jest na rzecz osób zarządzających daną interwencją w celu poprawienia ich pracy. Zobacz także ewaluacja, ewaluacja podsumowująca. Ewaluacja podsumowująca (ang. summative evaluation, fr. évaluation récapitulative) Ewaluacja mająca na celu określenie zasadniczej skuteczności programu. Ewaluacja taka będzie zwykle przeprowadzana na rzecz podmiotów zewnętrznych (grup, które nie są bezpośrednio zaangażowane w zarządzanie programem), z uwagi na określenie odpowiedzialności oraz wsparcia w alokacji środków budżetowych Ewaluacja tematyczna (ang. thematic evaluation, fr. evaluation thématique) Ewaluacja koncentrująca się na badaniu jednego lub kilku zagadnień wspólnych dla kilku różnych interwencji (programów lub działań), np. oddziaływania na środowisko lub na małe i średnie przedsiębiorstwa. Ewaluacja wewnętrzna (ang. internal evaluation, fr. evaluation interne) Ewaluacja, która przeprowadzana jest przez członków organizacji odpowiedzialnej za samą interwencję poddaną ewaluacji. Zobacz także ewaluacja, ewaluacja zewnętrzna. Ewaluacja zewnętrzna (ang. external evaluation, fr. évaluation externe) Ewaluacja, która jest przeprowadzana przez osoby spoza organizacji odpowiedzialnej za samą interwencję. Zobacz także ewaluacja, ewaluacja wewnętrzna. Gromadzenie danych (ang. data collection, fr. collecte de données) Podstawowe techniki stosowane do zbierania informacji na temat interwencji wykorzystywane w ewaluacji to: badania ankietowe, studium przypadku, obserwacje z natury, opinie ekspertów, przeglądy dokumentów programu, przeglądy literatury. Zobacz także studium przypadku, analiza danych, model ewaluacji, opinie ekspertów, przeglądy literatury, obserwacje z natury, przeglądy dokumentów programu, badania ankietowe. Grupa eksperymentalna (ang. experimental group, fr. groupe expérimental) Zobacz grupa programowa. Grupa kontrolna (ang. control group. fr. group témoin) Grupa podmiotów, która nie jest poddana działaniu interwencji. Grupa kontrolna powinna być podobna do grupy programowej (podmiotów, które są poddane działaniu interwencji), tak aby systematyczne różnice pomiędzy tymi dwiema grupami mogły być przypisane efektom interwencji, po tym, gdy inne, możliwe do przyjęcia, alternatywne hipotezy zostały wyeliminowane lub odrzucone. Zobacz także sytuacja kontrfaktyczna, model ewaluacji, logika działania, grupa programowa. Grupa programowa (ang. programme group, fr. groupe de programme) Grupa podmiotów, które zostały poddane działaniu interwencji. Grupa programowa może być porównana z grupą kontrolną (złożoną z podmiotów, które nie uczestniczyły w interwencji) w celu określenia czy różnice występujące pomiędzy tymi grupami mogą być przypisane efektom programu. Zobacz także grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji, idealny model eksperymentalny, zbieżność wewnętrzna, interwencja, logika działania, modele quasi-eksperymentalne, czyste modele eksperymentalne. Grupa sterująca (ang. steering group, fr. groupe de pilotage) Grupa sterująca, będąca częścią struktury zarządzającej ewaluacją, pozwala innym wydziałom (a także w razie potrzeby innym stronom uczestniczącym spoza Komisji) na udział w opracowywaniu projektu ewaluacji. Zobacz także projekt ewaluacji, struktura zarządzająca, strony uczestniczące. Idealny model eksperymentalny (ang. ideal experimental model, fr. modèle expérimental idéal) Teoretyczny sposób wyprowadzania sytuacji kontrfaktycznej i poprzez nią oddziaływania netto danej interwencji. Polega on na porównaniu dwóch grup identycznych pod wszystkimi względami z wyjątkiem poddania działaniu programu. Różnice między grupą, która uczestniczyła w programie (grupa programowa) oraz tą, która nie uczestniczyła w nim (grupa kontrolna) są następnie przypisywane działaniu programu. W świecie rzeczywistym model ten nie występuje, ponieważ nigdy nie możemy być absolutnie pewni że dwie grupy są identyczne we wszystkich pozostałych aspektach. Potencjalna nierównoważność dwóch grup osłabia prawdziwość jakiegokolwiek wnioskowania przyczynowego dotyczącego interwencji. Dostępne są jednak różne inne modele ewaluacji, możliwe do zastosowania w praktyce; każdy z nich posiada swoje mocne i słabe strony. Zobacz także grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji, logika działania, grupa programowa, modele quasieksperymentalne, czyste modele eksperymentalne. Interwencja (ang. intervention, fr. intervention) Ogólna nazwa używana do określenia wszystkich działań publicznych. Zobacz także polityka, program, projekt. Konsekwencje (ang. outcomes, fr. conséquences) Oddziaływanie w dłuższym okresie, wyrażane zazwyczaj w kategoriach szerokich konsekwencji społeczno-gospodarczych, które mogą być przypisane interwencji (np. zmniejszenie liczby długoterminowych bezrobotnych). Zobacz także cele ogólne, oddziaływanie, interwencja, logika działania, wyniki, rezultaty. Koszt alternatywny (ang. opportunity costs, fr. coût d’opportunité) Zobacz analiza kosztów i korzyści. Kwestionariusze (ang.questionnaires, fr. questionnaires) Zobacz badania ankietowe. Licznik Régniera (ang. Abacus of Régnier, fr. Abaque de Régnier) Metoda systematyzacji opinii wyrażonych przez członków danej grupy (np. ekspertów). Członkowie grupy, zebrani razem, otrzymują listę zamkniętych pytań, na które każdy z nich odpowiada w sposób niewerbalny, wykorzystując siedmiokolorowy kod (dwa odcienie zieleni oznaczające zgodę, dwa odcienie czerwieni oznaczające sprzeciw, pomarańczowy dla wyrażenia wahania, biały oznaczający, że osoba nie posiada informacji niezbędnych do odpowiedzi na dane pytanie oraz czarny, używany w sytuacji, w której dana osoba sprzeciwia się sposobowi postawienia pytania). Zobacz także metoda delficka, opinia eksperta. Logika działania (ang. intervention logic, fr. logique d’intervention) Powiązanie pomiędzy nakładami wykorzystanymi w danej interwencji w celu wyprodukowania wyników a jej oddziaływaniem na społeczeństwo w kategoriach rezultatów i konsekwencji. Badanie logiki działania programu stanowi kluczowy element większości ewaluacji. Ewaluator musi sobie zadać pytanie, w jaki sposób program osiąga swoje cele szczegółowe i w jaki sposób te cele szczegółowe przyczyniają się do osiągania celów ogólnych. Wyrażenia „teoria działania”, „logika programu” i „teoria programu” są czasami wykorzystywane na oznaczenie mniej więcej tego samego pojęcia. Zobacz także cele ogólne, oddziaływanie, nakłady, interwencja, cele, cele operacyjne, wyniki, konsekwencje, rezultaty, cele szczegółowe. Logika programu (ang. programme logic, fr. logique du programme) Zobacz logika działania. Mechanizmy dostarczania (ang. delivery mechanisms, fr. mécanismes de prestation) Rozwiązania organizacyjne, które dostarczają dobra i usługi sfinansowane przez pomoc do zakładanych beneficjentów, tj. do jej populacji docelowej. Zobacz także populacja docelowa. Mierniki (ang. benchmarks, fr. benchmarks) Standardy pozwalające na bezstronną, nie-arbitralną ocenę wykonania interwencji. Jedną z oczywistych metod pozwalających na uzyskanie takich mierników jest zbadanie celów interwencji wyrażonych w formie oczekiwanych wyników, rezultatów i oddziaływania. W sytuacji idealnej mierniki powinny pozwolić na porównanie wykonania interwencji z wykonaniem innego instrumentu polityki w tym samym lub zbliżonym obszarze interwencji. Zobacz także cele ogólne, wskaźnik, interwencja, cele, cele operacyjne, wyniki, rezultaty, oddziaływanie, cele szczegółowe. Model ewaluacji (ang. evaluation design, fr. modèle d’évaluation) Model wykorzystywany do opisu interwencji oraz dostarczenia dowodów na temat efektów, które mogą zostać przypisane jej działaniu. Modele ewaluacji mają charakter przyczynowy lub opisowy. Dany model powinien prowadzić do wyboru jednej lub kilku metod zbierania i analizy danych. Zobacz także sytuacja kontrfaktyczna, analiza danych, gromadzenie danych, idealny model eksperymentalny, logika działania. Model ex post facto (ang. ex post facto design, fr. modèle ex post facto) Przykład modelu opisowego, który może być wykorzystywany w sytuacji, w której ewaluator nie może wybrać, kto ma być poddany oddziaływaniu programu ani do jakiego stopnia. Modele te są wykorzystywane do badania interwencji obejmujących całą populację. Zobacz także grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji, logika działania, grupa programowa. Model odniesienia do populacji (ang. criterion-population design, fr. modèle populationcritère) Przykład modelu quasi-eksperymentalnego, który stanowi próbę udoskonalenia modelu zmiany porównawczej. W tym drugim wypadku grupa programowa i grupa kontrolna to dwie różne grupy wyodrębnione z hipotetycznej, większej populacji. W modelu odniesienia do populacji, w odróżnieniu, ta hipotetyczna populacja jest zidentyfikowana i wykorzystana jako grupa kontrolna. W tym przypadku, możliwość stronniczego wyboru ograniczona jest tylko do jednej grupy – grupy programowej. Model ten jest szczególnie odpowiedni w sytuacji, gdy ewaluator nie może w łatwy sposób stworzyć grupy kontrolnej, ale ma dostęp do informacji o większej populacji, z której została wyodrębniona grupa programowa. Zobacz także grupa kontrolna, model zmiany porównawczej, sytuacja kontrfaktyczna, model ewaluacji, zbieżność wewnętrzna, logika działania, modele quasi-eksperymentalne, grupa programowa, stronniczy wybór, Model przed-i-po (ang. before-and-after design, fr. modèle avant-et-après) Przykład modelu quasi-eksperymentalnego, który polega na prostym porównaniu odpowiedniej sytuacji przed programem oraz po realizacji programu, a następnie przypisaniu wszystkich zaobserwowanych różnic na rzecz programu. Szczególna słabość tego modelu polega na tym, że oprócz interwencji może być inna przyczyna części lub nawet wszystkich zaobserwowanych różnic w czasie. Zobacz także grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji, zbieżność wewnętrzna, logika działania, modele quasi-eksperymentalne, grupa programowa. Model przerywanych serii czasowych (ang. interrupted time-series model, fr. modèle de série temporelle interrompue) Przykład modelu quasi-eksperymentalnego. Polega on na dokonaniu kilku pomiarów w okresie zarówno przed jak i po działaniu programu w celu stworzenia serii czasowych obserwacji. Stanowi on udoskonalenie modelu przed-i-po. Zobacz także model przed-i-po, grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji, zbieżność wewnętrzna, logika działania, modele quasi-eksperymentalne, grupa programowa. Model zmiany porównawczej (ang. comparative change model, fr. model de changement comparatif) Przykład modelu quasi-eksperymentalnego, w którym wszystkie znane lub rozpoznane różnice pomiędzy grupą kontrolną i grupą programową brane są pod uwagę w analizie statystycznej. Problemy z tym modelem wynikają, po pierwsze, z tego, że mogą występować inne czynniki, które wyjaśniają niektóre bądź wszystkie zmiany w działaniu i zaobserwowanych efektach; po drugie, z tego, że pomiędzy grupą kontrolną i grupą programową mogą występować różnice początkowe, które mają wpływ na obserwowane efekty i w ten sposób zakłócają ocenę wpływu programu na te efekty. Zobacz także grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji, zbieżność wewnętrzna, logika działania, modele quasi-eksperymentalne, grupa programowa, stronniczy wybór. Modele (ang. models, fr. modèles) Istnieją różne rodzaje modeli, które starają się przedstawić, w jaki sposób interwencja oddziałuje na główne zmienne społeczno-gospodarcze. Modele takie pochodzą zazwyczaj z poprzednich badań. Do podstawowych typów modeli zaliczamy: (i) modele wejściawyjścia, które pozwalają badaczowi na systematyczne badanie powiązań pomiędzy różnymi elementami gospodarki, przy założeniu, że nakłady jednej gałęzi mogą być uważane za wyniki innej gałęzi; (ii) modele mikroekonomiczne, które przeznaczone są do badania zachowania się gospodarstw domowych i przedsiębiorstw w specyficznych przemysłach i rynkach, poprzez wykorzystanie równań przedstawiających funkcje popytu i podaży dla poszczególnych dóbr lub usług; (iii) modele makroekonomiczne, które są wykorzystywane do modelowania w czasie zmiennych makroekonomicznych (takich jak inflacja, zatrudnienie, wzrost i bilans handlowy); (iv) modele statystyczne, które są powszechnie wykorzystywane do badania relacji pomiędzy szczegółowymi efektami programu. Zobacz także analiza danych, analiza statystyczna. Modele makroekonomiczne macroéconomiques) (ang. macroeconomic models, fr. modèles Zobacz modele. Modele mikroekonomiczne (ang. microeconomic models, fr. modèles microeconomiques) Zobacz modele. Modele quasi-eksperymentalne (ang. quasi-experimental designs, fr. modèles quasi- expérimentaux) Rodzaj przyczynowych modeli ewaluacji, które charakteryzują się bardziej praktycznym podejściem niż czyste modele eksperymentalne. Mogą być wykorzystywane grupy kontrolne, ale pod warunkiem, że są tworzone w procesie nieprzypadkowym. W innym przypadku można badać beneficjentów przed działaniem interwencji i po uczestnictwie w działaniu programu. Zobacz także model przed-i-po, model zmiany porównawczej, grupa kontrolna, grupa programowa, sytuacja kontrfaktyczna, model kryterium populacji, model ewaluacji, idealny model eksperymentalny, model przerywanych serii czasowych, logika działania, czysty model eksperymentalny. Modele statystyczne (ang. statistical models, fr. modèles statistiques) Zobacz modele. Modele studium przypadku (ang. case study designs, fr. modèles d’étude de cas) Rodzaj modeli ewaluacji o raczej opisowym niż przyczynowym podejściu. Często zdarza się, że model ewaluacji opiera się na pogłębionym badaniu jednego lub kilku specyficznych przypadków lub sytuacji. Zobacz także studium przypadku, modele ewaluacji. Modele wejścia-wyjścia (ang. input-output models, fr. modèles d’entrée-sorties) Zobacz modele Monitorowanie (ang. monitoring, fr. suivi) Proces ciągły, badający dostarczanie wyników programu do docelowych beneficjentów, który przeprowadzany jest w trakcie wdrażania programu w celu podejmowania natychmiastowych korekt w przypadku odchyleń od celów operacyjnych. Ewaluacja natomiast jest przeprowadzana w określonym momencie i polega na pogłębionym badaniu. Monitorowanie często generuje dane, które mogą być wykorzystane podczas ewaluacji. Zobacz także ewaluacja. Nakłady (ang. inputs, fr. moyens) Zasoby ludzkie i finansowe, które są włączone we wdrażanie danej interwencji. Zobacz także interwencja, logika działania. Obserwacje z natury (ang. natural observations, fr. obserwations naturelles) Technika gromadzenia danych, w której ewaluator udaje się z wizytami na miejsca, gdzie wdrażana jest interwencja i bezpośrednio obserwuje co się dzieje. Dane pochodzące z obserwacji mogą być wykorzystywane do opisu ram interwencji, działań, które mają miejsce w tych ramach, osób, które uczestniczą w tych działaniach (które mogą, ale nie muszą wiedzieć, że są obserwowane) oraz znaczenia tych działań dla poszczególnych osób. Ta forma gromadzenia danych jest szczególnie podatna na skutki efektu Hawthorne. Zobacz także gromadzenie danych, efekt Hawthorne. Ocena (ang. appraisalm fr. appréciation) Zobacz ewaluacja ex-ante Ocenialność (ang. evaluability, fr. évaluabilité) Kwestia, czy na pytania zawarte w agendzie dla ewaluacji ewaluator w ogóle może uzyskać odpowiedź przy wykorzystaniu właściwych metod badawczych. Aby dowiedzieć się, czy na te pytania można odpowiedzieć w sposób dostatecznie wiarygodny, często zalecane jest przeprowadzenie studium ocenialności (étude d’évaluabilité). Jeśli dana interwencja nie może zostać oceniona w ramach ustalonej agendy analitycznej (np. ponieważ odpowiednie dane nie są jeszcze dostępne), może to doprowadzić do podjęcia decyzji o przełożeniu ewaluacji na późniejszy termin lub opracowaniu nowej, bardziej realistycznej agendy analitycznej. Zobacz także agenda analityczna, studium ocenialności, projekt ewaluacji. Odchylenie standardowe (ang. standard deviation, fr. écart type) Powszechnie wykorzystywany wskaźnik statystyki opisowej, dostarcza miary rozproszenia dla danego zestawu wartości. Zobacz także średnia, analiza statystyczna, wariancja. Oddziaływanie (ang. impacts, fr. impacts) Ogólne określenie używane w stosunku do skutków programu dla społeczeństwa. Oddziaływanie może być pozytywne bądź negatywne, przewidywane bądź nieprzewidywane. Początkowe oddziaływanie nazywane jest rezultatami, zaś oddziaływanie w dłuższym okresie – konsekwencjami (outcomes, consequences). Zobacz także konsekwencje, rezultaty. Opinie eksperta (ang. expert opinion, fr. opinion d’expert) Technika gromadzenia danych, podobna do badań ankietowych, która opiera się na subiektywnych z konieczności opiniach ekspertów w danej dziedzinie. Nie zaleca się polegania na opinii ekspertów jako jedynym źródle danych, na przykład z powodu tzw. chatty bias. Zobacz także Licznik Régniera, chatty bias, gromadzenie danych, technika delficka, wywiady. Plan pracy (ang. work plan, fr. plan de travail) Plan identyfikujący zakres badań do przeprowadzenia podczas ewaluacji, mający na uwadze główne pytania zawarte w agendzie oraz zidentyfikowane braki w informacji. Badania te powinny być opisane dostatecznie precyzyjnie, aby zarysować w sposób przejrzysty, choć prowizoryczny, zaplanowane zadania zbierania i analizy danych oraz, o ile to możliwe, wykorzystywaną metodologię. Aby zakładanymi zadaniami można było zarządzać, często użyteczne jest podzielenie ich na różne etapy i określenie odpowiednich harmonogramów przedkładania kolejnych części ewaluacji. Plan pracy jest odpowiednim miejscem do określenia kosztu ewaluacji oraz jego składników. Zobacz także agenda analityczna, analiza danych, gromadzenie danych, projekt ewaluacji. Polityka (ang. policy, fr. politique) Zestaw działań, które mogą różnić się rodzajem i mieć różnych bezpośrednich beneficjentów, ale które skierowane są na osiągnięcie tych samych celów ogólnych. Polityki nie są ograniczone pod względem harmonogramu i budżetu. Zobacz także cele ogólne, interwencja, program, projekt. Populacja (ang. population, fr. population) W statystyce, całość złożona z osób lub podmiotów, z których może być wylosowana próba. Zobacz także próba, populacja docelowa. Populacja docelowa (ang. target population, fr. population cible) Docelowi (oczekiwani) beneficjenci (jednostki, gospodarstwa domowe, grupy, przedsiębiorstwa) danej interwencji. Jedna interwencja może mieć jednocześnie więcej niż jedną populację docelową. Wyrażenie to powinno być odróżniane od terminu „populacja” w sensie statystycznym. Zobacz także interwencja, populacja, strony uczestniczące. Potrzeby (ang. needs, fr. besoins) Problemy społeczno-gospodarcze, na które odpowiedzią ma być interwencja, wyrażone z punktu widzenia jej docelowej populacji. Na przykład, potrzeba zwiększenia możliwości znalezienia pracy dla osób długotrwale bezrobotnych, którym może brakować odpowiednich umiejętności. Zobacz także cele, populacja docelowa. Program, (ang. programme, fr. programme) Zestaw zorganizowanych, ale często zróżnicowanych działań (program może obejmować wiele różnych projektów, przedsięwzięć i procesów) skierowanych na osiągnięcie celów szczegółowych. Program ma określony harmonogram i budżet. Zobacz także interwencja, projekt, polityka, cele szczegółowe. Projekt (ang. project, fr. projet d’évaluation) Pojedyncza, niepodzielna forma interwencji publicznej, skierowana na osiągnięcie celów operacyjnych, mająca ustalony budżet i harmonogram realizacji. Zobacz także interwencja, program, polityka, cele operacyjne. Projekt ewaluacji (ang. evaluation projekt, fr. projet d’ Sekwencja logicznych kroków, począwszy od sformułowania problemów i interesów motywujących podjęcie ewaluacji, po serię pytań, na które można odpowiedzieć w analitycznie akceptowalny sposób. Celem tych działań jest opracowanie planu pracy, ustalającego ramy, w których właściwa ewaluacja ma być przeprowadzona, a także wybór ewaluatora. Opracowanie projektu ewaluacji obejmuje siedem kroków: (1) określenie celów ewaluacji; (2) ustalenie zakresu ewaluacji; (3) opracowanie agendy analitycznej; (4) ustalenie mierników; (5) zinwentaryzowanie dostępnych danych; (6) opracowanie planu pracy; (7) wybór ewaluatora. Zobacz także agenda analityczna, mierniki, struktura zarządzania, synteza badawcza, zakres, plan pracy. Próba (ang. sample, fr. échantillon) Zestaw osób lub jednostek wybranych z danej populacji, w celu oszacowania cech i parametrów całej populacji lub w celu oszacowania hipotez dotyczących tej populacji. Zobacz także populacja, dobór próby. Przegląd dokumentów programu (ang. programme document reviews, fr. examen de documents du programme) Technika gromadzenia danych oparta na przeglądaniu ogólnych dokumentów programu, rejestrów finansowych i administracyjnych oraz dokumentów dotyczących poszczególnych projektów. Zobacz także gromadzenie danych. Przeglądy literatury (ang. literature reviews, fr. revue de la literature) Technika gromadzenia danych, która umożliwia ewaluatorowi maksymalne wykorzystanie poprzednich prac w badanej dziedzinie i w ten sposób wyciąganie doświadczeń z przeszłości oraz z ustaleń dokonanych przez osoby, które przeprowadziły podobne prace w przeszłości. Można wyróżnić dwa rodzaje dokumentów, które mogą być wykorzystane w badaniach literatury. Po pierwsze obejmują one dokumenty, raporty i opracowania przygotowane przez naukowców, ekspertów lub instytucje urzędowe. Po drugie obejmują szczegółowe badania w danej dziedzinie, w tym wcześniejsze ewaluacje. Zobacz także gromadzenie danych, synteza badawcza. Przesunięcie (ang. displacement, fr. déplacement) Przesunięcie oraz substytucja to dwa blisko ze sobą związane terminy, wykorzystywane są do opisu sytuacji, w której efekty danej interwencji w stosunku do poszczególnych osób, grup lub obszarów powstają kosztem innych osób, grup lub obszarów. Rozpatrzmy dla przykładu sytuację, w której celem programu jest wspieranie miejsc pracy poprzez ich subsydiowanie. W danym przedsiębiorstwie, pracownicy korzystający z subsydiów mogą przejąć miejsca pracy ludzi nie korzystających z tej formy pomocy, a którzy w przeciwnym wypadku byliby przez tą firmę zatrudnieni. Efekt ten nazywa się substytucją. Alternatywnie, przedsiębiorstwo korzystające z subsydiowania miejsc pracy może przejąć rynek przedsiębiorstwa, które nie korzysta z programu. Sukces w postaci utworzenia nowych miejsc pracy w przedsiębiorstwie uczestniczącym w programie może więc być w części lub całkowicie zniwelowany przez utratę miejsc pracy w innych przedsiębiorstwach. Ten z kolei efekt nazywa się przesunięciem. Przypadkowe modele eksperymentalne (ang. randomised experimenatal designs, fr. modèles expérimentaux aléatoires) Zobacz czysty model eksperymentalny. Raport (ang. report, fr. rapport) Zobacz raport z ewaluacji Raport z ewaluacji (ang. evaluation report, rapport d’évaluation) Końcowy produkt ewaluacji. Raport z ewaluacji musi posiadać logiczną strukturę i odpowiadać na potrzeby zleceniodawców oraz głównych stron uczestniczących w zakresie informacji. Raport z ewaluacji musi zawierać streszczenie nieprzekraczające pięciu stron. Oczekiwana struktura raportu jest zazwyczaj szczegółowo określona w warunkach kontraktu. Zobacz także rozpowszechnianie, zleceniodawcy ewaluacji, streszczenie, raportowanie, strony uczestniczące, warunki kontraktu. Raportowanie (ang. reporting, fr. compte rendu) Raportowanie ma miejsce, gdy ewaluator przekazuje raport z ewaluacji (zwykle w formie dokumentu lub w formie jakiejś prezentacji audio-wizualnej) zleceniodawcom ewaluacji, i gdy ci z kolei przekazują jego kopię (lub jego streszczenie) innym zainteresowanym stronom. Zobacz także rozpowszechnianie, raport z ewaluacji, zleceniodawcy ewaluacji, streszczenie. Rezultaty (ang. results, fr. résultats) Początkowe oddziaływanie interwencji (np. poprawa szans na zatrudnienie długoterminowych bezrobotnych poprzez podniesienie poziomu ich umiejętności). Zobacz także oddziaływanie, interwencja, logika działania, wyniki, konsekwencje, cele szczegółowe. Rozpowszechnianie (ang. dissemination, fr. diffusion) Zestaw działań, dzięki którym wiedza na temat ewaluacji jest udostępniana wszystkim zainteresowanym. Zobacz także raportowanie. SINGLE LOOP LEARNING (ang. single-loop learning, fr. apprentisage simple) Rodzaj sprzężenia zwrotnego, w którym informacje zebrane w trakcie ewaluacji wykorzystywane są do wprowadzenia zmian w sposobie wdrażania interwencji. Choć SLL jest zazwyczaj utożsamiana z ewaluacją formującą, może ona występować również w przypadku ewaluacji podsumowującej. Zobacz także double loop learining, sprzężenie zwrotne, ewaluacja kształtująca, ewaluacja podsumowująca. Skuteczność (ang. effectiveness, fr. efficacité) W jakim stopniu oddziaływanie interwencji przyczyniło się do osiągnięcia jej szczegółowych i ogólnych celów? Zobacz także analiza gospodarności, cele ogólne, oddziaływanie, logika działania, cele, konsekwencje, rezultaty, cele szczegółowe. Sponsorzy (ang. sponsors, fr. commanditaires) Zobacz zleceniodawcy ewaluacji. Sprzężenie zwrotne (ang. feedback, fr. rétroaction) Proces, dzięki któremu informacje zebrane w trakcie ewaluacji są wykorzystywane przez osoby podejmujące decyzje bądź w celu zmiany sposobu w jaki wdrażana jest interwencja, bądź w celu dokonania jeszcze głębszych zmian w podstawowych założeniach interwencji, włącznie z zakwestionowaniem samego istnienia programu. Zobacz także double/single loop learning Statystyka opisowa (ang. descriptive statistics, fr. statistiques descriptives) Zobacz analiza statystyczna. Streszczenie (ang. executive summary, fr. résumé) Jest bardzo prawdopodobne, że tylko część docelowych odbiorców zapozna się z całym raportem. Dlatego bardzo ważne jest opracowanie dobrze napisanego streszczenia, które nie będzie przekraczało pięciu stron. Streszczenie to stanowi część raportu, ale powinno mieć formę umożliwiającą również rozpowszechnianie go jako samodzielnego dokumentu. Zobacz także raport z ewaluacji Stronniczy wybór (ang. selection bias, fr. biais de sélection) Czy różnice pomiędzy grupą kontrolną i grupą programową mogą wynikać z początkowych różnic w ich charakterystykach, a nie z efektów interwencji poddawanej ewaluacji? Zobacz także grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji, zbieżność wewnętrzna, grupa programowa. Strony uczestniczące (ang. stakeholders, fr. parties prenantes) Różne osoby i organizacje, na które bezpośrednio i pośrednio ma wpływ wdrażanie i rezultaty danej interwencji i które prawdopodobnie będą miały interes w ewaluacji tej interwencji (np. osoby zarządzające programem, osoby kierujące polityką, docelowa populacja programu). Zobacz także zleceniodawcy ewaluacji, grupa sterująca, populacja docelowa. Struktura organizacyjna (ang. organisational structure, fr. structure organisationnelle) Określenie struktury organizacyjnej ewaluacji, co zazwyczaj zawarte jest w warunkach kontraktu, obejmuje zakreślenie roli różnych uczestników (zwłaszcza jest to istotne, jeżeli zadanie ewaluacji ma być podzielone pomiędzy różnych ewaluatorów – na przykład między ewaluatorów wewnętrznych i zewnętrznych), ustalenie obowiązków z zakresie sprawozdawczości (w tym, tam gdzie to konieczne, kontaktów z grupą sterującą ewaluacją, osobami zarządzającymi programem, innymi wydziałami Komisji i administracją państwa członkowskiego) oraz określenie procedury, według której realizowane będzie rozpowszechnianie i wykorzystywanie raportu z ewaluacji. Zobacz także rozpowszechnianie, projekt ewaluacji, ewaluacja zewnętrzna, sprzężenie zwrotne, ewaluacja wewnętrzna, struktura zarządzająca, strony uczestniczące, grupa sterująca, warunki kontraktu. Struktura zarządzająca (ang. management structure, fr. structure de gestion) Hierarchiczna struktura umożliwiająca całościowe zarządzanie ewaluacją, a w szczególności projektem ewaluacji. Jako minimum, taka struktura zarządzająca powinna obejmować zarząd programu (zwykle tożsamy ze zleceniodawcami ewaluacji) oraz jednostkę, sektor lub urzędnika w ramach tej samej DG, odpowiedzialnego za ewaluację. Jednak aby ewaluacja mogła odnieść sukces, może okazać się konieczne poszerzenie struktury zarządzającej i stworzenie grupy sterującej. Zobacz także projekt ewaluacji, zleceniodawcy ewaluacji, struktura organizacyjna, strony uczestniczące, grupa sterująca. Studium ocenialności (ang. evaluability assessment, fr. étude d’évaluabilité) Próba określenia, czy na pytania zawarte w danej agendzie ewaluator może w ogóle odpowiedzieć przy wykorzystaniu właściwych metod badawczych. Zobacz także agenda analityczna, ocenialność, projekt ewaluacji. Studium przypadku (ang. case studies, fr. etude de cas) Technika gromadzenia danych obejmująca badanie ograniczonej liczby specyficznych przypadków lub projektów, które zdaniem ewaluatora będą mogły dać pojęcie o programie jako całości. Studia przypadku są powszechnie wykorzystywane wtedy, gdy jest skrajnie trudno wybrać próbę wystarczająco dużą, by mogła być statystycznie uogólniona; gdy uogólnienie nie jest istotne; gdy potrzebne są pogłębione, zazwyczaj opisowe dane; oraz gdy przypadki lub projekty, które mają być zbadane, będą prawdopodobnie bardzo złożone. Zobacz także model studium przypadku, gromadzenie danych. Substytucja (ang. substitution, fr. substitution) Zobacz przesunięcie. Synteza badawcza (ang. research synthesis, fr. synthèse de recherche) Dokonywany przed podjęciem ewaluacji przegląd aktualnego stanu wiedzy na temat problemu społeczno-gospodarczego i metod jego rozwiązania poprzez politykę publiczną. Wiedzę tę można uzyskać dzięki literaturze fachowej, publikacjom dziennikarskim, danym administracyjnym, raportom z monitorowania i publikowanym statystykom. Przygotowanie syntezy badawczej często jest przydatne przed rozpoczęciem ewaluacji. Dzięki wyliczeniu informacji dostępnych i porównaniu ich z potrzebami w tym zakresie wynikającymi z agendy analitycznej, synteza badawcza wskaże główne luki w zakresie informacji, które, z kolei, pomogą w określeniu zadań w dziedzinie zbierania i analizy danych, realizowanych w trakcie ewaluacji. Przeglądy literatury także mogą być uważane za technikę gromadzenia danych w trakcie przeprowadzania ewaluacji. Zobacz także agenda analityczna, analiza danych, gromadzenie danych, projekt ewaluacji, przegląd literatury. Sytuacja kontrfaktyczna (ang. counterfactual situation, fr. situation contrefactuelle) Sytuacja, która zaistniałaby, gdyby interwencja nie miała miejsca. W celu wyprowadzenia sytuacji kontrfaktycznej niezbędny jest model ewaluacji. Z wyjątkiem teoretycznego przypadku idealnego modelu eksperymentalnego, nigdy nie możemy poznać sytuacji kontrfaktycznej z całą pewnością. Rzeczywiste modele ewaluacji opierają się raczej na szacunkach sytuacji kontrfaktycznej, wyprowadzonych albo z porównania podmiotów uczestniczących w programie z grupą kontrolną, która nie brała w nim udziału, albo z badania podmiotów przed i po uczestnictwie w programie. Zobacz także grupa kontrolna, model ewaluacji, idealny model eksperymentalny, logika działania, grupa programowa. Średnia (ang. mean, fr. moyenne) Najczęściej wykorzystywana miara statystyki opisowej, mówi nam jaka jest średnia wartość w danym zestawie. Zobacz także odchylenie standardowe, analiza statystyczna. Technika delficka (ang. Delphi technique, fr. technique Delphi) Technika, która może być wykorzystywana do systematyzacji opinii ekspertów. Konsultacje z ekspertami mają miejsce pojedynczo, w kilku rundach. W każdej kolejnej rundzie poszczególni eksperci dowiadują się jaką opinię wyrazili inni eksperci w poprzedniej rundzie. Technika ta może być wykorzystywana do osiągania konsensusu, a przynajmniej do redukowania niezgody. Zobacz także Abacus of Régnier, opinie ekspertów. Teoria działania (ang. theory of action, fr. théorie d’action) Zobacz logika działania. Teoria programu (ang. programme theory, fr. théorie du programme) Zobacz logika działania. Trafność (ang. relevance, fr. pertinence) Do jakiego stopnia cele interwencji są trafne (odpowiednie) w stosunku do zmieniających się potrzeb i priorytetów zarówno na poziomie krajowym jak i wspólnotowym? Zobacz także interwencja, logika działania, potrzeby, cele. Trwałość (ang. sustainability, fr. viabilité) Do jakiego stopnia można oczekiwać, że pozytywne oddziaływanie programu (mierzone za pomocą jego użyteczności) będzie trwało po zakończeniu interwencji? Zobacz także oddziaływanie, logika działania, konsekwencje, rezultaty, użyteczność. Użyteczność (ang. utility, fr. utilité) Jak wygląda relacja pomiędzy oddziaływaniem programu a potrzebami populacji docelowej? Zagadnienie to jest blisko związane z pojęciem trwałości. Zobacz także oddziaływanie, logika działania, potrzeby, konsekwencje, rezultaty, trwałość, populacja docelowa. Wariancja (ang. variance, fr. variance) Wskaźnik statystyki opisowej dostarczający informacji o rozproszeniu (rozkładzie). Otrzymuje się go poprzez podniesienie do potęgi odchylenia standardowego. Zobacz także analiza wariancji, odchylenie standardowe, analiza statystyczna. Warunki kontraktu (ang. terms of reference, fr. cahier de charge) Warunki kontraktu określają zakres pracy, która ma zostać przeprowadzona przez ewaluatora, pytania, na które należy odpowiedzieć oraz harmonogram realizacji. Pozwalają one zleceniodawcom ewaluacji na określenie swoich wymagań, a także pozwalają ewaluatorowi zrozumieć dokładnie, czego wymaga się od pracy, która ma być wykonana (w warunkach kontraktu często podana jest struktura raportu z ewaluacji). Przejrzyście zdefiniowane warunki kontraktu mają zasadnicze znaczenie w przypadku, gdy ewaluacja ma być przeprowadzana przez eksperta zewnętrznego, ale mogą być równie istotne, gdy ma być przeprowadzona ewaluacja wewnętrzna. Zobacz także projekt ewaluacji, raport z ewaluacji, zleceniodawcy ewaluacji, ewaluacja zewnętrzna, ewaluacja wewnętrzna, struktura organizacyjna, plan pracy. Wnioskowanie statystyczne (ang. statistical inference, fr. inférence statistique) Zobacz analiza statystyczna. Wskaźnik (ang. indicator, fr. indicateur) Cecha lub atrybut, który może być zmierzony w celu ocenienia interwencji w kategoriach wyników lub oddziaływania. Wskaźniki wyników są zazwyczaj proste i dostępne. Wskaźniki oddziaływania mogą być trudniejsze do wyodrębnienia, stąd często właściwe jest poleganie na wskaźnikach pośrednich tzw. wskaźnikach zbliżonych. Wskaźniki mogą być ilościowe bądź jakościowe. Używa się również pojęcia „wskaźniki wykonania”. Zobacz także mierniki, cele ogólne, oddziaływanie, cele operacyjne, wyniki, cele szczegółowe. Wskaźnik wykonania (ang. performance indicator, fr. indicateur de performance) Zobacz wskaźnik. Wyniki (ang. outputs, fr. réalisations) Dobra i usługi wyprodukowane przez interwencję (np. kurs szkoleniowy dla długoterminowych bezrobotnych). Zobacz także interwencja, logika działania, cele operacyjne. Wywiady (ang. interviews, fr. entretiens) Zobacz badania. Zakres (ang. scope, fr. portée) Pole badań ewaluacji. Zazwyczaj należy określić je z instytucjonalnego, czasowego i geograficznego punktu widzenia oraz zdefiniować, które z kluczowych zagadnień ewaluacji (trafność, skuteczność, efektywność, trwałość) mają zostać poddane badaniu. Zobacz także skuteczność, efektywność, projekt ewaluacji, trafność, trwałość, użyteczność. Zakwestionowanie zbieżności wewnętrznej (ang. threat to internal validity, fr. risque pour la validité interne) Zobacz zbieżność wewnętrzna. Zakwestionowanie zbieżności zewnętrznej (ang. threat to external validity, fr. risque pour la validité externe) Zobacz zbieżność zewnętrzna. Zbieżność wewnętrzna (ang. internal validity, fr. validité interne) Zaufanie, jakie można mieć w stosunku do wniosków dotyczących tego, co interwencja w rzeczywistości osiągnęła. Zakwestionowaniem zbieżności wewnętrznej jest zastrzeżenie, że model ewaluacji pozostawia niepewność dotyczącą związku przyczynowego pomiędzy interwencją i zaobserwowanymi efektami. Może być to przedstawione w formie pytania o następującym charakterze: czy coś oprócz interwencji może być przyczyną różnicy pomiędzy sytuacją po interwencji a sytuacją kontrfaktyczną? Zobacz także sytuacja kontrfaktyczna, model ewaluacji, zbieżność zewnętrzna, interwencja, logika działania, stronniczy wybór. Zbieżność zewnętrzna (ang. external validity, fr. validité externe) Zbieżność zewnętrzna odnosi się do zaufania, jakie możemy mieć w stosunku do możliwości uogólnienia wniosków dotyczących programu na okoliczności, okresy, osoby itp. inne niż te, których dotyczył sam program. Ograniczeniem dla zbieżności jest zarzut, według którego model ewaluacji nie pozwala na uogólnienie wnioskowania przyczynowego dotyczącego programu na czas, miejsca i osoby inne niż te badane podczas ewaluacji Zleceniodawcy ewaluacji (evaluation sponsors, fr. commanditaires de l’évaluation) Dyrekcja Generalna lub wydział w Komisji odpowiedzialny za przeprowadzenie ewaluacji danej formy pomocy. Zobacz także struktura zarządzania, struktura organizacyjna, strony uczestniczące, grupa sterująca, warunki kontraktu. Zmienna niezależna (ang. independent variable, fr. variable indépendante) Zobacz analiza regresji. Zmienna zależna (ang. dependent variable, fr. variable dépendante) Zobacz analiza regresji. Aneks 2 Ocena jakości raportu z ewaluacji Raport z ewaluacji stanowi zazwyczaj przedmiot krytycznego badania przez liczne strony (np. samych zleceniodawców ewaluacji, główne strony uczestniczące, DG XIX w przypadku ewaluacji, które mają przyczynić się do odpowiedzi na pytanie, czy należy odnawiać program czy też pozwolić mu wygasnąć). Powinno to być brane pod uwagę w projektowaniu ewaluacji i byłoby użyteczne, gdyby ewaluator miał tę świadomość od samego początku. Poniżej zamieszczona została lista pytań, które zazwyczaj są zadawane przez urzędników DG XIX (zgodnie z ustaloną listą kontrolną) podczas oceny raportów z ewaluacji przedkładanych przez poszczególne Dyrekcje Generalne i wydziały: • • • • Czy raport jest dobrze przedstawiony? • Ogólnie, czy raport jest dobrze zorganizowany i przejrzyście zredagowany? • Czy takie zagadnienia jak opis programu i wyjaśnienie metodologii badawczej zostały przedstawione w raporcie w sposób przejrzysty? Czy zakres raportu jest adekwanty? • Czy raport obejmuje całość programu poddawanego ewaluacji? • Czy zbadane zostały powiązania z innymi programami? • Czy zostały zbadane zakładane wyniki, rezultaty i oddziaływanie? • Czy została przeanalizowana logika działania programu? • Czy zostały zbadane nieprzewidziane rezultaty i konsekwencje programu? • Czy została oceniona trwałość korzyści wyprodukowanych przez program? • Czy w raporcie znalazła się odpowiedź na pytanie, czy program będzie zasadny (trafny) również w przyszłości? • Czy raport bada budżetowe aspekty programu poddanego ewaluacji oraz jego gospodarność (cost-effectiveness)? Czy metodologia raportu jest właściwa? • Czy model ewaluacji pozwala na uzyskanie informacji (na temat wyników, rezultatów i konsekwencji), które mogą racjonalnie być przypisane działaniu programu? • Czy wskaźniki zostały wykorzystane w sposób właściwy (rozróżniając pomiędzy wynikami, rezultatami i konsekwencjami programu)? • Czy zostały wskazane ewentualne słabe punkty zastosowanej metodologii? Czy wnioski i rekomendacje zawarte w raporcie są wiarygodne? • Czy ustalenia są oparte na solidnych dowodach? • Czy wnioski są wyprowadzone w sposób systematyczny z ustaleń? • Czy rekomendacje wynikają we właściwy sposób z wniosków? Aneks 3. Kilka zaleceń i przeciwwskazań dotyczących ewaluacji Co należy robić Czego robić nie należy Przygotowanie i zarządzanie ewaluacją • Ustalanie struktury zarządzania Ustalić strukturę zarządzania, obejmującą przynajmniej osoby zarządzające programem oraz jednostkę organizacyjną lub urzędnika odpowiedzialnego za ewaluację w ramach tej samej DG lub wydziału • Rozpatrzyć możliwość poszerzenia struktury • zarządzania w celu stworzenia grupy sterującej, obejmującej inne wydziały komisji oraz najważniejsze strony uczestniczące • Pamiętać o potrzebie aktywnego udziału struktury zarządzającej w ewaluacji, w celu rozwiązywania problemów które mogą powstać w trakcie przeprowadzania ewaluacji Nie dopuścić do sytuacji, w której grupa sterująca staje się zbyt liczna. W takim przypadku może ona utracić pozycję organu zarządzającego i niepotrzebnie przekształcić się w forum negocjacyjne. Opracowanie projektu ewaluacji Określenie celów ewaluacji • Wyszczególnić jasno dlaczego przeprowadza się • ewaluację oraz kto jest jej głównym użytkownikiem Nie rozpoczynać ewaluacji z nierealistycznymi celami, które nie mogą być osiągnięte Określanie zakresu ewaluacji • Określić zakres ewaluacji, to znaczy zdefiniować jej pole badawcze (z instytucjonalnego, czasowego i geograficznego punktu widzenia) oraz zdefiniować które z kluczowych zagadnień ewaluacji (trafność, skuteczność, efektywność, trwałość) mają zostać poddane badaniu Opracowanie agendy analitycznej • Sformułować agendę poprzez zastosowanie siatki • logicznej nałożonej na pytania, które mają zostać zadane w trakcie ewaluacji • Tam gdzie ogólne i szczegółowe cele programu muszą być odtworzone na podstawie zarysu, powinno to być uczynione w sposób przejrzysty przez strukturę zarządzającą, najlepiej pod nadzorem grupy sterującej • Wykorzystać wrażenia głównych stron uczestniczących na temat programu jako robocze hipotezy, które zostaną poddane krytycznej analizie podczas ewaluacji • Sprawdzić, czy program jest „ocenialny”, to • znaczy czy może zostać poddany ewaluacji w zakresie wybranej agendy analitycznej (tam Nie zapomnieć o próbie odtworzenia logiki działania programu, zwracając szczególną uwagę na zawarte w niej główne założenia Nie rozpoczynać ewaluacji, która w żadnym przypadku nie może być przeprowadzona zgodnie z wybraną agendą. Jednak jeśli program może gdzie konieczne ocenialności) przeprowadzić analizę zostać poddany ewaluacji choćby tylko w części, użyteczne będzie przeprowadzenie takiej ewaluacji Ustalanie wskaźników • Spróbować wskaźników, programu zdefiniować które będą pewną liczbę • służyły do oceny Nie interpretować danych dotyczących wskaźników w sposób upraszczający: jeśli program nie osiąga zakładanych celów, wciąż może być uważany za sukces w porównaniu z innymi programami lub działaniami, które podejmowane były w przeszłości Inwentaryzacja dostępnych informacji • Zinwentaryzować dostępne informacje (np. • poprzez przeprowadzenie syntezy badawczej). Dzięki porównaniu ich z potrzebami wynikającymi z agendy analitycznej, podkreślone zostaną główne luki informacyjne. To z kolei pozwoli na ustalenie zadań dotyczących zbierania danych i ich interpretacji , które zostaną przeprowadzone w ramach samej ewaluacji Jeśli przewiduje się, że ewaluacja będzie obejmowała przegląd literatury jako technikę gromadzenia danych, przeprowadzanie syntezy badawczej może nie być konieczne Opracowywanie planu pracy • Ustalić zadania, które powinny być • przeprowadzone w ramach ewaluacji, w świetle głównych pytań wynikających z agendy analitycznej oraz zidentyfikowanych luk informacyjnych • Opisać powyższe zadania w sposób dostatecznie szczegółowy • Tam gdzie to możliwe podzielić zadania na różne etapy i opracować odpowiedni harmonogram realizacji poszczególnych części • Oszacować koszty ewaluacji i jej części składowych. W przypadku ewaluacji wewnętrznej oszacować czas spędzony przy tym zadani przez urzędników oraz inne koszty administracyjne. W przypadku ewaluacji zewnętrznej oszacować koszty przed rozpoczęciem procedury przetargowej Nie stawiać ewaluatorowi nierealistycznych wymagań. W przeciwnym razie istnieje ryzyko, że ewaluacja będzie trwała zbyt długo lub nie osiągnie celów, które zostały przed nią postawione Wybór ewaluatora • Gdy jest już jasne na jakiego rodzaju pytania • ewaluacja będzie musiała dać odpowiedź oraz jaki jest jej budżet i harmonogram, zdecydować, czy powinna zostać przeprowadzona w sposób wewnętrzny czy zewnętrzny Nie polegać na kompetencjach technicznych ewaluatora jako jedynej przesłance wyboru. Inne ważne kryteria to niezależność, zdolność sprostania narzuconym terminom oraz relacja kosztu do jakości Opracowanie warunków kontraktu • Określić przejrzyste warunki kontraktu dotyczącego ewaluacji. Jest to szczególnie ważne w przypadku ewaluacji zewnętrznej i może być również bardzo użyteczne w przypadku ewaluacji wewnętrznej • Warunki kontraktu zazwyczaj określają: – Podstawę prawną i uzasadnienie podjęcia ewaluacji – Sposób wykorzystania i użytkowników ewaluacji – – – – – Opis programu, który ma zostać poddany ewaluacji Zakres ewaluacji Metodologię według której należy przeprowadzić zbieranie danych Plan pracy, strukturę organizacyjną i budżet Oczekiwaną strukturę końcowego raportu z ewaluacji Przeprowadzanie ewaluacji Modele ewaluacji • Wybrać model ewaluacji w oparciu o główne • pytania na które ma odpowiedzieć ewaluacja • Wybór modelu powinien być uzasadniony wprost, należy ponadto podać wszystkie słabości związane z wybranym modelem • Pamiętać, że w razie konieczności możliwe jest łączenie poszczególnych modeli ewaluacji • Spróbować włączyć strony uczestniczące w wybór modelu ewaluacji • Mieć świadomość możliwych zagrożeń dla wnioskowania przyczynowego występujących w wybranym modelu. Tam gdzie to możliwe przedstawić argumentację i zebrać odpowiednie dowody czy zagrożenia te są istotne czy nie Nie zakładać, że tylko modele przyczynowości są odpowiednie. Jest wiele sytuacji, w których przydatne mogą być modele opisowe Gromadzenie danych • Korzystać z wypróbowanych technik zbierania • danych oraz uzasadnić wybór techniki na podstawie problemów postawionych przez ewaluację Nie polegać wyłącznie na jednej technice zbierania danych. Zaletą wykorzystywania więcej niż jednej techniki jest to, że mocne strony jednej z nich mogą zrównoważyć słabe strony innej • Stale zwracać uwagę na dokładność danych. • Zawsze istnieje możliwość błędu pomiarowego. Dodatkowo, niektóre definicje mogą nie być całkowicie neutralne Przegląd literatury może nie być przydatny w sytuacji, gdy została już przeprowadzona synteza badawcza Analiza danych • Korzystać z wypróbowanych technik analizy • danych oraz uzasadnić wybór techniki na podstawie problemów postawionych przez ewaluację • W przypadku wykorzystywania modeli, określić założenia, na których są one oparte Nie polegać wyłącznie na jednej technice analizy danych. Zaletą wykorzystywania więcej niż jednej techniki jest to, że mocne strony jednej z nich mogą zrównoważyć słabe strony innej Raportowanie i rozpowszechnianie ewaluacji Optymalizacja wykorzystania ewaluacji • Trzy sugestie jak zoptymalizować potencjalne wykorzystanie ewaluacji: Zorientować przekaz na szczególne informacyjne danych odbiorców, potrzeby Zapewnić terminowość przekazania raportu, Tam gdzie to możliwe, włączyć strony uczestniczące w wybór modelu ewaluacji Prezentacja raportu z ewaluacji Struktura raportu z ewaluacji • Struktura raportu powinna odpowiadać potrzebom zleceniodawców ewaluacji oraz głównych stron uczestniczących • W raporcie należy umieścić streszczenie streszczenie. Powinno ono być w formie umożliwiającej rozpowszechnianie go jako odrębnego dokumentu • W raporcie należy umieścić warunki kontraktu Przejrzystość raportu z ewaluacji • – – – Ważne jest, aby potencjalny czytelnik mógł • zrozumieć: Należy unikać poniższych problemów, które mogą negatywnie wpłynąć na przejrzystość raportu: Streszczenie napisane w pośpiechu Niedostatecznie szczegółowy opis programu Zaniechanie opisu metod wykorzystanych do gromadzenia i analizy danych – Zaniechanie uzasadnienia wyboru metod lub wskazania mocnych i słabych stron wybranego modelu – Wykorzystanie informacji bez podania jej źródła – Dokonywanie ustaleń które nie są rzetelnie oparte na dowodach – Stawianie wniosków, które nie znajdują uzasadnienia w ustaleniach – Czynienie rekomendacji, które nie są poprawnie wyprowadzone z wniosków Rozpowszechnianie wyników ewaluacji Jaki był cel ewaluacji Co dokładnie zostało poddane ewaluacji W jaki sposób ewaluacja została zaprojektowana i przeprowadzona – Jakie ustalenia zostały dokonane – Jakie wnioski zostały wyciągnięte – Jakie ewentualne rekomendacje zostały uczynione – – – • Przedstawić wyniki ewaluacji w sposób • dostosowany do potrzeb informacyjnych róznych stron uczestniczących • Oprócz rozpowszechniania pełnego raportu wykorzystać streszczenie i inne środki, np. ustne prezentacje oparte na materiale audiowizulalnym • Rozwiązać potencjalne problemy pomiędzy stronami uczestniczącymi poprzez przyjęcie włączającej struktury zarządzającej • Zadbać o to, aby ustalenia, wnioski i rekomendacje były wyraźnie od siebie oddzielone • Tam gdzie konieczne, osoby zarządzające programem mogą sformułować swoje własne obserwacje na temat raportu przygotowanego przez ekspertów zewnętrznych Nie pozwólić, w negocjacje by ewaluacja uwikłała się Wybrana bibliografia Breakwell, Glynis M. et Lynne Millward (1995). Basic evaluation methods. Analysing performance, practice and procedure. Leicester: British Psychological Society. Conseil Scientifique de l’évaluation (1996). Petite guide de l’évaluation des politiques publiques. Mars Paris: CSE. Commission Européenne (1993) Project cycle management. Integrated approach and logical framework. Direction générale du Développement. Commission Européenne (1995) Common guide for monitoring an interim evaluation. Fonds structurels. H.M. Treasury (1998). Policy evaluation : a guide for managers. Londres: Her Majesty’s Stationary Office. Joint Committee on Standards for Educational Evaluation (1994). The Programme evaluation standards. Drugie wydanie. Thousand Oaks. CA: Sage. MEANS (1995) Auditing, monitoring and evaluation of European structural policies. Should they be separated or integrated? Octobre. Lyon: Commission Européenne et C3E MEANS Podręcznik, tom 1. Organizing intermediate evaluation in the context of partnership. Lyon: Commission Européenne et C3E. MEANS Podręcznik, tom 4. Appying the multi-criteria method to the evaluation of structural programmes. Lyon: Commission Européenne et C3E. Mohr Lawrence B. (1995). Impact analysis for programme evaluation. Drugie wydanie. Thousand Oaks, CA: Sage. Patton, Michael Quinn (1986). Utilisation - focused evaluation. Drugie wydanie. Beverly Hills, CA: Sage. Rossi, Peter H. Et Howard E. Freeman (1993). Evaluation. A systematic approach. Piąte wydanie. Newbury Park, CA: Sage. Treasury Board of Canada (1991). Programme evaluation methods. Viveret Patric (1989). L’évaluation des politiques et des actions publiques, raport dla Premiera, Paris: La documentation française. Yin, Robert K. (1994). Case study research. Design and methods. Drugie wydanie. Newbury Park, CA: Sage.