Dokument Ewaluacja programów wydatków Unii

Transkrypt

Dokument Ewaluacja programów wydatków Unii
Dokument Ewaluacja programów wydatków Unii Europejskiej.
Przewodnik. umieszczony jest na stronach internetowych Komisji Europejskiej
- Dyrekcji Generalnej odpowiedzialnej za budżet. Poniższe tłumaczenie
nieoficjalne zostało wykonane w ramach umowy bliźniaczej PL99/IB/OT/1b,
realizowanej przez Urząd Komitetu Integracji Europejskiej oraz francuskie
Krajowe Centrum Terytorialnej Służby Cywilnej (Centre National de la
Fonction Publique Territoriale).
Ewaluacja programów wydatków Unii Europejskiej:
Przewodnik
Ewaluacja w połowie okresu i ex-post
XIX/02 – Synthèse budgétaire et évaluation
Dyrekcja Generalna XIX – Budżet
Komisja Europejska
1 wydanie, styczeń 1997
Ewaluacja programów wydatków Unii Europejskiej:
Przewodnik
Ewaluacja w połowie okresu i ex-post
XIX/02 – Synthèse budgétaire et évaluation
Dyrekcja Generalna XIX – Budżet
Komisja Europejska
1 wydanie, styczeń 1997
Niniejszy przewodnik został przygotowany przez pracowników Sekcji „Synthèse budgétaire
et évaluation” Dyrekcji Generalnej ds. Budżetu Komisji Europejskiej. Autorzy dziękują
swoim kolegom z różnych wydziałów Komisji oraz dwóm niezależnym ekspertom, za ich
pomocne komentarze i sugestie.
Przedmowa
Ewaluacja stanowi kluczowy element praktyki nowoczesnego zarządzania w sektorze
publicznym. To właśnie z tego powodu systematyczna ewaluacja programów wydatków Unii
Europejskiej stała się jednym z głównych składników inicjatywy Komisji pod nazwą SEM
2000 (Sound and Efficient Management 2000).
Wraz z przyjęciem Komunikatu w sprawie ewaluacji w dniu 8 maja 1996 r., Komisja
przedstawiła zespół konkretnych działań służących promowaniu najlepszych praktyk w tej
dziedzinie. Uwzględniając fakt, że wydziały operacyjne odpowiedzialne są za zapewnienie
ewaluacji przede wszystkim ich własnych programów, Komisja nałożyła na służby finansowe
obowiązek opracowania pewnej liczby instrumentów wsparcia. Pośród tych instrumentów
znajdują się instrukcje użytkowania do wykorzystania przez nie-specjalistów, przedstawiające
cele, metody zarządzania i koncepcję ewaluacji, wybrane kluczowe pytania metodologiczne
oraz podstawowe standardy dobrych praktyk zawodowych.
Niniejszy przewodnik porusza zagadnienia ewaluacji w połowie okresu i ewaluacji ex-post
programów wydatków. Przeznaczony jest dla osób zarządzających programami w ramach
służb Komisji, jak również dla innych użytkowników potrzebujących ogólnego
wprowadzenia do teorii i praktyki ewaluacji.
Mam nadzieję, że przewodnik ten stanowić będzie z jednej strony przydatny wkład w pracę
szerokiego zakresu służb, a z drugiej – czytelny dowód rozwoju kultury ewaluacji w ramach
Komisji.
Erkki Liikanen
Członek Komisji
odpowiedzialny za sprawy
budżetu i administracji
SPIS TREŚCI
PRZEDMOWA ......................................................................................................................................................... 4
1
WSTĘP............................................................................................................................................................. 8
1.1 CZYM JEST EWALUACJA................................................................................................................................ 9
1.1.1
W kierunku zdefiniowania ewaluacji ................................................................................................. 9
1.1.2
Czym ewaluacja nie jest................................................................................................................... 10
1.2 DLACZEGO PRZEPROWADZA SIĘ EWALUACJĘ PROGRAMÓW?..................................................................... 11
1.3 EWALUACJA PROGRAMÓW EU ................................................................................................................... 12
1.4 CO MOŻE ZOSTAĆ PODDANE EWALUACJI? .................................................................................................. 14
1.5 JAKIE ZAGADNIENIA PORUSZANE SĄ PODCZAS EWALUACJI?...................................................................... 15
1.5.1
Program i jego logika działania ...................................................................................................... 15
1.5.2
Kluczowe zagadnienia ewaluacji..................................................................................................... 17
1.5.3
Inne ważne zagadnienia ................................................................................................................... 20
1.6 KTO JEST WŁĄCZONY W PROCES EWALUACJI? ........................................................................................... 21
1.7 JAKIE RODZAJE EWALUACJI MOŻNA WYRÓŻNIĆ? ....................................................................................... 21
1.7.1
Ewaluacja formująca i podsumowująca.......................................................................................... 22
1.7.2
Ewaluacja cząstkowa i ewaluacja ex-post....................................................................................... 22
1.7.3
Ewaluacja wewnętrzna i zewnętrzna ............................................................................................... 22
2
PRZYGOTOWANIE I ZARZĄDZANIE EWALUACJĄ....................................................................... 24
2.1 OKREŚLENIE STRUKTURY ZARZĄDZAJĄCEJ ................................................................................................ 24
2.2 OPRACOWANIE PROJEKTU EWALUACJI ....................................................................................................... 26
2.2.1
Określenie celów ewaluacji ............................................................................................................. 26
2.2.2
Ustalenie zakresu ewaluacji ............................................................................................................ 27
2.2.3
Opracowanie agendy analitycznej................................................................................................... 28
2.2.4
Ustalanie mierników (benchmarks) ................................................................................................. 30
2.2.5
Inwentaryzacja dostępnych informacji ............................................................................................ 32
2.2.6
Ustalenie planu pracy ...................................................................................................................... 32
2.2.7
Wybór ewaluatora............................................................................................................................ 33
2.3 OPRACOWANIE WARUNKÓW KONTRAKTU (TOR) ...................................................................................... 34
2.3.1
Podstawa prawna i uzasadnienie ewaluacji.................................................................................... 35
2.3.2
Przyszłe wykorzystanie i użytkownicy ewaluacji............................................................................. 35
2.3.3
Opis programu, który ma zostać poddany ewaluacji ...................................................................... 35
2.3.4
Zakres ewaluacji .............................................................................................................................. 35
2.3.5
Główne zagadnienia ewaluacyjne ................................................................................................... 36
2.3.6
Wymagana metodologia zbierania i analizy danych....................................................................... 36
2.3.7
Plan pracy, struktura organizacyjna i budżet ................................................................................. 36
2.3.8
Struktura końcowego raportu z ewaluacji....................................................................................... 37
3
PRZEPROWADZANIE EWALUACJI..................................................................................................... 38
3.1 PRZEDSTAWIENIE MODELI EWALUACJI ....................................................................................................... 38
3.1.1
Przyczynowość i idealny model eksperymentalny ........................................................................... 39
3.1.2
Zagrożenia dla wnioskowania przyczynowego ............................................................................... 41
3.1.3
Podejście przyczynowe do modelów ewaluacji ............................................................................... 42
3.1.4
Podejście opisowe do modelu ewaluacji ......................................................................................... 44
3.2 TECHNIKI ZBIERANIA DANYCH ................................................................................................................... 45
3.2.1
Klasyfikacja danych ......................................................................................................................... 45
3.2.2
Badania ankietowe ........................................................................................................................... 46
3.2.3
Studia przypadku .............................................................................................................................. 47
3.2.4
Obserwacje z natury......................................................................................................................... 48
3.2.5
Opinie ekspertów.............................................................................................................................. 48
3.2.6
Przegląd dokumentów programu..................................................................................................... 49
3.2.7
Przeglądy literatury ......................................................................................................................... 49
3.3 TECHNIKI ANALIZY DANYCH ...................................................................................................................... 50
3.3.1
Analiza statystyczna ......................................................................................................................... 50
3.3.2
Wykorzystanie modeli....................................................................................................................... 51
3.3.3
Analiza niestatystyczna .................................................................................................................... 52
3.3.4
4
Techniki oceny.................................................................................................................................. 52
RAPORTOWANIE I ROZPOWSZECHNIANIE EWALUACJI .......................................................... 55
4.1 OPTYMALIZACJA WYKORZYSTANIA EWALUACJI ........................................................................................ 55
4.2 PRZEDSTAWIANIE RAPORTU Z EWALUACJI ................................................................................................. 56
4.2.1
Struktura raportu z ewaluacji .......................................................................................................... 56
4.2.2
Przejrzystość raportu z ewaluacji.................................................................................................... 57
4.3 ROZPOWSZECHNIANIE EWALUACJI ............................................................................................................. 58
ANEKS 1. SŁOWNIK TERMINÓW Z ZAKRESU EWALUACJI................................................................. 61
ANEKS 2 OCENA JAKOŚCI RAPORTU Z EWALUACJI ............................................................................ 78
ANEKS 3. KILKA ZALECEŃ I PRZECIWWSKAZAŃ DOTYCZĄCYCH EWALUACJI ...................... 80
WYBRANA BIBLIOGRAFIA.............................................................................................................................. 84
I Bóg stworzył ewaluatora1
Na początku Bóg stworzył niebo i ziemię.
A Bóg widział, że wszystko co uczynił było bardzo dobre.
I tak upłynął wieczór i poranek - dzień szósty.
Siódmego dnia, po całej pracy, Bóg odpoczywał. Podszedł
więc do niego Jego archanioł i zapytał Go: „Boże, skąd
wiesz, że to co stworzyłeś jest ‘dobre’? Jakie są Twoje
kryteria? Na jakich danych oparłeś swoją ocenę? Nie
uważasz, że jesteś zbyt zaangażowany by móc
przeprowadzić ewaluację sprawiedliwą i bezstronną?”
Bóg zastanawiał się nad tymi pytaniami przez cały dzień
i bardzo Mu to przeszkadzało w odpoczynku.
Ósmego dnia Bóg wykrzyknął: „Lucyferze, idź do piekła!”
1
Halcolm, The Real Story of Paradise Lost, cytat za Patton (1986).
1 Wstęp
Ewaluacja może być postrzegana przez niektórych jako zadanie iście diaboliczne. Jednakże,
jeśli ewaluacja przeprowadzona jest w sposób właściwy a jej wyniki wykorzystywane przez
osoby podejmujące decyzje, może ona przyczynić się do poprawy jakości programów
publicznych, wzrostu przejrzystości i odpowiedzialności, a także poprawy relacji kosztyefekty.
Ewaluacja nie jest nowością. W niektórych obszarach działań wspólnotowych występuje już
od kilku lat. Podobnie, niektóre Państwa Członkowskie mają stosunkowo bogate
doświadczenie w przeprowadzaniu ewaluacji i wykorzystywaniu jej wyników. W innych
krajach, zarówno w Europie, jak i na pozostałym obszarze, istnieje coraz silniejsza tendencja
do jej wprowadzania.
Inicjatywa Komisji pod nazwą Sound and Efficient Management 2000 (znana jako SEM
2000) przewiduje, że ewaluacja stanie się kluczowym elementem procesu poprawy kultury
zarządzania w samej Komisji. Jedną z zasadniczych nowości inicjatywy SEM 2000 jest
wymóg wprowadzenia systematycznej ewaluacji do wszystkich programów UE. Wymóg
ten został wzmocniony przez Komisję Komunikacie w sprawie Ewaluacji, przyjętym w dniu 8
maja 1996 r. Oprócz nałożenia na wydziały odpowiednich obowiązków w zakresie ewaluacji,
Komunikat przewidywał również opracowanie pewnej liczby instrumentów oddanych
do dyspozycji służb w celu wsparcia ich w wypełnianiu wspomnianych obowiązków.
Niniejszy przewodnik jest jednym z tych instrumentów.
Przewodnik ten ma na celu przedstawienie urzędnikom głównych aspektów zarządzania
ewaluacjami oraz dostarczenie szerokiego zarysu podstawowych problemów technicznych.
Skierowany jest raczej do osób typowych funkcjonariuszy zarządzających programami, niż
do specjalistów z zakresu ewaluacji, a więc jest na przykład dla osób, które chciałyby
zrozumieć jak zarządzać ewaluacją zewnętrzną lub jak przeprowadzić podstawową ewaluację
wewnętrzną programów wydatków UE. Ewaluacja pomocy nie związanej z wydatkami
budżetowymi ani ewaluacja projektów i polityk nie są tematami niniejszego przewodnika.
Tym niemniej wiele pojęć zaprezentowanych w przewodniku może zainteresować osoby
zajmujące się ewaluacją projektów lub polityk.
Niniejszy przewodnik koncentruje się przede wszystkim na ewaluacji ex-post
(przeprowadzanej bądź pod koniec, bądź po zakończeniu pomocy) oraz na ewaluacji
w połowie okresu (prowadzonej podczas wdrażania pomocy). Opublikowany zostanie
odrębny przewodnik dotyczący ewaluacji ex-ante (przeprowadzanej przed wdrożeniem
pomocy), która bywa określana również mianem oceny (appraisal).
Struktura przewodnika przedstawia się w sposób następujący:
•
Rozdział 2 wprowadza kluczowe pojęcia i definicje z zakresu ewaluacji:
– co może zostać poddane ewaluacji?
– jakie zagadnienia poruszane są podczas ewaluacji?
– kto jest włączony w proces ewaluacji?
– jakie rodzaje ewaluacji można obecnie wyróżnić?
•
Rozdział 3 dotyczy przygotowania i zarządzania ewaluacją. Znajdują się w nim porady
na temat:
– ustanowienia struktury zarządzania ewaluacją,
– przygotowania projektu ewaluacji,
– opracowania warunków kontraktu (ToR).
•
Rozdział 4 dotyczy przeprowadzania ewaluacji. Zapoznaje on czytelnika z głównymi
problemami, które dotyczą:
– modeli ewaluacji,
– technik zbierania danych,
– technik analizy danych.
•
Rozdział 5 dotyczy raportu i rozpowszechniania wyników ewaluacji. Przedstawia on
mianowicie:
– optymalizację wykorzystania ewaluacji,
– przedstawienie raportu z ewaluacji,
– rozpowszechnienia wyników ewaluacji.
Pozostała część pierwszego rozdziału poświęcona jest dwóm głównym pytaniom:
•
Co to jest ewaluacja?
•
Dlaczego programy poddawane są ewaluacji?
Po nich nastąpi ogólna dyskusja na temat specyficznych czynników, które powinny być
wzięte pod uwagę podczas przeprowadzania ewaluacji programów Unii Europejskiej.
1.1
Czym jest ewaluacja
1.1.1 W kierunku zdefiniowania ewaluacji
Czym więc jest ewaluacja? Odpowiedź na to pytanie nie jest tak łatwa, jak mogłoby się
wydawać. Istnieje wiele definicji terminu „ewaluacja”, każda z nich ma swoje zalety i wady.
Oto przykłady kilku możliwych definicji:
„Krytyczne i niezaangażowane spojrzenie na cele i sposób w jaki są
one osiągane2”
„Przeprowadzić ewaluację polityki, to zbadać, czy wdrożone przez
program środki prawne, administracyjne i finansowe umożliwiły
osiągnięcie zakładanych efektów danej polityki oraz osiągnięcie
przypisanych jej celów3”
„Proces, który ma na celu określenie, w sposób tak systematyczny
i obiektywny jak to tylko możliwe, trafności, skuteczności i efektów
danej działalności w stosunku do jej celów4”
2
HM Treasury (1998). UK Government
3
Conseil Scientifique de l’Evaluation (1996)
4
Organizacja Narodów Zjednoczonych
„Systematyczne stosowanie metody badawczej w naukach
społecznych, mającej na celu ocenienie koncepcji, zaprojektowania,
wdrażania i użyteczności programów publicznych5”
„Niezależne, obiektywne badanie kontekstu, celów, rezultatów,
działań i wdrożonych środków, w celu wyciągnięcia wniosków
na przyszłość, które mogą być szerzej zastosowane6”
„Ocena działań publicznych w zależności od ich rezultatów,
oddziaływania i potrzeb, które mają zaspokoić7”
„Przeprowadzić ewaluację polityki, to sformułować ocenę jej
wartości8”
Biorąc pod uwagę, że prawdopodobnie nie jest możliwe uzgodnienie jednej definicji
„ewaluacji”, która cieszyłaby się powszechną aprobatą, zdecydowaliśmy się zidentyfikować
pewne kluczowe elementy, które powinny charakteryzować ewaluację:
•
ewaluacja powinna być analityczna – powinna opierać się na uznawanych technikach
badawczych;
•
ewaluacja powinna być systematyczna – wymaga dokładnego zaplanowania i spójnego
wykorzystywania wybranych technik;
•
ewaluacja powinna być rzetelna – ustalenia ewaluacji powinny być podobne
w przypadku przeprowadzania jej przez różnych ewaluatorów mających dostęp do tych
samych danych i wykorzystujących te same metody analizy danych;
•
ewaluacja powinna być skoncentrowana na problemach – ewaluacja powinna odnosić
się do istotnych problemów dotyczących programu, mianowicie jego trafności,
efektywności i skuteczności;
•
ewaluacja powinna być przydatna dla użytkowników – oznacza to po prostu,
że ewaluacja powinna być zaprojektowana i wdrażana w taki sposób, który zapewni
dostarczenie użytecznych informacji dla osób podejmujących decyzje, w zależności
od okoliczności politycznych, ograniczeń projektu oraz dostępnych zasobów.
1.1.2 Czym ewaluacja nie jest
Choć nie jest łatwo powiedzieć czym jest ewaluacja, łatwiej można określić czym ewaluacja
nie jest.
Po pierwsze, ewaluacja różni się od badań naukowych. Oba procesy powinny być
analityczne, systematyczne i rzetelne. Jednak, podczas gdy naukowcy mogą podejmować
badania w celu powiększenia zasobów wiedzy ludzkiej i często ograniczają się do jednej
wąsko wyspecjalizowanej dziedziny, ewaluacja jest podejmowana z bardziej praktycznych
powodów. Ma ona mieć cele praktyczne, takie jak wyjaśnianie decyzji, wskazywanie
możliwości, zmniejszanie poziomu niepewności i ogólnie dostarczanie informacji na temat
5
Zaadaptowane z Rossi i Freeman (1993)
6
Słownik MEANS
7
Komisja Europejska, Direction Générale du Développement (1993)
8
Viveret (1989)
programów w ramach ich specyficznego kontekstu. Ewaluacja powinna także odwoływać się
do szerokiej gamy metod analitycznych.
Ewaluacja nie jest również audytem. Audyt obejmuje przede wszystkim weryfikacje
legalności i zgodności z przepisami wdrażania zasobów (środków) przez program. Ewaluacja
z kolei jest z konieczności bardziej analityczna. Bada ona program z punktu widzenia
społeczeństwa (zdefiniowanego z różnych możliwych punktów widzenia). Weryfikuje ona
słuszność przyjętej strategii, a następnie bada, czy jej cele są odpowiednie, wziąwszy pod
uwagę problemy, które powinny być rozwiązane i korzyści, które mają być osiągnięte.
Audytorzy mają często kompetencje władcze, czasem określone w aktach prawnych, podczas
gdy ewaluatorzy muszą często polegać na dobrej woli oraz na sile swoich argumentów.
Audyt tradycyjnie obejmuje takie czynności jak weryfikację ksiąg finansowych (audyt
finansowy). Jedna z ostatnich innowacji jest znana pod nazwą audyt wykonania (performance
audit), która koncepcyjnie jest bliższa ewaluacji. Audyt wykonania koncentruje się
szczególnie na zagadnieniach efektywności (bezpośrednie wyniki programu) oraz dobrego
zarządzania. Audyt wykonania i ewaluacja mają ten sam cel, jakim jest poprawa jakości
programu, ale ewaluacja idzie w tym kierunku znacznie dalej. Zajmuje się ona również takimi
zagadnieniami jak trwałość, trafność i długoterminowe konsekwencje programu.
Ponadto, należy rozróżnić ewaluację i monitorowanie. Monitoring bada wyniki programu
(towary i usługi dostarczone przez program) dla określonych uprzednio beneficjentów. Jest on
procesem ciągłym, przeprowadzanym w trakcie realizacji programu, w celu
natychmiastowego skorygowania jakichkolwiek odchyleń w stosunku do celów operacyjnych.
Ewaluacja przeciwnie, przeprowadzana jest w ściśle określonym momencie cyklu życia
programu i stanowi badanie pogłębione. Monitorowanie ma kluczowe znaczenie dla
poprawy wykonania (performance) programu i udana ewaluacja często zależy
od udanego monitorowania, na przykład dlatego, że monitoring dostarcza danych, które
mogą zostać wykorzystane w ewaluacji.
1.2
Dlaczego przeprowadza się ewaluację programów?
Głównym celem przeprowadzania ewaluacji programów jest oczywiście ich ulepszenie.
Ewaluację można także przeprowadzić z zamiarem określenia efektów programu dla
społeczeństwa lub wsparcia osób podejmujących decyzję w wyrobieniu sobie opinii na temat
wartości programu.
W niniejszym przewodniku wykroczymy poza te ogólne powody przeprowadzania ewaluacji
programów i rozróżniać będziemy trzy następujące przyczyny:
•
usprawnienie zarządzania;
•
dla celów odpowiedzialności;
•
wsparcie alokacji zasobów finansowych.
Ewaluacja ex-post i w połowie okresu często podejmowana jest dla celów zarządzania, np.
w celu ocenienia i usprawnienia wdrażania programu. Z zasady osoby zaangażowane
w zarządzanie programem powinny wiedzieć jakie są jego silne i słabe strony, jak może on
być usprawniony, jakie aspekty programu funkcjonują prawidłowo, a jakie nie i jaki jest
stosunek klientów, pracowników i innych osób do realizowanego programu. Może to
doprowadzić osoby odpowiedzialne za zarządzanie programem i podejmowanie decyzji
do powtórnego przemyślenia problemów, które leżą u podłoża programu.
Odpowiedzialność jest kolejnym ważnym powodem przeprowadzania ewaluacji, zwłaszcza
w kontekście UE, gdzie staje się ona coraz częściej obowiązkiem wynikającym z przepisów
prawa. Przeprowadzeniem ewaluacji zainteresowani są zarówno zwolennicy, jak
i przeciwnicy programu, a także przeciętni obywatele. Ewaluacja przeprowadzana dla celów
odpowiedzialności koncentruje się najczęściej na oddziaływaniu programu (stopniu w jakim
przyczynia się on do osiągnięcia zakładanych efektów) oraz na relacji jego efektów
do kosztów (value for money) i ma na celu poprawę przejrzystości.
Ewaluacja może być wreszcie wykorzystywana w celu poprawy alokacji zasobów
finansowych w ramach danej organizacji. W kontekście UE, powód ten jest ściśle związany
z zagadnieniem odpowiedzialności. Jego znaczenie zwiększyło się w świetle inicjatywy SEM
2000. Ograniczenia budżetowe w powiązaniu z ogólną troską o wzrost wartości
współczynnika value-for-money dla podatnika unijnego, zachęcają do przesuwania środków
z programów nieefektywnych i nieskutecznych do programów, które są bardziej skuteczne
i lepiej odpowiadają ewoluującym celom UE.
1.3
Ewaluacja programów EU
Przy ewaluacji programów UE należy wziąć pod uwagę pewne specyficzne czynniki, które
mogą zostać streszczone w następujący sposób:
•
zdecentralizowane zarządzanie – im bardziej podejmowanie decyzji oddalone jest
od codziennego zarządzania i od końcowego beneficjenta programu, tym bardziej centrum
potrzebuje ewaluacji. W przypadku wielu programów UE odległość (zarówno
geograficzna jak i w hierarchii) pomiędzy podejmowaniem decyzji, zarządzaniem
i oddziaływaniem w terenie jest znaczna. Niektóre programy są administrowane przez
regionalne lub lokalne agencje w różnych krajach. Może to spowodować luki w zakresie
informacji. Ewaluacja może przyczynić się do wypełnienia tej luki.
•
subsydiarność – art. 3b Traktatu o Unii Europejskiej (Traktatu z Maastricht) stanowi, że
„W zakresie, który nie podlega jej wyłącznej kompetencji, Wspólnota
podejmuje działania, zgodnie z zasadą subsydiarności, tylko wówczas
i tylko w takim zakresie, w jakim cele proponowanych działań nie mogą
być zrealizowane w sposób wystarczający przez państwa członkowskie,
natomiast z uwagi na skalę lub skutki proponowanych działań, mogą
zostać lepiej zrealizowane przez Wspólnotę.”
Poprzez rzucenie światła na wartość dodaną różnych programów, ewaluacja może
przyczynić się w sposób bardzo istotny do odpowiedzi na pytanie czy jest właściwe, aby
dany program był przeprowadzany na poziome wspólnotowym.
•
odnowienie programu – zasadniczo, programy UE mają czas trwania określony przez
odpowiednie przepisy ustanawiające dany program, tzn. przez ich podstawę prawną. Jeśli
po tym okresie program ma nadal być kontynuowany niezbędna jest nowa podstawa
prawna. Pozwala to na przerwanie nieskutecznych programów oraz na odnowienie bądź
rozszerzenie programów efektywnych. Ewaluacja może więc stanowić przydatny wkład
w proces podejmowania decyzji.
Podejmowanie decyzji w Unii Europejskiej jest skomplikowane i ma nieuchronnie
istotny wymiar polityczny. Ewaluacja nie może zastąpić tego procesu. Stara się raczej go
naświetlić.
Komisja odgrywa kluczową rolę w tym procesie i rozsądne wykorzystywanie ewaluacji
stanowić będzie ważny element. Ewaluacja, która jest dobrze zaplanowana i właściwie
przeprowadzona może być bardzo przydatna dla osób których dotyczą programy UE.
Na Komisji ciąży więc odpowiedzialność za zapewnienie, że ewaluacja jest przeprowadzana
zgodnie z wysokimi standardami zawodowymi oraz że jej wyniki są odpowiednio
przedstawione w sprawozdaniu.
Mając to na względzie, niniejszy przewodnik zawiera praktyczne porady przeznaczone dla
osób zarządzających programami, którzy chcieliby skorzystać z ewaluacji w celu poprawy
i lepszego uzasadnienia swojej pracy.
__________________________________________________________________________________________
Gdzie szukać dalszych informacji?
Użytecznym źródłem informacji są materiały na temat ewaluacji opracowane przez różne
wydziały w ramach Komisji. Jednostka organizacyjna lub funkcjonariusz odpowiedzialny
za ewaluację w każdej dyrekcji generalnej lub wydziale powinien umieć wskazać
szczegółową dokumentację dotyczącą ewaluacji danych programów. Zainteresowany
czytelnik może również przejrzeć podstawowe teksty na temat ewaluacji, z których część są
zamieszczone w Wyborze bibliografii na końcu przewodnika. Obejmują one następujące
pozycje: Patton (1996), Rossi i Freeman (1993) oraz Mohr (1995). Rozróżnienie pomiędzy
ewaluacją, audytem i monitorowaniem wyjaśnione jest w MEANS (1995) i Conseil
Scientifique de l’Evaluation (1996). Egzemplarz Komunikatu w sprawie Ewaluacji,
przyjętego
przez Komisję 8 maja 1996 r. powinien być dostępny w jednostkach
organizacyjnych lub u funkcjonariuszy odpowiedzialnych za ewaluację w każdej Dyrekcji
Generalnej lub wydziale.
Kluczowe pojęcia i definicje:
W tym rozdziale zostaną przedstawione krótko kluczowe pojęcia z dziedziny ewaluacji.
Przedstawimy je w odniesieniu do następujących istotnych pytań:
•
co może zostać poddane ewaluacji?
•
jakie zagadnienia poruszane są podczas ewaluacji?
•
kto jest włączony w proces ewaluacji?
•
jakie rodzaje ewaluacji można obecnie wyróżnić?
Czytelnik może również skorzystać z Aneksu nr 1 do przewodnika, który zawiera słownik
terminów technicznych.
1.4
Co może zostać poddane ewaluacji?
Ewaluacja jest pojęciem bardzo szerokim i w sposób ogólny można przeprowadzić ewaluację
prawie wszystkiego. W praktyce jednak możemy stwierdzić, że termin ten stosowany jest
zwłaszcza w odniesieniu do działań sektora publicznego na jednym lub kilku z następujących
poziomów:
•
projekt – pojedyncze, niepodzielne działanie, mające określony harmonogram i określoną
alokację budżetową.
przykłady:
projekt poprawy systemu irygacyjnego w określonym regionie
lub kraju rozwijającym się;
szkolenie skierowane do określonej grupy
w danym regionie państwa członkowskiego.
•
bezrobotnych
program – zestaw uporządkowanych, ale często zróżnicowanych działań (program może
obejmować kilka różnych projektów, działań lub procesów) zorientowanych
na osiągnięcie szczegółowych celów. Programy również mają zazwyczaj określony
harmonogram i budżet.
przykłady:
program MEDIA, zaprojektowany w celu wsparcia rozwoju
produkcji, dystrybucji i finansowania programów telewizyjnych;
Inicjatywa Wspólnotowa LEADER (program w ramach
Funduszy Strukturalnych), przeznaczony do wsparcia rozwoju
i strukturalnych dostosowań terenów wiejskich;
program PHARE wspierający transformację gospodarczą
w państwach stowarzyszonych oraz ich akcesję do UE.
•
polityka – zestaw działań, które mogą być różnego rodzaju i skierowane do różnych
bezpośrednich beneficjentów, ale które zorientowane są na osiągnięcie wspólnych celów
ogólnych. W przeciwieństwie do projektów i programów, polityki zazwyczaj nie są
ograniczone określonym harmonogramem ani budżetem.
przykłady:
Wspólna Polityka Rolna
Wspólna Polityka Zagraniczna i Bezpieczeństwa
Prezentowany przewodnik koncentruje się na ewaluacji programów. Pewne specyficzne
aspekty związane z ewaluacją projektów i polityk znajdują się poza zakresem przewodnika.
Tym niemniej wiele z punktów podniesionych w trakcie dyskusji nad programami będzie
przydatnych dla osób zainteresowanych przeprowadzaniem ewaluacji programów lub polityk.
Przewodnik będzie również przydatny dla osób zainteresowanych tzw. ewaluacjami
tematycznymi, tzn. ewaluacjami jednego lub kilku zagadnień wspólnych dla kilku różnych
programów lub działań (np. oddziaływania na środowisko lub na małe i średnie
przedsiębiorstwa).
1.5
Jakie zagadnienia poruszane są podczas ewaluacji?
1.5.1 Program i jego logika działania
Osoba przeprowadzająca ewaluację musi opisać program, który jest przedmiotem ewaluacji.
Zadanie to obejmuje określenie potrzeb, które program stara się zaspokoić, celów, które
zostały ustalone oraz wskaźników, które pozwalają na ocenę jego wykonania. Ewaluator musi
jednak wyjść poza prosty opis programu. Jednym z jego zasadniczych zadań jest
weryfikacja słuszności logiki działania programu. Pokrótce przedstawimy każe z tych
pojęć.
Programy tworzone są zawsze pod kątem określonego zestawu potrzeb. Potrzebami tymi są
problemy społeczo-gospodarcze, które program stara się rozwiązać, wyrażone z punktu
widzenia jego szczególnej grupy docelowej, tj. jego określonych beneficjentów. Weźmy
przykład programu, którego celem jest zmniejszenie bezrobocia wśród długoterminowych
bezrobotnych (populacja docelowa). Grupa ta może cierpieć na brak adekwatnych
kompetencji zawodowych (problem społeczno-gospodarczy do rozwiązania). Istnieje więc
potrzeba polepszenia perspektyw zatrudnienia dla tej grupy.
W celu zmierzenia się z problemami społeczno-gospodarczymi i zaspokojenia potrzeb grupy
docelowej, programy zmierzają do osiągnięcia pewnych celów (oczekiwanych efektów). Dla
programów wydatków, cele te mogą być wyrażone w kategoriach:
•
wyników (dobra i usługi sfinansowane i bezpośrednio wyprodukowane przez
program)
•
oddziaływania (zmiany społeczno-gospodarcze będące skutkiem programu)
Aby podkreślić to rozróżnienie możemy powiedzieć, że
wyniki to rzeczy, które program produkuje,
oddziaływanie to efekty, które program wywołuje.
Oddziaływanie może być dalej podzielone na:
•
rezultaty (początkowe oddziaływanie programu)
•
konsekwencje (oddziaływanie programu w dłuższym okresie)
Rozróżnieniu wyników, rezultatów i konsekwencji odpowiada podział na trzy typy celów:
•
cele operacyjne – wyrażone w kategoriach wyników (np. zapewnić kurs kształcenia
zawodowego długoterminowym bezrobotnym);
•
cele szczegółowe – wyrażone są w kategoriach rezultatów (np. polepszyć zdolność
do zatrudnienia długoterminowych bezrobotnych poprzez podniesienie ich kompetencji).
Należy zauważyć, że program może mieć różne grupy docelowe odpowiadające różnym
jego celom szczegółowym;
•
cele ogólne – wyrażone są w kategoriach konsekwencji (np. zmniejszenie bezrobocia
wśród dotychczasowych długoterminowych bezrobotnych).
Skąd możemy wiedzieć, czy program osiągnął swoje różne cele? Dla oceny wykonania
(realizacji) programu pod tym względem musimy oprzeć się na wskaźnikach. Dla celów
niniejszego opracowania wskaźnik jest to cecha lub atrybut, który może zostać zmierzony
w celu oceny programu pod kątem wyników i oddziaływania. Wskaźniki są nieuniknionym
uproszczeniem złożonej rzeczywistości. Mogą być one albo wymierne (np. PKB na osobę)
lub jakościowe (np. opinie uczestników szkolenia na temat jego użyteczności i przydatności).
Wskaźniki wyników są zazwyczaj proste i dostępne, gdyż osoby zarządzające programem
mają zazwyczaj informacje na temat dóbr i usług dostarczonych przez program. Ponadto jest
to zadanie systemu monitorowania. Wskaźniki oddziaływania mogą być trudniejsze
do wyodrębnienia, np. z powodu trudności w określeniu jakie efekty są rzeczywiście
spowodowane właśnie przez program lub z powodu kosztów i pracochłonności
bezpośredniego mierzenia tych efektów.
Z tych powodów, często trzeba polegać na wskaźnikach pośrednich. Rozpatrzmy dla
przykładu program mający na celu podniesienie stopnia umiejętności czytania i pisania
na obszarze całego kraju. Ocena umiejętności czytania całego społeczeństwa w różnych
punktach w czasie byłaby bardzo kosztowna i pracochłonna. Zamiast tego można oprzeć się
na danych dotyczących sprzedaży gazet i książek, pamiętając jednocześnie, że mogą wystąpić
problemy z właściwą interpretacją wskaźników. Dla przykładu, na sprzedaż gazet i książek
może mieć wpływ konkurencja ze strony radia i telewizji.
Prowadzi nas to do pojęcia logiki działania programu. Odnosi się ono do powiązania
pomiędzy nakładami programu (zasoby ludzkie i finansowe poświęcone na ten program) oraz
jego wynikami, i, w następstwie, osiągnięciem rezultatów i konsekwencji programu.
Wyczerpująca ewaluacja systematycznie badać będzie aktualność tej logiki. Rysunek 2.1.
poniżej ukazuje jak należy rozumieć logikę działania typowego programu. (Warto zauważyć,
że logika działania projektu lub polityki będzie się nieco różnić).
Logika działania programu jest po prostu wyjaśnieniem co program ma osiągnąć i sposobu
w jaki ma to osiągnąć.
Badanie logiki działania programu będzie zagadnieniem najważniejszym w przypadku
większości ewaluacji. Ewaluator musi zadać sobie pytanie jak nakłady wykorzystane
przez program prowadzą do różnych wyników i jak te wyniki z kolei prowadzą
do rezultatów i oddziaływania, którego oczekuje się po programie. Innymi słowy jak
program osiąga cele szczegółowe i w jaki sposób cele szczegółowe przyczyniają się
do osiągnięcia celu ogólnego.
Rys. 2.1. Logika działania programu
Konsekwencje
(oddziaływanie w
długim okresie)
cele ogólne
Oddziaływanie
a
(wpływ na
społeczeństwo)
Rezultaty
(początkowe
oddziaływanie)
Wyniki
(wyprodukowane
dobra i usługi)
Nakłady
(zasoby ludzkie i
finansowe)
cele
szczegółowe
Cele
programu
cele
operacyjne
Działanie
programu
Zasadniczo, logika działania programu zawierać będzie pewne ukryte założenia (na temat
związków przyczynowych pomiędzy programem i jego oczekiwanymi efektami oraz na temat
wpływu programu na otoczenie i wpływu innych czynników na program). Ważnym zadaniem
jest zidentyfikowanie tych ukrytych założeń w celu poddania ich krytycznej ocenie przez
ewaluatora.
1.5.2 Kluczowe zagadnienia ewaluacji
Po opisaniu programu i zbadaniu przez ewaluatora jego logiki działania, należy przejść
do odpowiedzi, najlepiej na wszystkie, z poniższych zagadnień:
•
trafność – do jakiego stopnia cele programu są odpowiednie w stosunku do ewoluujących
potrzeb i priorytetów zarówno na poziomie krajowym jak i UE?
•
efektywność – jak oszczędnie poszczególne nakłady zostały przekształcone w wyniki
i rezultaty?
•
skuteczność – do jakiego stopnia oddziaływanie programu przyczyniło się do osiągnięcia
celów szczegółowych i ogólnych?
•
użyteczność – do jakiego stopnia oddziaływanie programu odpowiada potrzebom grupy
docelowej?
•
trwałość - w jakim zakresie można oczekiwać, że pozytywne zmiany będą trwać
po zakończeniu programu?
Rysunek 2.2. poniżej pokazuje, w jakiej relacji z ewaluowanym programem znajduje się
każde z omówionych powyżej kluczowych zagadnień ewaluacji9. Diagram dzieli się na trzy
różne poziomy. Najniższy poziom to poziom oceny. Każda z pięciu wymienionych kwestii
wchodzi w zakres zadań ewaluatora, który używając racjonalnych technik analitycznych
powinien uzyskać ocenę każdej z tych kwestii.
9
Diagram został adaptowany na podstawie diagramu używanego przez C3E, Lyon.
Drugi poziom to poziom samego programu. Cele programu to zagadnienia, które go
uzasadniają. Aby osiągnąć te cele, na rzecz programu przekazuje się nakłady (zasoby ludzkie
i finansowe) oraz przypisuje się je do różnych działań programu. Proces ten prowadzi
do wygenerowania przez program dóbr i usług, które stanowią jego wyniki.
Najwyższy poziom to poziom problemów społeczno-gospodarczych. To na tym poziomie
należy rozpatrywać potrzeby grupy docelowej oraz szczególne problemy, które program ma
za zadanie rozwiązać. Rezultaty i konsekwencje programu znajdują się na tym poziomie,
ponieważ oddziałują one na te potrzeby i problemy. Przerywana linia służy wskazaniu, że te
trzy poziomy pojęciowo różnią się od siebie. Dla przykładu trudne może być
zidentyfikowanie efektów, które rzeczywiście zostały spowodowane przez program
i oddzielenie tych efektów od dziesiątków innych czynników wpływających na problemy
społeczno-gospodarcze.
Rys. 2.2. Kluczowe zagadnienia ewaluacyjne
Konsekwencje
Problemy społeczno-gospodarcze
Potrzeby
Rezultaty
program
Cele
Nakłady
Działania
ocena
Trafność
Skuteczność
Wyniki
Efektywność
Użyteczność i Trwałość
Wróćmy teraz do poziomu oceny i przeanalizujmy każde z kluczowych zagadnień
ewaluacyjnych. Ważność kryterium trafności (relevance) polega na tym, że może ono
prowadzić do decyzji o tym, czy pozwolić, by program był kontynuowany w obecnym
kształcie, czy należy go zmienić w istotny sposób, czy też dopuścić aby wygasł. Podczas
badania kryterium trafności ewaluator będzie zazwyczaj zadawał pytania czy istotne zmiany
w społeczeństwie zmieniły rację bytu programu lub czy mogą to uczynić w przyszłości.
Dyskusja na temat przyszłej trafności pociąga za sobą badanie alternatyw dla programu.
Jak zobaczyliśmy powyżej, skuteczność polega na porównaniu nakładów (zasobów)
z wynikami programu (dobrami i usługami których dostarcza) oraz rezultatami (jego
początkowym oddziaływaniem). Badanie skuteczności obejmuje następujące pytania: czy te
same korzyści można było osiągnąć wykorzystując mniejsze nakłady? Albo odwrotnie, czy te
same nakłady mogły przynieść większe korzyści? Dyskusja zagadnienia skuteczności
z konieczności pociąga za sobą porównania z alternatywami dla programu. Główną
trudnością w tej dziedzinie jest więc wybór odpowiednich mierników (benchmarks).
Ewaluator powinien wyszczególnić, które mierniki stanowić będą wzór dla pomiaru
skuteczności programu. Trudności mogą wyniknąć w sytuacji, gdy nie ma porównywalnych
programów, a ewaluator nie ma doświadczenia w pracy z podobnymi programami. Rozdział 3
niniejszego przewodnika zawiera pogłębioną dyskusję na temat mierników.
Innym ważnym punktem, którego nie można pominąć, jest fakt, że nawet jeśli program jest
skuteczny, może być nienajlepiej zaprojektowany. Doprowadza nas to do dyskusji na temat
efektywności (porównanie oddziaływania programu z jego celami). Warto pamiętać,
że w przypadku takich słabo zaprojektowanych programów, cele mogą być określone
niedostatecznie precyzyjnie lub może ich w ogóle brakować. Na ewaluatorze może w takiej
sytuacji spoczywać zadanie przekształcenia nieokreślonych lub ogólnych zamierzeń
w weryfikowalne cele.
Ponadto, należy pamiętać, że efektywność dotyczy tylko jednego aspektu oddziaływania
programu, mianowicie pozytywnych, oczekiwanych efektów. Program może mieć także
pozytywne, ale nieprzewidziane efekty, jak również efekty negatywne (zarówno oczekiwane,
jak i nieoczekiwane). Ewaluator będzie się zazwyczaj starał wyjść poza zagadnienie
efektywności po to, by ocenić całkowite oddziaływanie programu, nawet jeśli ustalenie
związków przyczynowych jest często trudne.
Aby ocenić ogólne oddziaływanie programu, ewaluator musi ustalić związek przyczynowoskutkowy pomiędzy tym programem a pozytywnymi i negatywnymi, zarówno oczekiwanymi,
jak i nieprzewidzianymi, zmianami, które nastąpiły. Przypisanie przyczynowości jest
problemem kluczowym w projekcie ewaluacji. Należy jednocześnie zidentyfikować i podać
inne możliwe wytłumaczenia zaistniałych zmian, które mogą być przypisane realizacji
programu, i jeśli jest to możliwe należy je wykluczyć, aby ewaluator mógł wykazać,
że dane zmiany nie wystąpiłyby gdyby nie realizacja programu. Zagadnienie
przyczynowości jest przeanalizowane dokładniej w rozdziale 4.
W ten sposób dochodzimy do pojęcia użyteczności, która polega na porównaniu
oddziaływania programu oraz potrzeb, które stanowiły przyczynę jego powstania. Programy
można określić jako użyteczne tylko jeśli wywołują w społeczeństwie takiego zmiany,
które są korzystne w odniesieniu do potrzeb grupy docelowej.
Podczas badania użyteczności programów UE, uprawnione jest pytanie o przestrzeganie
zasady subsydiarności. Czy program jest użyteczny w porównaniu do istniejących programów
na szczeblu krajowym i regionalnym? Czy program byłby bardziej użyteczny, gdyby był
realizowany na innym poziomie administracji?
Szczególny problem związany z pojęciem użyteczności polega na tym, że istnieje tak wiele
różnych interesów związanych z pomocą publiczną, iż trudno jest jednoznacznie zdefiniować,
w sposób satysfakcjonujący dla wszystkich zainteresowanych, pojęcie potrzeb. Bezrobotni
mogą zdefiniować swoje własne potrzeby szkoleniowe w sposób całkowicie inny od osób
które administrują programem szkoleniowym.
Dochodzimy wreszcie do pojęcia trwałości, blisko związanego z pojęciem użyteczności.
Nawet jeśli program powoduje powstawanie korzyści odpowiadających potrzebom grupy
docelowej, nie będzie miał wielkiej wartości, jeśli korzyści te nie będą trwały przez dłuższy
czas. Trwałość dotyczy więc tego, co dzieje się po zakończeniu programu. Na przykład, nie
jest użyteczne kształcenie bezrobotnych w zawodach (kwalifikacjach), które prawdopodobnie
będą przestarzałe po upływie kilku lat. Jeśli program ma być wartościowy w kategoriach
trwałości, musi powodować trwałe korzyści dla grupy (grup) docelowej.
Wracając do rysunku 2.2. powyżej, stwierdzimy, że każde z przeanalizowanych w tej części
zagadnień wymaga od ewaluatora dokonania oceny na temat:
•
w odniesieniu do samego programu – trafności i efektywności (poprzez prostą analizę jak
nakłady są przekształcane w wyniki); lub
•
w odniesieniu do programu i problemów społeczno-gospodarczych, które ma
rozwiązać – skuteczności (poprzez porównanie środków i rezultatów, a nie tylko
wyników), efektywności, użyteczności i trwałości.
Przeprowadziliśmy powyżej konceptualne rozróżnienie pomiędzy poziomem oceny,
poziomem funkcjonowania programu i poziomem problemów społeczno-gospodarczych.
Rozróżnienie to jest bardzo ważne. Wyniki programu powinny być łatwo identyfikowalne,
ale zidentyfikowanie jego rezultatów i konsekwencji może okazać się znaczne
trudniejsze. Rezultaty i konsekwencje przejawiają się w całej serii potencjalnie złożonych
interakcji pomiędzy programem i społeczeństwem. Ponadto, prawdopodobnie istnieją bardzo
liczne inne czynniki, które należałoby uwzględnić. Ewaluator musi się więc odwoływać
do racjonalnych technik analitycznych w celu określenia sposobu, w jaki program zmienił
społeczeństwo.
1.5.3 Inne ważne zagadnienia
Poza pięcioma kluczowymi zagadnieniami ewaluacji które zostały przedstawione powyżej,
ewaluacja może również obejmować inne ważne kwestie. Te pozostałe problemy zależą
głównie od cech charakterystycznych programu (programów), poddawanego ewaluacji.
Ewaluacje tematyczne, na przykład, koncentrują się na jednym lub kilku aspektach wspólnych
w ewaluacji różnych programów lub działań (np. oddziaływania na środowisko lub na małe
i średnie przedsiębiorstwa).
Można wskazać trzy szczególnie istotne dla ewaluacji wydatków publicznych zagadnienia,
mianowicie: efekt deadweight, efekt przesunięcia i efekt substytucji. Krótko przeanalizujemy
każde z nich.
Efekt deadweight, jest definiowany jako skutki, które wystąpiłyby nawet w sytuacji, gdyby
program wydatków publicznych nie miał miejsca. Deadweight powstaje zazwyczaj jako
rezultat nieadekwatnych mechanizmów realizacji programu (rozwiązania organizacyjne
dostarczające określonym beneficjentom dobra i usługi finansowane przez program). Dzieje
się tak zwłaszcza w sytuacji, gdy mechanizmy te nie są poprawnie zorientowane
na zakładanych beneficjentów programu. W rezultacie inne osoby i grupy, które nie należą
do grupy docelowej, stają się beneficjentami korzyści wygenerowanych przez program. Dla
przykładu, program szkoleniowy przeznaczony dla bezrobotnych długoterminowych może
objąć osoby, które podjęłyby szkolenie nawet, gdyby dany program nie miał miejsca (np.
poprzez podjęcie studiów wyższych lub uczestnicząc w prywatnych programach kształcenia) i
w rzeczywistości mogłyby nie być długoterminowymi bezrobotnymi.
Dla wielu programów, deadweight może być do pewnego stopnia nieuchronny. Stanowi
jednak ważne zagadnienie w ewaluacji programów wydatków z tego powodu, że istotne jest
zidentyfikowanie zakresu w jakim program odpowiada potrzebom jego grupy docelowej oraz
redukcja marnotrawstwa i nieefektywności wydatków publicznych. Powinno być jasne,
że problem ten jest ściśle związany z przedstwionym wyżej zagadnieniem nieefektywności:
efekt ten jest w rzeczywistości szczególnym przypadkiem nieefektywności programu.
Przesunięcie i substytucja są terminami blisko ze sobą związanymi, używanymi do określenia
sytuacji, w której efekty programu w odniesieniu do pewnych osób, grup lub obszarów zostały
uzyskane kosztem innych osób, grup lub obszarów. Rozpatrzmy dla przykładu sytuację,
w której celem programu jest wspieranie miejsc pracy poprzez ich subsydiowanie. W danym
przedsiębiorstwie, pracownicy korzystający z subsydiów mogą przejąć miejsca pracy osób nie
korzystających z tej formy pomocy, a którzy w przeciwnym wypadku byliby przez tę firmę
zatrudnieni. Efekt ten nazywa się substytucją. Odwrotnie, przedsiębiorstwo korzystające
z subsydiowania miejsc pracy może przejąć rynek przedsiębiorstwa, które nie korzysta
z programu. Korzyść z utworzenia miejsc pracy w przedsiębiorstwie uczestniczącym
w programie może więc być w części lub całkowicie zniwelowana przez utratę miejsc pracy
w innych przedsiębiorstwach. Ten z kolei efekt nazywa się przesunięciem.
Efekty przesunięcia i substytucji są szczególnymi przypadkami negatywnych efektów
programu, o których mowa była wyżej. Analiza całkowitego oddziaływania programu
powinna obejmować te negatywne efekty.
1.6
Kto jest włączony w proces ewaluacji?
Ewaluator, który jest bezpośrednio odpowiedzialny za przeprowadzenie ewaluacji, powinien
mieć świadomość, że wiele różnych grup i osób może mieć swój uzasadniony interes w jego
pracy. Określenie „strony uczestniczące” bywa używane w stosunku do różnych osób
i organizacji, na które realizacja i rezultaty danego programu mają wpływ w sposób pośredni
lub bezpośredni i którzy mogą mieć interes w jego ewaluacji.
Lista stron uczestniczących, które mogą bądź bezpośrednio uczestniczyć w ewaluacji bądź
być zainteresowane tym procesem, może więc obejmować:
•
polityków i osoby podejmujące decyzje;
•
osoby odpowiedzialne za ewaluację programu;
•
grupę docelową programu;
•
osoby zarządzające i administrujące programem;
•
inne osoby i grupy mające uzasadniony interes w programie.
Ewaluator jest zazwyczaj wybierany przez zleceniodawców ewaluacji i przed nimi jest
bezpośrednio odpowiedzialny. W przypadku programów UE, będzie to zazwyczaj
zarządzająca Dyrekcja Generalna lub wydziały w ramach Komisji Europejskiej. Rozdział 3
zawiera szczegółową analizę relacji pomiędzy ewaluatorem a różnymi grupami stron
uczestniczących.
Osoby redagujące raport z ewaluacji powinny wykazać się zrozumieniem różnych potrzeb
w zakresie informacji w zależności od uczestniczącej strony, a także względnej ważności
różnych stron uczestniczących na różnych etapach ewaluacji. Zagadnienie to zostanie
przedstawione dokładniej w rozdziale 5.
1.7
Jakie rodzaje ewaluacji można wyróżnić?
Rozdział ten podzielony jest na trzy części. W pierwszej wyjaśniony został podział
na ewaluację formującą i ewaluację podsumowującą. Zanim podejmie się decyzję
o przeprowadzeniu ewaluacji, należy jasno odpowiedzieć sobie na pytanie czy ma to być
ewaluacja bardziej formująca czy podsumowująca. W drugiej części zostanie wyjaśnione
rozróżnienie pomiędzy ewaluacją cząstkową (w trakcie trwania programu) i ewaluacją expost. Trzecia część dotyczy rozróżnienia pomiędzy ewaluacją wewnętrzną i zewnętrzną.
1.7.1 Ewaluacja formująca i podsumowująca
Rodzaj pytań, które zostaną postawione w trakcie ewaluacji zależy w dużej mierze od tego,
kim będą jej adresaci oraz z jakich powodów jest ona zlecana. Aby zilustrować to
zagadnienie, przydatne jest rozróżnienie pomiędzy:
•
ewaluacją formującą – która ma na celu zbadanie sposobów poprawy i wzmocnienia
zarządzania i wdrażania programu. Ewaluacja taka będzie raczej przeprowadzana dla osób
zarządzających programem w celu usprawnienia ich pracy; oraz
•
ewaluacją podsumowującą – ma na celu określenie zasadniczej skuteczności programu.
Ewaluacja taka będzie raczej przeprowadzana z myślą o podmiotach zewnętrznych (grup,
które nie są bezpośrednio zaangażowane w zarządzanie programem), z uwagi
na określenie odpowiedzialności oraz wsparcia w alokacji środków budżetowych.
Mimo że przedstawione tu rozróżnienie pomiędzy ewaluacją formującą i podsumowującą
może wydawać się jasne, w praktyce często okazuje się nieostre. Ogólna troska
o usprawnienie programów publicznych zazwyczaj wymaga połączenia obu podejść.
W niniejszym przewodniku będziemy zajmowali się przede wszystkim ewaluacją
podsumowującą,
lub
przynajmniej ewaluacją o znacznym udziale składnika
podsumowującego.
1.7.2 Ewaluacja cząstkowa i ewaluacja ex-post
Niniejszy przewodnik koncentruje się na ewaluacji cząstkowej i ewaluacji ex-post. Różnica
pomiędzy nimi jest głównie kwestią terminu:
•
ewaluacja cząstkowa jest przeprowadzana w trakcie wdrażania programu;
•
ewaluacja ex-post jest
po zakończeniu pomocy.
przeprowadzana
albo
w momencie
zakończenia,
albo
W wielu przypadkach ewaluacja cząstkowa koncentruje się często na wynikach programu
i nie stara się przeprowadzić systematycznej analizy jego oddziaływania. Będzie ona więc
w bardzo dużym stopniu opierała się na informacjach dostarczonych przez system
monitorujący. Ewaluacja cząstkowa będzie też miała raczej charakter kształtujący, tzn. jej
głównym zadaniem będzie poprawa mechanizmów realizacyjnych programu. W pozostałych
przypadkach ewaluacja cząstkowa stara się wziąć pod uwagę rzeczywiste oddziaływanie
programu, ale tylko w ograniczonym zakresie.
Ewaluacja ex-post z natury będzie raczej podsumowująca i motywem jej przeprowadzenia
będzie często zamiar przeanalizowania oddziaływania programu. Jednak z uwagi na fakt,
że często informacje niezbędne do oceny rzeczywistego oddziaływania programu nie są
dostępne przez wiele lat po zakończeniu programu, ewaluacja ex-post ma w wielu
przypadkach ograniczoną zdolność do dostarczenia pełnej oceny oddziaływania programu.
Ponieważ wiele programów UE zastępowanych jest kolejnymi programami (d’une autre
origine), nawet na etapie oceny ex-post uzasadnione mogą być pytania charakterystyczne dla
ewaluacji kształtującej.
1.7.3 Ewaluacja wewnętrzna i zewnętrzna
Wybór pomiędzy ewaluacją wewnętrzną i zewnętrzną stanowi kluczową decyzję w każdej
ewaluacji. Te dwa terminy mogą zostać zdefiniowane w sposób następujący:
•
ewaluacja wewnętrzna przeprowadzana jest przez członków organizacji, która prowadzi
działania poddawane ewaluacji;
•
ewaluacja zewnętrzna jest przeprowadzana przez osoby spoza organizacji zarządzającej
pomocą.
W Unii Europejskiej, przeprowadzenie zdecydowanej większości ewaluacji zleca się
konsultantom zewnętrznym i jest to typowe dla ewaluacji cząstkowych i ex-post.
Z korzystaniem z ekspertów zewnętrznych wiążą się oczywiście ogromne korzyści. Powinni
oni być w stanie wyrazić niezależną opinię na temat programów UE. Innymi słowy,
ewaluatorzy zewnętrzni powinni móc przeprowadzić obiektywną ewaluację. Dysponują oni
często wiedzą ekspercką z zakresu praktyki ewaluacji a zlecanie podwykonawstwa zadań
związanych z ewaluacją konsultantom zewnętrznym może być najbardziej praktycznym
i najmniej kosztownym rozwiązaniem.
Ewaluacja wewnętrzna może również mieć pozytywne strony. W szczególności pozwala ona
na promowanie podejścia „uczenie się przez działanie” (learning by doing), zważywszy
na fakt, że same wydziały zarządzające są ściśle włączone w problematykę „jak” i „dlaczego”
swojej własnej działalności. Tym niemniej, w wielu przypadkach przeprowadzenie ewaluacji
cząstkowej i ex-post o charakterze wewnętrznym mogłoby nie być praktyczne, oszczędne
a nawet pożądane. Dla przykładu, może być trudno przekonać inne strony uczestniczące,
że ewaluacja wewnętrzna będzie przeprowadzona w sposób obiektywny. Jest to przyczyna,
dla której liczne wydziały Komisji zdają się na ewaluację zewnętrzną.
W celu zapewnienia, że ewaluacja zewnętrzna zostanie przeprowadzona prawidłowo,
wydziały Komisji muszą zwracać szczególną uwagę na opracowanie warunków kontraktu.
Ponadto, o ile nie ma właściwego nadzoru ze strony zleceniodawców nad ewaluatorami
zewnętrznymi podczas przeprowadzania ewaluacji mogą pojawić się pewne problemy.
Na przykład:
•
raport z ewaluacji przygotowany przez konsultantów zewnętrznych może zawierać błędne
rekomendacje, ponieważ został zredagowany przez osoby posiadające niewystarczającą
wiedzę na temat kontekstu organizacyjnego i politycznego UE;
•
powstać mogą problemy z komunikacją; ewaluatorzy zewnętrzni mogą być zbyt
oddaleni od hierarchii zarządzającej by ich rekomendacje były wzięte pod uwagę.
Ponadto bezwzględnie konieczne jest zadbanie o to, by nadzór nad osobami
przeprowadzającymi ewaluację ze strony osób, które ją zleciły nie naruszał niezależności
ewaluatorów. Grupa sterująca powinna być w tym zakresie szczególnie przydatna.
Wybierając pomiędzy ewaluacją zewnętrzną i wewnętrzną należy brać pod uwagę zarówno
zalety i wady jednej i drugiej. Kompetencje techniczne i niezależność konsultanta
zewnętrznego powinny być równoważne potencjalnym zaletom przeprowadzenia ewaluacji
wewnętrznej. W rozdziale 3 zawarto dodatkowe praktyczne porady na temat wyboru
ewaluatora.
_________________________________________________________________________________________
Gdzie szukać dalszych informacji?
Aneks 1 niniejszego przewodnika zawiera słownik pojęć technicznych.
2 Przygotowanie i zarządzanie ewaluacją
Ewaluację nazywa się czasami „zdrowym rozsądkiem stosowanym”. Jednak w odróżnieniu
od zdrowego rozsądku, przeprowadzenie ewaluacji wymaga jej dobrego przygotowania
i właściwego zarządzania.
•
jeśli ewaluacja nie jest dobrze przygotowana, istnieje niebezpieczeństwo, że może ona
zostać przeprowadzona w sposób nieefektywny. Bardzo łatwo jest zignorować zasadnicze
pytania (czy w ogóle można przeprowadzić ewaluację danego programu? Co będzie, a co
nie będzie poddane ewaluacji? W jakim celu? Jakimi środkami?), na które należy
odpowiedzieć przed rozpoczęciem ewaluacji. Pytania te mogą wydawać się oczywiste
po ewaluacji, ale stosowna odpowiedź na nie musi być udzielona wcześniej.
•
jeśli ewaluacja nie jest dobrze zarządzana istnieje podobne niebezpieczeństwo. Nawet
w przypadku dobrze zaprojektowanej ewaluacji sprawy mogą się źle potoczyć lub
okoliczności mogą zmienić się w nieprzewidziany sposób. Należy więc w takiej sytuacji
przestrzegać odpowiednich zasad zarządzania.
Jeżeli ewaluacja nie jest dobrze przygotowana lub nie jest dobrze zarządzana może budzić
wątpliwości co do wiarygodności. Sytuacja taka zmniejsza szansę na to, że wnioski
i rekomendacje wypływające z niej zostaną szeroko przyjęte przez strony uczestniczące.
W takich okolicznościach, przydatność ewaluacji byłaby bardzo ograniczona.
W tym rozdziale przeanalizowane zostaną główne składowe przygotowania i zarządzania
ewaluacją. Zamieszczone zostały one w Ramce 3.1.
Ramka 3.1 Główne składniki przygotowania i zarządzania ewaluacją
•
określenie struktury zarządzającej – obejmuje to ustanowienie przejrzystej hierarchii,
która pozwala na ogólne zarządzanie ewaluacją;
•
opracowanie projektu ewaluacji – składa się z sekwencji logicznych kroków
od podstawowych problemów i interesów stanowiących uzasadnienie dla ewaluacji,
po pytania, na które można odpowiedzieć w analitycznie akceptowalny sposób;
• opracowanie warunków kontraktu (ToR) – polega na określeniu relacji pomiędzy
osobami odpowiedzialnymi za zlecenie ewaluacji (zleceniodawcami ewaluacji) oraz tymi,
którzy odpowiedzialni są za jej rzeczywiste przeprowadzenie.
Każdy z powyższych składników zostanie poniżej przedstawiony szczegółowo.
2.1
Określenie struktury zarządzającej
Struktura zarządzająca pozwala na zarządzanie całością ewaluacji a w szczególności
zaprojektowanie ewaluacji. Efektywna struktura zarządzająca powinna stanowić gwarancję,
że raport z ewaluacji będzie wysokiej jakości, dostępny w odpowiednim czasie i sporządzony
przy nakładzie uzasadnionych kosztów. Główne zadanie struktury zarządzającej polega
na przygotowaniu projektu ewaluacji (patrz część 3.2. poniżej) oraz opracowaniu warunków
kontraktu (patrz część 3.3. poniżej), w szczególności, gdy przeprowadzenie ewaluacji jest
zlecane ekspertom zewnętrznym.
Taka struktura zarządzająca powinna składać się przynajmniej z:
•
zarządu programu (osób zarządzających programem), i
•
jednostki, sektora lub urzędnika w ramach tej samej Dyrekcji Generalnej lub wydziały
odpowiedzialnej za ewaluację.
Często jest jednak bardzo przydatne poszerzenie struktury zarządzającej poprzez stworzenie
grupy sterującej. Dotyczy to zwłaszcza programów stanowiących istotne obciążenie dla
budżetu lub o kontrowersyjnym charakterze, a także w sytuacji, gdy ewaluacja dotyczy nie
tylko wdrażania danego programu, lecz obejmuje również ocenę jego skuteczności i przyszłej
trafności.
Oprócz DG lub wydziałem odpowiedzialnym za program, do takiej grupy sterującej są
zwykle włączane inne DG i oraz te wydziały, które są szczególnie zainteresowane programem
lub są ogólnie odpowiedzialne za ewaluację. Mogą w jej skład wchodzić przedstawiciele
Rady UE i Parlamentu Europejskiego, jako przedstawiciele władzy legislacyjnej i władzy
odpowiedzialnej za kształt budżetu. Strony uczestniczące o dużym znaczeniu spoza instytucji
UE również mogą być w niej reprezentowane. Dodatkowo, mogą się w niej znaleźć niezależni
eksperci, których zadaniem będzie wsparcie opracowywania projektu złożonej ewaluacji oraz
zapewnienie kontroli jakości samej ewaluacji.
Kluczowym pytaniem które powstaje podczas powoływania grupy sterującej jest to, czy
należy do niej włączać przedstawicieli osób odpowiedzialnych za rzeczywiste wdrażanie
danego programu (np. agencji wykonawczej). Jeśli tacy przedstawiciele są członkami grupy
sterującej, należy zwracać szczególną uwagę na to, by nie stanowiło to naruszenia
niezależności ewaluacji.
Istnienie grupy sterującej ma liczne zalety:
•
zachęca różne strony uczestniczące do aktywnego włączenia się w ewaluację;
•
zmniejsza ryzyko, że osoby zarządzające programem będą zbyt blisko związane
z ewaluatorem, co może naruszyć jego niezależność;
•
pozwala na kontrolę jakości ewaluacji przez ekspertów.
Utworzenie grupy sterującej stanowi gwarancję, że ewaluacja będzie postrzegana jako proces
włączający. Strony uczestniczące będą w ten sposób miały prawdopodobnie większe zaufanie
do wniosków i rekomendacji wynikających z ewaluacji, zwłaszcza jeśli mogły wpłynąć na jej
kształt. Należy jednak uważać, by grupa sterująca nie stała się zbyt liczna. Mogła by w ten
sposób nie wypełniać właściwie roli ciała zarządzającego i stać się za to forum negocjacji,
zagrażając bezstronności przedsięwzięcia. Ewaluacja nigdy nie powinna być uwikłana
w negocjacje.
Niezależnie od tego czy grupa sterująca została utworzona czy nie, odpowiedzialność
za rozwiązywanie problemów wynikłych np. ze zmian występujących już po rozpoczęciu
ewaluacji, należy do struktury zarządzającej. Problemy takie mogą obejmować m.in.:
•
brak porozumienia pomiędzy grupą sterującą i ewaluatorem w sprawie podstawowych
aspektów kształtu ewaluacji. Nie jest rzadkością żądanie przez grupy sterujące rzeczy
niemożliwych, na przykład ewaluacji, która będzie jednocześnie kształtująca
i podsumowująca i która obejmować będzie ocenę skuteczności programu pomimo faktu,
że dane niezbędne do sformułowania takiej oceny nie będą dostępne przez kilka dalszych
lat. Tego rodzaju problemów można łatwo uniknąć, jeśli od samego początku projekt
ewaluacji jest opracowywany właściwie.
•
ewaluator może dojść do wniosku, że pierwotny projekt ewaluacji nie może zostać
w pełni zrealizowany w wymaganym czasie. Taka sytuacja może mieć miejsce nawet przy
stosunkowo dobrym zaplanowaniu ewaluacji. Podobnie ewaluator może chcieć
zasugerować zmiany w pierwotnym projekcie tak, by więcej czasu zostało przeznaczone
na badanie takich elementów programu, które nie znalazły się w pierwotnym projekcie.
•
w trakcie trwania ewaluacji, ewaluator może spotkać się z oporem ze strony osób
administrujących programem, beneficjentów programu lub innych stron uczestniczących.
Dla przykładu mogą oni odmówić udostępnienia odpowiednich danych.
Struktura zarządzająca powinna mieć świadomość możliwości wystąpienia takich problemów
podczas trwania ewaluacji.
2.2
Opracowanie projektu ewaluacji
Projekt ewaluacji jest sekwencją logicznych kroków począwszy od sformułowania
problemów i interesów stanowiących uzasadnienie przeprowadzenia ewaluacji po serię pytań,
na które można odpowiedzieć w analitycznie akceptowalny sposób.
Opracowanie projektu ewaluacji obejmuje siedem przedstawionych poniżej etapów:
•
określenie celów ewaluacji;
•
ustalenie zakresu ewaluacji;
•
opracowanie agendy analitycznej;
•
ustalenie mierników (benchmarks);
•
zinwentaryzowanie dostępnych danych;
•
opracowanie planu pracy;
•
wybór ewaluatora.
Powyższe siedem etapów opracowywania projektu ewaluacji powinno mieć miejsce
praktycznie w przypadku każdej ewaluacji. W dalszej części tego rozdziału zostaną one
po kolei przeanalizowane.
2.2.1 Określenie celów ewaluacji
Pierwsze pytanie, jaki musi zostać postawione podczas przygotowywania ewaluacji to:
dlaczego? W jakim celu będziemy przeprowadzali ewaluację? Odpowiedzi na to pierwsze
pytanie będzie miało istotny wpływ na odpowiedzi na wszystkie kolejne pytania.
W wielu przypadkach przeprowadzenie ewaluacji wynika z obowiązku zawartego
w podstawie prawnej programu, stanowiącej najczęściej, że sprawozdanie powinno być
dostępne przed datą zakończenia programu.
Począwszy od przyjęcia Komunikatu w sprawie ewaluacji (w dniu 8 maja 1996 r.) w ramach
inicjatywy SEM 2000, wprowadzona została ogólna zasada, zgodnie z którą propozycja
odnowienia programu wieloletniego musi opierać się na ewaluacji jego dotychczasowych
wyników. Programy wydatków poza ramami wieloletnimi powinny być oceniane
przynajmniej raz na sześć lat.
Jak wspomniano w rozdziale pierwszym, są trzy specyficzne powody, dla których
przeprowadza się ewaluację programu:
•
usprawnienie zarządzania;
•
dla celów odpowiedzialności;
•
wsparcie alokacji zasobów finansowych.
Zawartość ewaluacji i styl raportu będzie się różnił w zależności od tego, jaką relatywną
ważność przypiszemy tym poszczególnym elementom. Jeśli nacisk zostanie położony
na usprawnienie zarządzania, centralne miejsce zajmować będzie przegląd mechanizmów
wdrażania i dostarczania. Raport taki może mieć bardzo techniczny charakter, zważywszy
że jego głównymi odbiorcami będą wydziały Komisji, pośrednicy oraz bezpośredni
beneficjenci.
Jeśli na pierwszym miejscu zostanie umieszczona odpowiedzialność, ewaluacja skoncentruje
się prawdopodobnie na skuteczności programu, przejawiającej się poprzez dane empiryczne
oraz postrzeganie go przez główne strony uczestniczące, a także na ewentualnych efektach
ubocznych i szczegółowych kwestiach związanych na przykład z równością i przejrzystością.
Styl raportu powinien uwzględniać fakt, że szersza grupa odbiorców może nie dysponować
specjalistycznym słownictwem i szczegółową wiedzą techniczną związaną z programem.
Jeśli, tak jak w przypadku ewaluacji wynikającej z obowiązków nałożonych przez SEM 2000,
nacisk jest położony częściowo na odnowieniu programu i na związanych z nim
potrzebach budżetowych, celem ewaluacji powinno być, między innymi, rzucenie światła
na rentowność programu, jego dalszą trafność i (ewentualnie) analiza porównawcza
rozwiązań alternatywnych. W tym przypadku styl raportu powinien gwarantować jego
zrozumienie przez osoby odpowiedzialne za podejmowanie decyzji i formułowanie opinii.
Cele ewaluacji powinny oczywiście być realistyczne. Rozważmy dla przykładu pierwszą
generację programu czteroletniego. Biorąc pod uwagę czas potrzebny zazwyczaj na przyjęcie
nowej propozycji przez władzę prawodawczą, raport z ewaluacji powinien być zasadniczo
gotowy w drugiej połowie trzeciego roku. Wynika z tego, że ewaluacja powinna się
rozpocząć nie później niż w pierwszej połowie tego roku. W tym czasie jednak możliwa
będzie obserwacja jedynie dwóch pierwszych lat realizacji programu, w najlepszym razie, co
pozwoli na przygotowanie jedynie raportu z realizacji, zawierającego ocenę wyników oraz
bardzo wstępne wskazanie rezultatów. Z drugiej strony, w przypadku programów drugiej lub
kolejnej generacji, powinno być możliwe przeprowadzenie ewaluacji dotyczącej rezultatów
i oddziaływania, a więc ewaluacja może objąć kluczowe zagadnienia takie jak skuteczność.
Do innych czynników, które mogą wpływać na osiąganie celów ewaluacji należy na przykład
jej budżet. Ponadto, w niektórych przypadkach, kontrowersje wokół programu mogą
powodować, że od chwili poruszenia zasadniczych kwestii może wzrosnąć ryzyko wplątania
ewaluacji w spory polityczne. Mogłoby to obniżyć wiarygodność ewaluacji. W takich
przypadkach najlepszym wyjściem byłoby ograniczenie ambicji ewaluacji.
2.2.2 Ustalenie zakresu ewaluacji
Ustalenie zakresu ewaluacji polega na odpowiedzi na pytanie: co ma być poddane
ewaluacji? Niezależnie od tego, jak bardzo wyczerpująca ma być naszym zdaniem ewaluacja,
ustalenie jej zakresu jest bardzo ważną częścią projektu ewaluacji. Byłoby zadaniem wręcz
niekończącym się analizowanie każdej możliwej strony danego programu bądź wszystkich
możliwych jego potencjalnych lub rzeczywistych powiązań z innymi programami
na poziomie wspólnotowym lub krajowym. Przykładowo, jeśli chcielibyśmy poddać
ewaluacji, w sposób naprawdę wyczerpujący, wspólnotową politykę rozwoju obszarów
wiejskich, powinniśmy ocenić nie tylko efekty wydatków dotyczących Celu 5b w ramach
Funduszy Strukturalnych, ale także wpływ na obszary wiejskie wszystkich polityk
europejskich a także interakcji tych polityk z politykami na poziomie krajowym.
Zasadniczo, pole badań w ramach ewaluacji, zwłaszcza część, która ma zostać
przeanalizowana w sposób pogłębiony, powinna być ograniczona z punktu widzenia
instytucjonalnego (poziom wspólnotowy a poziom krajowy lub lokalny), czasowego
(analizowany okres) i geograficznego (część obszaru Unii Europejskiej).
Drugie zasadnicze pytanie dotyczące zakresu ewaluacji, związane z powyższymi uwagami
dotyczącymi celów ewaluacji, zawiera się w pytaniu, które główne zagadnienia ewaluacji
mają być obserwowane i mierzone. Jak zostało wyjaśnione w punkcie 2.2.2. powyżej, należą
do nich trafność, efektywność, skuteczność i trwałość. Poza odpowiedzią na poprzednie
pytania dotyczące celów ewaluacji, wybór ten będzie uzależniony od takich czynników jak
dostępność danych, wymagania czasowe i ograniczenia zasobów finansowych.
Główną cechą zakresu ewaluacji, która ma za zadanie dostarczenie lekcji dla przyszłości
programu i jego zarządzania, jest to, że analizuje ona, z pewnego dystansu, słuszność logiki
działania programu (por. punkt 2.2.1. powyżej), sformułowanej w chwili rozpoczynania
programu. Głównym pytaniem, które należy zadać, jest: czy wystąpiły, tak jak było to
początkowo zakładane, związki przyczynowe między nakładami (zasobami finansowymi
i ludzkimi) a wynikami (dobrami i usługami wyprodukowanymi przez program), a następnie
osiągnięciem rezultatów i oddziaływania, a jeśli nie, to dlaczego? Poniżej przeanalizujemy to
zagadnienie szczegółowo.
2.2.3 Opracowanie agendy analitycznej
Gdy cele, którym służyć ma ewaluacja, oraz zasadnicze pytania, na które ma odpowiedzieć,
zostały już precyzyjnie zdefiniowane, kolejny etap w przygotowywaniu ewaluacji polega
na opracowaniu agendy analitycznej. Jest to logiczny schemat, obejmujący różne pytania
stawiane w trakcie ewaluacji.
Celem agendy analitycznej jest przekształcenie ogólnych, często niejasnych pytań, które mają
na myśli zleceniodawców ewaluację, w pytania wystarczająco precyzyjne, by mogły być
podstawą dla metod badawczych (opartych, niezmiennie, na metodach badawczych
wywiedzionych z ekonomii, nauk społecznych, zarządzania, etc.). Proces ten został
przedstawiony na rysunku 3.1. poniżej.
Rys. 3.1. Proces formułowania agendy analitycznej
Logika działania
programu (włącznie
z zakładanymi
związkami
przyczynowymi)
Ogólne pytania, które
muszą być zadane w
trakcie ewaluacji
agenda analityczna
Pytania na tyle
precyzyjne,
że
ewaluacja może dać
na nie odpowiedź
wrażenia na temat
programu głównych
stron
uczestniczących
Agenda analityczna jest po prostu sposobem przekształcania ogólnych pytań w pytania
bardziej precyzyjne. Dwa główne źródła pytań ogólnych stanowią:
•
początkowa logika działania programu, tzn. „teoria” co ma zostać osiągnięte i jak ma to
zostać osiągnięte; oraz
•
wrażenia głównych stron uczestniczących.
W ramach agendy analitycznej szczególną uwagę należy zwrócić na hipotezy przyczynowe,
które zazwyczaj są ukryte. Najważniejsze założenie dotyczy tego, w jaki sposób program ma
wygenerować zakładane efekty oraz stanu środowiska zewnętrznego programu (tzn. jak
program związany jest z innymi działaniami pomocowymi i innymi czynnikami
zewnętrznymi).
Zrekonstruowanie początkowej logiki działania programu jest czasem trudniejsze
od mówienia o tym. Oficjalne dokumenty rzadko zawierają szczegółowy opis hipotez
przyczynowych. Same cele programu mogą być wyrażone w sposób bardzo ograniczony.
Ponadto, zbiorowa pamięć służb Komisji może być stosunkowo krótka (np. z powodu
częstych zmian personalnych wśród odpowiedzialnych za program). Często niezbędne będzie
szczegółowe badanie dokumentów, w celu zrekonstruowania właściwej interpretacji
oficjalnych celów. W każdym przypadku, gdy cele programu nie są podane w sposób
dostatecznie przejrzysty i precyzyjny, bardzo trudne będzie ocenienie czy spełnił swoje
zadania.
Gdy w celu zrekonstruowania celów programu konieczne jest wychodzenie od zera,
zadanie to powinno być przeprowadzone w sposób przejrzysty przez strukturę
zarządzającą, najlepiej pod nadzorem grupy sterującej.
Drugim przydatnym wkładem w proces opracowywania agendy analitycznej jest zebranie
i przedstawienie wrażeń na temat programu głównych stron uczestniczących (jego sukcesów,
porażek, ewoluującego kontekstu, itp.). W trakcie ewaluacji powinny one być badane pod
kątem krytycznym, jako „hipotezy robocze”. Proces ten zarówno wzbogaci agendy
analitycznej, jak i wzmocni jej koncentrację na użyteczności. Nie powinien on jednak stać się
przyczyną uprzedzeń w stosunku do wniosków, do których ma doprowadzić ewaluacja.
Po zidentyfikowaniu głównych pytań, należy opracować agendę. Zasadniczo oznacza to
uzyskanie zestawu precyzyjnych pytań, na które ewaluator powinien odpowiedzieć przy
użyciu przyjętych metod badawczych. Agenda analityczna na różne pytania, na które należy
odpowiedzieć, nakłada pewien logiczny schemat. Najprostsza schematem używanym w tym
celu jest hierarchia.
Na najniższym poziomie tej hierarchii znajdują się pytania najbardziej szczegółowe
i najbardziej rozbudowane. Są one na tyle precyzyjne i konkretne, że można na nie
odpowiedzieć przy użyciu przyjętych metod badawczych. W miarę przesuwania się w górę
w tej hierarchii powinno być jasne, że bardziej szczegółowe pytania (leżące „niżej”), stanowią
podstawę do badań dotyczących bardziej ogólnych pytań (leżących „wyżej”). Prosty przykład
takiej hierarchii przedstawiony jest na rysunku 3.2., który oparty został na ewaluacji projektu
- kampanii mającej na celu podniesienie świadomości dotyczącej bezpieczeństwa na drogach
w średniej wielkości mieście.
Kampania skierowana była do ogółu ludności, ale ze szczególnym uwzględnieniem
młodzieży szkolnej, zwłaszcza tej z obszarów „wysokiego ryzyka” i kierowców – mężczyzn
w wieku od 18 do 24 lat. Ewaluator został poproszony o zbadanie, do kogo kampania dotarła
i czy wpłynęła na zmianę zachowania kierowców. Dla uproszczenia wybraliśmy przykład
ewaluacji projektu, ale te same zasady mają zastosowanie wobec opracowywania AA
ewaluacji programu.
Rys. 3.2. AA ustanawia hierarchię pytań stawianych w trakcie ewaluacji
Przykład: kampania informacyjna, mająca na celu podniesienie świadomości dotyczącej
bezpieczeństwa na drogach
Czy kampania dotarła do grupy
docelowej?
Czy kampania zmieniła zachowanie
użytkowników dróg?
Do jakiej
części
młodzieży
dotarła?
Do jakiej
części
kierowców
dotarła?
Czy
zmniejszyła
się liczba
wypadków?
Czy
zmniejszyła
się średnia
prędkość
jazdy?
Do jakiej
części
młodzieży
szkolnej w
obszarach
„wysokiego
ryzyka
dotarła?
Do jakiej
części
kierowcówmężczyzn w
wieku 18-24
lata dotarła?
Czy liczba
wypadków w
obszarach
„wysokiego
ryzyka”
zmniejszyła
się w
większym
stopniu niż
ogólna
liczba
wypadków?
Czy średnia
prędkość w
obszarach
„wysokiego
ryzyka”
zmniejszyła
się w
większym
stopniu niż
prędkość
ogólna?
Po opracowaniu AA osoby odpowiedzialne za zlecenie ewaluacji powinny odpowiedzieć
na pytanie, czy w rzeczywistości program może zostać poddany ewaluacji. Ewaluator,
przy wykorzystaniu odpowiednich metodologii badawczych, powinien być w stanie udzielić
odpowiedzi na pytania zidentyfikowane w procesie opracowywania AA. Aby wiedzieć, czy
można udzielić odpowiedzi na pytania z możliwym do zaakceptowania poziomem
wiarygodności, często zalecane jest przeprowadzenie analizy wykonalności ewaluacji.
Jeśli nie można przeprowadzić ewaluacji programu (np. ponieważ nie są jeszcze dostępne
odpowiednie dane), może to doprowadzić do podjęcia decyzji o przełożeniu ewaluacji
na późniejszy termin lub do opracowania nowej, bardziej realistycznej agendy analitycznej.
Tym niemniej, należy zawsze pamiętać, że lepiej dysponować nieprecyzyjnymi
odpowiedziami na ważne pytania, niż precyzyjnymi odpowiedziami na pytania nieistotne.
Zatem, nawet jeśli można dokonać tylko częściowej ewaluacji programu na co wskazuje
agenda analityczna, nadal może być przydatne przeprowadzenie ewaluacji.
2.2.4 Ustalanie mierników (benchmarks)
Celem ewaluacji jest ustalenie „wartości” programu. Zadanie to obejmuje wyrażanie oceny
wartościującej na temat w jakim stopniu wykonanie programu (performance) było „dobre”
lub „złe”. Z góry określone i przejrzyste mierniki są niezbędne dla zagwarantowania,
że ocena wartościująca nie będzie arbitralna.
Za pomocą jakich kryteriów należy ocenić zaobserwowane efekty danego programu?
W oparciu o jakie standardy można wypowiadać się na temat dobrego funkcjonowania lub
sukcesu danego programu? Oczywistym punktem wyjścia będą tu cele tego programu, takie
jakie zostały zapisane w formie oczekiwanych wyników, rezultatów i konsekwencji. Tym
niemniej, w niektórych przypadkach ustalenie takich mierników może okazać się trudne m.in.
z następujących powodów:
•
cele mogą być wyrażone w sposób bardzo nieprecyzyjny;
•
jeden program może mieć wiele celów, zarówno w kategoriach wyników jak i rezultatów,
niektóre z nich mogą mieć stosunkowo większe znaczenie lub mogą nie dawać się
pogodzić z innymi;
•
cele mogą zmieniać się w czasie, zgodnie ze zmianami w środowisku danego programu.
Doskonałym przykładem jest tu program PHARE na rzecz pomocy dla państw
stowarzyszonych Europy Środkowej i Wschodniej, którego cele przeszły istotne
modyfikacje od chwili rozpoczęcia jego realizacji.
Ustalenie mierników polega jednak na czymś więcej niż tylko prostej rekonstrukcji,
wyjaśnieniu i uporządkowaniu celów. Byłoby idealnie, gdyby mierniki pozwoliły
na porównanie wykonania danego programu z wykonaniem innych instrumentów
polityki w tym samym lub zbliżonym obszarze działań. Jest to uwaga bardzo ważna, gdyż
nie zawsze gdy program nie osiągnął zakładanych celów nie musi to oznaczać
niezadowalające jego wykonanie. Może ono wypaść pozytywnie w porównaniu
z rezultatami osiągniętymi przez podobny program realizowany w przeszłości lub
z realizowanym przez władze krajowe, lokalne, czy też przez państwa spoza Unii.
Perspektywa porównawcza może wykazać, że oczekiwania wobec programu były
nierealistycznie wysokie, a nie że to sam program zawiódł.
Zasadniczo wyróżniamy trzy różne osie, które mogą stanowić podstawę dla ustalania
mierników:
•
czas – mierniki, które porównują ten sam program w czasie (do jakiego stopnia cele
programu zostały osiągnięte w porównaniu z zeszłym rokiem?);
•
przestrzeń – mierniki, które porównują ten sam program na różnych obszarach (do jakiego
stopnia cele programu zostały osiągnięte na danym obszarze w porównaniu z innym
obszarem?);
•
czas i przestrzeń – mierniki, które porównują program z innymi, w miarę podobnymi
instrumentami polityki.
Podczas dokonywania oceny wykonania programu za pomocą mierników, należy
bezwzględnie pamiętać o tym, że mierniki mogły zostać osiągnięte na skutek rozwoju
sytuacji, którego nie można przypisać działaniom danego programu. W ramach ewaluacji
należy starać się rozdzielić te zmiany, w celu ustalenia efektów netto danego programu
na osiągnięcie jego celów. Dane dotyczące mierników powinny być ostrożnie
interpretowane. Jest to szczególnie istotne w przypadku celów, na które mogły mieć wpływ
różne inne czynniki zewnętrzne, takie jak polityki narodowe, na które program UE miał
niewielki lub żaden wpływ. Kwestia przypisania netto jest kwestią zasadniczą w wyborze
modelu ewaluacji, co zostanie szczegółowo przedstawione w rozdziale 4.
2.2.5 Inwentaryzacja dostępnych informacji
Kolejnym etapem w przygotowywaniu projektu ewaluacji jest inwentaryzacja dostępnych
danych. W przypadku większości programów, system monitorowania powinien stanowić
pierwsze źródło informacji. Jakość danych pochodzących z systemu monitorowania będzie
miała zasadnicze znaczenie dla sukcesu ewaluacji. Jednak te dane w niewielu przypadkach
będą w pełni wystarczające. Do innych dostępnych materiałów można zaliczyć literaturę
fachową, publikacje dziennikarskie, dane administracyjne lub opublikowane statystyki.
Często przydatne jest opracowanie pewnej syntezy badawczej dotyczącej aktualnego stanu
wiedzy na temat problemu i sposobów jego rozwiązania za pomocą działania polityki
i wydatków publicznych. Może ona służyć jako przewodnik do analizy ewaluacji i wyboru
metody, zwłaszcza w odniesieniu do kwestii trafności i skuteczności.
Jest oczywiste, że program oparty na rzetelnej ewaluacji ex-ante będzie brał pod uwagę
wiedzę istniejącą w momencie jego powstania. Jednak nie wszystkie programy UE korzystały
w przeszłości z takiego systematycznego badania, a nawet jeśli tak było, od czasu ich
powstania upłynął pewien okres, co wymaga uaktualnienia danej syntezy badawczej.
Inwentaryzacja dostępnych informacji i porównanie ich z potrzebami wynikającymi z agendy
analitycznej, wskaże główne luki w informacji, które z kolei stanowić będą podstawę
określenia zadań w zakresie zbierania i interpretacji danych podczas ewaluacji. Należy jednak
postępować bardzo ostrożnie. Dana agenda analityczna może być rezultatem podejścia
maksymalistycznego, stawiającego pytania, które wymagają danych niepewnych lub
osiągalnych jedynie po bardzo dużych kosztach. Niektóre z tych pytań mogą być tylko luźno
związane z głównymi celami danego programu. Ewaluacja jest ograniczona czasowo
i finansowo, dlatego przed rozpoczęciem zbierania danych należy zdecydować, które dane
mogą dostarczyć nowych i istotnych informacji na badany temat. Należy również pamiętać,
że ewaluator może zawsze sięgnąć do istniejącej literatury jako źródła danych podczas
przeprowadzania ewaluacji. Jeśli zakłada się przegląd istniejącej literatury jako jedną
z potencjalnych technik zbierania danych, przeprowadzanie syntezy badawczej może być
zbędne.
2.2.6 Ustalenie planu pracy
Po zakończeniu przedstawionych wyżej etapów będzie możliwe opracowanie planu pracy,
który zawierać będzie badania do przeprowadzenia podczas ewaluacji, mając na uwadze
główne pytania zawarte w agendzie analitycznej oraz zidentyfikowane braki w informacji.
Badania te powinny być opisane dostatecznie precyzyjnie, zarysowując w sposób przejrzysty,
choć prowizoryczny, zaplanowane zadania zbierania i analizy danych oraz, o ile to możliwe,
wykorzystywaną metodologię.
Aby zakładanymi zadaniami można było zarządzać, często użyteczne jest podzielenie ich
na różne etapy i określenie odpowiednich harmonogramów przedkładania kolejnych części
ewaluacji (np. raportów cząstkowych).
Plan pracy jest odpowiednim miejscem do określenia kosztu ewaluacji oraz jego składników.
W przypadku gdy przeprowadzana będzie ewaluacja wewnętrzna, należy podać szacunkowy
ogólny czas pracy, który będą musieli jej poświęcić urzędnicy, a także pozostałe wydatki
administracyjne. W przypadku, gdy odwołujemy się do ekspertów zewnętrznych, szacunki
kosztów powinny być przeprowadzone przed ogłoszeniem przetargu. Procedura ta ma na celu
zagwarantowanie, że budżet zarezerwowany na ewaluację przeprowadzaną przez ekspertów
zewnętrznych jest zgodny z zakresem agendy analitycznej, zawartym w planie pracy.
Komunikat Komisji w sprawie ewaluacji z 8 maja 1996 r. podaje, że ogólny budżet
przeznaczony na wszystkie działania związane z ewaluacją w trakcie trwania programu może
wynosić do 0,5% budżetu danego programu.
Szacowanie kosztów zawsze powinno być realistyczne. Zbyt często ewaluacja jest
podejmowana zbyt późno lub nie spełnia ustalonych zadań, ponieważ początkowe
oczekiwania były zbyt wysokie. Dla przykładu, bardzo kosztowne może być angażowanie się
w poważne zadania dotyczące zbierania danych, które nie mogą być uzyskane przy pomocy
systemu monitorowania. Podobnie, czas i pieniądz są tylko częściowo swoimi substytutami.
Zwiększenie budżetu może skrócić potrzebny na ewaluację czas, ale zazwyczaj relacje
pomiędzy tymi czynnikami są bardziej złożone.
2.2.7 Wybór ewaluatora
Opracowanie agendy analitycznej i ustalenie planu pracy są bardzo ważnymi etapami, które
należy przeprowadzić przed wyborem ewaluatora. W szczególności, gdy jest już ustalone
na jakiego rodzaju pytania ewaluacja będzie musiała znaleźć odpowiedź, gdy budżet
i harmonogram ewaluacji zostały określone, łatwiej wybrać pomiędzy ewaluacją wewnętrzną
i zewnętrzną.
Zadania stawiane przed ewaluacją są bardzo różne, co powinno znaleźć odbicie w wyborze
ewaluatora. Niektóre działania z zakresu ewaluacji są technicznie bardzo skomplikowane,
kosztowne i trwają tak długo, że wymagają aktywnego uczestnictwa wysoko
wykwalifikowanych specjalistów. Z drugiej strony, jest wiele działań, dość prostych, które
mogą być przeprowadzone przez osoby nieposiadające specyficznej wiedzy na temat danego
sektora. Przy tym pewien dystans zawodowy w stosunku do badanego przedmiotu często
stanowić może atut w zakresie w jakim pozwala ewaluatorowi na bardziej obiektywne
i niezależne spojrzenie na program.
Zdolność techniczna ewaluatora jest ważnym kryterium wyboru, ale nie wystarczającym
samo w sobie. Inne ważne przy wyborze ewaluatora kwestie obejmują:
•
zdolność do uzyskania dostępu do odpowiednich informacji i uczestników;
•
wiedzę i dotychczasowe doświadczenie w dziedzinie programu;
•
niezależność ewaluatora od stron uczestniczących;
•
specyficzne cechy związane z dziedziną działania (np. ewaluator może być zobowiązany
do pracy w niebezpiecznych warunkach).
Jeżeli została podjęta decyzja o przeprowadzeniu ewaluacji zewnętrznej, należy pamiętać,
że istnieją różne rodzaje organizacji, które mogą przeprowadzić ewaluację zewnętrzną.
Najczęściej wykorzystywane z nich to:
•
firmy doradcze (consultingowe) – mogą one obejmować duże, międzynarodowe
przedsiębiorstwa, które mają znaczące doświadczenie w przeprowadzaniu różnego
rodzaju ewaluacji, a także małe firmy, mające węższą, wysoce specjalistyczna wiedzę
ekspercką. Przedsiębiorstwa tego rodzaju często są postrzegane przez strony
uczestniczące jako reprezentujące podejście „biznesowe” (choć w pewnym kontekście
sektora publicznego może być to niekorzystne). Generalnie, tego typu organizacje mogą
przeprowadzić ewaluację stosunkowo szybko i zazwyczaj posiadają doskonałe
umiejętności w zakresie prezentacji. Mimo to, mogą one mieć pewne mankamenty.
Po pierwsze ich ceny mogą być stosunkowo wysokie w porównaniu z innymi rodzajami
instytucji. Jeśli ich ceny są konkurencyjne, może to stanowić celową próbę zdobycia
dodatkowych zamówień poprzez zaniżanie kosztów. Czasami, mogą one próbować
zmniejszyć koszty własne przez stosowanie gotowych rozwiązań dla danego problemu
ewaluacyjnego, zamiast starać się dostosować ewaluację do potrzeb zleceniodawców ją
oraz do potrzeb głównych stron uczestniczących. Istnieje wreszcie ryzyko, że firmy
konsultacyjne mogą obiecać ewaluację, ale przeprowadzić audyt.
•
instytucje akademickie – eksperci akademiccy często mogą zaoferować wysoki poziom
ekspertyzy metodologicznej w zakresie ewaluacji. Niektórzy mogą ponadto posiadać
wysoki poziom wiedzy specjalistycznej. Strony uczestniczące mogą mieć tendencję
do postrzegania pracowników nauki jako stosunkowo niezależnych i stanowić to może ich
przewagę w stosunku do firm doradczych, które mogą wzbudzać pewne obawy. Instytucja
uniwersytecka lub badawcza może gwarantować lepszą gospodarność (relację kosztów
do korzyści) ale może też okazać się mniej elastyczna. Istnieje jednak ryzyko, że instytucje
naukowe mogą obiecać ewaluację, ale przeprowadzić badania naukowe.
W przypadku dużych programów, albo programów mających zmienne oddziaływanie
regionalne, często jest przydatne zwrócenie się do konsorcjów ewaluatorów. Pozwala to
na łączne wykorzystywanie różnych rodzajów organizacji przeprowadzających ewaluację.
W typowym przypadku jedna organizacja będzie nadzorować całość prac nad ewaluacją oraz
przygotowywać syntetyczny raport. Szczegółowe aspekty programu (lub poszczególne
regiony) mogą zostać podzielone pomiędzy różnych członków konsorcjum.
Jest wiele kryteriów, które powinien spełniać idealny ewaluator: specjalistyczna wiedza
w określonej dziedzinie, doświadczenie w ewaluacji, niezależność i zbieżność zewnętrzna ,
zdolność do pracy w wyznaczonych ramach czasowych, gospodarność (relacja koszty/efekty)
oraz uczciwość. Oczywiście nikt w całości nie spełni wszystkich tych kryteriów.
W rzeczywistym świecie wybór ewaluatora z konieczności pociąga za sobą ustępstwa
w jednym lub kilku wymienionych punktach.
2.3
Opracowanie warunków kontraktu (ToR)
Precyzyjnie określone warunki kontraktu mają zasadnicze znaczenie w przypadku, gdy
ewaluacja ma być przeprowadzana przez eksperta zewnętrznego, ale mogą być równie istotne,
gdy ma być przeprowadzona ewaluacja wewnętrzna. Warunki kontraktu określają zakres
pracy do wykonania przez ewaluatora, zagadnienia, które należy poruszyć oraz
harmonogram prac. Pozwalają one zleceniodawcom ewaluacji określić własne potrzeby,
a ewaluatorowi zrozumieć czego oczekuje się od wykonywanego zadania.
Warunki kontraktu powinny brać pod uwagę specyfikę programu podlegającego ewaluacji.
W przypadku ewaluacji powierzonych podwykonawcom zewnętrznym, warunki kontraktu
stanowiące załącznik do kontraktu mogą różnić się od tych, które zostały opracowane
początkowo, na potrzeby przetargu, na skutek negocjacji i dyskusji z wybranym
podwykonawcą, który może wnieść do niego własną wiedzę i doświadczenie. W tym
przypadku ważne jest, by potencjalni ewaluatorzy wiedzieli w jakim zakresie mogą
zredefiniować początkowy projekt ewaluacji przed uzgodnieniem warunków kontraktu
i podpisaniem kontraktu.
W warunkach kontraktu powinny się zazwyczaj znaleźć następujące elementy:
•
podstawa prawna i uzasadnienie ewaluacji;
•
przyszłe wykorzystanie i użytkownicy ewaluacji;
•
opis programu, który ma zostać poddany ewaluacji;
•
zakres ewaluacji;
•
główne zagadnienia ewaluacji;
•
wymagana metodologia zbierania danych i ich analizy;
•
plan pracy, struktura organizacyjna i budżet;
•
kryteria wyboru ewaluatorów zewnętrznych;
•
oczekiwana struktura ostatecznego raportu z ewaluacji.
Poniżej zostaną krótko przedstawione kolejne punkty.
2.3.1 Podstawa prawna i uzasadnienie ewaluacji
Zarówno dla ewaluatora, jak i dla zleceniodawców ewaluacji, jest przydatne, jeśli
w warunkach kontraktu przedstawiona jest podstawa prawna i wymagania kontraktowe,
na których oparta będzie ewaluacja.
2.3.2 Przyszłe wykorzystanie i użytkownicy ewaluacji
Ewaluator powinien wiedzieć, w jaki sposób zostaną wykorzystane wyniki danej ewaluacji
i kto jest przewidywanym głównym użytkownikiem oraz jakich rezultatów oczekuje się
po ewaluacji. Odpowiedzi na te pytania pozwolą mu zidentyfikować główne przyczyny, dla
których zlecone zostało przeprowadzenie ewaluacji. Przyczyny te, z kolei, będą wpływać
na szczegółowe zagadnienia, którymi będzie się zajmował ewaluator podczas pracy,
na odpowiednie potraktowanie zagadnienia wdrażania programu oraz na stopień
szczegółowości odpowiedzi na pytania dotyczące programu.
2.3.3 Opis programu, który ma zostać poddany ewaluacji
Warunki kontraktu powinny zazwyczaj obejmować zwięzły, ale pełny opis programu, który
ma zostać poddany ewaluacji (w tym, na przykład, jego grupy docelowej, celów ogólnych
i szczegółowych, nakładów i wyników oraz mechanizmów realizacji).
2.3.4 Zakres ewaluacji
Warunki kontraktu powinny precyzować którą część programu powinna objąć ewaluacja
i jakie aspekty programu należy wziąć pod uwagę. Na tym etapie można odnieść się
do przedstawionego powyżej projektu ewaluacji (w szczególności rozdział 3.2.2.).
Do ważnych pytań, na które należy sobie odpowiedzieć podczas decydowania o zakresie
ewaluacji, należą:
•
Czy oczekuje się, że ewaluacją zostanie objęta całość programu? Jeśli nie, warunki
kontraktu powinny precyzyjnie określać, która część programu powinna być wyłączona
z ewaluacji (wielkość budżetu, obszar geograficzny, terminy, specyficzne zagadnienia,
działania lub grupy klientów);
•
Czy ewaluacji powinien zostać poddany program izolowany, czy też od ewaluatora
wymagać się będzie zbadania powiązań pomiędzy tym, a innymi programami UE?;
•
Czy od ewaluatora oczekuje się oceny w jakim zakresie zostały zrealizowane oczekiwane
wyniki, rezultaty i oddziaływanie programu (tzn. zakres, w jakim zostały osiągnięte cele
szczegółowe i ogólne)? Czy należałoby zbadać jednocześnie niespodziewane rezultaty
i oddziaływanie, zarówno pozytywne jak i negatywne?
2.3.5 Główne zagadnienia ewaluacyjne
Ważne jest przedstawienie zagadnień ewaluacji opracowanych na podstawie agendy
analitycznej (jak wyjaśniono w rozdziale 3.2.3. powyżej) w celu dostarczenia ewaluatorowi
precyzyjnych wytycznych dotyczących dokładnych potrzeb zleceniodawców ewaluacji i stron
uczestniczących w ewaluacji w zakresie informacji. Potrzeby informacyjne będą zazwyczaj
różne, zależnie od tego, czy przeprowadzana będzie ewaluacja formująca czy
podsumowująca.
Jednym z zasadniczych zagadnień, które należy rozpatrzyć podczas ewaluacji będzie
oczywiście weryfikacja, czy logika działania programu nadal jest aktualna. Należy pamiętać,
że logika działania opisuje sposób, w jaki nakłady programu (zasoby ludzkie i finansowe) są
przekształcane w wyniki (dobra i usługi wyprodukowane przez program) i jak one z kolei
prowadzą do uzyskania rezultatów i oddziaływania.
2.3.6 Wymagana metodologia zbierania i analizy danych
Podczas opracowywania warunków kontraktu zleceniodawcy ewaluacji chciałyby zazwyczaj
przedstawić przejrzyste wytyczne w zakresie zbierania danych i metod ich analizy, których
ewaluator powinien przestrzegać. Choć należy przyznać, że zarówno ewaluatorzy zewnętrzni
jak i wewnętrzni prawdopodobnie skorzystaliby na takich wytycznych, trzeba jednocześnie
pamiętać, że nie ma żadnej jednej, uniwersalnej, w każdym przypadku możliwej
do zastosowania metodologii.
Metodologia, która ma być wykorzystana przy zbieraniu danych i ich analizie, musi być
dostosowana do specyficznych okoliczności ewaluowanego programu oraz szczegółowych
zagadnień będących przedmiotem badania. W przypadku ewaluacji zewnętrznej zaleca się
ogólnie sformułowane wytyczne, przynajmniej na etapie przetargów. Pozwala to wybranemu
ewaluatorowi na wykorzystanie całej wiedzy i doświadczenia do ewentualnej redefinicji
sugerowanego podejścia w drodze dyskusji i negocjacji ze zleceniodawcami ewaluacji.
Ostateczne warunki kontraktu, stanowiące załącznik do kontraktu, mogą w ten sposób być
znacznie bardziej precyzyjne.
2.3.7 Plan pracy, struktura organizacyjna i budżet
Plan pracy dotyczący ewaluacji powinien uwzględniać między innymi takie czynniki jak czas
trwania kontraktu i termin przedstawienia raportu. Może być również przydatne przekazanie
ewaluatorowi wytycznych na temat istniejących źródeł danych (np. danych pochodzących
z systemu monitorowania) oraz informacji o odpowiednich kontaktach, które powinien
nawiązać.
Określenie struktury organizacyjnej ewaluacji obejmuje wyznaczenie roli poszczególnych
uczestników (co jest szczególnie ważne w sytuacji, gdy zadanie ewaluacji ma być podzielone
pomiędzy różnych ewaluatorów – na przykład między ewaluatorów wewnętrznych i
zewnętrznych); ustalenie obowiązków w zakresie sprawozdawczości (w tym, tam gdzie
stosowne, kontaktów z grupą sterującą ewaluacją, osobami zarządzającymi programem,
innymi służbami Komisji lub administracją państwa członkowskiego) oraz ustalenie
procedury, której należy przestrzegać w trakcie rozpowszechniania i wykorzystywania
rezultatów ewaluacji.
Z wyjątkiem przypadku, gdy ewaluacja ma być przeprowadzona w całości w sposób
wewnętrzny, powinien zostać tu wskazany także budżet przeznaczony na to zadanie, ,
obejmujący diety dzienne i kwalifikowalne koszty podróży.
2.3.8 Struktura końcowego raportu z ewaluacji
Nie istnieje jedna, powszechnie przyjęta, struktura raportu z ewaluacji, choć wszystkie
raporty powinny zawierać streszczenie oraz kopię warunków kontraktu (zazwyczaj
w aneksie). Typowa struktura raportu z ewaluacji przedstawiona jest w punkcie 5.2.1.
_________________________________________________________________________________________
Gdzie szukać dodatkowych informacji?
Zainteresowany czytelnik może znaleźć odpowiednie informacje w różnych źródłach dotyczących
przygotowywania i przeprowadzania ewaluacji, w tym Conseil Scientifique de l’Evaluation (1996). Podręcznik
MEANS tom 1 Organisation des évaluations intermédiaires dans le contexte de partenariats jest pomyślany
szczególnie dla wykorzystania w przypadku funduszy strukturalnych UE. Tym niemniej zawiera wiele
informacji, które mogą być wykorzystane w innych obszarach działań UE. Zawiera on również przykład
typowych warunków kontraktu opracowany przez C3E.
3 Przeprowadzanie ewaluacji
Przeprowadzenie ewaluacji wymaga wyboru konkretnego modelu ewaluacji, który stanowi
ramy pozwalające na opis programu oraz weryfikację hipotez dotyczących jego efektów.
Dany model ewaluacji pozwala ewaluatorowi na wybór jednej lub kilku technik zbierania
danych. Chodzi tu o metody wykorzystywane do gromadzenia informacji dotyczących
programu. Modele ewaluacji prowadzą do wyboru techniki analizy danych. W tym przypadku
chodzi o metody wykorzystywane do interpretacji informacji, które zostały zgromadzone.
Na początku warto uwypuklić złotą regułę dotyczącą technik ewaluacji:
Złota reguła: nie ma złotych reguł.
Innymi słowy, nie ma jednej metodologii ewaluacji, która mogłaby być powszechnie
stosowana. Wybór techniki powinien być zdeterminowany raczej przez specyficzne
problemy danej ewaluacji.
•
Niska jakość ewaluacji jest często wynikiem arbitralnego wyboru metody na początku
przedsięwzięcia (oparcie się na przykład na przypadkowych danych, które były dostępne
w danym momencie), która następnie okazuje się nieadekwatna;
•
W dobrej ewaluacji wykorzystuje się sprawdzone techniki zbierania i analizy danych,
a wybór techniki jest uzasadniony w stosunku do problemów stawianych przed konkretną
ewaluacją. Taka ewaluacja często wykorzystuje więcej niż jedną technikę, tak by mocne
strony jednej z nich równoważyły ewentualne słabe strony innej, dając możliwość
poczynienia dodatkowych ustaleń.
W tym rozdziale przedstawimy pojęcie modelu ewaluacji i wykażemy jego rolę w określeniu
wiarygodności i analitycznego rygoru ewaluacji. Zaprezentujemy następnie kilka technik
zbierania i analizy danych, które mogą być wykorzystywane w różnych modelach ewaluacji.
Niniejszy przewodnik nie może dostarczyć pełnego opisu wszystkich możliwych technik
analitycznych ze wszystkich dziedzin statystyki, ekonomii czy nauk społecznych. Zawiera on
natomiast przegląd podstawowych zasad badań ewaluacyjnych, o których warto pamiętać
przeprowadzając rzeczywistą ewaluację.
3.1
Przedstawienie modeli ewaluacji
Model ewaluacji, to model wykorzystywany do opisu programu i przedstawienia dowodów
dotyczących efektów, które mogą być przypisane danemu programowi. Modele ewaluacji
mają kluczowe znaczenie dla weryfikacji słuszności logiki działania programu, to znaczy
teorii sposobu, dzięki któremu program osiąga swoje cele poprzez generowanie określonych
efektów. W tej sekcji zostaną przedstawione niektóre główne cechy modeli ewaluacji.
W celu uproszczenia przyjmiemy, że program może być poddany ewaluacji za pomocą
pojedynczego modelu ewaluacji. Dla licznych programów UE, nie jest to oczywiście
założenie właściwe. Bardzo często programy mają różnorodny zakres efektów (często w ich
ramach istnieją podprogramy lub duże projekty, które powinny być poddane oddzielnej
ewaluacji). W rzeczywistości trzeba więc często wykorzystywać kombinację kilku modeli
ewaluacji.
Dla przejrzystości tej prezentacji rozpoczniemy od analizy idealnego modelu
eksperymentalnego, który jest przede wszystkim konstrukcją teoretyczną. Jak zobaczymy,
w rzeczywistości nie istnieje idealny eksperyment. Następnie przejdziemy do analizy
zagrożeń dla wnioskowania przyczynowego, które mogą wystąpić w prawdziwym świecie,
a następnie zajmiemy się opisem różnych modeli ewaluacji w rzeczywistych sytuacjach.
Możemy wyróżnić dwa podejścia dotyczące modeli ewaluacji, dostępne w prawdziwym
świecie. Pierwszy z nich opiera się na próbach przypisania przyczynowości; chodzi tu
o modele, które pozwalają nam stwierdzić, czy zaobserwowane efekty są czy też nie są
spowodowane przez program. Drugi opiera się na opisie programu i jego zakładanych
efektach.
3.1.1 Przyczynowość i idealny model eksperymentalny
Modele ewaluacji pomagają nam w zbadaniu efektów, które mogą być przypisane istnieniu
programu. Są więc blisko związane z pojęciem przyczynowości.
Przypomnijmy przykład dotyczący lokalnej kampanii na rzecz uwrażliwienia na problem
bezpieczeństwa na drogach, który przywołany był w poprzednim rozdziale. Załóżmy,
że po kampanii zaobserwowano zmniejszenie się liczby wypadków na drogach na tym
obszarze. Czy ten pozytywny skutek można bez żadnych wątpliwości przypisać samej
kampanii? Kampania mogła rozpocząć się w momencie wprowadzenia w całym kraju
zmniejszenia dopuszczalnej prędkości dla samochodów. Przypuśćmy z kolei, że po kampanii
zaobserwowano wzrost liczby wypadków na lokalnych drogach. Czy oznacza to, że kampania
nie przyniosła żadnych korzyści? Niekoniecznie, zakładając że liczba wypadków mogłaby
wzrosnąć jeszcze bardziej, gdyby kampania nie miała w ogóle miejsca. Podobnie, utrzymanie
się liczby wypadków po przeprowadzeniu kampanii może oznaczać, że kampania odniosła
sukces poprzez powstrzymanie wzrostu wypadków na drogach.
Istnienie danego programu może być koniecznym warunkiem wystąpienia rezultatów,
ale warunek ten może nie być wystarczający. Dla przykładu, ewaluator programu
dotyczącego uwrażliwienia na kwestie bezpieczeństwa na drogach może stwierdzić, że bez
programu nie byłoby zmniejszenia się liczby wypadków na lokalnych drogach. Może jednak
być też prawdą, że pewne inne czynniki (np. stan lokalnych dróg, stosunkowo młody wiek
osób prowadzących pojazdy mechaniczne, etc.) są również konieczne do wystąpienia
zaobserwowanych efektów. I przeciwnie, program może być wystarczający, ale nie
niezbędny. W przypadku programu mającego na celu podniesienie świadomości dotyczącej
bezpieczeństwa na drogach wspomnianego wyżej, ewaluator może stwierdzić,
że zmniejszenie się liczby wypadków na drogach lokalnych zaobserwowane
po przeprowadzeniu kampanii i tak by nastąpiło, na przykład na skutek wprowadzenia
nowego ograniczenia prędkości lub sprzyjających warunków atmosferycznych na lokalnych
drogach. Ostatecznie program może nie być ani niezbędny, ani wystarczający.
Zaobserwowane efekty mogły wystąpić bez jakiegokolwiek związku z programem.
Gdy mówimy, że dane efekty zostały wyprodukowane lub spowodowane przez program,
oznacza to, że gdyby program nie miał miejsca, lub miałby miejsce w innej formie lub
stopniu, te efekty nie wystąpiłyby lub nie wystąpiłyby w tym samym stopniu. Oznacza
to, że ważne jest, by mieć precyzyjny obraz tego, co stałoby się bez programu. Nazywa się to
sytuacją kontrfaktyczną.
W sytuacji idealnej chcielibyśmy wywnioskować sytuację kontrfaktyczną z całkowitą
pewnością. Moglibyśmy dokonać tego porównując dwie grupy identyczne pod wszystkimi
względami z wyjątkiem tego, że jedna z nich (nazwijmy ją grupą programową) jest
wystawiona na działanie programu, podczas gdy druga grupa (którą nazywamy grupą
kontrolną) nie jest objęta programem. Ilustracja takiego idealnego modelu eksperymentu
przedstawiona jest na rysunku 4.1. poniżej.
Rys. 4.1 Idealny model eksperymentu
Przykład: program szkoleniowy dla długoterminowych bezrobotnych mający na celu zwiększenie ich szans
na znalezienie pracy
Czynniki
wpływające
GRUPY
dany program
grupa programowa
100
długoterminowych
bezrobotnych
75 osób znalazło nową pracę
EFEKTY
75% szansa
znalezienia
pracy w
przypadku
uczestniczenia
w programie
wszystkie
pozostałe
czynniki
grupa kontrolna
100
długoterminowych
bezrobotnych
50 osób znalazło nową prace
50% szansa
znalezienia pracy
bez uczestniczenia
w programie
(sytuacja
kontrfaktyczna)
Efektem netto programu szkoleniowego jest
wzrost szans na znalezienie pracy przez
długoterminowych bezrobotnych
W tym przykładzie mamy do czynienia z programem szkoleniowym adresowanym, którego
celem jest zwiększenie szans długoterminowych bezrobotnych na znalezienie nowej pracy.
Dwustu bezrobotnych długoterminowych, mających identyczne kompetencje i doświadczenie,
zostało podzielonych na dwie grupy: grupę programową i grupę kontrolną. Stu członków
grupy programowej poddanych było działaniu programu szkoleniowego, podczas gdy stu
członków grupy kontrolnej nie było. Poza tym grupy są identyczne pod każdym innym
względem i obie są wystawione na działanie wszelkich innych czynników poza programem.
Po zakończeniu programu 50 bezrobotnych w grupie kontrolnej znalazło nową pracę. Jest to
nasz szacunek sytuacji kontrfaktycznej – bez programu istnieje 50% szansa, że bezrobotny
znajdzie nową pracę. Jednak wśród członków grupy programowej 75 pracowników znalazło
nową pracę. Możemy więc wysnuć wniosek, że efektem netto programu jest wzrost o połowę
szans długoterminowo bezrobotnych na znalezienie pracy.
W świecie rzeczywistym jednakże, taki idealny eksperyment nie istnieje, ponieważ nigdy nie
możemy być absolutnie pewni, że grupa programowa i grupa kontrolna są całkiem identyczne
pod wszystkimi względami poza ekspozycją na działanie programu. Te dwie grupy składają
się ponadto z różnych osób i choćby pod tym względem będą różne, nawet jeśli różnic tych
nie widać ujęciach liczbowych.
Potencjalna nierównoważność obu grup oznacza, że sytuacja kontrfaktyczna musi być
raczej szacowana niż wyprowadzana. Osłabia to oczywiście trafność jakiegokolwiek
wnioskowania przyczynowego dotyczącego programu. Innymi słowy, istnieją możliwe
do przyjęcia rozwiązania alternatywne, które mogą wyjaśniać efekty, jakie
w przeciwnym wypadku mogłyby być przypisane samemu programowi.
Możliwe do przyjęcia alternatywy stwarzają problemy dla wnioskowania przyczynowego.
Do zadań ewaluatora należy próba przezwyciężenia tych problemów poprzez wybór takiego
modelu ewaluacji, który jest na nie odporny. Zobaczmy jak unikanie różnego rodzaju
problemów pomaga w wyborze modelu ewaluacji w prawdziwym świecie. Aby to uczynić,
musimy najpierw bardziej szczegółówo przeanalizować zagrożenia dla wnioskowania
przyczynowego.
3.1.2 Zagrożenia dla wnioskowania przyczynowego
W rzeczywistym świecie, w którym nie występują idealne eksperymenty podobne do tego
przedstawionego powyżej i gdzie mamy do czynienia z potencjalnymi zagrożeniami dla
prawdziwości jakiegokolwiek wnioskowania przyczynowego, potrzebny jest jakiś sposób
wyboru pomiędzy różnymi modelami ewaluacji. Główne kryteria, którymi należy się
kierować przy wyborze modelu ewaluacji, to zbieżność wewnętrzna i zewnętrzna.
Zbieżność wewnętrzna odnosi się do zaufania jakie możemy mieć w stosunku do wniosków
dotyczących rzeczywistych efektów programu. Jednym z zagrożeń dla zbieżności wewnętrznej
jest fakt, że związki pomiędzy programem i zaobserwowanymi efektami są niepewne z uwagi
na słabości projektu ewaluacji. Zagadnienie to może być postrzegane jako pytanie: jakie
zaufanie można mieć w stosunku do szacunków dotyczących sytuacji kontrfaktycznej? Czy
zaobserwowane efekty mogą być przypisane innym, zewnętrznym w stosunku do programu,
czynnikom? Dla przykładu, do jakiego stopnia możemy być pewni, że programy promujące
wykorzystanie alternatywnych źródeł energii przyczyniły się do wzrostu udziału tych źródeł
w całkowitej konsumpcji energii?
Zbieżność zewnętrzna odnosi się do zaufania, jaki możemy mieć w stosunku do możliwości
uogólnienia wniosków dotyczących programu na okoliczności, okresy, osoby itp. inne niż te,
których dotyczył sam program. Zagrożeniem dla zbieżności zewnętrznej jest obawa, że model
ewaluacji nie pozwala na uogólnienie wnioskowania przyczynowego dotyczącego programu
na czas, miejsca i osoby inne niż te badane podczas ewaluacji. Na przykład, jeśli
przeprowadzimy ewaluację pomocy dla małych i średnich przedsiębiorstw w regionie Saary,
w jakim stopniu wnioski te będą mogły być przeniesione na inne regiony, np. Bawarię,
Pikardię lub Andaluzję?
Zewnętrzna zbieżność jest zagadnieniem bardzo istotnym podczas badań studium przypadku,
a także podczas ewaluacji działań pilotażowych. Powinna zawsze być brana pod uwagę
podczas określania zakresu ewaluacji (porównaj punkt 3.2.2. powyżej).
Ewaluatorzy powinni zadać sobie pytanie jakiego rodzaju decyzje mogą zostać podjęte
w wyniku ewaluacji i mieć świadomość problemów związanych ze zbieżnością wewnętrzną
i zewnętrzną.
3.1.3 Podejście przyczynowe do modelów ewaluacji
Teraz możemy przedstawić krótko główne modele ewaluacji dostępne w rzeczywistości.
Pierwsza część obejmuje modele, które mogą być wykorzystywane przez ewaluatora w celu
przeprowadzenia wnioskowania przyczynowego, nawet jeśli nie można powtórzyć warunków
eksperymentu idealnego. W drugiej części przedstawione zostaną modele odpowiednie
w sytuacjach, w których zadaniem ewaluatora jest dostarczenie opisu programu i jego
zakładanych efektów.
Modele ewaluacji w podejściu przyczynowym starają się raczej w pewien sposób oszacować
sytuację kontrfaktyczną, niż wywnioskować ją jak w przypadku idealnego eksperymentu.
Użyteczną metodą klasyfikowania modeli przyczynowości jest postawienie pytania, czy
szacunki są dokonane na podstawie (i) tych samych podmiotów w jednym lub kilku
poprzednich okresach, czy (ii) grupy podmiotów porównywalnych, np. grupy kontrolnej.
Rysunek 4.2. poniżej, przedstawia kryteria, jakie mogą być przydatne podczas wyboru
pomiędzy różnymi modelami, które zostaną zaprezentowane.
Rysunek 4.2. Kryteria wyboru modelu ewaluacji (podejście przyczynowe)
czy jest możliwe
utworzenie grupy
kontrolnej?
czy początkowa identyczność z
grupą programową może być
zapewniona poprzez
przypadkowe przypisanie do
grup przed wzięciem udziału w
programie?
tak
czy jest możliwe dokonanie
pomiaru szerszej grupy niż
ta, z której wybrane zostały
osoby biorące udział w
programie?
nie
tak
tak
nie
czy przypisanie do grup
może być dokonane na
podstawie czynników,
które racjonalnie nie
mogą być przyczynami
zaobserwowanych
efektów?
rozważ czysty
model
eksperymentalny
tak
rozważ model
zmiany
porównawczej
nie
rozważ model, który
nie jest oparty na
grupach kontrolnych
lub rozważ podejście
opisowe zamiast
przyczynowego
nie
rozpatrz model
kryterium
populacji
czy jest możliwe
dokonanie pomiaru
beneficjentów programu
przed i po wzięciu
udziału w programie?
tak
nie
czy jest możliwe
dokonanie pomiaru w
różnych punktach w
czasie?
tak
czy jest możliwe
stworzenie grupy
kontrolnej
rozważ raczej
podejście
opisowe zamiast
przyczynowego
nie
czy jest możliwe
stworzenie grupy
kontrolnej
Jedno z podejść opartych na grupach kontrolnych uzyskujemy dzięki czystemu modelowi
eksperymentalnemu. Czyste eksperymenty to takie, które w rzeczywistości najbardziej
zbliżają się do eksperymentu idealnego. Biorąc pod uwagę problem potencjalnej nieidentyczności grupy programowej i kontrolnej, czyste modele eksperymentalne starają się
zapewnić początkową identyczność obu grup poprzez formowanie ich w drodze procesu
losowego (np. dzięki wybieraniu nazwisk z kapelusza).
Wnioskowanie przyczynowe jest w takich modelach zazwyczaj bardzo uzasadnione, gdyż
większość czynników wpływających na efekty poza programem powinna być rozłożona
równomiernie pomiędzy obiema grupami – zostały one przecież wybrane w drodze
losowania. W praktyce jednak modele takie bardzo trudno jest utworzyć i wdrożyć.
Konkretnie, bardzo rzadko ewaluator znajduje się w sytuacji, w której może sam określić
przed rozpoczęciem programu, kto ma w nim wziąć udział, a kto nie. Z tego powodu jest
prawie niemożliwe zastosowanie czystego modelu eksperymentalnego dla ewaluacji,
na przykład, wpływu stypendiów przyznawanych w ramach programu ERASMUS na kariery
i postawy jego beneficjentów, gdyż studenci, którzy wzięli w nim udział nie zostali dobrani
w sposób losowy.
Bardziej praktyczne podejście jest możliwe dzięki wykorzystaniu modelu quasieksperymentalnego. Grupy kontrolne mogą być w nim wykorzystywane, jednak muszą być
one utworzone w sposób nie-losowy. Albo też można badać beneficjentów programu przed i
po ich udziale w programie.
Pierwszy quasi-eksperymentalny, model który zostanie tu przedstawiony jest nazywany
modelem przed-i-po. W przypadku tego podejścia porównuje się po prostu sytuację
zaobserwowaną po programie z sytuacją istniejącą przed programem, a wszystkie różnice
przypisuje się programowi. Przeprowadzenie ewaluacji przed-i-po jest stosunkowo proste, ale
związki przyczynowe będą raczej słabe. Zawsze istnieje możliwość, że coś poza programem
może stanowić przyczynę wszystkich lub większości zaobserwowanych zmian w czasie.
Udoskonaleniem modelu przed-i-po jest model przerywanych serii czasowych. Jak możemy
zobaczyć na rysunku 4.2., zakłada on uzyskanie dodatkowych informacji w czasie, przed i
po realizacji programu w celu stworzenia serii czasowych obserwacji. Zasadniczo, z większa
ufnością możemy stwierdzić, że program był przyczyną pewnych efektów, dzięki
zaobserwowaniu, że zmiany mające miejsce po działaniu programu w istotny sposób różnią
się od zmian, które wystąpiłyby bez działania programu.
Możemy jednak nadal chcieć oprzeć się na grupach kontrolnych, ale akceptując fakt,
że muszą zostać stworzone w sposób nie-losowy. Pozwala nam to uczynić model zmiany
porównawczej. Dla przykładu, wszystkie osoby, które są kwalifikowalne do uzyskania
korzyści z programu w danym regionie lub mieście, mogą stanowić grupę programową,
podczas gdy osoby zamieszkałe w innym regionie lub mieście stają się grupą kontrolną.
Warunkiem jest tutaj zagwarantowanie, że przypisanie do obu grup odbyło się na podstawie
czynników, które nie mogą racjonalnie być przyczyną zaobserwowanych efektów. Jednak
zawsze istnieje możliwość wyboru stronniczego. Bardzo często istnieją uzasadnione powody,
dla których niektóre osoby uczestniczą w programie, podczas gdy inne, również
kwalifikowalne, nie biorą w nim udziału. W przypadku programu ERASMUS, beneficjenci
będą mieli raczej wyższe niż średnie wyniki w nauce i będą raczej pochodzić z rodzin
o wysokim dochodzie i bardziej otwartych na kontakty międzynarodowe. Nie byłoby
stosowne porównywanie studentów programu ERASMUS ze studentami o słabszych
wynikach lub pochodzących z rodzin o znacznie niższym statusie społeczno-gospodarczym.
Czynniki te mogą dostarczyć alternatywnych wytłumaczeń efektów, które w innym
przypadku byłyby przypisane programowi.
Model odniesienia do populacji stanowi dalsze udoskonalenie modelu zmiany porównawczej,
ponieważ, jak można zobaczyć na rysunku 4.2., nie wymaga on istnienia odrębnej grupy
kontrolnej. W modelu zmiany porównawczej zarówno grupa programowa, jak i grupa
kontrolna, są dwiema odrębnymi grupami wydzielonymi z większej grupy ludności.
W modelu odniesienia do populacji przeciwnie, ta większa grupa ludności stanowi podstawę
do porównań. W tym przypadku możliwość stronniczego wyboru ograniczona jest tylko
do jednej grupy – grupy programowej. Ewaluator może się jedynie martwić tym, że grupa
programowa, nawet bez uczestniczenia w programie, może nie być reprezentatywna
w stosunku do całej populacji. Model ten jest szczególnie stosowny w sytuacjach, gdzie
ewaluator nie może dowolnie utworzyć grupy kontrolnej, ale dysponuje informacjami
dotyczącymi większej populacji, z której została wyodrębniona grupa programowa.
3.1.4 Podejście opisowe do modelu ewaluacji
Podejście przyczynowe do modelu ewaluacji jest odpowiednie w sytuacjach, w których
ewaluator musi uzyskać uzasadniony, zazwyczaj skwantyfikowany, szacunek sytuacji
kontrfaktycznej, w celu ustalenia, czy zaobserwowane zmiany rzeczywiście zostały
spowodowane przez program. Nie we wszystkich sytuacjach jest ono jednak odpowiednie.
Bardzo często ewaluator ma za zadanie przedstawić szczegółowy opis programu, obejmujący
opisowe studium jego zakładanych efektów. W takim przypadku stosowne jest wybranie
innego modelu ewaluacji, który nie jest oparty na podejściu przyczynowym. Może wystąpić
również inny przypadek, w którym ewaluator stwierdza, że po prostu nie ma warunków
niezbędnych do przyjęcia modelu przyczynowego ewaluacji, które, jak widać na rysunku 4.2.
są szczególnie trudne do spełnienia. Dla przykładu, wiele programów ma charakter
powszechny, to znaczy że wszyscy członkowie kwalifikowalnej grupy są beneficjentami
programu (przypadek Wspólnej Polityki Rolnej, gdzie wszyscy kwalifikowalni rolnicy są
jednocześnie beneficjentami). W przypadku takich programów model oparty na grupach
kontrolnych nie byłby możliwy. Ewaluator może więc zdecydować, że bardziej stosowne
będzie tu podejście opisowe. Opisowy model ewaluacji również może dostarczyć wielu
użytecznych informacji na temat programu.
Jednym z często wykorzystywanych opisowych modeli ewaluacji jest model ex post facto (nie
należy mylić go z ewaluacją ex post). Model ten jest wykorzystywany w sytuacjach,
w których ewaluator ma ograniczone możliwości dokonywania porównań. Nie może
podejmować decyzji, które podmioty będą objęte działaniem programu a które nie, nie może
również decydować do jakiego stopnia każdy z nich ma uczestniczyć w programie. Jest to
istotne w przypadku programów, które mogą mieć różne poziomy wdrażania, na przykład
w różnych regionach. Ponadto ewaluator może dokonać badań beneficjentów dopiero po ich
uczestnictwie w programie i stąd termin „ex post facto”. W zasadzie jest jednak możliwe
uzyskanie szacunków dotyczących sytuacji kontrfaktycznej. Jeśli wielkość próbki jest
dostatecznie duża, można dokonać analizy statystycznej, aby powiązać różne poziomy
uczestnictwa w programie z różnicami w zaobserwowanych efektach, kontrolując
jednocześnie inne czynniki. Częstym problemem jest jednak fakt, że każda zidentyfikowana
relacja może być niepewna i nieprawdziwa. Tym niemniej, modele ex post facto są
powszechnie stosowane w celu analizy programów, które były dostępne w przeszłości dla
całej populacji (programy o charakterze powszechnym).
Istnieje także grupa modeli opisowych, które można nazwać modelami studium przypadku.
Studia przypadku są ujęte poniżej jako technika zbierania danych, która może być
wykorzystywana w połączeniu z innymi metodami gromadzenia danych. Tym niemniej,
często zdarza się, że model ewaluacji opiera się na pogłębionych badaniach jednego lub kilku
szczególnych przypadków lub sytuacji. Modele studium przypadku są często
wykorzystywane w sytuacjach, w których program poddany ewaluacji jest bardzo złożony lub
gdzie konieczne jest pełne zrozumienie, jak działa dany program oraz tam, gdzie konieczne
jest wyjaśnienie dużej grupy różnorodnych efektów.
Modele studium przypadku oparte na pojedynczym przypadku mogą być odpowiednie
w sytuacji, gdy nie ma potrzeby uogólnienia ustaleń (tzn. gdy zbieżność zewnętrzna nie jest
problemem) lub gdy konieczna jest szczegółowa analiza jednego specyficznego przypadku
lub sytuacji. Prawdopodobnie nie będą one jednak odpowiednie w sytuacjach, w których
konieczne jest rozważenie, czy wnioski mogą być zastosowane do większej grupy. W takim
przypadku należy odwołać się do modelu ewaluacji opartego na wielu przypadkach.
Głównym zadaniem, przed którym stoi ewaluator w takim modelu, jest dokonanie
uzasadnionego wyboru przypadków do badania, jednocześnie zapewniając pewien poziom
zróżnicowania pomiędzy nimi tak, by były one reprezentatywne.
3.2
Techniki zbierania danych
„Najpierw zbierz fakty, a potem możesz je
do woli przekręcać”
Rudyard Kipling, From sea to sea
Relacje pomiędzy danym programem i jego efektami mogą być ustalone tylko wtedy, jeśli
dostępne są odpowiednie dane. Dane można zdefiniować jako znane fakty wykorzystywane
jako podstawa do wnioskowania. Najbardziej bezpośrednim źródłem danych dotyczących
programu powinien zazwyczaj być system monitorowania. Jednak dane pochodzące z tego
systemu ograniczają się zazwyczaj do wyników. W większości przypadków nie będą one
wystarczające. Wybór techniki gromadzenia danych ma miejsce po wyborze modelu
ewaluacji. W tej części przeanalizujemy wybrane podstawowe techniki gromadzenia danych
wykorzystywane w ewaluacji programów. Zanim to jednak uczynimy, krótko opiszemy różne
sposoby klasyfikacji danych.
Przeanalizowane zostaną następujące techniki gromadzenia danych: ankiety, studium
przypadku, naturalne obserwacje, opinie ekspertów, analiza dokumentów programu,
przeglądy literatury.
3.2.1 Klasyfikacja danych
Mówimy o danych subiektywnych, jeżeli dotyczą osobistych uczuć, postaw lub wrażeń oraz
o danych obiektywnych, jeśli odnoszą się do obserwowalnych faktów, które, przynajmniej
w teorii, nie dotyczą opinii osobistych.
Dane określamy mianem kwantytatywnych (ilościowych), jeśli dotyczą obserwacji
liczbowych (np. liczba jednostek danego dobra lub usługi wyprodukowanych przez program,
wielkość budżetu programu przeznaczonego na osiągnięcie danego celu, liczba beneficjentów
programu, poziom objęcia wynikami programu). Dane jakościowe nie są wyrażalne
w liczbach i dotyczą kategorii (np. płeć beneficjentów programu, ich umiejscowienie
geograficzne, itp.). Zarówno subiektywne jak i obiektywne dane mogą być zmierzone
w sposób ilościowy i jakościowy.
Zbieranie danych jakościowych dotyczących programu (np. opinii ekspertów, beneficjentów
lub administratorów programu) nie stoi w sprzeczności z wymogami analitycznego rygoru,
o którym wspomniano na początku tego rozdziału. W rzeczywistości, oprócz faktu, że wiele
istotnych aspektów programów nie daje się wyrazić w sposób ilościowy, dane jakościowe
mogą być niezbędne dla właściwej interpretacji informacji liczbowych. Ponadto, dane
ilościowe, które uchodzą za „obiektywne” mogą okazać się mniej rzetelne, na przykład jeśli
popełnione zostały błędy podczas mierzenia istotnych zmiennych (określane mianem błędu
pomiarowego).
Innym sposobem klasyfikacji danych jest rozróżnienie pomiędzy danymi podłużnymi
(longitudinalnymi), zbieranymi w miarę upływu czasu i danymi przekrojowymi, które są
zbierane w jednym czasie, ale z różnych obszarów geograficznych.
Ostatnią klasyfikacją jest podział na dane pierwotne i dane wtórne. Dane pierwotne są
uzyskiwane z pierwszej ręki i zbierane bezpośrednio u źródła. Dane wtórne, z kolei, to dane,
które poddane uprzednio zostały pewnym manipulacjom i interpretacji.
Dokładność danych powinna być szczególnie ważna zarówno dla tych, którzy ewaluację
przeprowadzają, jak i dla tych, którzy ją zlecają. Należy zawsze być świadomym,
że istnieje możliwość popełnienia błędu pomiarowego. Ponadto niektóre definicje mogą nie
być całkowicie neutralne.
W większości ewaluacji wykorzystuje się kombinacji technik zbierania danych zarówno, by
rozpracować różnego rodzaju zagadnienia, jak i po to, by słabe strony jednej techniki zostały
zrównoważone przez mocne strony innej. Poniżej przeanalizujemy szczegółowo każdą z tych
technik.
3.2.2 Badania ankietowe
Badania ankietowe są bardzo często wykorzystywane przy przeprowadzaniu ewaluacji. Jest to
bardzo dogodny sposób zbierania danych podstawowych, ilościowych lub jakościowych,
w oparciu o próbkę wybraną z większej populacji. Podstawowym celem przeprowadzania
ankiet jest zagregowanie i uogólnienie rezultatów uzyskanych z próbki na szerszą populację,
tak, aby można było wyciągnąć wnioski dotyczące elementów, które nie należą do próbki,
a także tych, które należą.
Aby było to możliwe, ankiety często opierają się na tzw. próbie losowej, gdzie dla każdego
elementu populacji istnieje znane, różne od zera prawdopodobieństwo, że zostanie wybrany
do próby. Wnioski z takiego rodzaju próby mogą podlegać projekcji, w granicach błędu
statystycznego, na szerszą populację.
Informacje uzyskiwane są zazwyczaj za pośrednictwem wywiadów lub ankiet prowadzonych
za pomocą samodzielnie wypełnianych kwestionariuszy. Stosuje się trzy podstawowe metody
uzyskiwania odpowiedzi na ankiety: za pomocą poczty, telefonu lub osobistych rozmów.
Zważywszy że ewaluator musi zagwarantować, uzyskanie jednorodnych danych od każdego
elementu próby, informacje będą zasadniczo zbierane w formie pytań zamkniętych, tzn.
respondenci wybierać będą spośród wcześniej zdefiniowanych odpowiedzi zawartych
na kwestionariuszu lub przedstawionych przez osobę przeprowadzającą wywiady.
Wyróżnić możemy dwa główne typy badań ankietowych:
•
badania przekrojowe– polegają na pomiarze dokonanym w jednym czasie. Badanie
przekrojowe jest najkorzystniejsze w przypadku, gdy wymagana jest opisowa informacja
dotycząca dużej populacji. Oprócz ich przydatności w uzyskiwaniu informacji faktycznej,
badania takie mogą być również wykorzystywana przy badaniu postaw i opinii. Z drugiej
strony, trudno jest wykorzystać badania przekrojowe jeśli informacja, której się
poszukuje, musi być uzyskana za pomocą pytań pośrednich, badających i gdy pełny obraz
wydarzeń i okoliczności musi być złożony z fragmentów otrzymywanych z odpowiedzi
na różne pytania od różnych respondentów.
•
badania panelowe – polegają na pomiarze dokonanym w dwóch lub więcej punktach
w czasie. Badania panelowe mogą być szczególnie odpowiednie w sytuacjach, gdy
wymagane są raczej informacje dynamiczne (informacje dotyczące zmian) niż statyczne.
Mogą one być również wykorzystywane dla celów wnioskowania przyczynowego, np. dla
określenia, który z dwóch powiązanych ze sobą czynników jest przyczyną, a który
skutkiem. Z drugiej strony, z panelami wiążą się specyficzne trudności administracyjne.
Ewaluator musi być świadomy faktu, że skład próby może zmieniać się w czasie i musi
unikać błędnego utożsamiania zmian zachodzących w próbie ze zmianami warunków,
które są przedmiotem ewaluacji.
Wywiady mogą być dogodną metodą gromadzenia danych. Jeśli są przeprowadzone
prawidłowo, mogą być źródłem rzetelnych i cennych informacji. Tym niemniej, należy
zaznaczyć, że badania tego rodzaju mają liczne wady jako technika zbierania danych.
Wymagają wiedzy eksperckiej przy ich projektowaniu, przeprowadzaniu i interpretacji.
Jeśli techniki badawcze są błędnie użyte, dane pochodzące z nich będą nierzetelne
i nieprzydatne.
Istnieje obszerna literatura na temat technik prowadzenia badań ankietowych oraz jak unikać
licznych pułapek związanych z wykorzystywaniem wywiadów, takich jak różne formy
uprzedzeń i błędów, które mogą wystąpić.
3.2.3 Studia przypadku
Studia przypadku polegają na badaniu ograniczonej liczby specyficznych przypadków lub
sytuacji, które zdaniem ewaluatora będą znamienne dla programu jako całości.
Przeanalizowaliśmy już wykorzystanie studium przypadku jako modelu ewaluacji. W tym
rozdziale zajmować się będziemy specyficznym użyciem studium przypadku jako techniki
zbierania danych.
Jako technika zbierania danych, studium przypadku będzie odpowiednie w przypadkach,
w których wybór próbki dostatecznie dużej, by mogła być statystycznie reprezentatywna dla
całości populacji, byłby skrajnie trudny; tam, gdzie uogólnienie nie jest istotne; tam gdzie
wymagane są pogłębione, zazwyczaj opisowe dane oraz tam, gdzie przypadki lub projekty,
które mają zostać zbadane, będą prawdopodobnie bardzo złożone.
Zamiast starać się o uzyskanie statystycznie typowej próby (tak jak w przypadku próby
losowej przy stosowaniu ankiet), ewaluator będzie próbował uzyskać różnorodność badanych
przypadków, w nadziei, że pozwoli to uniknąć stronniczości w skonstruowanym obrazie
programu. Metoda wykorzystywana do zagwarantowania różnorodności polega na wyborze
przypadków na podstawie wcześniej przyjętej typologii, opisującej główne typy przypadków,
które powinny zostać uwzględnione.
Wykorzystanie studium przypadków składa się z kilku różnych etapów:
•
ustalenie typologii przypadków;
•
wybór przypadków i uzasadnienie tego wyboru za pomocą powyższej typologii;
•
zgromadzenie wszystkich adekwatnych wiadomości dotyczących każdego z przypadków;
•
opis przypadków z wyróżnieniem ważnych ustaleń;
•
porównanie różnych przypadków, które zostały wybrane;
•
próba uogólnienia, wychodząc z wybranych przypadków, na pozostałe sytuacje.
Studia przypadku mają tę przewagę, że pozwalają ewaluatorowi na przeprowadzenie
pogłębionej analizy, ale wybrana przez niego próba nie będzie statystycznie miarodajna –
i stąd trudno będzie uogólnić wnioski. Przeprowadzenie analizy za pomocą studium
przypadków może być bardzo czasochłonne i kosztowne. Ponadto należy podkreślić,
że badacz zazwyczaj nie będzie wiedział, czy dane studium przypadku jest reprezentatywne,
dopóki go nie przeprowadzi.
3.2.4 Obserwacje z natury
Ta technika gromadzenia danych zakłada, że ewaluator udaje się z wizytą na miejsce, gdzie
realizowany jest program i bezpośrednio obserwuje co się dzieje. Dane z obserwacji mogą
być wykorzystywane do opisu ram programu, działań, które w tych ramach mają miejsce,
osób uczestniczących w tych działaniach (które mogą, ale nie muszą być świadome tego,
że są obserwowane) oraz znaczenia tych działań dla danych osób.
Wartość obserwacji z natury polega na tym, że ewaluator może lepiej zrozumieć działania
i efekty programu jeśli bezpośrednio obserwuje, co się dzieje i w jaki sposób ludzie na to
reagują. Ewaluator będzie również miał szansę zobaczyć rzeczy, które mogą umknąć
administratorom programu lub takie, o których niechętnie mówi się podczas wywiadów.
Z drugiej strony zarówno wewnętrzna jak i zewnętrzna zbieżność uzyskanych danych może
być ograniczona, ponieważ inna osoba przeprowadzająca taką samą wizytę na miejscu
mogłaby poczynić inne obserwacje niż ewaluator. Ponadto, występuje tu specyficzny
problem, zwany efektem Hawthorne, który przypomina nam, że personel programu
i beneficjenci mogą zachowywać się zupełnie inaczej niż zazwyczaj, jeśli wiedzą że są
obserwowani (zob. ramka 4.1. poniżej).
Ramka 4.1. Efekt Hawthorne
W późnych latach dwudziestych i wczesnych trzydziestych XX wieku, badania przeprowadzone
w fabryce w Hawthorne, w Chicago, wykazały, że produkcja wzrastała tylko dlatego,
że eksperymenty, które zostały tam prowadzone przekonały pracowników, że zarząd troszczy się
o nich. Wyrażenie efekt Hawthorne używane jest na określenie sytuacji, w której eksperymentowi nie
można ufać, gdyż sam fakt, że został on przeprowadzony, ma wpływ na uzyskane rezultaty.
Naukowcy badający skutki działania nowego leku często stosują go na grupie badanej, podczas gdy
grupie kontrolnej podają placebo nie wywołujące skutków. Żadna z grup nie wie, czy to co otrzymuje
jest rzeczywistym lekarstwem czy też jest to placebo, w celu wyeliminowania efektu Hawthorna.
W praktyce jednak, rzadko kiedy można być tego całkowicie pewnym.
3.2.5 Opinie ekspertów
Opinie ekspertów opierają się na subiektywnych z konieczności opiniach osób będących
ekspertami w danej dziedzinie jako źródle danych stanowiących podstawę odpowiedzi
na zagadnienia ewaluacji. Eksperci wybierani są na podstawie ich kwalifikacji oraz wiedzy
i doświadczenia w danej dziedzinie. Istnieją różne sposoby systematyzowania opinii
ekspertów, np. metoda delficka, licznik Régniera. Ze względu na oszczędność miejsca zostały
one zdefiniowane w słowniku, stanowiącym Aneks nr 1 do przewodnika.
Uzyskiwanie opinii ekspertów jest specyficznym przypadkiem badań ankietowych, więc
uwagi dotyczące badań przedstawione w punkcie 4.2.2. powyżej będą miały zastosowanie
również tutaj. Jednak jako technika zbierania danych, opinie ekspertów mają pewne
specyficzne mocne i słabe strony.
Do mocnych stron tej techniki należy fakt, że opinie ekspertów mogą być wykorzystywane
do pomiarów w obszarach, w których występuje deficyt obiektywnych danych. Ponadto jest
to stosunkowo szybka i niezbyt kosztowna technika. Z drugiej strony, podobnie jak
w przypadku innych ocen subiektywnych, występuje przy niej problem wiarygodności.
Ewaluator może mieć trudności z wyborem dostatecznie szerokiej lub dostatecznie dużej
grupy ekspertów, by stanowiła ona wiarygodne źródło danych. Poszczególne strony
uczestniczące mogą podważać opinie różnych ekspertów. W każdym wypadku, jest raczej
niemożliwe, by wszyscy eksperci dysponowali identyczną wiedzą dotyczącą danego obszaru,
konieczne więc jest wprowadzenie swoistego systemu wag. Ponadto, może dojść do sytuacji,
w której opinie niektórych, najbardziej wymownych, ekspertów będą się wyróżniały, chociaż
opinie te nie będą reprezentatywne dla całości grupy (chatty bias). Z tych powodów należy
unikać wykorzystywania opinii ekspertów jako jedynego źródła danych.
3.2.6 Przegląd dokumentów programu
Ewaluator jest zazwyczaj w stanie uzyskać informacje na temat programu poddawanego
ewaluacji poprzez analizę ogólnych dokumentów dotyczących programu, jego protokołów
administracyjnych i finansowych, a także dokumentów szczegółowych projektów. W ten
sposób może on zidentyfikować braki w dostępnych danych wtórnych i uzupełnić je
wykorzystując metody gromadzenia danych pierwotnych.
Przegląd dokumentów programu może dostarczyć ewaluatorowi bardzo precyzyjnych
informacji dotyczących okoliczności programu oraz jego otoczenia i w ten sposób umieścić
efekty programu w odpowiednim kontekście. Może to stanowić użyteczne ramy i podstawę
do dalszego gromadzenia danych pierwotnych. Ponadto, przeglądy dokumentów programu są
stosunkowo szybką i tanią metodą gromadzenia danych. Jednak zazwyczaj będą one rzucały
światło tylko na wyniki programu, a nie jego rezultaty i oddziaływanie. W praktyce też
rzadko kiedy dostarczają informacji na temat grup kontrolnych.
3.2.7 Przeglądy literatury
Kolejnym źródłem danych wtórnych są przeglądy literatury, które umożliwiają ewaluatorowi
optymalne wykorzystanie wcześniej przeprowadzonych prac w terenie i dzięki temu naukę
na podstawie doświadczenia i ustaleń osób, które wykonywały już podobne lub pokrewne
zadania w przeszłości. W badaniach literatury możemy wykorzystać dwa rodzaje
dokumentów. Do pierwszego należą opublikowane dokumenty, raporty i opracowania
przygotowane przez naukowców, ekspertów i instytucje urzędowe. Do drugiego –
szczegółowe badania w danej dziedzinie, w tym wcześniejsze ewaluacje.
Przegląd literatury stanowi stosunkowo oszczędny i efektywny sposób gromadzenia danych
wtórnych. Ponadto wcześniejsze badania mogą sugerować hipotezy do zweryfikowania
i specyficzne techniki pozwalające na przezwyciężenie trudności metodologiczne a także
zagadnienia ewaluacji, które powinny zostać przeanalizowane w trakcie aktualnego badania.
Słabości tej metody związane są z wewnętrzną naturą danych wtórnych. Dane mogą nie
dotyczyć lub być niedostatecznie spójne z zagadnieniami ewaluacji, by mogły być przydane
w aktualnym badaniu. Ponadto dokładność danych wtórnych jest często trudna do określenia.
Jeśli synteza badań została już przeprowadzona jako część projektu ewaluacji (por. punkt
3.2.5.), ewaluator powinien mieć tego świadomość. W przeciwnym razie istnieje ryzyko
powtarzania się.
3.3
Techniki analizy danych
Ewaluacja jest zasadniczo zajęciem analitycznym. Obejmuje ona analizę zebranych danych
zgodnie z przyjętym modelem ewaluacji i techniką gromadzenia danych w celu
sformułowania wiarygodnej oceny programu. Zrozumienie technik wykorzystywanych
do analizy danych dotyczących ewaluacji jest kluczowe dla wyciągania trafnych wniosków
na temat programu. Niniejszy rozdział przedstawia w skrócie niektóre podstawowe techniki
analizy danych, które mogą być wykorzystywane w ewaluacji. Zważywszy że niektóre z
zaproponowanych metod są bardzo złożone, nie jest możliwe zamieszczenie tu niczego ponad
powierzchowne przedstawienie różnych technik oraz ich słabych i mocnych stron.
3.3.1 Analiza statystyczna
Wykorzystanie statystyki jako metody analizy danych jest bardzo częste w ewaluacji. Analiza
statystyczna jest powszechnie używana dla opisania zjawisk w sposób zwięzły i przejrzysty.
Podejście to jest znane jako statystyka opisowa. Może ona być również wykorzystywana
do badania związków pomiędzy zmiennymi oraz uogólniania ustaleń na szerszą populację.
Określa się to mianem wnioskowania statystycznego.
Sprawozdanie z wyników ewaluacji prawie zawsze obejmuje wykorzystanie w pewnym
stopniu statystyki opisowej. Oprócz przedstawiania i opisywania danych w formie tabel
i wykresów, ewaluator często wykorzystuje takie powszechne pojęcia ze statystyki jak
średnia i odchylenie standardowe.
Średnia wskazuje nam przeciętną wartość dla zestawu wielkości. Przykładowo możemy chcieć
poznać średnią liczbę tygodni zanim długoterminowy bezrobotny znajdzie nową pracę po ukończeniu
programu szkoleniowego. Odchylenie standardowe jest miarą rozproszenia. Przypuśćmy,
że jesteśmy zainteresowani porównaniem dwóch różnych programów szkoleń skierowanych do dwóch
odrębnych grup długoterminowych bezrobotnych. W przypadku pierwszego programu wielu
bezrobotnych znalazło pracę natychmiast po zakończeniu szkolenia, podczas gdy wielu innych
znalazło ją dopiero po upływie ponad roku. W przypadku drugiego programu, większość
bezrobotnych znalazła nową pracę po upływie od czterech do ośmiu miesięcy po ukończeniu
szkolenia. Przeciętny czas potrzebny na znalezienie nowej pracy przez bezrobotnego może być
jednakowy dla obu programów (tzn. że mogą mieć identyczną średnią), ale jest oczywiste,
że odchylenie standardowe w przypadku pierwszego programu jest większe, ponieważ wartości są
bardziej rozproszone wokół średniej.
Jest wiele innych metod statystycznych, które mogą być wykorzystane w celu opisu danych.
Poza statystyką opisową, ewaluatorzy używają również metody wnioskowania statystycznego
w celu ustalenia relacji pomiędzy zmiennymi, oszacowania stopnia widocznych zależności
relacji oraz uogólnienia wniosków na szerszą populację.
Dla przykładu przypuśćmy, że chcielibyśmy wiedzieć, czy różnica w liczbie wypadków
drogowych w dowolnym dniu pomiędzy dwoma miastami o podobnej wielkości jest
przypadkowa, czy też istnieją w rzeczywistości różnice systematyczne, które należy wyjaśnić.
Jedną z technik powszechnie wykorzystywanych w statystyce jest analiza wariancji
(ANOVA – ANalyse Of VAriance), która polega na porównaniu zmiennych między próbami
oraz zmiennych w próbach. Aby utworzyć nasze dwie próbki, policzymy liczbę wypadków
drogowych w dwóch miastach w określonej liczbie dni. Pozwoli nam to na porównanie
wariancji wypadków drogowych pomiędzy miastami z wariancją wypadków drogowych
w ramach każdego z miast.
Metody takie jak analiza regresji mogą być wykorzystane dla ustalenia siły zależności
(korelacji) pomiędzy interesującymi nas zmiennymi, np. płci długoterminowego
bezrobotnego i ilości czasu zanim on lub ona znajdą nową pracę po ukończeniu programu
szkoleniowego. W analizie regresji staramy się ustalić, czy wariancja jednej zmiennej
(określanej jako zmienna zależna) może być wyjaśniona wariancją jednej lub kilku innych
zmiennych (określanych jako zmienne niezależne). Zmienna zależna ma często charakter
ilościowy, np. dochód danej osoby może być związany z poziomem jego wykształcenia,
liczbą godzin pracy w tygodniu, wieku, itp. Specjalne techniki mogą być wykorzystane
w sytuacji, w której zmienna zależna ma charakter jakościowy, np. gdy fakt, że dana osoba
posiada lub nie posiada samochodu może być zależny od jej dochodu, zamożności, wieku,
płci, itp.
Należy zauważyć, że korelacja nie implikuje przyczynowości. Przyczynowość,
w powszechnym znaczeniu tego terminu, nigdy nie może zostać udowodniona
statystycznie, choć może być bardzo silnie sugerowana. W przypadku analizy wariancji,
opisanej powyżej, nie możemy udowodnić, że różnica w liczbie wypadków na drogach
zaobserwowana pomiędzy dwoma miastami wynika z faktu, że tylko jedno z nich korzystało
z kampanii w sprawie bezpieczeństwa na drogach. Zadaniem ewaluatora jest przedstawienie
przekonujących argumentów, które pozwolą na odrzucenie możliwych do przyjęcia
alternatyw (zagrożeń dla zbieżności wewnętrznej) dla programu jako przyczyn
zaobserwowanych efektów.
Mocną stroną analizy statystycznej jako techniki zbierania danych jest fakt, że stanowi ona
uprawniony sposób oceny wiarygodności statystycznej, która pozwala ewaluatorowi
na wyciągnięcie wniosków z danych i pozwala na podsumowanie ustaleń ewaluacji w sposób
jasny, przejrzysty i rzetelny. Z drugiej strony jednak nie wszystkie efekty programów można
analizować za pomocą statystyki. Ponadto dobra analiza statystyczna wymaga pewnego
poziomu wiedzy eksperckiej. Sposób klasyfikowania danych może zarówno zacierać, jak
i ukazywać istotne różnice. Użytkownicy analizy statystycznej muszą być świadomi tych
założeń, a także ograniczeń przyjętej techniki statystycznej, jak również innych problemów
związanych z rzetelnością i wiarygodnością opracowywanych danych.
3.3.2 Wykorzystanie modeli
Kolejnym stopniem wykorzystania metod statystycznych jest opracowanie przez ewaluatora
modelu analitycznego w celu przedstawienia, w jaki sposób program wpływa na istotne
zmienne społeczno-gospodarcze. Modele takie są zazwyczaj opracowywane na podstawie
poprzednich badań. Możemy wyróżnić następujące główne typy modeli:
•
modele wejścia-wyjścia – pozwalają badaczowi na systematyczną analizę powiązań
pomiędzy różnymi częściami gospodarki, zważywszy, że nakłady jednej gałęzi
działalności mogą być traktowane jako produkty innej gałęzi;
•
modele mikroekonomiczne – przeznaczone są do badania zachowania się gospodarstw
domowych i przedsiębiorstw w specyficznych gałęziach działalności i rynkach, przy
pomocy równań, które przedstawiają funkcje popytu i podaży dla danego dobra lub
usługi;
•
modele makroekonomiczne – wykorzystywane są do modelowania zachowania
gospodarki
jako
całości
oraz
ewolucji
w czasie
istotnych
zmiennych
makroekonomicznych (takich jak inflacja, poziom zatrudnienia, wzrost gospodarczy
i bilans handlowy);
•
modele statystyczne – często wykorzystywane są dla badania związków pomiędzy
poszczególnymi efektami programu. Są one bardziej elastyczne niż inne rodzaje modeli,
ale mniej nadają się do uogólnień.
Wykorzystując modele w ewaluacji należy pamiętać przede wszystkim, że bardzo ważne
jest określenie założeń, na których oparty jest dany model, w celu właściwego
zrozumienia i interpretacji uzyskanych dzięki niemu informacji. Modele są
uproszczonym przedstawieniem rzeczywistego świata. Uproszczenie jest niezbędne w celu
wyodrębnienia i skoncentrowania się na efektach programu. Jednak uproszczenie może
również prowadzić do błędnej interpretacji. Ewaluator musi wykazać się zdrowym
rozsądkiem, aby odpowiednio wykorzystać model.
Szczególny problem dotyczący modeli makroekonomicznych stanowi ich chwiejność. Innymi
słowy mała zmiana w założeniach leżących u podstaw modelu może powodować uzyskiwanie
bardzo różnych wyników. W celu rozwiązania tego problemu zazwyczaj przeprowadza się
analizę wrażliwości. Innym rozwiązaniem jest wykorzystanie kilku różnych modeli w celu
przekonania się, czy ich wyniki są zbieżne.
3.3.3 Analiza niestatystyczna
Analiza niestatystyczna przeprowadzana jest w większości przypadków na podstawie danych
jakościowych i zazwyczaj wykorzystywana w połączeniu z analizą statystyczną danych
ilościowych. Użycie analizy niestatystycznej powinno obejmować ocenę rzetelności
wszystkich ustaleń uzyskanych na podstawie tych metod. Ponadto ewaluator powinien
wykazać się profesjonalnym rozsądkiem dla oceny trafności i ważności dostępnych danych
dla odpowiednich zagadnień ewaluacji.
Podstawowe zalety analizy niestatystycznej polegają na tym, że przy jej użyciu może być
rozpatrywanych wiele zagadnień i pojęć, które trudno jest skwantyfikować, i że możliwe jest
osiągnięcie bardziej ogólnego punktu widzenia, często przy stosunkowo niewielkich kosztach.
Główną jej wadą jest to, że wnioski oparte na analizie niestatystycznej będą zależeć
od wiarygodności ewaluatora i logiki argumentów, które przedstawi. W każdym przypadku
wnioski oparte wyłącznie na analizie niestatystycznej są mniej wiarygodne niż wnioski oparte
na różnych metodach analizy.
3.3.4 Techniki oceny
Na zakończenie rozpatrzymy trzy specyficzne techniki analityczne, które mogą być
wykorzystywane do formułowania ocen na temat programów. Ich użycie jest częstsze
w ewaluacji ex-ante, ale często stanowią przydatny sposób formułowania sądów w ewaluacji
cząstkowej i ewaluacji ex post. Te trzy techniki to: analiza kosztów i korzyści (cost-benefit
analysis), analiza gospodarności (kosztów i skuteczności - cost-effectiveness analisys) oraz
analiza wieloczynnikowa (multi-criteria analysis).
W analizie kosztów i korzyści badacz porównuje wszystkie społeczne i prywatne koszty
i korzyści programu w celu określenia, czy korzyści przewyższają koszty i jeśli tak, to w jakim
stopniu. Główną trudność napotykaną w tym podejściu stanowi ocena społecznych kosztów
i korzyści. Społeczne koszty (takie jak utrata obszaru o wyjątkowych walorach
przyrodniczych) i społeczne korzyści (takie jak zmniejszenie liczby wypadków drogowych)
powinny zasadniczo być mierzone za pomocą środków pośrednich, a następnie przekształcane
w jednostki monetarne, tak aby możliwe było porównanie z kosztami i korzyściami
prywatnymi.
Co więcej, w wielu przypadkach nie będzie właściwe posługiwanie się aktualnymi cenami
rynkowymi. Rozpatrzmy sytuację, w której mamy do czynienia z bardzo wysokim
bezrobociem. W takim przypadku rzeczywiste koszty pracy mogą być znacznie niższe niż
aktualna rynkowa cena pracy. Rozwiązanie alternatywne (praca za zaniżoną płacę - drugie
najlepsze rozwiązanie dla bezrobotnych osób w przypadku, gdyby projekt nie doszedł
do skutku – niektórzy i tak znaleźliby pracę, ale wielu pozostałoby bezrobotnymi) jest niższa
niż rynkowy poziom płacy i to rozwiązanie alternatywne musi zostać przedstawione jako cena
pozorna (shadow price), którą należy w jakiś sposób wyprowadzić. Ponadto, gdy ustali się
wyrażone w jednostkach monetarnych wartości wszystkich społecznych i prywatnych
kosztów i korzyści należy je zdyskontować do wspólnego punktu w czasie. Stosowna stopa
procentowa, która może być wykorzystana do dyskontowania różnych kosztów i korzyści,
powinna być wybierana w sposób bardzo ostrożny.
W analizie gospodarności (kosztów i skuteczności) badacz stara się skwantyfikować koszty
i korzyści związane z programem w oparciu o te same zasady, które stosuje się do analizy
kosztów i korzyści, ale w tym przypadku nie ma konieczności przekształcenia korzyści
w wartości wyrażalne w jednostkach monetarnych. Analiza gospodarności programu
dotyczącego świadomości bezpieczeństwa na drogach, o którym była mowa poprzednio,
mogłaby wykazać, że każde 1000 Euro wydatków programu powoduje zmniejszenie się
liczby wypadków rocznie średnio o X. W tym przypadku, w przeciwieństwie do analizy
kosztów i korzyści, nie wymaga się przekształcenia korzyści (zmniejszenia się liczby
wypadków drogowych) w jednostki monetarne.
To, czy program jest gospodarny, zależy od tego, czy program ten jest lepszy niż program
konkurencyjny w osiąganiu celów przy niższych kosztach. Na przykład, jeśli celem jest
zmniejszenie liczby wypadków drogowych na danym obszarze o określoną wielkość, poziom
kosztów związanych z osiągnięciem tego celu poprzez kampanię dotyczącą świadomości
bezpieczeństwa drogowego mógłby być porównany z osiągnięciem tego celu poprzez
ograniczenie dopuszczalnej prędkości lub poprzez zamontowanie większej liczby świateł
drogowych, powiększenie stref ruchu pieszego lub zwiększenie liczby progów zwalniających.
Z tego powodu analiza gospodarności jest szczególnie przydatną techniką, gdy chodzi
o porównanie różnych sposobów osiągnięcia tych samych celów.
Poza problemami metodologicznymi, o których wspomnieliśmy wyżej, należy podkreślić,
że ani analiza kosztów i korzyści, ani analiza gospodarności nie może być wykorzystywana
w celu wyjaśnienia konkretnych rezultatów lub konsekwencji. Nie mogą one również
dostarczyć wskaźników dotyczących efektów dystrybucji programu, tzn. tego kto traci, a kto
zyskuje i jak wiele.
Analiza wieloczynnikowa, stanowiąca przede wszystkim narzędzie podejmowania decyzji,
które może być zaadaptowane do celów formułowania ocen dotyczących programu, różni się
od metod przedstawionych powyżej. Analiza wieloczynnikowa pozwala na sformułowanie
oceny na podstawie wielu kryteriów, które mogą nie mieć wspólnej skali i mogą różnić się
względnym ciężarem gatunkowym. Rozpatrzmy każdy z tych elementów po kolei.
Programy powodują zazwyczaj wiele różnych efektów. Jeśli naszym zadaniem jest
sformułowanie oceny programu, oznacza to, że musimy wziąć pod uwagę te różnorodne
efekty (np. stopień osiągnięcia każdego ze szczegółowych celów programu). Problem polega
na tym, jak połączyć szacunki tych efektów, w sytuacji, gdy nie mają one wspólnej skali, np.
w przypadku programów funduszy strukturalnych zazwyczaj jesteśmy zainteresowani
efektami w dziedzinie zatrudnienia (liczba utworzonych miejsc pracy, liczba utrzymanych
miejsc pracy), w dziedzinie przedsiębiorstw (liczba nowopowstałych MSP), w dziedzinie
środowiska itd. Jak można doprowadzić do połączenia wszystkich tych efektów w celu
sformułowania oceny na temat programu jako całości? Kolejnym problemem może być to,
że niektóre z tych kryteriów są ważniejsze niż inne.
Technika analizy wieloczynnikowej pozwala osobom podejmującym kluczowe decyzje
na przypisanie punktów dla poszczególnych kryteriów stanowiących podstawę oceny
programu, które następnie mogą zostać zmierzone i użyte do ustalenia ogólnej oceny
programu.
Analiza wieloczynnikowa używana jest w kontekście UE w przypadku funduszy
strukturalnych, ale nie może być bezpośrednio przeniesiona na inne sytuacje podlegające
ewaluacji. Tym niemniej, technika ta jest przydatna.
Gdzie szukać dalszych informacji?
Literatura poświęcona modelom ewaluacji jest dość obszerna, ale dwa najbardziej przydatne teksty to Mohr
(1995) i Treasury Board of Canada (1991). Drugi z nich zawiera również wartościową dyskusję dotyczącą
różnych technik zbierania i analizy danych opisanych w niniejszym przewodniku, a także doskonałą bibliografię.
Podstawowym punktem odniesienia dla wykorzystania studium przypadku jest Yin (1994). Nie jest możliwe
podanie w tym miejscu pełnej listy tekstów wprowadzających do statystyki. Dobrym punktem wyjścia może być
zapoznanie się z bibliografią tekstów dotyczących ewaluacji. Podręcznik MEANS, tom 4, nt. zastosowania
metody wieloczynnikowej do ewaluacji programów strukturalnych, stanowi przydatne wprowadzenie do tej
metody w specyficznym kontekście funduszy strukturalnych.
__________________________________________________________________________________________
4 Raportowanie i rozpowszechnianie ewaluacji
Jak wskazaliśmy w rozdziale 1, ewaluacja różni się od typowych badań naukowych tym,
że jej celem jest użyteczność na poziomie operacyjnym. Użyteczność ewaluacji zależeć
będzie od jej ustaleń, wniosków i rekomendacji, a także od jakości raportu i tego, jak dobrze
został rozpowszechniony.
Raportowanie ma miejsce w momencie przekazywania ewaluacji przez ewaluatora
(zazwyczaj w formie sprawozdania z działań i rezultatów) zleceniodawców ewaluacji oraz
gdy z kolei te osoby przekazują kopię (lub streszczenie) innym zainteresowanym podmiotom
w Komisji, w tym w innych służbach. Rozpowszechnianie odnosi się do zestawu działań,
dzięki którym wiedza na temat ewaluacji zostaje udostępniona szerokiej opinii publicznej.
Niniejszy rozdział ukazuje, jak raportowanie i rozpowszechnianie ewaluacji może przyczynić
się do jej wykorzystania.
Pomimo że zagadnienia raportowania i rozpowszechniania ewaluacji pozostawiono na ostatni
rozdział, zleceniodawcy ewaluacji powinni zacząć myśleć o strategii komunikacyjnej
dotyczącej rezultatów w tym samym czasie, gdy zaczynają planować samą ewaluację.
4.1
Optymalizacja wykorzystania ewaluacji
W tej sekcji przeanalizujemy niektóre praktyczne metody gwarantujące optymalne
wykorzystanie ewaluacji. Pierwszym warunkiem jest ukierunkowanie przekazu
w zależności od odbiorców. Może się to wydawać oczywiste, ale często jest pomijane, gdy
dochodzi do prezentowania i rozpowszechniania ewaluacji. Tak więc kiedy myślimy
o optymalizacji potencjalnego wykorzystania ewaluacji, powinniśmy mieć jasne pojęcie
o potrzebach potencjalnych użytkowników ewaluacji w zakresie informacji.
Wspomniane potrzeby informacyjne będą się różnić, zależnie od tego, czy ewaluacja została
przeprowadzona:
•
w celu usprawnienia zarządzania,
•
dla przyczyn odpowiedzialności,
•
w celu wsparcia alokacji zasobów budżetowych.
Raport z ewaluacji, której zadaniem było przede wszystkim usprawnienie zarządzania
programem powinien być opracowany z myślą o odbiorcach posiadających specjalistyczną
wiedzę. Przykładowo, można sobie w takiej sytuacji pozwolić na poczynienie pewnych
skrótów i zawarcie bardziej technicznych kwestii niż w większości raportów ewaluacyjnych.
Jednak może również wystąpić konieczność zawarcia w nim streszczenia o charakterze nietechnicznym, sformułowanego na przykład w bardziej opisowy sposób, dostępnego dla
użytkowników, którzy nie są bezpośrednio zaangażowani w proces zarządzania programem
i którym brakować może specjalistycznej wiedzy.
Ewaluacja przeprowadzona dla przyczyn odpowiedzialności lub w celu wsparcia alokacji
zasobów budżetowych zazwyczaj będzie miała szerszy i bardziej różnorodny krąg
użytkowników. Dla przykładu, osoby podejmujące kluczowe decyzje mogą nie mieć ani
czasu, ani ochoty na czytanie złożonych analiz. W takiej sytuacji konieczne może być
opracowanie szeregu dokumentów przedstawiających te same zagadnienia, a różniących się
stylem opisu. W każdym razie jest bardzo ważne, by dysponować odrębnym streszczeniem,
które może służyć zaspokojeniu potrzeb informacyjnych wyższych urzędników Komisji,
komisarzy, przedstawicieli Rady, członków Parlamentu Europejskiego i mediów.
Drugim warunkiem jest zapewnienie, by raporty z ewaluacji były dostępne
w wyznaczonym czasie. Innymi słowy, zleceniodawcy ewaluacji powinny zapewnić
przygotowanie raportów wtedy, gdy prawdopodobnie będą one najbardziej przydatne (np.
w momencie, w którym mogą przyczynić się do podjęcia decyzji o odnawianiu lub nie
danego programu). Obejmuje to odpowiednio wcześniejsze planowanie oraz przygotowanie
realistycznych symulacji tego, co musi być zrobione by zmieścić się w założonych
terminach. Aby pomóc służbom Komisji w realizacji tego zadania, przyjęty 8 maja 1996 r.
przez Komisję Komunikat w sprawie Ewaluacji nałożył na wszystkie wydziały operacyjne
obowiązek wprowadzenia ich własnych harmonogramów zadań dotyczących ewaluacji.
W harmonogramach tych powinny zostać zamieszczone planowane w okresie najbliższych
dwóch lat ewaluacje, należy również dostarczyć informacji na temat decyzji, do podjęcia
których przyczynić się mają planowane ewaluacje.
Ostatnim warunkiem jest konieczność włączenia stron uczestniczących w projektowanie
ewaluacji. Ewaluator oraz zleceniodawcy ewaluacji mogą zwiększyć potencjalną
użyteczność ewaluacji poprzez zapewnienie szerszego uczestnictwa w projektowaniu
ewaluacji. Celem jest nie tylko zagwarantowanie wzięcia pod uwagę interesów różnych stron
uczestniczących, ale także poinformowanie ich o przyszłych planach wykorzystania
i rozpowszechnienia ewaluacji. Stanowi to kontynuację idei ewaluacji, jako procesu
włączającego, jak zostało to przedstawione w rozdziale 3.
4.2
Przedstawianie raportu z ewaluacji
Raport z ewaluacji stanowi końcowy produkt samej ewalucji. Ważne jest, by był on dobrze
napisany i dobrze przedstawiony.
4.2.1 Struktura raportu z ewaluacji
Raport z ewaluacji powinien posiadać logiczną strukturę. W wielu przypadkach precyzyjna
struktura (a czasem również długość) oczekiwanego raportu będzie z góry szczegółowo
opisana w warunkach kontraktu. Ramka 5.1 poniżej przedstawia typową strukturę raportu
z ewaluacji.
Należy pamiętać, że nie ma jednej uniwersalnej struktury raportu z ewaluacji (choć wiele
Dyrekcji Generalnych i służb Komisji ma własne ulubione układy raportów). Przeciwnie,
struktura raportu powinna raczej odpowiadać potrzebom zleceniodawców ewaluacji,
a także najważniejszym stronom uczestniczącym. W przypadku dużych programów, dla
których zadanie ewaluacji ma być podzielone pomiędzy kilku ewaluatorów zewnętrznych (np.
w podziale na kraje lub regiony), jest oczywiście bardzo pomocne, jeśli raporty mają wspólną
strukturę, co ułatwia ich czytanie i przygotowanie syntetycznego raportu ogólnego.
Stwierdzając, że nie ma jednej możliwej do powszechnego zastosowania struktury raportu,
trzeba jednocześnie podkreślić wagę faktu, że wszystkie raporty powinny zawierać
streszczenie nie przekraczające 5 stron. Najlepiej byłoby gdyby zostało ono zamieszczone
na początku raportu. Powinno być także możliwe rozpowszechnianie tego streszczenia
jako samodzielnego dokumentu. Do obowiązków jednostki ewaluacyjnej (lub urzędnika
odpowiedzialnego za ewaluację) w każdej DG lub służbie Komisji należy przekazanie kopii
streszczenia każdej ewaluacji do DG XIX. Użyteczne jest także zamieszczenie w raporcie
kopii warunków kontraktu.
Ramka 5.1 Przykład struktury raportu z ewaluacji
Strona tytułowa
• tytuł i rodzaj ewaluacji (np. ex post)
• tytuł programu, generacja, czas trwania
• wskazanie autora, daty przedstawienia, zleceniodawcy opracowania raportu
Spis treści
• główne rozdziały i podrozdziały
• spis zestawień liczbowych i wykresów
Streszczenie
• streszczenie całości raportu nie przekraczające 5 stron
• analiza mocnych i słabych stron wybranego modelu ewaluacji
Wstęp
•
•
•
•
opis programu w kategoriach potrzeb, celów, logiki działania, etc.
kontekst w jakim realizowany jest program
cel ewaluacji w kategoriach zakresu i głównych zagadnień ewaluacyjnych
opis podobnych badań przeprowadzonych we wcześniejszym okresie
Metodologia badań
• model badawczy
• realizacja badania i zbieranie danych
• analiza danych
Rezultaty ewaluacji
• ustalenia
• wnioski
• rekomendacje
Aneksy
• warunki kontraktu
• dodatkowe zestawienia
• przypisy i źródła
• słownik terminów
4.2.2 Przejrzystość raportu z ewaluacji
Aby ewaluacja była skuteczna, musi zostać zrozumiana. Odpowiedzialność za to ponosi
przede wszystkim ewaluator, ale zleceniodawcy ewaluacji mogą znaleźć się w sytuacji, gdy
będą musieli bronić raportu przed stronami uczestniczącymi lub innymi odbiorcami, a więc
część odpowiedzialności spada również na nich.
Potencjalny czytelnik raportu z ewaluacji musi być w stanie zrozumieć:
•
cel ewaluacji;
•
co dokładnie było poddane ewaluacji;
•
w jaki sposób ewaluacja została zaprojektowana i przeprowadzona;
•
do jakich ustaleń doszli autorzy raportu;
•
jakie wnioski zostały wyciągnięte; i
•
jakie ewentualne rekomendacje zostały poczynione.
Redagowanie raportu z ewaluacji może stanowić trudne zadanie, ponieważ wymaga ono
stosowania różnych stylów pisania w odniesieniu do różnych części raportu: części
metodologicznej, opisu programu i jego efektów, wniosków wyciągniętych z poprzednich
badań, analizy opartej na nowych ustaleniach oraz wynikających z nich wniosków
i rekomendacji.
Z jednej strony, raport powinien dostarczać wystarczających informacji podanych w ściśle
analityczny sposób, by stanowić solidną podstawę dla wniosków i rekomendacji. Z drugiej
strony, raport powinien być zrozumiały dla inteligentnego nie-specjalisty. Oznacza to
ograniczenie do niezbędnego minimum języka technicznego, a także konieczność objaśniania
pojęć technicznych lub nieznanych powszechnie. Pod tym względem przydane byłoby
zamieszczenie w formie aneksu słowniczka terminów oraz innych technicznych zagadnień .
Jest prawdopodobne, że tylko niewielu spośród docelowych odbiorów przeczyta raport
w całości. Dlatego bardzo ważne jest, by streszczenie zostało napisane jak najlepiej.
Często pojawia się problem polegający na tym, że streszczenia są przygotowywane
w pośpiechu i dają czytelnikowi słabe pojęcie o argumentach i analizach zawartych
w głównym raporcie. Innymi słowy, nie są to ani prawdziwe „streszczenia”, ani nie pozwalają
podejmować na ich podstawie decyzji „wykonawczych”.
Poniżej znajduje się lista problemów, które mogą szkodzić przejrzystości raportu:
•
opis programu poddanego ewaluacji nie jest dostatecznie szczegółowy (tzn. taki, który
pozwala każdemu kto czyta raport z ewaluacji, poznać program i uzasadnienie jego
działania);
•
metody wykorzystane przy ewaluacji w celu zbierania i analizy danych nie zostały
opisane, a wybór zastosowanych metod oraz ich mocne i słabe strony uzasadnione;
•
informacje prezentowane są bez podania źródła pochodzenia;
•
dokonywanie ustaleń, które nie są oparte na wystarczających dowodach;
•
wyciągane wnioski nie są uzasadnione (tzn. nie są systematycznie wspierane przez
ustalenia), przez co niezależny czytelnik nie może ocenić ich prawomocności;
•
udzielanie rekomendacji, które nie są adekwatne do wyciągniętych wniosków.
4.3
Rozpowszechnianie ewaluacji
Rozpowszechnianie obejmuje cały zakres działań, poprzez które informacje zawarte
w raporcie z ewaluacji stają się dostępne dla szerszego grona odbiorców. Poniżej znajduje się
lista grup stron uczestniczących, które potencjalnie mogą być odbiorcami ewaluacji:
•
najważniejsze osoby odpowiedzialne za ukierunkowywanie polityki i podejmowanie
decyzji – w przypadku ewaluacji programów UE, grupa ta może obejmować Komisję,
Parlament Europejski, Radę oraz administrację narodową;
•
zleceniodawcy programu (program sponsors) – zazwyczaj jednostka w zarządzającej
Dyrekcji Generalnej lub służbie, która jest odpowiedzialna za zainicjowanie
i finansowanie programu poddanego ewaluacji;
•
zleceniodawcy ewaluacji (evaluation sponsors) – organizacje, które inicjują i finansują
ewaluację. (Uwaga: grupa ta może być tożsama z grupą zleceniodawców programu,
zależnie od specyficznych uregulowań obowiązujących w zarządzającej Dyrekcji
Generalnej lub wydziale);
•
beneficjenci programu – osoby lub grupy, które otrzymują dobra i usługi dostarczone
przez poddawany ewaluacji program;
•
zarządzający programem – osoby lub grupy odpowiedzialne za nadzór i koordynację
samego programu. W przypadku wielu programów UE, gdzie codzienne zadania z zakresu
zarządzania zostały zlecone jednostkom prywatnym, osoby odpowiedzialne
za zarządzanie programem są często różne od zleceniodawców realizacji programu;
•
inne zainteresowane grupy oraz społeczność naukowa – organizacje, grupy i osoby
w bezpośrednim środowisku programu lub ogólnie zainteresowane programem i jego
ewaluacją (np. World-Wide Fund for Nature w przypadku wielu programów dotyczących
środowiska naturalnego), a także naukowcy ogólnie z przyczyn naukowych
zainteresowani poddawanym ewaluacji programem.
Zważywszy na znaczące różnice pomiędzy potencjalnymi odbiorcami raportu, jest ważne, by
ustalenia dotyczące ewaluacji zostały przekazane w sposób dostosowany do każdej z tych
grup. Poza rozpowszechnianiem całego raportu, komunikacja może mieć miejsce poprzez
przekazywanie streszczenia lub poprzez ustne prezentacje oparte na materiałach audiowizualnych.
Jeśli ewaluatorzy lub zleceniodawcy ewaluacji chcieliby zapewnić rozpowszechnienie
informacji pochodzących z ewaluacji w sposób inny niż rozpowszechnianie samego raportu,
ich najważniejszym zadaniem będzie ukierunkowanie prezentacji tak, by odpowiadała jej
odbiorcom. Ramka 5.2 zawiera kilka podstawowych pytań, na które należy odpowiedzieć
podczas analizy grupy docelowej prezentacji.
Ramka 5.2. Analiza docelowych odbiorców
•
Jaki jest skład grupy docelowej?
•
Jakich informacji potrzebują i dlaczego?
•
Jaka jest ich wiedza na temat ewaluacji?
•
Czy byli zaangażowani w projektowanie ewaluacji? Jeśli tak, do jakiego stopnia? Jeśli nie, to
dlaczego?
•
W jaki sposób można ich zachęcić do wzięcia udziału w prezentacji?
•
Jakie korzyści i jakie szkody mogą wynikać dla nich z ewaluacji?
•
Jakie zagadnienia ewaluacji najbardziej ich interesują?
•
Jaki inne kwestie mogą być dla nich ważne?
•
Czy jest możliwe, że zgłoszą sprzeciw wobec jakichś ustaleń, wniosków lub rekomendacji?
•
W jaki sposób można to odeprzeć?
•
Jakie znaczenie będą dla nich miały precyzyjne szczegóły w porównaniu z ogólnym obrazem
całości?
Należy zawsze pamiętać, że różne strony uczestniczące prawdopodobnie w inny sposób
zareagują na prezentację rezultatów ewaluacji.
Beneficjenci programu stwarzają szczególne trudności. Są oni często niezorganizowani
i geograficznie rozproszeni w porównaniu z innymi stronami uczestniczącymi. W przypadku
niektórych programów beneficjenci mogą być nawet niechętni, by się ujawnić. Tam, gdzie
zabierają głos, czynią to za pośrednictwem organizacji mających na celu reprezentowanie ich
interesów.
Na zakończenie, należy pamiętać, że tam, gdzie jest wiele stron uczestniczących konflikty
interesów są do pewnego stopnia nieuniknione. Dlatego należy zawsze brać pod uwagę
następujące kwestie:
•
konflikty interesów najlepiej rozwiązać na samym początku poprzez przyjęcie szerokiej,
„włączającej” struktury zarządzającej;
•
poprzez czytelne rozdzielenie ustaleń, wniosków i rekomendacji, ewaluator może
wprowadzić rozróżnienie pomiędzy ustaleniami dotyczącymi programu i swoimi
własnymi opiniami. W ten sposób niektóre strony uczestniczące – nawet jeśli zdecydują
się odrzucić pewne rekomendacje – mogą być mniej skłonne do podważania ustaleń
i wniosków;
•
zarządzający programem mogą, jeśli zachodzi taka potrzeba, sformułować własne
obserwacje na temat raportu przygotowanego przez ekspertów zewnętrznych;
•
w żadnym wypadku ewaluacja nie powinna być uwikłana w negocjacje. Wiedza
ekspercka i zawodowa rzetelność ewaluatora zewnętrznego powinna stanowić
wystarczającą gwarancję bezstronności i wiarygodności jego ustaleń i wniosków.
__________________________________________________________________________________________
Gdzie szukać dalszych informacji?
Przydatnym źródłem informacji na temat strategii raportowania i rozpowszechniania ewaluacji będzie zazwyczaj
jednostka lub urzędnik odpowiedzialny za ewaluację w każdej Dyrekcji Generalnej lub służbie. The Joint
Committee on Standards for Educational Evaluation (1994) opracował listę standardów zawodowych, które
powinien spełniać ewaluator. Wiele z tych standardów ma zastosowanie w raportowaniu i rozpowszechnianiu
ewaluacji. Pomimo że opracowywane z myślą o ewaluacji programów edukacyjnych, standardy zaproponowane
w tym tekście mają potencjalnie znacznie szersze zastosowanie. Por. także Podręcznik MEANS, tom 1, na temat
L’Organisation de l’évaluation intermédiaire dans le cadre de partenariats. Przydatny jest także tekst Rossi
i Freeman (1993). W pracy Breakwell i Millward (1995) znajduje się bardzo użyteczny rozdział na temat
prezentacji rezultatów ewaluacji.
Aneks 1. Słownik terminów z zakresu ewaluacji
Agenda analityczna (ang. analitical agenda analityczna, fr. questionnement)
Struktura logiczna nakładana na różne pytania, które mają być zadane w ramach ewaluacji.
Służy ona przekształcaniu ogólnych, często niejasnych pytań, które mają na myśli
zleceniodawcy ewaluacji w pytania, które są na tyle precyzyjne, że można szukać na nie
odpowiedzi za pomocą metod badawczych z zakresu ewaluacji. Po opracowaniu agendy
analistycznej osoby odpowiedzialne za zlecenie ewaluacji muszą odpowiedzieć na pytanie,
czy interwencja może zostać poddana ewaluacji w ramach agendy. Zobacz także ocenialność,
projekt ewaluacji, logika działania.
Analiza (ang. analysis, fr. analyse)
Zobacz analiza danych
Analiza danych (ang. data analysis, fr. analyse de données)
Podstawowe techniki stosowane do interpretacji informacji na temat interwencji
wykorzystywane w ewaluacji to: analiza statystyczna, użycie modeli, analiza niestatystyczna
oraz techniki oceny, takie jak analiza kosztów i korzyści, analiza gospodarności, analiza
wieloczynnikowa. Zobacz także analiza kosztów i korzyści, analiza gospodarności,
gromadzenie danych, modele, analiza wieloczynnikowa, analiza niestatystyczna, analiza
statystyczna.
Analiza gospodarności (ang. cost-efectiveness analysis, fr. analyse coût-efficacité)
Technika oceny, w której badacz kwantyfikuje koszty i korzyści związane z programem
w oparciu o te same zasady, które stosuje się do analizy kosztów i korzyści, ale w której nie
ma obowiązku wyrażania korzyści we wspólnych jednostkach monetarnych. Zobacz także
analiza kosztów i korzyści, skuteczność.
Analiza kosztów i korzyści (ang. cost-benefit analysis, fr. analyse coût-bénéfices)
Technika oceny, w której badacz porównuje wszystkie społeczne i prywatne koszty i korzyści
danego programu w celu określenia, czy korzyści przewyższają koszty, a jeśli tak, to o ile.
Społeczne koszty i społeczne korzyści powinny zasadniczo być mierzone za pomocą środków
pośrednich a następnie przekształcane w jednostki monetarne, tak aby możliwe było
porównanie z kosztami i korzyściami prywatnymi. Co więcej, w wielu przypadkach nie
będzie właściwe posługiwanie się aktualnymi cenami rynkowymi. Rozpatrzmy sytuację,
w której mamy do czynienia z bardzo wysokim bezrobociem. W takim przypadku rzeczywiste
koszty pracy mogą być znacznie niższe niż aktualna rynkowa cena pracy. Koszt alternatywny
(drugie najlepsze rozwiązanie dla bezrobotnych osób w przypadku, gdyby projekt nie doszedł
do skutku – niektórzy i tak znaleźli by pracę, ale wielu pozostałoby bezrobotnymi) jest niższy
niż rynkowy poziom płacy i ten niski koszt alternatywny musi zostać przedstawiony jako cena
pozorna (shadow price), którą należy w jakiś sposób wyprowadzić. Zobacz także analiza
gospodarności.
Analiza niestatystyczna (ang. non-statistical analysis, fr. analyse non statistique)
Ogólny termin używany do opisu analizy głównie jakościowych danych, która jest zazwyczaj
wykorzystywana w połączeniu z analizą statystyczną (danych ilościowych bądź
jakościowych). Zazwyczaj obejmuje ona ocenę rzetelności ustaleń opartych na tej metodzie.
Zobacz także dane, analiza danych, analiza statystyczna.
Analiza regresji (ang. regression analysis, fr. analyse de regression)
Technika wnioskowania statystycznego, która może być wykorzystywana do ustalenia siły
zależności (korelacji) pomiędzy interesującymi nas zmiennymi, np. płci długoterminowego
bezrobotnego i ilości czasu zanim on lub ona znajdą nową pracę po ukończeniu programu
szkoleniowego. W analizie regresji staramy się ustalić, czy wariancja jednej zmiennej
(określanej jako zmienna zależna) może być wyjaśniona wariancją jednej lub kilku innych
zmiennych (określanych jako zmienne niezależne). Zmienna zależna ma często charakter
ilościowy, np. dochód danej osoby może być związany z poziomem jej wykształcenia, liczbą
godzin pracy w tygodniu, wieku, itp. Specjalne techniki mogą być wykorzystane w sytuacji,
w której zmienna zależna ma charakter jakościowy, np. gdy fakt, że dana osoba posiada lub
nie posiada samochodu może być zależny od jej dochodu, zamożności, wieku, płci, itp.
Zobacz także analiza statystyczna.
Analiza statystyczna (ang. statistical analisys, fr. analyse statistique)
Powszechnie używana technika analizy danych. Analiza statystyczna jest często
wykorzystywana do opisu zjawisk w sposób zwięzły i zawierający wiele informacji. Jest to
znane jako analiza opisowa. Może być również wykorzystywana do badania związków
pomiędzy zmiennymi w celu uogólnienia ustaleń na szerszą populację. Zobacz także
gromadzenie danych, analiza nie-statystyczna.
Analiza wariancji (ang. analysis of variance, fr. analyse de variance), ANOVA
Szeroko rozpowszechniona technika wnioskowania statystycznego, oparta na porównaniu
wariancji pomiędzy próbami z wariancją w ramach prób. Może nam ona powiedzieć czy
pomiędzy próbami występują systematyczne różnice, które powinny być wyjaśnione. Zobacz
także próba, analiza statystyczna, wariancja
Analiza wieloczynnikowa (ang. multi-criteria analysis, fr. analyse multicritères)
Narzędzie podejmowania decyzji, które może zostać zaadaptowane w celu formułowania
ocen na temat interwencji. Analiza wieloczynnikowa pozwala formułować oceny
na podstawie wielu czynników, które mogą nie mieć wspólnej skali i mogą różnić się
względną ważnością.
ANOVA (ang. ANOVA, fr. ANOVA)
Zobacz analiza wariancji
Audyt (ang. audit, fr. audit)
Funkcja kontrolna, polegająca przede wszystkim na weryfikacji legalności i prawidłowości
wdrażania zasobów w danym programie. Audyt obejmuje tradycyjnie takie dziedziny jak
weryfikacja danych finansowych (audyt finansowy). Zobacz także audyt wykonania,
ewaluacja
Audyt finansowy (ang. financial audit, fr. audit financier)
Zobacz audyt
Audyt wykonania (ang. performance audit, fr. audit de performance)
Koncepcyjnie bliższy ewaluacji niż tradycyjny audyt, audyt wykonania jest silnie związany
z pytaniem o efektywność (pośrednich wyników interwencji) i dobre zarządzanie. Audyt
wykonania i ewaluacja mają wspólny cel, jakim jest usprawnienie jakości programu, ale
ewaluacja idzie pod tym względem dalej. Bada ona bowiem również takie zagadnienia jak
trwałość, trafność i konsekwencje programu w długim okresie. Zobacz także audyt,
ewaluacja.
Badania ankietowe (ang. surveys, fr. enquêtes)
Szeroko wykorzystywana technika gromadzenia danych pochodzących z próby wylosowanej
z szerszej populacji. Badania często opierają się na losowym doborze próby, a informacja
pochodząca z badań jest zazwyczaj gromadzona za pomocą wywiadów kierowanych lub
samodzielnie wypełnianych kwestionariuszy. Wywiady przekrojowe polegają na pomiarze
dokonanym w jednym punkcie w czasie. Wywiady panelowe
polegają na pomiarze
dokonanym w dwóch lub więcej punktach w czasie. Zobacz także gromadzenie danych,
populacja, dobór próby, próba.
Badania naukowe (ang. scientific studies, fr. études scientifiques)
Podczas gdy naukowcy mogą podejmować badania w celu powiększenia zasobów wiedzy
ludzkiej i często ograniczają się do jednej wąsko wyspecjalizowanej dziedziny, ewaluacja jest
podejmowana z bardziej praktycznych powodów. Ma ona cele praktyczne, takie jak
wyjaśnianie decyzji, wyjaśnianie możliwości, zmniejszanie poziomu niepewności i ogólnie
dostarczanie informacji na temat programów w ramach ich specyficznego kontekstu. Zobacz
także ewaluacja.
Badania panelowe (ang. panel surveys, fr. enquêtes par panel)
Zobacz badania ankietowe
Badania przekrojowe (cross-sectional surveys, fr. enquêtes transversales
Zobacz badania
Cele (ang. objectives, fr. objectifs)
Pożądane efekty interwencji. Zobacz także cele ogólne, potrzeby, cele operacyjne, cele
szczegółowe.
Cele ogólne (ang. general objectives, fr. objectifs généraux)
Pożądane efekty interwencji wyrażone w kategoriach oddziaływania, tj. wpływu danej
interwencji na społeczeństwo w długim okresie (np. zmniejszenie bezrobocia wśród osób
długotrwale bezrobotnych). Zobacz także logika działania, cele, cele operacyjne,
oddziaływanie, cele szczegółowe.
Cele operacyjne (ang. operational objectives, fr. objectifs opérationnels)
Pożądane efekty interwencji wyrażone w kategoriach wyników, tzn. dóbr i usług
wyprodukowanych przez interwencję (np. dostarczenie kursów szkolenia zawodowego dla
długoterminowych bezrobotnych). Zobacz także cele ogólne, interwencja, logika działania,
cele, wyniki, cele szczegółowe.
Cele szczegółowe (ang. specific objectives, fr. objectifs spécifiques)
Pożądane efekty interwencji wyrażone w kategoriach rezultatów, tzn. początkowego
oddziaływania interwencji na społeczeństwo (np. poprawa. zdolności do zatrudnienia
długoterminowych bezrobotnych poprzez podniesienie poziomu ich umiejętności). Zobacz
także oddziaływanie, interwencja, logika działania, wyniki, konsekwencje, cele ogólne, cele,
struktura organizacyjna, rezultaty.
Cena pozorna (ang. shadow price, fr. prix fictif)
Zobacz analiza kosztów i korzyści.
Chatty bias (ang. chatty bias, fr. biais de „prolixité”)
Ogólny problem powstający w sytuacji, gdy opinie bardziej wymownych osób (np.
ekspertów) wyróżniają się, pomimo że poglądy te mogą nie być reprezentatywne. Zobacz
także opinie ekspertów.
Czysty model eksperymentalny (ang. true experimental design,
expérimentaux purs)
fr.
modèles
Najlepsze z możliwych w praktyce przybliżeń do idealnego modelu eksperymentalnego,
w którym ewaluator stara się zagwarantować początkową identyczność grupy programowej
i grupy kontrolnej poprzez wcześniejsze utworzenie ich, za pomocą losowego przypisania
do grupy. Choć wnioskowanie przyczynowe oparte na takim modelu ma zazwyczaj silne
podstawy, czyste modele eksperymentalne są zazwyczaj trudne w administrowaniu
i wdrażaniu. Na ich oznaczenie używa się także określenia „randomizowany (losowo
dobrany) model eksperymentalny”. Zobacz także grupa kontrolna, modele ewaluacji, idealny
model ewaluacji, logika działania, grupa programowa, modele quasi-eksperymentalne.
Dane (ang. data, fr. données)
Znane fakty, które mogą być wykorzystane jako podstawa do wnioskowania. Dane
subiektywne dotyczą osobistych odczuć, postaw i postrzegania; dane obiektywne dotyczą
obserwowalnych faktów. Dane ilościowe obejmują obserwacje liczbowe; dane jakościowe są
nie-liczbowe i dotyczą kategorii. Dane podłużne (longitudinalne) zbierane są przez dłuższy
czas, dane przekrojowe zbierane są w tym samym momencie, ale w wielu różnych
geograficznie miejscach, itp. Dane pierwotne pochodzą bezpośrednio ze źródła lub są zebrane
z pierwszej ręki, dane wtórne poddane zostały uprzednio pewnym manipulacjom
i interpretacji. Zobacz także analiza danych, gromadzenie danych.
Dane ilościowe (ang. quantitative data, fr. données quantitatives)
Zobacz dane.
Dane jakościowe (ang. qualitative data, fr. données qualitatives)
Zobacz dane.
Dane obiektywne (ang. objective data, fr. données objectives)
Zobacz dane.
Dane pierwotne (ang. primary data, fr. données primaires)
Zobacz dane.
Dane podłużne (longitudinalne) (ang. longitudinal data, fr. données longitudinales)
Zobacz dane.
Dane przekrojowe (ang. cross-sectional data, fr. données transversales)
Zobacz dane
Dane subiektywne (ang. subjective data, fr. données subjectives)
Zobacz dane.
Dane wtórne (ang. secondary data, fr. données secondaires)
Zobacz dane.
Deadweight (ang. deadweight, fr. effet d’aubaine)
Deadweight definiowany jest jako efekty, które wystąpiłyby nawet gdyby interwencja nie
miała miejsca. Deadweight zwykle pojawia się na skutek nieprawidłowych mechanizmów
dostarczania programu, które niedostatecznie ukierunkowują program na docelowych
beneficjentów. W rezultacie, inne osoby i grupy, które nie mieściły się w populacji docelowej,
stają się odbiorcami korzyści wyprodukowanych przez interwencję. Deadweight jest
w rzeczywistości szczególnym przypadkiem nieefektywności programu. Zobacz także
mechanizmy dostarczania, efektywność, populacja docelowa.
Dobór próby (ang. probability sampling, fr. échantillonnage de probabilité)
Technika statystyczna wykorzystywana do uzyskiwania prób z danej populacji, podczas
której każdy element populacji ma znane niezerowe prawdopodobieństwo, że będzie
wylosowany do próby. Wnioski z tego typu próby mogą być w takim wypadku rzutowane,
ze statystyczną możliwością błędu, na szersza populację. Zobacz także populacja, próba.
Double loop learning (ang. double-loop learning, fr. apprentisage double)
Rodzaj sprzężenia zwrotnego, w którym informacje zgromadzone w trakcie ewaluacji
wykorzystywane są do zakwestionowania samego istnienia pomocy lub do spowodowania
istotnych zmian w jej podstawowych założeniach. Double loop learning jest prawie zawsze
wynikiem ewaluacji podsumowującej. Odgrywa ono kluczową rolę w ukierunkowywaniu
działań Unii Europejskiej na zaspokajanie zmieniających się potrzeb jej obywateli. Zobacz
także sprzężenie zwrotne, ewaluacja formująca, single-loop learning, ewaluacja
podsumowująca.
Efekt Hawthorne (ang. Hawthorne effect, fr. effet Hawthorne)
Wyrażenie „Efekt Hawthorne” jest wykorzystywane do wyjaśnienia sytuacji, w której wyniki
eksperymentu nie są wiarygodne, gdyż sam fakt przeprowadzenia eksperymentu wpływa
na otrzymane rezultaty. Zjawisko to przypomina nam o tym, że pracownicy programu
i beneficjenci mogą zachowywać się zupełnie odmiennie niż normalnie, jeżeli mają
świadomość, że są obserwowani. Zobacz także obserwacje z natury.
Efektywność (ang. efficience, fr. efficience)
W jakim stopniu nakłady zostały przekształcone przez interwencję na wyniki i rezultaty
w sposób oszczędny? Zobacz także nakłady, logika działania, wyniki, rezultaty.
Ewaluacja (ang. evaluation, fr. évaluation)
Pogłębione badanie, które odbywa się w określonym momencie i w którym uznane metody
badawcze wykorzystywane są w sposób systematyczny i analityczny w celu sformułowania
sądu na temat wartości interwencji.
Ewaluacja cząstkowa (ang. intermediate evaluation, fr. evaluation intermédiaire)
Ewaluacja przeprowadzana w trakcie wdrażania interwencji. Zobacz także
ewaluacja ex ante, ewaluacja ex post.
ewaluacja,
Ewaluacja ex ante (ang. ex ante evaluation, fr. évaluation ex ante)
Ewaluacja przeprowadzana przed rozpoczęciem wdrażania danej formy pomocy. Określana
również jako „ocena” (ang. appraisal, fr. appréciation). Zobacz także ewaluacja, ewaluacja ex
post, ewaluacja cząstkowa.
Ewaluacja ex post (ang. ex post evaluation, fr. évaluation ex post)
Ewaluacja przeprowadzana albo na zakończenie, albo po zakończeniu realizacji interwencji.
Zobacz także ewaluacja, ewaluacja ex ante, ewaluacja cząstkowa.
Ewaluacja formująca (ang. formative evaluation, fr. évaluation formative)
Ewaluacja koncentrująca się na badaniu sposobów udoskonalenia i usprawnienia wdrażania
oraz zarządzania interwencją. Ewaluacja formująca przeprowadzana jest na rzecz osób
zarządzających daną interwencją w celu poprawienia ich pracy. Zobacz także ewaluacja,
ewaluacja podsumowująca.
Ewaluacja podsumowująca (ang. summative evaluation, fr. évaluation récapitulative)
Ewaluacja mająca na celu określenie zasadniczej skuteczności programu. Ewaluacja taka
będzie zwykle przeprowadzana na rzecz podmiotów zewnętrznych (grup, które nie są
bezpośrednio zaangażowane w zarządzanie programem), z uwagi na określenie
odpowiedzialności oraz wsparcia w alokacji środków budżetowych
Ewaluacja tematyczna (ang. thematic evaluation, fr. evaluation thématique)
Ewaluacja koncentrująca się na badaniu jednego lub kilku zagadnień wspólnych dla kilku
różnych interwencji (programów lub działań), np. oddziaływania na środowisko lub na małe
i średnie przedsiębiorstwa.
Ewaluacja wewnętrzna (ang. internal evaluation, fr. evaluation interne)
Ewaluacja, która przeprowadzana jest przez członków organizacji odpowiedzialnej za samą
interwencję poddaną ewaluacji. Zobacz także ewaluacja, ewaluacja zewnętrzna.
Ewaluacja zewnętrzna (ang. external evaluation, fr. évaluation externe)
Ewaluacja, która jest przeprowadzana przez osoby spoza organizacji odpowiedzialnej za samą
interwencję. Zobacz także ewaluacja, ewaluacja wewnętrzna.
Gromadzenie danych (ang. data collection, fr. collecte de données)
Podstawowe techniki stosowane do zbierania informacji na temat interwencji
wykorzystywane w ewaluacji to: badania ankietowe, studium przypadku, obserwacje z natury,
opinie ekspertów, przeglądy dokumentów programu, przeglądy literatury. Zobacz także
studium przypadku, analiza danych, model ewaluacji, opinie ekspertów, przeglądy literatury,
obserwacje z natury, przeglądy dokumentów programu, badania ankietowe.
Grupa eksperymentalna (ang. experimental group, fr. groupe expérimental)
Zobacz grupa programowa.
Grupa kontrolna (ang. control group. fr. group témoin)
Grupa podmiotów, która nie jest poddana działaniu interwencji. Grupa kontrolna powinna być
podobna do grupy programowej (podmiotów, które są poddane działaniu interwencji), tak aby
systematyczne różnice pomiędzy tymi dwiema grupami mogły być przypisane efektom
interwencji, po tym, gdy inne, możliwe do przyjęcia, alternatywne hipotezy zostały
wyeliminowane lub odrzucone. Zobacz także sytuacja kontrfaktyczna, model ewaluacji,
logika działania, grupa programowa.
Grupa programowa (ang. programme group, fr. groupe de programme)
Grupa podmiotów, które zostały poddane działaniu interwencji. Grupa programowa może być
porównana z grupą kontrolną (złożoną z podmiotów, które nie uczestniczyły w interwencji)
w celu określenia czy różnice występujące pomiędzy tymi grupami mogą być przypisane
efektom programu. Zobacz także grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji,
idealny model eksperymentalny, zbieżność wewnętrzna, interwencja, logika działania, modele
quasi-eksperymentalne, czyste modele eksperymentalne.
Grupa sterująca (ang. steering group, fr. groupe de pilotage)
Grupa sterująca, będąca częścią struktury zarządzającej ewaluacją, pozwala innym wydziałom
(a także w razie potrzeby innym stronom uczestniczącym spoza Komisji) na udział
w opracowywaniu projektu ewaluacji. Zobacz także projekt ewaluacji, struktura
zarządzająca, strony uczestniczące.
Idealny model eksperymentalny (ang. ideal experimental model, fr. modèle expérimental
idéal)
Teoretyczny sposób wyprowadzania sytuacji kontrfaktycznej i poprzez nią oddziaływania
netto danej interwencji. Polega on na porównaniu dwóch grup identycznych pod wszystkimi
względami z wyjątkiem poddania działaniu programu. Różnice między grupą, która
uczestniczyła w programie (grupa programowa) oraz tą, która nie uczestniczyła w nim (grupa
kontrolna) są następnie przypisywane działaniu programu. W świecie rzeczywistym model
ten nie występuje, ponieważ nigdy nie możemy być absolutnie pewni że dwie grupy są
identyczne we wszystkich pozostałych aspektach. Potencjalna nierównoważność dwóch grup
osłabia prawdziwość jakiegokolwiek wnioskowania przyczynowego dotyczącego interwencji.
Dostępne są jednak różne inne modele ewaluacji, możliwe do zastosowania w praktyce;
każdy z nich posiada swoje mocne i słabe strony. Zobacz także grupa kontrolna, sytuacja
kontrfaktyczna, model ewaluacji, logika działania, grupa programowa, modele quasieksperymentalne, czyste modele eksperymentalne.
Interwencja (ang. intervention, fr. intervention)
Ogólna nazwa używana do określenia wszystkich działań publicznych. Zobacz także polityka,
program, projekt.
Konsekwencje (ang. outcomes, fr. conséquences)
Oddziaływanie w dłuższym okresie, wyrażane zazwyczaj w kategoriach szerokich
konsekwencji społeczno-gospodarczych, które mogą być przypisane interwencji (np.
zmniejszenie liczby długoterminowych bezrobotnych). Zobacz także cele ogólne,
oddziaływanie, interwencja, logika działania, wyniki, rezultaty.
Koszt alternatywny (ang. opportunity costs, fr. coût d’opportunité)
Zobacz analiza kosztów i korzyści.
Kwestionariusze (ang.questionnaires, fr. questionnaires)
Zobacz badania ankietowe.
Licznik Régniera (ang. Abacus of Régnier, fr. Abaque de Régnier)
Metoda systematyzacji opinii wyrażonych przez członków danej grupy (np. ekspertów).
Członkowie grupy, zebrani razem, otrzymują listę zamkniętych pytań, na które każdy z nich
odpowiada w sposób niewerbalny, wykorzystując siedmiokolorowy kod (dwa odcienie zieleni
oznaczające zgodę, dwa odcienie czerwieni oznaczające sprzeciw, pomarańczowy dla
wyrażenia wahania, biały oznaczający, że osoba nie posiada informacji niezbędnych
do odpowiedzi na dane pytanie oraz czarny, używany w sytuacji, w której dana osoba
sprzeciwia się sposobowi postawienia pytania). Zobacz także metoda delficka, opinia
eksperta.
Logika działania (ang. intervention logic, fr. logique d’intervention)
Powiązanie pomiędzy nakładami wykorzystanymi w danej interwencji w celu
wyprodukowania wyników a jej oddziaływaniem na społeczeństwo w kategoriach rezultatów
i konsekwencji. Badanie logiki działania programu stanowi kluczowy element większości
ewaluacji. Ewaluator musi sobie zadać pytanie, w jaki sposób program osiąga swoje cele
szczegółowe i w jaki sposób te cele szczegółowe przyczyniają się do osiągania celów
ogólnych. Wyrażenia „teoria działania”, „logika programu” i „teoria programu” są czasami
wykorzystywane na oznaczenie mniej więcej tego samego pojęcia. Zobacz także cele ogólne,
oddziaływanie, nakłady, interwencja, cele, cele operacyjne, wyniki, konsekwencje, rezultaty,
cele szczegółowe.
Logika programu (ang. programme logic, fr. logique du programme)
Zobacz logika działania.
Mechanizmy dostarczania (ang. delivery mechanisms, fr. mécanismes de prestation)
Rozwiązania organizacyjne, które dostarczają dobra i usługi sfinansowane przez pomoc
do zakładanych beneficjentów, tj. do jej populacji docelowej. Zobacz także populacja
docelowa.
Mierniki (ang. benchmarks, fr. benchmarks)
Standardy pozwalające na bezstronną, nie-arbitralną ocenę wykonania interwencji. Jedną
z oczywistych metod pozwalających na uzyskanie takich mierników jest zbadanie celów
interwencji wyrażonych w formie oczekiwanych wyników, rezultatów i oddziaływania.
W sytuacji idealnej mierniki powinny pozwolić na porównanie wykonania interwencji
z wykonaniem innego instrumentu polityki w tym samym lub zbliżonym obszarze
interwencji. Zobacz także cele ogólne, wskaźnik, interwencja, cele, cele operacyjne, wyniki,
rezultaty, oddziaływanie, cele szczegółowe.
Model ewaluacji (ang. evaluation design, fr. modèle d’évaluation)
Model wykorzystywany do opisu interwencji oraz dostarczenia dowodów na temat efektów,
które mogą zostać przypisane jej działaniu. Modele ewaluacji mają charakter przyczynowy
lub opisowy. Dany model powinien prowadzić do wyboru jednej lub kilku metod zbierania
i analizy danych. Zobacz także sytuacja kontrfaktyczna, analiza danych, gromadzenie danych,
idealny model eksperymentalny, logika działania.
Model ex post facto (ang. ex post facto design, fr. modèle ex post facto)
Przykład modelu opisowego, który może być wykorzystywany w sytuacji, w której ewaluator
nie może wybrać, kto ma być poddany oddziaływaniu programu ani do jakiego stopnia.
Modele te są wykorzystywane do badania interwencji obejmujących całą populację. Zobacz
także grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji, logika działania, grupa
programowa.
Model odniesienia do populacji (ang. criterion-population design, fr. modèle populationcritère)
Przykład modelu quasi-eksperymentalnego, który stanowi próbę udoskonalenia modelu
zmiany porównawczej. W tym drugim wypadku grupa programowa i grupa kontrolna to dwie
różne grupy wyodrębnione z hipotetycznej, większej populacji. W modelu odniesienia do
populacji, w odróżnieniu, ta hipotetyczna populacja jest zidentyfikowana i wykorzystana jako
grupa kontrolna. W tym przypadku, możliwość stronniczego wyboru ograniczona jest tylko
do jednej grupy – grupy programowej. Model ten jest szczególnie odpowiedni w sytuacji, gdy
ewaluator nie może w łatwy sposób stworzyć grupy kontrolnej, ale ma dostęp do informacji
o większej populacji, z której została wyodrębniona grupa programowa. Zobacz także grupa
kontrolna, model zmiany porównawczej, sytuacja kontrfaktyczna, model ewaluacji, zbieżność
wewnętrzna, logika działania, modele quasi-eksperymentalne, grupa programowa, stronniczy
wybór,
Model przed-i-po (ang. before-and-after design, fr. modèle avant-et-après)
Przykład modelu quasi-eksperymentalnego, który polega na prostym porównaniu
odpowiedniej sytuacji przed programem oraz po realizacji programu, a następnie przypisaniu
wszystkich zaobserwowanych różnic na rzecz programu. Szczególna słabość tego modelu
polega na tym, że oprócz interwencji może być inna przyczyna części lub nawet wszystkich
zaobserwowanych różnic w czasie. Zobacz także grupa kontrolna, sytuacja kontrfaktyczna,
model ewaluacji, zbieżność wewnętrzna, logika działania, modele quasi-eksperymentalne,
grupa programowa.
Model przerywanych serii czasowych (ang. interrupted time-series model, fr. modèle de
série temporelle interrompue)
Przykład modelu quasi-eksperymentalnego. Polega on na dokonaniu kilku pomiarów
w okresie zarówno przed jak i po działaniu programu w celu stworzenia serii czasowych
obserwacji. Stanowi on udoskonalenie modelu przed-i-po. Zobacz także model przed-i-po,
grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji, zbieżność wewnętrzna, logika
działania, modele quasi-eksperymentalne, grupa programowa.
Model zmiany porównawczej (ang. comparative change model, fr. model de changement
comparatif)
Przykład modelu quasi-eksperymentalnego, w którym wszystkie znane lub rozpoznane
różnice pomiędzy grupą kontrolną i grupą programową brane są pod uwagę w analizie
statystycznej. Problemy z tym modelem wynikają, po pierwsze, z tego, że mogą występować
inne czynniki, które wyjaśniają niektóre bądź wszystkie zmiany w działaniu
i zaobserwowanych efektach; po drugie, z tego, że pomiędzy grupą kontrolną i grupą
programową mogą występować różnice początkowe, które mają wpływ na obserwowane
efekty i w ten sposób zakłócają ocenę wpływu programu na te efekty. Zobacz także grupa
kontrolna, sytuacja kontrfaktyczna, model ewaluacji, zbieżność wewnętrzna, logika działania,
modele quasi-eksperymentalne, grupa programowa, stronniczy wybór.
Modele (ang. models, fr. modèles)
Istnieją różne rodzaje modeli, które starają się przedstawić, w jaki sposób interwencja
oddziałuje na główne zmienne społeczno-gospodarcze. Modele takie pochodzą zazwyczaj
z poprzednich badań. Do podstawowych typów modeli zaliczamy: (i) modele wejściawyjścia, które pozwalają badaczowi na systematyczne badanie powiązań pomiędzy różnymi
elementami gospodarki, przy założeniu, że nakłady jednej gałęzi mogą być uważane
za wyniki innej gałęzi; (ii) modele mikroekonomiczne, które przeznaczone są do badania
zachowania się gospodarstw domowych i przedsiębiorstw w specyficznych przemysłach
i rynkach, poprzez wykorzystanie równań przedstawiających funkcje popytu i podaży dla
poszczególnych dóbr lub usług; (iii) modele makroekonomiczne, które są wykorzystywane
do modelowania w czasie zmiennych makroekonomicznych (takich jak inflacja, zatrudnienie,
wzrost i bilans handlowy); (iv) modele statystyczne, które są powszechnie wykorzystywane
do badania relacji pomiędzy szczegółowymi efektami programu. Zobacz także analiza
danych, analiza statystyczna.
Modele
makroekonomiczne
macroéconomiques)
(ang.
macroeconomic
models,
fr.
modèles
Zobacz modele.
Modele mikroekonomiczne (ang. microeconomic models, fr. modèles microeconomiques)
Zobacz modele.
Modele quasi-eksperymentalne (ang. quasi-experimental designs, fr. modèles quasi-
expérimentaux)
Rodzaj przyczynowych modeli ewaluacji, które charakteryzują się bardziej praktycznym
podejściem niż czyste modele eksperymentalne. Mogą być wykorzystywane grupy kontrolne,
ale pod warunkiem, że są tworzone w procesie nieprzypadkowym. W innym przypadku
można badać beneficjentów przed działaniem interwencji i po uczestnictwie w działaniu
programu. Zobacz także model przed-i-po, model zmiany porównawczej, grupa kontrolna,
grupa programowa, sytuacja kontrfaktyczna, model kryterium populacji, model ewaluacji,
idealny model eksperymentalny, model przerywanych serii czasowych, logika działania,
czysty model eksperymentalny.
Modele statystyczne (ang. statistical models, fr. modèles statistiques)
Zobacz modele.
Modele studium przypadku (ang. case study designs, fr. modèles d’étude de cas)
Rodzaj modeli ewaluacji o raczej opisowym niż przyczynowym podejściu. Często zdarza się,
że model ewaluacji opiera się na pogłębionym badaniu jednego lub kilku specyficznych
przypadków lub sytuacji. Zobacz także studium przypadku, modele ewaluacji.
Modele wejścia-wyjścia (ang. input-output models, fr. modèles d’entrée-sorties)
Zobacz modele
Monitorowanie (ang. monitoring, fr. suivi)
Proces ciągły, badający dostarczanie wyników programu do docelowych beneficjentów, który
przeprowadzany jest w trakcie wdrażania programu w celu podejmowania natychmiastowych
korekt w przypadku odchyleń od celów operacyjnych. Ewaluacja natomiast jest
przeprowadzana w określonym momencie i polega na pogłębionym badaniu. Monitorowanie
często generuje dane, które mogą być wykorzystane podczas ewaluacji. Zobacz także
ewaluacja.
Nakłady (ang. inputs, fr. moyens)
Zasoby ludzkie i finansowe, które są włączone we wdrażanie danej interwencji. Zobacz także
interwencja, logika działania.
Obserwacje z natury (ang. natural observations, fr. obserwations naturelles)
Technika gromadzenia danych, w której ewaluator udaje się z wizytami na miejsca, gdzie
wdrażana jest interwencja i bezpośrednio obserwuje co się dzieje. Dane pochodzące
z obserwacji mogą być wykorzystywane do opisu ram interwencji, działań, które mają
miejsce w tych ramach, osób, które uczestniczą w tych działaniach (które mogą, ale nie muszą
wiedzieć, że są obserwowane) oraz znaczenia tych działań dla poszczególnych osób. Ta
forma gromadzenia danych jest szczególnie podatna na skutki efektu Hawthorne. Zobacz
także gromadzenie danych, efekt Hawthorne.
Ocena (ang. appraisalm fr. appréciation)
Zobacz ewaluacja ex-ante
Ocenialność (ang. evaluability, fr. évaluabilité)
Kwestia, czy na pytania zawarte w agendzie dla ewaluacji ewaluator w ogóle może uzyskać
odpowiedź przy wykorzystaniu właściwych metod badawczych. Aby dowiedzieć się, czy
na te pytania można odpowiedzieć w sposób dostatecznie wiarygodny, często zalecane jest
przeprowadzenie studium ocenialności (étude d’évaluabilité). Jeśli dana interwencja nie może
zostać oceniona w ramach ustalonej agendy analitycznej (np. ponieważ odpowiednie dane nie
są jeszcze dostępne), może to doprowadzić do podjęcia decyzji o przełożeniu ewaluacji
na późniejszy termin lub opracowaniu nowej, bardziej realistycznej agendy analitycznej.
Zobacz także agenda analityczna, studium ocenialności, projekt ewaluacji.
Odchylenie standardowe (ang. standard deviation, fr. écart type)
Powszechnie wykorzystywany wskaźnik statystyki opisowej, dostarcza miary rozproszenia
dla danego zestawu wartości. Zobacz także średnia, analiza statystyczna, wariancja.
Oddziaływanie (ang. impacts, fr. impacts)
Ogólne określenie używane w stosunku do skutków programu dla społeczeństwa.
Oddziaływanie może być pozytywne bądź negatywne, przewidywane bądź nieprzewidywane.
Początkowe oddziaływanie nazywane jest rezultatami, zaś oddziaływanie w dłuższym okresie
– konsekwencjami (outcomes, consequences). Zobacz także konsekwencje, rezultaty.
Opinie eksperta (ang. expert opinion, fr. opinion d’expert)
Technika gromadzenia danych, podobna do badań ankietowych, która opiera się
na subiektywnych z konieczności opiniach ekspertów w danej dziedzinie. Nie zaleca się
polegania na opinii ekspertów jako jedynym źródle danych, na przykład z powodu tzw. chatty
bias. Zobacz także Licznik Régniera, chatty bias, gromadzenie danych, technika delficka,
wywiady.
Plan pracy (ang. work plan, fr. plan de travail)
Plan identyfikujący zakres badań do przeprowadzenia podczas ewaluacji, mający na uwadze
główne pytania zawarte w agendzie oraz zidentyfikowane braki w informacji. Badania te
powinny być opisane dostatecznie precyzyjnie, aby zarysować w sposób przejrzysty, choć
prowizoryczny, zaplanowane zadania zbierania i analizy danych oraz, o ile to możliwe,
wykorzystywaną metodologię. Aby zakładanymi zadaniami można było zarządzać, często
użyteczne jest podzielenie ich na różne etapy i określenie odpowiednich harmonogramów
przedkładania kolejnych części ewaluacji. Plan pracy jest odpowiednim miejscem
do określenia kosztu ewaluacji oraz jego składników. Zobacz także agenda analityczna,
analiza danych, gromadzenie danych, projekt ewaluacji.
Polityka (ang. policy, fr. politique)
Zestaw działań, które mogą różnić się rodzajem i mieć różnych bezpośrednich beneficjentów,
ale które skierowane są na osiągnięcie tych samych celów ogólnych. Polityki nie są
ograniczone pod względem harmonogramu i budżetu. Zobacz także cele ogólne, interwencja,
program, projekt.
Populacja (ang. population, fr. population)
W statystyce, całość złożona z osób lub podmiotów, z których może być wylosowana próba.
Zobacz także próba, populacja docelowa.
Populacja docelowa (ang. target population, fr. population cible)
Docelowi (oczekiwani) beneficjenci (jednostki, gospodarstwa domowe, grupy,
przedsiębiorstwa) danej interwencji. Jedna interwencja może mieć jednocześnie więcej niż
jedną populację docelową. Wyrażenie to powinno być odróżniane od terminu „populacja”
w sensie statystycznym. Zobacz także interwencja, populacja, strony uczestniczące.
Potrzeby (ang. needs, fr. besoins)
Problemy społeczno-gospodarcze, na które odpowiedzią ma być interwencja, wyrażone
z punktu widzenia jej docelowej populacji. Na przykład, potrzeba zwiększenia możliwości
znalezienia pracy dla osób długotrwale bezrobotnych, którym może brakować odpowiednich
umiejętności. Zobacz także cele, populacja docelowa.
Program, (ang. programme, fr. programme)
Zestaw zorganizowanych, ale często zróżnicowanych działań (program może obejmować
wiele różnych projektów, przedsięwzięć i procesów) skierowanych na osiągnięcie celów
szczegółowych. Program ma określony harmonogram i budżet. Zobacz także interwencja,
projekt, polityka, cele szczegółowe.
Projekt (ang. project, fr. projet d’évaluation)
Pojedyncza, niepodzielna forma interwencji publicznej, skierowana na osiągnięcie celów
operacyjnych, mająca ustalony budżet i harmonogram realizacji. Zobacz także interwencja,
program, polityka, cele operacyjne.
Projekt ewaluacji (ang. evaluation projekt, fr. projet d’
Sekwencja logicznych kroków, począwszy od sformułowania problemów i interesów
motywujących podjęcie ewaluacji, po serię pytań, na które można odpowiedzieć
w analitycznie akceptowalny sposób. Celem tych działań jest opracowanie planu pracy,
ustalającego ramy, w których właściwa ewaluacja ma być przeprowadzona, a także wybór
ewaluatora. Opracowanie projektu ewaluacji obejmuje siedem kroków: (1) określenie celów
ewaluacji; (2) ustalenie zakresu ewaluacji; (3) opracowanie agendy analitycznej; (4) ustalenie
mierników; (5) zinwentaryzowanie dostępnych danych; (6) opracowanie planu pracy; (7)
wybór ewaluatora. Zobacz także agenda analityczna, mierniki, struktura zarządzania, synteza
badawcza, zakres, plan pracy.
Próba (ang. sample, fr. échantillon)
Zestaw osób lub jednostek wybranych z danej populacji, w celu oszacowania cech
i parametrów całej populacji lub w celu oszacowania hipotez dotyczących tej populacji.
Zobacz także populacja, dobór próby.
Przegląd dokumentów programu (ang. programme document reviews, fr. examen de
documents du programme)
Technika gromadzenia danych oparta na przeglądaniu ogólnych dokumentów programu,
rejestrów finansowych i administracyjnych oraz dokumentów dotyczących poszczególnych
projektów. Zobacz także gromadzenie danych.
Przeglądy literatury (ang. literature reviews, fr. revue de la literature)
Technika gromadzenia danych, która umożliwia ewaluatorowi maksymalne wykorzystanie
poprzednich prac w badanej dziedzinie i w ten sposób wyciąganie doświadczeń z przeszłości
oraz z ustaleń dokonanych przez osoby, które przeprowadziły podobne prace w przeszłości.
Można wyróżnić dwa rodzaje dokumentów, które mogą być wykorzystane w badaniach
literatury. Po pierwsze obejmują one dokumenty, raporty i opracowania przygotowane przez
naukowców, ekspertów lub instytucje urzędowe. Po drugie obejmują szczegółowe badania
w danej dziedzinie, w tym wcześniejsze ewaluacje. Zobacz także gromadzenie danych,
synteza badawcza.
Przesunięcie (ang. displacement, fr. déplacement)
Przesunięcie oraz substytucja to dwa blisko ze sobą związane terminy, wykorzystywane są
do opisu sytuacji, w której efekty danej interwencji w stosunku do poszczególnych osób, grup
lub obszarów powstają kosztem innych osób, grup lub obszarów. Rozpatrzmy dla przykładu
sytuację, w której celem programu jest wspieranie miejsc pracy poprzez ich subsydiowanie.
W danym przedsiębiorstwie, pracownicy korzystający z subsydiów mogą przejąć miejsca
pracy ludzi nie korzystających z tej formy pomocy, a którzy w przeciwnym wypadku byliby
przez tą firmę zatrudnieni. Efekt ten nazywa się substytucją. Alternatywnie, przedsiębiorstwo
korzystające z subsydiowania miejsc pracy może przejąć rynek przedsiębiorstwa, które nie
korzysta z programu. Sukces w postaci utworzenia nowych miejsc pracy w przedsiębiorstwie
uczestniczącym w programie może więc być w części lub całkowicie zniwelowany przez
utratę miejsc pracy w innych przedsiębiorstwach. Ten z kolei efekt nazywa się przesunięciem.
Przypadkowe modele eksperymentalne (ang. randomised experimenatal designs, fr.
modèles expérimentaux aléatoires)
Zobacz czysty model eksperymentalny.
Raport (ang. report, fr. rapport)
Zobacz raport z ewaluacji
Raport z ewaluacji (ang. evaluation report, rapport d’évaluation)
Końcowy produkt ewaluacji. Raport z ewaluacji musi posiadać logiczną strukturę
i odpowiadać na potrzeby zleceniodawców oraz głównych stron uczestniczących w zakresie
informacji. Raport z ewaluacji musi zawierać streszczenie nieprzekraczające pięciu stron.
Oczekiwana struktura raportu jest zazwyczaj szczegółowo określona w warunkach kontraktu.
Zobacz także rozpowszechnianie, zleceniodawcy ewaluacji, streszczenie, raportowanie,
strony uczestniczące, warunki kontraktu.
Raportowanie (ang. reporting, fr. compte rendu)
Raportowanie ma miejsce, gdy ewaluator przekazuje raport z ewaluacji (zwykle w formie
dokumentu lub w formie jakiejś prezentacji audio-wizualnej) zleceniodawcom ewaluacji,
i gdy ci z kolei przekazują jego kopię (lub jego streszczenie) innym zainteresowanym
stronom. Zobacz także rozpowszechnianie, raport z ewaluacji, zleceniodawcy ewaluacji,
streszczenie.
Rezultaty (ang. results, fr. résultats)
Początkowe oddziaływanie interwencji (np. poprawa szans na zatrudnienie długoterminowych
bezrobotnych poprzez podniesienie poziomu ich umiejętności). Zobacz także oddziaływanie,
interwencja, logika działania, wyniki, konsekwencje, cele szczegółowe.
Rozpowszechnianie (ang. dissemination, fr. diffusion)
Zestaw działań, dzięki którym wiedza na temat ewaluacji jest udostępniana wszystkim
zainteresowanym. Zobacz także raportowanie.
SINGLE LOOP LEARNING (ang. single-loop learning, fr. apprentisage simple)
Rodzaj sprzężenia zwrotnego, w którym informacje zebrane w trakcie ewaluacji
wykorzystywane są do wprowadzenia zmian w sposobie wdrażania interwencji. Choć SLL
jest zazwyczaj utożsamiana z ewaluacją formującą, może ona występować również
w przypadku ewaluacji podsumowującej. Zobacz także double loop learining, sprzężenie
zwrotne, ewaluacja kształtująca, ewaluacja podsumowująca.
Skuteczność (ang. effectiveness, fr. efficacité)
W jakim stopniu oddziaływanie interwencji przyczyniło się do osiągnięcia jej szczegółowych
i ogólnych celów? Zobacz także analiza gospodarności, cele ogólne, oddziaływanie, logika
działania, cele, konsekwencje, rezultaty, cele szczegółowe.
Sponsorzy (ang. sponsors, fr. commanditaires)
Zobacz zleceniodawcy ewaluacji.
Sprzężenie zwrotne (ang. feedback, fr. rétroaction)
Proces, dzięki któremu informacje zebrane w trakcie ewaluacji są wykorzystywane przez
osoby podejmujące decyzje bądź w celu zmiany sposobu w jaki wdrażana jest interwencja,
bądź w celu dokonania jeszcze głębszych zmian w podstawowych założeniach interwencji,
włącznie z zakwestionowaniem samego istnienia programu. Zobacz także double/single loop
learning
Statystyka opisowa (ang. descriptive statistics, fr. statistiques descriptives)
Zobacz analiza statystyczna.
Streszczenie (ang. executive summary, fr. résumé)
Jest bardzo prawdopodobne, że tylko część docelowych odbiorców zapozna się z całym
raportem. Dlatego bardzo ważne jest opracowanie dobrze napisanego streszczenia, które nie
będzie przekraczało pięciu stron. Streszczenie to stanowi część raportu, ale powinno mieć
formę umożliwiającą również rozpowszechnianie go jako samodzielnego dokumentu. Zobacz
także raport z ewaluacji
Stronniczy wybór (ang. selection bias, fr. biais de sélection)
Czy różnice pomiędzy grupą kontrolną i grupą programową mogą wynikać z początkowych
różnic w ich charakterystykach, a nie z efektów interwencji poddawanej ewaluacji? Zobacz
także grupa kontrolna, sytuacja kontrfaktyczna, model ewaluacji, zbieżność wewnętrzna,
grupa programowa.
Strony uczestniczące (ang. stakeholders, fr. parties prenantes)
Różne osoby i organizacje, na które bezpośrednio i pośrednio ma wpływ wdrażanie i rezultaty
danej interwencji i które prawdopodobnie będą miały interes w ewaluacji tej interwencji (np.
osoby zarządzające programem, osoby kierujące polityką, docelowa populacja programu).
Zobacz także zleceniodawcy ewaluacji, grupa sterująca, populacja docelowa.
Struktura organizacyjna (ang. organisational structure, fr. structure organisationnelle)
Określenie struktury organizacyjnej ewaluacji, co zazwyczaj zawarte jest w warunkach
kontraktu, obejmuje zakreślenie roli różnych uczestników (zwłaszcza jest to istotne, jeżeli
zadanie ewaluacji ma być podzielone pomiędzy różnych ewaluatorów – na przykład między
ewaluatorów wewnętrznych
i zewnętrznych), ustalenie obowiązków
z zakresie
sprawozdawczości (w tym, tam gdzie to konieczne, kontaktów z grupą sterującą ewaluacją,
osobami zarządzającymi programem, innymi wydziałami Komisji i administracją państwa
członkowskiego) oraz określenie procedury, według której realizowane będzie
rozpowszechnianie i wykorzystywanie raportu z ewaluacji. Zobacz także rozpowszechnianie,
projekt ewaluacji, ewaluacja zewnętrzna, sprzężenie zwrotne, ewaluacja wewnętrzna,
struktura zarządzająca, strony uczestniczące, grupa sterująca, warunki kontraktu.
Struktura zarządzająca (ang. management structure, fr. structure de gestion)
Hierarchiczna struktura umożliwiająca całościowe zarządzanie ewaluacją, a w szczególności
projektem ewaluacji. Jako minimum, taka struktura zarządzająca powinna obejmować zarząd
programu (zwykle tożsamy ze zleceniodawcami ewaluacji) oraz jednostkę, sektor lub
urzędnika w ramach tej samej DG, odpowiedzialnego za ewaluację. Jednak aby ewaluacja
mogła odnieść sukces, może okazać się konieczne poszerzenie struktury zarządzającej
i stworzenie grupy sterującej. Zobacz także projekt ewaluacji, zleceniodawcy ewaluacji,
struktura organizacyjna, strony uczestniczące, grupa sterująca.
Studium ocenialności (ang. evaluability assessment, fr. étude d’évaluabilité)
Próba określenia, czy na pytania zawarte w danej agendzie ewaluator może w ogóle
odpowiedzieć przy wykorzystaniu właściwych metod badawczych. Zobacz także agenda
analityczna, ocenialność, projekt ewaluacji.
Studium przypadku (ang. case studies, fr. etude de cas)
Technika gromadzenia danych obejmująca badanie ograniczonej liczby specyficznych
przypadków lub projektów, które zdaniem ewaluatora będą mogły dać pojęcie o programie
jako całości. Studia przypadku są powszechnie wykorzystywane wtedy, gdy jest skrajnie
trudno wybrać próbę wystarczająco dużą, by mogła być statystycznie uogólniona; gdy
uogólnienie nie jest istotne; gdy potrzebne są pogłębione, zazwyczaj opisowe dane; oraz gdy
przypadki lub projekty, które mają być zbadane, będą prawdopodobnie bardzo złożone.
Zobacz także model studium przypadku, gromadzenie danych.
Substytucja (ang. substitution, fr. substitution)
Zobacz przesunięcie.
Synteza badawcza (ang. research synthesis, fr. synthèse de recherche)
Dokonywany przed podjęciem ewaluacji przegląd aktualnego stanu wiedzy na temat
problemu społeczno-gospodarczego i metod jego rozwiązania poprzez politykę publiczną.
Wiedzę tę można uzyskać dzięki literaturze fachowej, publikacjom dziennikarskim, danym
administracyjnym, raportom z monitorowania i publikowanym statystykom. Przygotowanie
syntezy badawczej często jest przydatne przed rozpoczęciem ewaluacji. Dzięki wyliczeniu
informacji dostępnych i porównaniu ich z potrzebami w tym zakresie wynikającymi z agendy
analitycznej, synteza badawcza wskaże główne luki w zakresie informacji, które, z kolei,
pomogą w określeniu zadań w dziedzinie zbierania i analizy danych, realizowanych w trakcie
ewaluacji. Przeglądy literatury także mogą być uważane za technikę gromadzenia danych
w trakcie przeprowadzania ewaluacji. Zobacz także agenda analityczna, analiza danych,
gromadzenie danych, projekt ewaluacji, przegląd literatury.
Sytuacja kontrfaktyczna (ang. counterfactual situation, fr. situation contrefactuelle)
Sytuacja, która zaistniałaby, gdyby interwencja nie miała miejsca. W celu wyprowadzenia
sytuacji kontrfaktycznej niezbędny jest model ewaluacji. Z wyjątkiem teoretycznego
przypadku idealnego modelu eksperymentalnego, nigdy nie możemy poznać sytuacji
kontrfaktycznej z całą pewnością. Rzeczywiste modele ewaluacji opierają się raczej
na szacunkach sytuacji kontrfaktycznej, wyprowadzonych albo z porównania podmiotów
uczestniczących w programie z grupą kontrolną, która nie brała w nim udziału, albo z badania
podmiotów przed i po uczestnictwie w programie. Zobacz także grupa kontrolna, model
ewaluacji, idealny model eksperymentalny, logika działania, grupa programowa.
Średnia (ang. mean, fr. moyenne)
Najczęściej wykorzystywana miara statystyki opisowej, mówi nam jaka jest średnia wartość
w danym zestawie. Zobacz także odchylenie standardowe, analiza statystyczna.
Technika delficka (ang. Delphi technique, fr. technique Delphi)
Technika, która może być wykorzystywana do systematyzacji opinii ekspertów. Konsultacje
z ekspertami mają miejsce pojedynczo, w kilku rundach. W każdej kolejnej rundzie
poszczególni eksperci dowiadują się jaką opinię wyrazili inni eksperci w poprzedniej rundzie.
Technika ta może być wykorzystywana do osiągania konsensusu, a przynajmniej
do redukowania niezgody. Zobacz także Abacus of Régnier, opinie ekspertów.
Teoria działania (ang. theory of action, fr. théorie d’action)
Zobacz logika działania.
Teoria programu (ang. programme theory, fr. théorie du programme)
Zobacz logika działania.
Trafność (ang. relevance, fr. pertinence)
Do jakiego stopnia cele interwencji są trafne (odpowiednie) w stosunku do zmieniających się
potrzeb i priorytetów zarówno na poziomie krajowym jak i wspólnotowym? Zobacz także
interwencja, logika działania, potrzeby, cele.
Trwałość (ang. sustainability, fr. viabilité)
Do jakiego stopnia można oczekiwać, że pozytywne oddziaływanie programu (mierzone
za pomocą jego użyteczności) będzie trwało po zakończeniu interwencji? Zobacz także
oddziaływanie, logika działania, konsekwencje, rezultaty, użyteczność.
Użyteczność (ang. utility, fr. utilité)
Jak wygląda relacja pomiędzy oddziaływaniem programu a potrzebami populacji docelowej?
Zagadnienie to jest blisko związane z pojęciem trwałości. Zobacz także oddziaływanie, logika
działania, potrzeby, konsekwencje, rezultaty, trwałość, populacja docelowa.
Wariancja (ang. variance, fr. variance)
Wskaźnik statystyki opisowej dostarczający informacji o rozproszeniu (rozkładzie).
Otrzymuje się go poprzez podniesienie do potęgi odchylenia standardowego. Zobacz także
analiza wariancji, odchylenie standardowe, analiza statystyczna.
Warunki kontraktu (ang. terms of reference, fr. cahier de charge)
Warunki kontraktu określają zakres pracy, która ma zostać przeprowadzona przez ewaluatora,
pytania, na które należy odpowiedzieć oraz harmonogram realizacji. Pozwalają one
zleceniodawcom ewaluacji na określenie swoich wymagań, a także pozwalają ewaluatorowi
zrozumieć dokładnie, czego wymaga się od pracy, która ma być wykonana (w warunkach
kontraktu często podana jest struktura raportu z ewaluacji). Przejrzyście zdefiniowane
warunki kontraktu mają zasadnicze znaczenie w przypadku, gdy ewaluacja ma być
przeprowadzana przez eksperta zewnętrznego, ale mogą być równie istotne, gdy ma być
przeprowadzona ewaluacja wewnętrzna. Zobacz także projekt ewaluacji, raport z ewaluacji,
zleceniodawcy ewaluacji, ewaluacja zewnętrzna, ewaluacja wewnętrzna, struktura
organizacyjna, plan pracy.
Wnioskowanie statystyczne (ang. statistical inference, fr. inférence statistique)
Zobacz analiza statystyczna.
Wskaźnik (ang. indicator, fr. indicateur)
Cecha lub atrybut, który może być zmierzony w celu ocenienia interwencji w kategoriach
wyników lub oddziaływania. Wskaźniki wyników są zazwyczaj proste i dostępne. Wskaźniki
oddziaływania mogą być trudniejsze do wyodrębnienia, stąd często właściwe jest poleganie
na wskaźnikach pośrednich tzw. wskaźnikach zbliżonych. Wskaźniki mogą być ilościowe
bądź jakościowe. Używa się również pojęcia „wskaźniki wykonania”. Zobacz także mierniki,
cele ogólne, oddziaływanie, cele operacyjne, wyniki, cele szczegółowe.
Wskaźnik wykonania (ang. performance indicator, fr. indicateur de performance)
Zobacz wskaźnik.
Wyniki (ang. outputs, fr. réalisations)
Dobra i usługi wyprodukowane przez interwencję (np. kurs szkoleniowy dla
długoterminowych bezrobotnych). Zobacz także interwencja, logika działania, cele
operacyjne.
Wywiady (ang. interviews, fr. entretiens)
Zobacz badania.
Zakres (ang. scope, fr. portée)
Pole badań ewaluacji. Zazwyczaj należy określić je z instytucjonalnego, czasowego
i geograficznego punktu widzenia oraz zdefiniować, które z kluczowych zagadnień ewaluacji
(trafność, skuteczność, efektywność, trwałość) mają zostać poddane badaniu. Zobacz także
skuteczność, efektywność, projekt ewaluacji, trafność, trwałość, użyteczność.
Zakwestionowanie zbieżności wewnętrznej (ang. threat to internal validity, fr. risque
pour la validité interne)
Zobacz zbieżność wewnętrzna.
Zakwestionowanie zbieżności zewnętrznej (ang. threat to external validity, fr. risque
pour la validité externe)
Zobacz zbieżność zewnętrzna.
Zbieżność wewnętrzna (ang. internal validity, fr. validité interne)
Zaufanie, jakie można mieć w stosunku do wniosków dotyczących tego, co interwencja
w rzeczywistości osiągnęła. Zakwestionowaniem zbieżności wewnętrznej jest zastrzeżenie,
że model ewaluacji pozostawia niepewność dotyczącą związku przyczynowego pomiędzy
interwencją i zaobserwowanymi efektami. Może być to przedstawione w formie pytania
o następującym charakterze: czy coś oprócz interwencji może być przyczyną różnicy
pomiędzy sytuacją po interwencji a sytuacją kontrfaktyczną? Zobacz także sytuacja
kontrfaktyczna, model ewaluacji, zbieżność zewnętrzna, interwencja, logika działania,
stronniczy wybór.
Zbieżność zewnętrzna (ang. external validity, fr. validité externe)
Zbieżność zewnętrzna odnosi się do zaufania, jakie możemy mieć w stosunku do możliwości
uogólnienia wniosków dotyczących programu na okoliczności, okresy, osoby itp. inne niż te,
których dotyczył sam program. Ograniczeniem dla zbieżności jest zarzut, według którego
model ewaluacji nie pozwala na uogólnienie wnioskowania przyczynowego dotyczącego
programu na czas, miejsca i osoby inne niż te badane podczas ewaluacji
Zleceniodawcy ewaluacji (evaluation sponsors, fr. commanditaires de l’évaluation)
Dyrekcja Generalna lub wydział w Komisji odpowiedzialny za przeprowadzenie ewaluacji
danej formy pomocy. Zobacz także struktura zarządzania, struktura organizacyjna, strony
uczestniczące, grupa sterująca, warunki kontraktu.
Zmienna niezależna (ang. independent variable, fr. variable indépendante)
Zobacz analiza regresji.
Zmienna zależna (ang. dependent variable, fr. variable dépendante)
Zobacz analiza regresji.
Aneks 2 Ocena jakości raportu z ewaluacji
Raport z ewaluacji stanowi zazwyczaj przedmiot krytycznego badania przez liczne strony (np.
samych zleceniodawców ewaluacji, główne strony uczestniczące, DG XIX w przypadku
ewaluacji, które mają przyczynić się do odpowiedzi na pytanie, czy należy odnawiać program
czy też pozwolić mu wygasnąć). Powinno to być brane pod uwagę w projektowaniu ewaluacji
i byłoby użyteczne, gdyby ewaluator miał tę świadomość od samego początku.
Poniżej zamieszczona została lista pytań, które zazwyczaj są zadawane przez urzędników DG
XIX (zgodnie z ustaloną listą kontrolną) podczas oceny raportów z ewaluacji przedkładanych
przez poszczególne Dyrekcje Generalne i wydziały:
•
•
•
•
Czy raport jest dobrze przedstawiony?
•
Ogólnie, czy raport jest dobrze zorganizowany i przejrzyście zredagowany?
•
Czy takie zagadnienia jak opis programu i wyjaśnienie metodologii badawczej zostały
przedstawione w raporcie w sposób przejrzysty?
Czy zakres raportu jest adekwanty?
•
Czy raport obejmuje całość programu poddawanego ewaluacji?
•
Czy zbadane zostały powiązania z innymi programami?
•
Czy zostały zbadane zakładane wyniki, rezultaty i oddziaływanie?
•
Czy została przeanalizowana logika działania programu?
•
Czy zostały zbadane nieprzewidziane rezultaty i konsekwencje programu?
•
Czy została oceniona trwałość korzyści wyprodukowanych przez program?
•
Czy w raporcie znalazła się odpowiedź na pytanie, czy program będzie zasadny
(trafny) również w przyszłości?
•
Czy raport bada budżetowe aspekty programu poddanego ewaluacji oraz jego
gospodarność (cost-effectiveness)?
Czy metodologia raportu jest właściwa?
•
Czy model ewaluacji pozwala na uzyskanie informacji (na temat wyników,
rezultatów i konsekwencji), które mogą racjonalnie być przypisane działaniu
programu?
•
Czy wskaźniki zostały wykorzystane w sposób właściwy (rozróżniając pomiędzy
wynikami, rezultatami i konsekwencjami programu)?
•
Czy zostały wskazane ewentualne słabe punkty zastosowanej metodologii?
Czy wnioski i rekomendacje zawarte w raporcie są wiarygodne?
•
Czy ustalenia są oparte na solidnych dowodach?
•
Czy wnioski są wyprowadzone w sposób systematyczny z ustaleń?
•
Czy rekomendacje wynikają we właściwy sposób z wniosków?
Aneks 3. Kilka zaleceń i przeciwwskazań dotyczących ewaluacji
Co należy robić
Czego robić nie należy
Przygotowanie i zarządzanie ewaluacją
•
Ustalanie struktury zarządzania
Ustalić
strukturę
zarządzania,
obejmującą
przynajmniej osoby zarządzające programem oraz
jednostkę
organizacyjną
lub
urzędnika
odpowiedzialnego za ewaluację w ramach tej
samej DG lub wydziału
•
Rozpatrzyć możliwość poszerzenia struktury •
zarządzania w celu stworzenia grupy sterującej,
obejmującej inne wydziały komisji oraz
najważniejsze strony uczestniczące
•
Pamiętać o potrzebie aktywnego udziału struktury
zarządzającej w ewaluacji, w celu rozwiązywania
problemów które mogą powstać w trakcie
przeprowadzania ewaluacji
Nie dopuścić do sytuacji, w której grupa sterująca
staje się zbyt liczna. W takim przypadku może ona
utracić
pozycję
organu
zarządzającego
i niepotrzebnie
przekształcić
się
w forum
negocjacyjne.
Opracowanie projektu ewaluacji
Określenie celów ewaluacji
•
Wyszczególnić jasno dlaczego przeprowadza się •
ewaluację oraz kto jest jej głównym
użytkownikiem
Nie rozpoczynać ewaluacji z nierealistycznymi
celami, które nie mogą być osiągnięte
Określanie zakresu ewaluacji
•
Określić zakres ewaluacji, to znaczy zdefiniować
jej pole badawcze (z instytucjonalnego, czasowego
i geograficznego
punktu
widzenia)
oraz
zdefiniować które z kluczowych zagadnień
ewaluacji (trafność, skuteczność, efektywność,
trwałość) mają zostać poddane badaniu
Opracowanie agendy analitycznej
•
Sformułować agendę poprzez zastosowanie siatki •
logicznej nałożonej na pytania, które mają zostać
zadane w trakcie ewaluacji
•
Tam gdzie ogólne i szczegółowe cele programu
muszą być odtworzone na podstawie zarysu,
powinno to być uczynione w sposób przejrzysty
przez strukturę zarządzającą, najlepiej pod
nadzorem grupy sterującej
•
Wykorzystać
wrażenia
głównych
stron
uczestniczących na temat programu jako robocze
hipotezy, które zostaną poddane krytycznej
analizie podczas ewaluacji
•
Sprawdzić, czy program jest „ocenialny”, to •
znaczy czy może zostać poddany ewaluacji
w zakresie wybranej agendy analitycznej (tam
Nie zapomnieć o próbie odtworzenia logiki
działania programu, zwracając szczególną uwagę
na zawarte w niej główne założenia
Nie rozpoczynać ewaluacji, która w żadnym
przypadku nie może być przeprowadzona zgodnie
z wybraną agendą. Jednak jeśli program może
gdzie
konieczne
ocenialności)
przeprowadzić
analizę
zostać poddany ewaluacji choćby tylko w części,
użyteczne będzie przeprowadzenie takiej ewaluacji
Ustalanie wskaźników
•
Spróbować
wskaźników,
programu
zdefiniować
które będą
pewną
liczbę •
służyły do oceny
Nie
interpretować
danych
dotyczących
wskaźników w sposób upraszczający: jeśli
program nie osiąga zakładanych celów, wciąż
może być uważany za sukces w porównaniu
z innymi programami lub działaniami, które
podejmowane były w przeszłości
Inwentaryzacja dostępnych informacji
•
Zinwentaryzować dostępne informacje (np. •
poprzez przeprowadzenie syntezy badawczej).
Dzięki porównaniu ich z potrzebami wynikającymi
z agendy analitycznej, podkreślone zostaną główne
luki informacyjne. To z kolei pozwoli na ustalenie
zadań dotyczących zbierania danych i ich
interpretacji , które zostaną przeprowadzone
w ramach samej ewaluacji
Jeśli przewiduje się, że ewaluacja będzie
obejmowała przegląd literatury jako technikę
gromadzenia danych, przeprowadzanie syntezy
badawczej może nie być konieczne
Opracowywanie planu pracy
•
Ustalić
zadania,
które
powinny
być •
przeprowadzone w ramach ewaluacji, w świetle
głównych
pytań
wynikających
z agendy
analitycznej
oraz
zidentyfikowanych
luk
informacyjnych
•
Opisać powyższe zadania w sposób dostatecznie
szczegółowy
•
Tam gdzie to możliwe podzielić zadania na różne
etapy i opracować odpowiedni harmonogram
realizacji poszczególnych części
•
Oszacować koszty ewaluacji i jej części
składowych. W przypadku ewaluacji wewnętrznej
oszacować czas spędzony przy tym zadani przez
urzędników oraz inne koszty administracyjne.
W przypadku ewaluacji zewnętrznej oszacować
koszty
przed
rozpoczęciem
procedury
przetargowej
Nie stawiać ewaluatorowi nierealistycznych
wymagań. W przeciwnym razie istnieje ryzyko,
że ewaluacja będzie trwała zbyt długo lub nie
osiągnie celów, które zostały przed nią postawione
Wybór ewaluatora
•
Gdy jest już jasne na jakiego rodzaju pytania •
ewaluacja będzie musiała dać odpowiedź oraz jaki
jest jej budżet i harmonogram, zdecydować, czy
powinna zostać przeprowadzona w sposób
wewnętrzny czy zewnętrzny
Nie polegać na kompetencjach technicznych
ewaluatora jako jedynej przesłance wyboru. Inne
ważne kryteria to niezależność, zdolność
sprostania narzuconym terminom oraz relacja
kosztu do jakości
Opracowanie warunków kontraktu
•
Określić
przejrzyste
warunki
kontraktu
dotyczącego ewaluacji. Jest to szczególnie ważne
w przypadku ewaluacji zewnętrznej i może być
również bardzo użyteczne w przypadku ewaluacji
wewnętrznej
•
Warunki kontraktu zazwyczaj określają:
–
Podstawę prawną i uzasadnienie podjęcia
ewaluacji
– Sposób wykorzystania i użytkowników ewaluacji
–
–
–
–
–
Opis programu, który ma zostać poddany
ewaluacji
Zakres ewaluacji
Metodologię według której należy przeprowadzić
zbieranie danych
Plan pracy, strukturę organizacyjną i budżet
Oczekiwaną strukturę końcowego raportu
z ewaluacji
Przeprowadzanie ewaluacji
Modele ewaluacji
•
Wybrać model ewaluacji w oparciu o główne •
pytania na które ma odpowiedzieć ewaluacja
•
Wybór modelu powinien być uzasadniony wprost,
należy ponadto podać wszystkie słabości związane
z wybranym modelem
•
Pamiętać, że w razie konieczności możliwe jest
łączenie poszczególnych modeli ewaluacji
•
Spróbować włączyć strony uczestniczące w wybór
modelu ewaluacji
•
Mieć świadomość możliwych zagrożeń dla
wnioskowania przyczynowego występujących
w wybranym modelu. Tam gdzie to możliwe
przedstawić argumentację i zebrać odpowiednie
dowody czy zagrożenia te są istotne czy nie
Nie zakładać, że tylko modele przyczynowości są
odpowiednie. Jest wiele sytuacji, w których
przydatne mogą być modele opisowe
Gromadzenie danych
•
Korzystać z wypróbowanych technik zbierania •
danych
oraz
uzasadnić
wybór
techniki
na podstawie problemów postawionych przez
ewaluację
Nie polegać wyłącznie na jednej technice zbierania
danych. Zaletą wykorzystywania więcej niż jednej
techniki jest to, że mocne strony jednej z nich
mogą zrównoważyć słabe strony innej
•
Stale zwracać uwagę na dokładność danych. •
Zawsze istnieje możliwość błędu pomiarowego.
Dodatkowo, niektóre definicje mogą nie być
całkowicie neutralne
Przegląd literatury może nie być przydatny
w sytuacji, gdy została już przeprowadzona
synteza badawcza
Analiza danych
•
Korzystać z wypróbowanych technik analizy •
danych
oraz
uzasadnić
wybór
techniki
na podstawie problemów postawionych przez
ewaluację
•
W przypadku wykorzystywania modeli, określić
założenia, na których są one oparte
Nie polegać wyłącznie na jednej technice analizy
danych. Zaletą wykorzystywania więcej niż jednej
techniki jest to, że mocne strony jednej z nich
mogą zrównoważyć słabe strony innej
Raportowanie i rozpowszechnianie ewaluacji
Optymalizacja wykorzystania ewaluacji
•
Trzy sugestie jak zoptymalizować potencjalne
wykorzystanie ewaluacji:
Zorientować
przekaz
na szczególne
informacyjne danych odbiorców,
potrzeby
Zapewnić terminowość przekazania raportu,
Tam gdzie to możliwe, włączyć strony uczestniczące
w wybór modelu ewaluacji
Prezentacja raportu z ewaluacji
Struktura raportu z ewaluacji
•
Struktura raportu powinna odpowiadać potrzebom
zleceniodawców ewaluacji oraz głównych stron
uczestniczących
•
W raporcie należy umieścić streszczenie
streszczenie. Powinno ono być w formie
umożliwiającej rozpowszechnianie go jako
odrębnego dokumentu
•
W raporcie należy umieścić warunki kontraktu
Przejrzystość raportu z ewaluacji
•
–
–
–
Ważne jest, aby potencjalny czytelnik mógł •
zrozumieć:
Należy unikać poniższych problemów, które mogą
negatywnie wpłynąć na przejrzystość raportu:
Streszczenie napisane w pośpiechu
Niedostatecznie szczegółowy opis programu
Zaniechanie opisu metod wykorzystanych
do gromadzenia i analizy danych
– Zaniechanie uzasadnienia wyboru metod lub
wskazania mocnych i słabych stron wybranego
modelu
– Wykorzystanie informacji bez podania jej źródła
– Dokonywanie ustaleń które nie są rzetelnie oparte
na dowodach
– Stawianie wniosków, które nie znajdują
uzasadnienia w ustaleniach
– Czynienie rekomendacji, które nie są poprawnie
wyprowadzone z wniosków
Rozpowszechnianie wyników ewaluacji
Jaki był cel ewaluacji
Co dokładnie zostało poddane ewaluacji
W jaki sposób ewaluacja została zaprojektowana
i przeprowadzona
– Jakie ustalenia zostały dokonane
– Jakie wnioski zostały wyciągnięte
– Jakie ewentualne rekomendacje zostały uczynione
–
–
–
•
Przedstawić
wyniki
ewaluacji
w sposób •
dostosowany do potrzeb informacyjnych róznych
stron uczestniczących
•
Oprócz rozpowszechniania pełnego raportu
wykorzystać streszczenie i inne środki, np. ustne
prezentacje oparte na materiale audiowizulalnym
•
Rozwiązać potencjalne problemy pomiędzy
stronami uczestniczącymi poprzez przyjęcie
włączającej struktury zarządzającej
•
Zadbać o to, aby ustalenia, wnioski i rekomendacje
były wyraźnie od siebie oddzielone
•
Tam gdzie konieczne, osoby zarządzające
programem mogą sformułować swoje własne
obserwacje na temat raportu przygotowanego
przez ekspertów zewnętrznych
Nie pozwólić,
w negocjacje
by
ewaluacja
uwikłała
się
Wybrana bibliografia
Breakwell, Glynis M. et Lynne Millward (1995). Basic evaluation methods. Analysing
performance, practice and procedure. Leicester: British Psychological Society.
Conseil Scientifique de l’évaluation (1996). Petite guide de l’évaluation des politiques
publiques. Mars Paris: CSE.
Commission Européenne (1993) Project cycle management. Integrated approach and logical
framework. Direction générale du Développement.
Commission Européenne (1995) Common guide for monitoring an interim evaluation. Fonds
structurels.
H.M. Treasury (1998). Policy evaluation : a guide for managers. Londres: Her Majesty’s
Stationary Office.
Joint Committee on Standards for Educational Evaluation (1994). The Programme evaluation
standards. Drugie wydanie. Thousand Oaks. CA: Sage.
MEANS (1995) Auditing, monitoring and evaluation of European structural policies. Should
they be separated or integrated? Octobre. Lyon: Commission Européenne et C3E
MEANS Podręcznik, tom 1. Organizing intermediate evaluation in the context of partnership.
Lyon: Commission Européenne et C3E.
MEANS Podręcznik, tom 4. Appying the multi-criteria method to the evaluation of structural
programmes. Lyon: Commission Européenne et C3E.
Mohr Lawrence B. (1995). Impact analysis for programme evaluation. Drugie wydanie.
Thousand Oaks, CA: Sage.
Patton, Michael Quinn (1986). Utilisation - focused evaluation. Drugie wydanie. Beverly
Hills, CA: Sage.
Rossi, Peter H. Et Howard E. Freeman (1993). Evaluation. A systematic approach. Piąte
wydanie. Newbury Park, CA: Sage.
Treasury Board of Canada (1991). Programme evaluation methods.
Viveret Patric (1989). L’évaluation des politiques et des actions publiques, raport dla
Premiera, Paris: La documentation française.
Yin, Robert K. (1994). Case study research. Design and methods. Drugie wydanie. Newbury
Park, CA: Sage.