jak uprawiać badania oświatowe
Transkrypt
jak uprawiać badania oświatowe
JAK UPRAWIAĆ B A D A N I A O Ś W I AT O W E METODOLOGIA P R A K T YC Z NA Krzysztof Konarzewski JAK UPRAWIAĆ B A D A N I A O Ś W I AT O W E METODOLOGIA P R A K T YC Z NA Warszawa Wydawnictwa Szkolne i Pedagogiczne Spółka Akcyjna Projekt okładki i strony tytułowej Tadeusz Nuckowski Redaktor Mieczysława Decewicz Redaktor techniczny Janina Soboń ISBN 83-02-07784-4 © Copyright by Wydawnictwa Szkolne i Pedagogiczne Spółka Akcyjna Warszawa 2000 Wydawnictwa Szkolne i Pedagogiczne Spółka Akcyjna 00-950 Warszawa, pl. Dąbrowskiego 8 www.wsip.com.pl Warszawa Wydanie drugie poprawione SPIS TREŚCI Wstęp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Rozdział 1. Projektowanie badania: Typy, schematy i metody. . . . . . . . . . . . . . 11 Typy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schematy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metody. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Projektowanie badania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kwerenda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Projekt badania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Moralne aspekty badania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Techniczne aspekty badania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 14 15 15 15 18 22 24 Rozdział 2. Badania ilościowe i jakościowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Liczby i teksty. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zainteresowanie kontekstem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kryzys reprezentacji. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wiarygodność. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rzetelność i trafność . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Triangulacja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Indukcja analityczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Uogólnianie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Współpraca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 27 29 30 30 32 33 34 35 Rozdział 3. Badania uogólniające. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Zmienna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Typy zmiennych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Związki badania z teorią. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hipoteza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wskaźniki. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pytanie badawcze. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prawomocność wniosków. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Badania eksperymentalne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trafność eksperymentu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trafność wewnętrzna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trafność zewnętrzna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schematy badań eksperymentalnych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schematy grup niezależnych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schematy porównań wewnątrzosobniczych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schematy złożone. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schematy eksperymentów naturalnych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Badania porównawcze. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Badania poprzeczne i podłużne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Badania przeglądowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Niektóre zastosowania badań przeglądowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 39 42 42 45 47 48 49 51 51 50 55 55 57 59 63 66 68 69 71 Rozdział 4. Badania indywidualizujące. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Eksperyment jednoosobowy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Badania jakościowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Studium przypadku. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Badania etnograficzne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Badania historyczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 79 82 85 Rozdział 5. Badania praktyczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Od problemu do pytania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Badania rozpoznawcze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Badania oceniające. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ocena z punktu widzenia usługodawcy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ocena z punktu widzenia usługobiorcy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ocena z punktu widzenia społeczeństwa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Polityczne aspekty oceniania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Badanie w działaniu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 90 91 92 93 94 95 97 Rozdział 6. Metody doboru próbki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Populacja i próbka. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Próbki losowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Losowanie nieograniczone indywidualne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Losowanie warstwowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Losowanie grupowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Wielkość próbki. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Próbki nielosowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Dobór przypadkowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Dobór kwotowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Dobór celowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Rozdział 7. Metody zbierania danych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Metody zbierania danych jakościowych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Obserwacja jakościowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Obserwacja etnograficzna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Obserwacja zdarzeń krytycznych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wywiad indywidualny. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wywiad skoncentrowany na subiektywnych teoriach. . . . . . . . . . . . . . . . . . . . . . . Wywiad skoncentrowany na materiale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wywiad narracyjny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wywiad etnograficzny. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wywiad zbiorowy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wywiad grupowy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Narracja grupowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grupa tematyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Przeszukiwanie archiwów. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metody zbierania danych ilościowych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Obserwacja ilościowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Redukowanie spostrzeżeń. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rejestrowanie spostrzeżeń . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Krytyka danych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ankieta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pozycje kwestionariusza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Układ kwestionariusza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 112 109 116 117 120 121 122 123 123 124 124 124 127 129 131 131 132 137 139 141 144 Trafność kwestionariusza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pomiar zmiennych nieobserwowalnych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Skale psychologiczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metody projekcyjne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pomiar behawioralny. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trafność i rzetelność pomiaru zmiennych nieobserwowalnych. . . . . . . . . . . . . . . . Trafność. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rzetelność. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Teoria odpowiedzi na pozycję testu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 149 151 152 156 157 158 159 160 164 Rozdział 8. Metody analizy danych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 Dane jakościowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Od danych do protokołu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kodowanie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kodowanie teoretyczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kodowanie tematyczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analiza treści. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analiza sekwencyjna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wydobywanie regularności. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Komputer w badaniach jakościowych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dane ilościowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Przygotowanie danych do analizy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statystyka opisowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rozkład liczebności. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Miary wartości centralnej. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Miary zróżnicowania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Miary współzmienności . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analiza czynnikowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statystyka indukcyjna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estymacja parametrów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sprawdzanie hipotez statystycznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 166 169 169 171 172 173 175 181 182 178 185 185 187 187 189 193 195 197 204 Rozdział 9. Doniesienie naukowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Kompozycja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tytuł. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Streszczenie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metoda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wyniki. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wyniki jakościowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wyniki ilościowe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Interpretacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Przypisy i spis literatury. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Standard europejski. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Standard amerykański. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aneks. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Język. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 215 216 217 218 219 219 221 228 220 231 233 233 234 Literatura cytowana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 WSTĘP „Wstęp” pisze się zwykle z myślą o tym, by jak najwięcej czytelników doprowadzić do „Zakończenia”. Apetyt czytelnika mają zaostrzyć zwłaszcza zapewnienia o błogosławionych skutkach zapoznania się z dziełem. Wbrew temu zwyczajowi powiem od razu: studiowanie podręcznika metodologii z nikogo nie zrobi badacza. Badać to korzystać z tego, co już wiemy, by poznać coś, czego nie wiemy. Jest to najpierw kwestia pewnej postawy – rzadkiej, bo wymagającej pogodzenia sprzecznych wymagań. Oto niektóre z nich: Ciekawość szczegółu i zainteresowanie syntezą. Badacz to ktoś, kto potrafi zatrzymać się przy zjawiskach, które inni mijają obojętnie, i pytać, skąd się wzięły, dlaczego są takie, jakie są? Ale badacz nie zadowala się rozwikłaniem jednostkowej zagadki, nie jest kolekcjonerem oderwanych ciekawostek – akumuluje odkrycia, by móc lepiej zrozumieć inne zjawiska. Zaspokajając ciekawość w sprawach jednostkowych, dąży do powiększenia zdolności rozumienia szerszych klas zjawisk. Ścisłość i swoboda. Badacz operuje jasnym i jednoznacznym językiem, niemal obsesyjnie kontroluje wszystkie etapy postępowania badawczego i zabiega o powtarzalność doświadczeń. Ale jego umysł nie jest suchy i pedantyczny, stać go na wzloty wyobraźni. Sceptycyzm i optymizm. Badacz wie, że uznane prawa mogą upaść, a żelazne fakty okazać się złudne. Gdy teoretyzuje, zawsze pamięta o różnicy między modelem a rzeczywistością, gdy coś odkrywa, po wielekroć sprawdza, czy nie jest to artefakt. Ale wierzy, że poznanie, jakkolwiek trudne, jest możliwe. Badanie jest dla niego ożywczym kontaktem z rzeczywistością, a nie przykrym ćwiczeniem w wypełnianiu obowiązków zawodowych. Bezstronność i odpowiedzialność. Badacz nie służy żadnej sprawie oprócz sprawy poznania. Wyrzeka się świadomego manipulowania danymi w celu udowodnienia z góry powziętej tezy, tropi stereotypy we własnym myśleniu, powstrzymuje się od wartościowania badanych obiektów. Ale czuje się odpowiedzialny za konsekwencje wynikające z prowadzenia badań i ogłaszania ich wyników. Wstęp 9 Tej postawie powinna towarzyszyć wiedza o przedmiocie. Badacz musi być wypełniony wiedzą – zarówno książkową, jak i bezpośrednią, płynącą z uczestnictwa w praktykach życia codziennego. To dzięki tej wiedzy badacz skutecznie się dziwi: zatrzymuje się przy jednym z wielu zdarzeń, nadstawia ucha na pewne słowa. Dzięki niej układa elementy łamigłówki tak, by mówiły jak najwięcej. Metodologia nie ukształtuje tej postawy ani nie da tej wiedzy, nie jest też zbiorem recept na płodne badanie naukowe. Metodologia schematyzuje proces badania, dzieli na stadia, porządkuje. Po cóż więc ją studiować? Moja odpowiedź brzmi: po to, by badacz mógł lepiej porozumiewać się z sobą samym, z innymi badaczami i z odbiorcami jego wytworów. Proces badawczy to twórcza wymiana sugestii płynących ze świata teorii i świata empirii. Wizja końca wpływa na jego początek, a początkowe przedzałożenia wpływają na koniec. Świadome uczestnictwo w tym procesie jest niemożliwe bez skutecznego porozumiewania się, czyli ujmowania tego, co intuicyjne i mgliste, w intersubiektywnych pojęciach, tak by stało się jasne i wyraźne, ujawniło swoje mocne i słabe strony. W tym sensie badacz musi najpierw porozumieć się ze sobą: powiedzieć sobie, jak rozumie badany fragment świata, co chce osiągnąć przez badanie i jak uzasadnia środki, którymi zamierza się posłużyć. Badacz porozumiewa się też z innymi, by przekonać ich do swojego pomysłu i zyskać poparcie, od którego często zależy, czy jego pomysł przyoblecze się w ciało, poznać ich obiekcje, skorzystać z dobrych rad, wreszcie – by przekazać im wyniki swojej pracy. W tych procesach porozumiewania się metodologia służy bezcenną pomocą, ponieważ oferuje przemyślaną strukturę pojęciową procesu badawczego i wyrażający ją język. Zamiast mozolnie wykładać swoje pomysły w języku potocznym, ryzykując niezliczone nieporozumienia, badacz używa fachowego języka do wyczerpującego przedstawienia swojego zamiaru i tym samym ułatwia zbadanie jego ukrytych, niejasnych podstaw. Są różne książki metodologiczne. Jedne tworzą logiczne i matematyczne podstawy procesu badawczego w ogóle, czyli rozwijają, by tak rzec, metodologię teoretyczną (np. Nagel, 1970, Popper, 1971, Kmita, 1973), inne wywodzą z nich szczegółowe normy postępowania badawczego w określonej dyscyplinie naukowej. W tej drugiej grupie, tworzącej metodologię praktyczną, znajdują się dzieła bardziej i mniej przydatne do udoskonalania procesu porozumiewania się. Książki mniej przydatne to przede wszystkim te, które obszernie definiują intuicyjnie oczywiste terminy, wprowadzają pedantyczne rozróżnienia pojęciowe i rozbudowują nazewnictwo, nie pytając, czy opanowanie przez czytelnika tej wiedzy zwiększy jego zdolność komunikowania i krytykowania własnych zamiarów badawczych. Jakiż pożytek może płynąć z takiej oto definicji „metod badawczych”: ogólne systemy reguł, dotyczące organizowania określonej działalności badawczej [...] Jest to szereg operacji poznawczych i praktycznych, ustawionych w odpowiedniej kolejności, oraz szereg środków i działań skierowanych z góry na założony cel badawczy. Po odsianiu mętnego słownictwa definicja ta mówi, że metoda to sposób osiągania celu – czyli coś, co każdy wiedział przed przystąpieniem do lektury. Inny 10 Wstęp przykład pozornej wiedzy to rozbudowane rozróżnienia pojęciowe. Odróżnia się na przykład „metodę badania” od „techniki badania”, a tę od „narzędzia badawczego”. Metoda to „całość postępowania badacza, zmierzającego do rozwiązania określonego problemu naukowego”, technika to „praktyczna czynność badawcza”, a narzędzie to „przedmiot służący do realizacji wybranej techniki”. Student planujący badanie ankietowe wśród nauczycieli w gminie głowi się, czy jego narzędziem jest kwestionariusz, czy może ołówek, którym będzie zapisywał odpowiedzi, zamiast zastanawiać się, czy dobrze ułożył pytania i czy uzyska dane pozwalające osiągnąć cel badania. Ten podręcznik chce być przydatny. Za cel stawia sobie zapoznanie czytelnika z językiem, w którym będzie mógł mówić o swoich i cudzych badaniach: zarówno o ich nadrzędnej strukturze, jak i o szczegółowych zabiegach badawczych. Nie jest to jednak poradnik, do którego sięga się w konkretnych kłopotach, ponieważ jego części są zbyt silnie powiązane ze sobą w ramach nadrzędnej struktury pojęciowej. Ta cecha może utrudnić lekturę osobom dopiero rozpoczynającym edukację metodologiczną, często bowiem zrozumienie nowego terminu będzie wymagać zrozumienia terminów wprowadzonych wcześniej albo i później. Osobom tym mogę poradzić, by wróciły do niejasnych rozdziałów po przeczytaniu wszystkich. Czy podręcznik osiągnął cel – oceni czytelnik. Jeśli zyska aprobatę, podzielę się nią z drem Romanem Dolatą, wnikliwym recenzentem pierwszej wersji książki, oraz z moimi najbliższymi, których anielska cierpliwość pozwoliła mi w spokoju ślęczeć nad tekstem. Dezaprobatę w całości wezmę na siebie. Rozdział 1 PROJEKTOWANIE BADANIA: TYPY, SCHEMATY I METODY U podłoża badań prowadzonych w pedagogice i w innych naukach społecznych leży splątany konglomerat struktur myślenia i działania. Splątany – ponieważ powstał z nawarstwiania się struktur służących różnym zamierzeniom badawczym. Wprowadzane pospiesznie i bez nadrzędnego planu, struktury te noszą przypadkowe nazwy, które sugerują nieistniejące stosunki logiczne. Wskutek tego gmach wiedzy metodologicznej staje się coraz mniej przejrzysty i coraz trudniejszy do opanowania. Język metodologii, zamiast pomagać w porozumiewaniu się badaczy, zaczyna im w tym przeszkadzać. Chcąc temu zaradzić, liczni autorzy podejmują mniej lub bardziej udane próby uporządkowania języka, w którym mówimy o badaniach naukowych. Próba, którą tu przedstawiam, zakłada, że wyczerpujący opis badania1 wymaga trzech hierarchicznie uporządkowanych pojęć: typu, schematu i metody. Wytyczają one trzy pola wyboru: badacz mający pełną świadomość metodologiczną najpierw sytuuje swój projekt w obrębie jednego z typów, potem wybiera jeden ze schematów, a wreszcie dobiera szczegółowe metody. Ponieważ ten sam schemat może być stosowany w badaniach różnego typu, a ta sama metoda w różnych schematach, trzy pojęcia muszą być ułożone hierarchicznie. Szkicuję je poniżej, a szczegółowo rozwijam w dalszych rozdziałach. Typy Podziału badań na typy dokonuje się ze względu na ich cele. Słowo cel bywa używane rozmaicie – czasem tak, że można się bez niego doskonale obyć. Gdy badacz pisze: „Celem mojego badania jest dostarczenie odpowiedzi na postawione 1 Wbrew rozpowszechnionemu zwyczajowi będę używał tego słowa w liczbie pojedynczej, ilekroć mowa o pojedynczym studium („Jan przeprowadził badanie postaw młodzieży”). Liczbę mnogą rezerwuję dla zbioru badań („Nasze badania źródeł agresji ludzkiej wykazały...”). 12 Rozdział 1. Projektowanie badania: Typy, schematy i metody pytanie”, to nie informuje o niczym nowym, jasne jest bowiem, że po to się stawia pytanie, by na nie odpowiedzieć. Co innego, gdy badacz pisze, po co chce poznać odpowiedź na swoje pytanie, czyli jaki użytek zamierza z niej zrobić. To właśnie nazywam celem badania. Najogólniej, cel badania może być teoretyczny lub praktyczny. Mamy więc dwa typy badań. Typ teoretyczny. Badania tego typu podejmuje się w celu budowania teorii naukowej. Teoria to uznana konstrukcja umysłowa, która pozwala zrozumieć związki między zjawiskami. Ta prosta definicja zwraca uwagę na kilka ważnych spraw. Po pierwsze, teoria przypomina model, tzn. pomniejszoną i uproszczoną kopię oryginału. Model naśladuje niektóre aspekty działania oryginału – teoria odtwarza w pojęciach niektóre aspekty rzeczywistych zjawisk. Na modelu można eksperymentować: poddawać go różnym oddziaływaniom i rejestrować zmiany w jego działaniu – z teorii można wysnuwać przewidywania co do tego, jak pewne zmiany wpłyną na przebieg zjawisk. Model może być bardziej lub mniej wierny, a teoria bardziej lub mniej adekwatna, ale model nigdy nie jest tożsamy z oryginałem, a teoria – z rzeczywistością. Po drugie, poziom teorii jest oddzielony od poziomu empirii. Teoria nie jest podsumowaniem obserwacji, lecz dziełem myśli twórczo wykraczającej poza zgromadzone dane. Teorii nie dyktują fakty – to raczej teoria wpływa na sposób, w jaki spostrzegamy fakty. Dlatego właśnie – dowodzi Kuhn (1968) – spadający kamień, rzecz najzwyklejsza pod słońcem, przedstawiał się Arystotelesowi inaczej niż Galileuszowi. Pierwszy widział ciało zbliżające się do miejsca naturalnego spoczynku, a jego prędkość uzależniał od drogi, która pozostawała do przebycia, tak jakby prędkość rosła w miarę zbliżania się do celu. Drugi – dzięki nowemu pojęciu przestrzeni: izotropowej, nieskończonej przestrzeni geometrycznej – widział ciało oddalające się od punktu wyjścia z prędkością zależną od przebytej drogi. Każda rewolucyjna teoria, taka jak Kopernika czy Darwina, wymaga głębokiej reorganizacji obrazu świata i dlatego z trudem toruje sobie drogę do ludzkiej świadomości. W naukach społecznych samo uświadomienie sobie szczególnego kostiumu, w który teoria stroi jakieś zjawisko, często zwiastuje postęp poznawczy. Po trzecie, teoria jest konstrukcją umysłową, która została uznana przez społeczność uczonych. To uznanie ma wiele wspólnego z uzasadnieniem, jakiego dostarczają jej twórcy. W naukach społecznych jest to najczęściej uzasadnienie empiryczne: wykazanie, że wybrane przewidywania teorii zgadzają się z faktami. Jakkolwiek więc teoria może być swobodnym tworem wyobraźni, to jednak jej uznanie wymaga, by w ważnych punktach nawiązywała do faktów i była z nimi zgodna. Po czwarte, teoria służy zrozumieniu związków między zjawiskami. Praca teoretyka, nawet dopingowana marzeniami o zastosowaniach praktycznych, ma wiele wspólnego z tym, co każe dziecku rozkładać zegar, by zrozumieć, jak działa, lub w skupieniu dopasowywać do siebie elementy układanki – z nadzieją na swoistą przyjemność, którą daje zapanowanie nad chaotyczną rzeczywistością. Przejawem zrozumienia związków jest możność wyjaśnienia i przewidzenia różnych zjawisk. Badania omawianego typu służą dziełu budowania teorii na dwa sposoby – jako badania eksploracyjne i weryfikacyjne. Pierwsze dostarczają wskazówek co Typy 13 do budowy teorii, drugie sprawdzają przewidywania teorii z myślą o jej potwierdzeniu lub podważeniu. Badania teoretyczne można też dzielić ze względu na rodzaj teorii. Warto odróżniać teorie ogólne, odnoszące się całej klasy obiektów (np. teoria dysonansu poznawczego, która odnosi się do ludzi w ogóle) i jednostkowe, odnoszące się do pojedynczego obiektu (np. teoria Rewolucji Francuskiej). Jakkolwiek w tym drugim przykładzie słowo „teoria” brzmi obco, trzeba pamiętać, że wiedza o Rewolucji Francuskiej jest nie tyle chronologicznym zestawieniem udokumentowanych faktów historycznych, ile rekonstrukcją teoretyczną, która scala dostępne fakty i wypełnia nieuniknione luki w faktografii. Z tego punktu widzenia będziemy mówić o badaniach uogólniających i indywidualizujących. Typ praktyczny. Badania tego typu podejmuje się nie po to, by stworzyć lub udoskonalić jakąś teorię, lecz by dostarczyć impulsów do rozwoju pewnej dziedziny praktyki społecznej: kształcenia, leczenia, transportu itp. Są to badania naukowe w tym sensie, że opierają się na wiedzy teoretycznej (m.in. zawartej w metodach badawczych), nie są jednak projektowane z myślą o włączeniu się w dyskurs teoretyczny. U podłoża każdego badania tego typu leży praktyczna trudność domagająca się usunięcia. Jeśli ma charakter nierutynowy (tzn. nie daje się usunąć za pomocą znanych podmiotowi działań), nazywa się ją problemem (np. „Dyrektor stanął przed problemem, jak zmniejszyć zakłócenia procesu kształcenia”). Żaden jednak problem nie ukierunkowuje badania, dopóki nie zostanie przełożony na pytania badawcze (np. „Kto najbardziej przeszkadza na lekcji?”, „Czy zadania wymagające samodzielnego wykonania redukują przeszkadzanie?”). Dlatego nie włączymy „problemu” do słownika metodologii2. TYPY BADAŃ NAUKOWYCH teoretyczne eksploracyjne weryfikacyjne uogólniające indywidualizujące uogólniające indywidualizujące praktyczne rozpoznawcze oceniające uogólniające indywidualizujące uogólniające indywidualizujące Rysunek 1.1. Typy badań naukowych Badanie praktyczne jest zaadresowane do konkretnego odbiorcy, a nie – jak badania teoretyczne – do nieokreślonego członka społeczności uczonych. Ten odbiorca najczęściej jest też sponsorem badania. Podziału badań praktycznych trzeba zatem dokonywać z jego punktu widzenia. Najważniejszym kryterium podziału Zbędność „problemu” najlepiej pokazują takie definicje: „Problem badawczy to tyle, co pewne pytanie lub zespół pytań, na które odpowiedzi ma dostarczyć badanie” (Nowak, 1970, s. 214). 2 14 Rozdział 1. Projektowanie badania: Typy, schematy i metody jest wkład, jaki wnosi badanie w rozwiązanie trudności, przed którą stoi odbiorca. W grę wchodzą dwie możliwości: badanie może albo dookreślić samą trudność i jej społeczne tło, albo sprawdzić skuteczność zastosowanych środków. Będziemy zatem mówić o badaniach rozpoznawczych i oceniających. Pierwsze dostarczają odbiorcy informacji o rodzaju, zasięgu i głębokości praktycznej trudności (np. o niezaspokojonych potrzebach, wadach obecnego rozwiązania, zasobach, które można by wykorzystać, przeszkodach, na które można natrafić). Drugie dostarczają wiedzy o zamierzonych i niezamierzonych następstwach programu działania. Wyniki powyższej analizy zbiera rys. 1.1. Schematy Badanie to zbiór skoordynowanych czynności, które przynoszą nową wiedzę. Płynie stąd ważne rozróżnienie: badanie można opisywać na poziomie koordynacji czynności albo na poziomie samych czynności. Na poziomie koordynacji będziemy mówić o schematach badawczych (research designs). Wyodrębnimy 5 takich schematów, nie upierając się, rzecz jasna, przy tej liczbie: • eksperyment, czyli ujawnianie skutków ściśle określonych oddziaływań w sztucznych populacjach eksperymentalnych, • badanie porównawcze, czyli ujawnianie różnic między realnymi populacjami, • badanie przeglądowe (survey), czyli poznawanie własności obiektów należących do pojedynczej realnej populacji i ujawnianie związków między tymi własnościami, • badanie etnograficzne, czyli zbieranie i przetwarzanie różnorodnych danych o kulturowych sposobach życia realnej grupy społecznej, • studium przypadku, czyli zbieranie i przetwarzanie różnorodnych danych o pojedynczym obiekcie reprezentującym zjawisko ogólne. Dwa ostatnie schematy zalicza się do badań jakościowych. Przedstawiony podział ma doniosłe znaczenie, ponieważ nie każdy schemat uprawnia do takiej samej interpretacji wyników badania. Na oko jest inaczej, zwłaszcza w badaniach ilościowych. Wszystkie schematy ilościowe przynoszą podobnie wyglądające dane, podobne są też metody statystyczne, którymi się je analizuje. To sprzyja przenoszeniu interpretacji właściwych jednemu schematowi na inny schemat. Ale to błąd. Bock (1975, s. 20) tak o tym pisze: Metodologie eksperymentów, badań porównawczych i badań przeglądowych uprawniają do wyraźnie odmiennych typów wnioskowania, nie można więc zastępować jednych drugimi. Eksperyment nie opisuje realnej populacji, a badanie porównawcze czy przeglądowe nie ujawnia skutków, które wywołuje oddziaływanie eksperymentalne. Z drugiej jednak strony nigdy bodaj nie jest tak, by do zasobów wiedzy naukowej wchodził sam wynik badania. Nauka nie jest kolekcją wyników, lecz kolekcją twierdzeń teoretycznych. Przystępując do badania, coś już wiemy o badanych zjawiskach, a coś podejrzewamy. Ta wiedza kształtuje sens wyniku. Wynik, który lai- Metody 15 kowi wydaje się skromny, uczony może uznać za doniosły. W procesie interpretacji teoretycznej następuje więc wyjście poza to, do czego upoważnia schemat badania. Jeśli pracujemy nad częściowo już zweryfikowaną teorią, która postuluje związek przyczynowy między dwoma zjawiskami, to nawet wynik badania przeglądowego można traktować jako jej potwierdzenie lub obalenie – mimo że sam w sobie nie powinien być tak interpretowany. Dlatego związki między typami badań a schematami badawczymi nie są zbyt ścisłe (więcej o tym u Karpińskiego, 1985). Metody Każdy schemat badania koordynuje kilka odrębnych czynności. Takie same czynności występują w różnych schematach i dlatego dają się opisywać niezależnie od nich. Ustalony i zaaprobowany przez społeczność naukową sposób wykonywania każdej z tych czynności będziemy nazywać metodą. W najogólniejszym ujęciu mówimy o trzech klasach metod: • metodach doboru próbki3, • metodach zbierania danych, • metodach analizowania danych. Jak zobaczymy, te klasy mogą zawierać dziesiątki szczegółowych metod. Zgodnie z przedstawioną konwencją: żeby wyczerpująco scharakteryzować badanie, należy podać jego cel, schemat i metody. Tego samego wymaga się od projektu badania. Projektowanie badania Badanie naukowe jest tak złożone, że tylko laik może przystępować do niego a vista. Każde badanie powinno być zaprojektowane w formie pisemnej. Konkursy na projekty badawcze skłaniają do tego, by się tej sztuki dobrze nauczyć. Każde badanie rozpoczyna się od mniej lub bardziej luźnego pomysłu. Nie ma recepty na owocny pomysł. Ale warto pamiętać, że dobry pomysł ma coś wspólnego z luką w teorii lub trudnością w praktyce. W obu przypadkach wymagane są uprzednia znajomość teorii lub praktyki oraz umiejętność dziwienia się. Kwerenda Projektowanie badań rozpoczyna się od kwerendy, czyli zapoznania się z istniejącym piśmiennictwem w interesującej nas dziedzinie. To ogniwo jest u nas notorycznie zaniedbywane. Badacz poprzestaje na podręcznikowych syntezach albo przejrzeniu kilku książek, które ma na półce. Kłopot w tym, że podręczniki przedstawiają stan wiedzy sprzed kilkudziesięciu lat w sposób z konieczności skrótowy i podporządkowany autorskiej koncepcji. To samo można powiedzieć o przypad3 Wybieram „próbkę” zamiast dwuznacznej „próby” (próba to zarazem sprawdzenie czegoś i część reprezentująca całość). Dla dwóch znaczeń lepiej mieć dwa wyrazy niż jeden (sample i trial w angielskim, échantillon i essai we francuskim). Są one zresztą rozdzielone w formie czasownikowej: próbować nie znaczy próbkować. 16 Rozdział 1. Projektowanie badania: Typy, schematy i metody kowo dobranych monografiach. Poprzestając na nich, badacz staje się niewolnikiem cudzego punktu widzenia (a czasem i cudzego niedbalstwa), nieświadomym wielkich obszarów dyskusji teoretycznych i metodologicznych. Odcina się też od wyników najnowszych badań, które podważają stereotypowe poglądy zarówno na rzeczywistość oświatową, jak i na stanowiska zajmowane przez autorów dzieł pedagogicznych. Kwerenda polega na studiowaniu monografii teoretycznych i doniesień z badań. Docenia ją każdy badacz, który dzięki niej dowiedział się, że na jego pytanie już dawno udzielono odpowiedzi lub że wymyślona przez niego metoda została gruntownie skrytykowana i zmodyfikowana. Kwerenda powinna wykraczać poza proste zestawienie tego, co już wiadomo w danej sprawie. W formie zaawansowanej ujawnia historię centralnych pojęć. Jak to się stało, że zaczęto stawiać takie pytania, skąd wzięło się pojęcie wyrażające tę niepewność, jak ewoluowało, czy i kto usiłował je zakwestionować i zrewidować? Pojęcia, w których formułujemy nasze pytania, nie spadają z nieba, lecz są dziełem ludzi uwikłanych w tradycję naukową. Jeśli badacz nie podejmuje się wyśledzić całej historii swoich pojęć, to przynajmniej powinien dać dowód, że rozumie ich genezę. Taka kwerenda pozwala ujawnić pęknięcia w szacownej teorii (np. gdy różni badacze wysnuwają z niej niezgodne ze sobą przewidywania) lub zrozumieć jakąś głęboką kontrowersję teoretyczną, czasem zaś prowadzi do porzucenia pomysłu badawczego (gdy wykazuje, że pytanie jest źle postawione). Pogłębiona kwerenda wymaga nie tylko czytania, ale i liczenia. Gdy badacz wertuje doniesienia z badań, często natrafia na niezgodne ze sobą wyniki. Może to być zachętą do podjęcia własnego badania. Ale jeśli liczba takich badań idzie w dziesiątki, to dodanie jeszcze jednego niewiele wniesie do naszej wiedzy, bez względu na jego wynik. Dlatego lepiej podjąć próbę sprawdzenia hipotezy za pomocą scalenia istniejących wyników, czyli przeprowadzenia metaanalizy (Glass i in., 1981, Schmidt, 1995). Najprostszy sposób polega na liczbowym zestawieniu wyników: w 7 badaniach hipoteza została przyjęta, 2 doprowadziły do przyjęcia hipotezy odwrotnej, a w 3 nie stwierdzono żadnych różnic. Ten sposób nie jest jednak dość precyzyjny. Jeśli są to badania eksperymentalne lub porównawcze, lepiej obliczyć dla każdego badania wielkość efektu: x − xK ∆= E , sK gdzie x-E to średnia w grupie eksperymentalnej, x-E – średnia w grupie kontrolnej, a sK – odchylenie standardowe w grupie kontrolnej. Ważona średnia tych wielkości4 tworzy rozkład zbliżony do normalnego o średniej 0 i odchyleniu standardowym 1. Jej wartość jest najlepszym oszacowaniem kierunku i wielkości wpływu zmiennej niezależnej na zmienną zależną. Przykładu takiej metaanalizy dostarczają Hyde i in. (1990). Przejrzeli oni 100 badań, w których porównywano wyniki osiągane przez kobiety i mężczyzn w stanWartość Δ mnoży się przez liczbę osób biorących udział w danym badaniu, te iloczyny dodaje, a sumę dzieli przez liczbę osób biorących udział we wszystkich badaniach. 4 Projektowanie badania 17 daryzowanych testach wiedzy matematycznej. Wbrew powszechnej opinii średnia wielkość efektu wyniosła zaledwie 0,20 na korzyść mężczyzn. Rzut oka na tabelę rozkładu normalnego pozwala stwierdzić, że przeciętny mężczyzna wyprzedza jedynie 58% kobiet. Taki wynik mówi więcej, niżby powiedziało jedno nowe badanie. Kwerendę trudno prowadzić bez pomocy specjalistycznych wydawnictw. Jeśli zagadnienie, którym chcemy się zająć, jest nam mało znane, dobrze zacząć od zorientowania się, w jakich kontekstach dotąd występowało. Temu celowi służą wydawnictwa o charakterze encyklopedycznym. Polski czytelnik ma do dyspozycji przedwojenną Encyklopedię Wychowania, współczesną Encyklopedię pedagogiczną pod redakcją W. Pomykały i wiele wydawnictw obcojęzycznych, zwłaszcza The International Encyclopedia of Education: Research and Studies pod redakcją T. Huséna i T. N. Postlethwaite’a. Encyklopedia odeśle nas do podstawowej literatury przedmiotu, ale nie do pojedynczych raportów badawczych. Chcąc się dowiedzieć, jakie badania przeprowadzono w danej sprawie i gdzie je opublikowano, musimy posłużyć się przewodnikami bibliograficznymi. W Polsce nie ma, niestety, wydawnictwa, które systematycznie informowałoby o krajowych publikacjach pedagogicznych. Czasem może pomóc trzytomowa, staranna Bibliografia prac psychologicznych pod redakcją L. Wołoszynowej, ale obejmuje ona jedynie publikacje z lat 1946–1978. Ostatnią deską ratunku może być wizyta w Ośrodku Informacji przy Instytucie Badań Edukacyjnych w Warszawie. Na Zachodzie badaczowi łatwiej poruszać się w gąszczu publikacji. Pomocne jest zwłaszcza trójjęzyczne wydawnictwo UNESCO Current Bibliographical Sources in Education. Wielką popularnością cieszą się wydawnictwa dostarczające nie tylko informacji bibliograficznych o opublikowanych pracach, lecz także zwięźle wprowadzające w ich treść. Najbardziej znane na świecie są trzy wydawnictwa amerykańskiego Educational Resources Information Center (ERIC): Current Index to Journals in Education (CIJE), Resources in Education (RIE) oraz Exceptional Child Education Resources (ECER). Pierwsze z nich zamieszcza kilku lub kilkunastozdaniowe streszczenia poszczególnych artykułów pochodzących z ponad 800 czasopism pedagogicznych. Drugie informuje o samodzielnych raportach z badań finansowanych przez rząd federalny, ważniejszych referatach przedłożonych towarzystwom naukowym, przewodnikach i materiałach związanych z programami kształcenia itp. Trzecie jest poświęcone publikacjom dotyczącym kształcenia dzieci niezwykłych (poniżej i powyżej normy oświatowej). Wszystkie wydawnictwa ERIC są dziś dostępne w formie komputerowych baz danych na dyskietkach optycznych (CD-ROM), co niezmiernie ułatwia ich przeszukiwanie. To samo można powiedzieć o wydawnictwach w pokrewnych dyscyplinach, np. o Psychological Abstracts, Dissertation Abstracts International czy Sociological Abstracts. W Polsce można je znaleźć w bibliotekach większych ośrodków akademickich. Najbardziej przetworzonych przeglądów wiedzy, mających formę autorskich artykułów, dostarczają wyspecjalizowane czasopisma. W Polsce ich nie ma, nie ma też tradycji pisania artykułów przedstawiających stan badań w określonej dziedzinie. W Stanach Zjednoczonych od 1931 r. jest wydawany Review of Educational 18 Rozdział 1. Projektowanie badania: Typy, schematy i metody Research, który zamieszcza całościowe przeglądy i interpretacje piśmiennictwa pedagogicznego pod względem merytorycznym i metodologicznym. W dziedzinie psychologii wydawane są Psychological Bulletin i Annual Review of Psychology. Zapoznanie się z wybranymi artykułami pozwala badaczowi oszczędzić tygodni poszukiwań w bibliotekach. Coraz ważniejszym źródłem informacji staje się Internet. Polecam zwłaszcza bazy danych Educational Research Abstracts (www.tandf.co.uk/era), Scholarly Articles Research Alerting (www.carfax.co.uk), Annual Reviews (arjournals.annualreviews.org) i ERIC (ericae.net). Projekt badania Łatwo rozpoznać projekt, który ma szansę zyskać uznanie i środki finansowe. Niezależnie od tego, czy jest to nieformalny plan studenckiej pracy rocznej, „konspekt” pracy doktorskiej lub wielostronicowa propozycja skierowana do Komitetu Badań Naukowych, dobry projekt jasno dowodzi, że autor jest świadom, czego chce się dowiedzieć, dlaczego chce się tego dowiedzieć i jak chce się tego dowiedzieć. Rozwinięty projekt badawczy powinien odpowiadać przynajmniej na osiem pytań. • Do jakiego typu należy badanie? Czy jego cel jest praktyczny czy teoretyczny, eksploracyjny czy weryfikacyjny? Niejeden badacz unika jasnej deklaracji, zapewniając, że jego badanie przyniesie korzyści zarówno teorii, jak i praktyce. Ale badanie teoretyczne organizuje się inaczej niż praktyczne, toteż dążyć do obu celów w jednym badaniu to, zgodnie z przysłowiem, dwie sroki za ogon chwytać. Wprawdzie jest możliwe, że eksperyment weryfikujący twierdzenie teoretyczne rzuci nieco światła na nową metodykę (np. nauczania języka niemieckiego) lub że badanie oceniające nową metodykę podsunie pomysł uściślenia twierdzenia, ale są to owoce uśmiechu losu – wpisać ich do projektu niepodobna. • Jaka jest hipoteza (w badaniu weryfikacyjnym) lub pytanie (w badaniu eksploracyjnym lub praktycznym)? W stosowaniu tych terminów panuje wielki zamęt. Niektórzy wszędzie mówią o hipotezie, nie bacząc, że ma ona sens tylko wtedy, gdy jest wnioskiem z istniejącej teorii. Takiej teorii nie ma w badaniu eksploracyjnym, toteż może je ukierunkować jedynie bardziej lub mniej otwarte pytanie. Nie można też mówić o hipotezie w badaniach praktycznych: tym, co je ukierunkowuje, jest pytanie wyrastające z trudności praktycznej. Są autorzy, którzy uważają, że każde badanie wymaga postawienia problemu, pytania i hipotezy. Stając przed niewykonalnym zdaniem, trzykrotnie powtarzają tę samą myśl, tyle że innymi słowami. • Na jakich obiektach będzie prowadzone badanie? Czy będą to osoby (np. uczniowie), grupy (np. oddziały klasowe), czy organizacje (np. szkoły)? Jak zostanie wyłoniona próbka tych obiektów? Jak będzie liczna? • Jaki schemat badania zostanie zastosowany? Odpowiedź na to pytanie dostarcza czytelnikowi ogólnej orientacji, jak badacz zamierza skoordynować różnorodne czynności badawcze. Projekt badania 19 • Jakimi metodami będą zbierane dane? W grę wchodzi, jak zobaczymy, wiele różnych metod. Jedne służą zbieraniu danych jakościowych (obserwacja jakościowa i wywiad), inne – danych ilościowych (obserwacja ilościowa, testowanie, ankieta itp.). Jakkolwiek łączenie w jednym badaniu metod ilościowych i jakościowych nie jest zakazane, wymaga to sporej biegłości metodologicznej, dlatego początkujący badacz zrobi lepiej, decydując się na metody jednego rodzaju. • Jakimi metodami będą analizowane dane? Metody analizy muszą być dostosowane do rodzaju danych: ilościowe wymagają metod statystycznych, jakościowe – analizy jakościowej (czasem wspieranej przez metody ilościowe). Niektórzy powstrzymują się od wyboru metod analizy, sądząc, że na decyzję będzie czas po zebraniu danych. Jest to nierozważne, może się bowiem okazać, że zebraliśmy dane, których nie potrafimy zanalizować. • Jaki jest harmonogram (podział badania na poszczególne zadania badawcze i ich porządek w czasie) oraz kosztorys badania? • W jakiej postaci zostaną ogłoszone wyniki badania: referatu, artykułu w czasopiśmie naukowym, książki? Forma odpowiadania na te pytania jest równie ważna, jak treść. Już w pierwszym akapicie projektu należy zwięźle, lecz jasno, w języku zrozumiałym także dla niespecjalisty, określić cel badania oraz sformułować hipotezę lub pytanie. Typowym błędem jest rozpoczynanie od szerokiego kontekstu badania, np. od uogólnień na temat współczesnej cywilizacji, transformacji ustrojowej, globalnych tendencji i sporów w nauce, ogólnych rozważań pojęciowych (np. czym jest, a czym nie jest edukacja) lub gołosłownego krytykowania praktyki. Istota propozycji autora nie zostaje dostatecznie wyodrębniona lub ginie w dywagacjach. Drugą częścią projektu powinien być selektywny przegląd literatury naukowej. Autor wskazuje teorie, z których wywodzi się hipoteza, lub tradycje badawcze, w których w przeszłości stawiano podobne pytania czy problemy. Przedstawia też istotne dla swojego przedsięwzięcia badania empiryczne (zarówno ich wyniki, jak i metody). Trzeba pamiętać, że celem przeglądu nie jest pochwalenie się erudycją, lecz uzasadnienie własnego zamierzenia badawczego. Badacz powinien wydobyć niezgodności przewidywań wyprowadzonych z różnych teorii, luki w zgromadzonej wiedzy, sprzeczności między wynikami wcześniejszych badań, słabości stosowanych schematów i metod badania itp. – a wszystko po to, by wykazać, że projektowane badanie pomoże je usunąć. Jeśli badanie ma cel praktyczny, przegląd literatury służy lepszemu scharakteryzowaniu samej trudności oraz ukazaniu dotychczasowych prób poradzenia sobie z nią. Do typowych błędów tej części projektu należy, z jednej strony, pracowite streszczanie raportów z wcześniejszych badań w kolejności ich ogłaszania, a z drugiej – ograniczenie się do wymienienia nazwisk badaczy (czasem w porządku alfabetycznym), którzy „zajmowali się tym zagadnieniem”. Innym błędem są erudycyjne eseje z dziesiątkami przypisów lub szczegółowe, a pozbawione bezpośredniego związku z projektem analizy zalet i wad poszczególnych badań. Bywa wreszcie, że badacz, nie dokonując przeglądu literatury, poprzestaje na stwierdzeniu, że po- 20 Rozdział 1. Projektowanie badania: Typy, schematy i metody dobnych badań dotąd nie prowadzono. W większości przypadków znaczy to, że albo kwerenda została przeprowadzona niedbale, albo sama hipoteza lub pytanie badawcze są trywialne lub nierozstrzygalne. Następna, techniczna część projektu powinna jasno ukazać, jak badacz zamierza zabrać się do dzieła. Utarło się zaczynać od opisu zbioru obiektów, które zostaną poddane badaniu, czyli próbki: jakie osoby (zbiorowości) wejdą w jej skład, jak będzie dobrana i jak liczna. Następnie trzeba przedstawić schemat badania. Gdy badanie ma charakter złożonego eksperymentu, trzeba opisać rodzaj oddziaływania eksperymentalnego, sposoby kontrolowania zmiennych ubocznych itp. Jeśli badanie składa się z kilku etapów, trzeba wytłumaczyć, czemu każdy z nich służy. W tej części przedstawia się też metody gromadzenia danych. Jeśli badacz zamierza posłużyć się znanymi i wypróbowanymi metodami, wystarczy wymienić ich nazwy; w przeciwnym razie powinien przedstawić założenia swoich metod oraz informacje o ich trafności i rzetelności. Jeśli zamierza stosować złożone wskaźniki pojęć teoretycznych, powinien napisać, jak będą zbudowane. Opisując metody analizy, powinien pamiętać, że niewiele jest pożytku z wyliczenia kilku standardowych metod analizy statystycznej: to potrafi każdy, kto przejrzał spis treści dowolnego podręcznika statystyki. Lepiej powiązać analizę z hipotezą lub pytaniem, np.: „Hipoteza zostanie przyjęta, jeśli dwuczynnikowa analiza wariancji ujawni istotny wpływ interakcji obu zmiennych niezależnych na zmienną zależną”. Najczęstszą wadą tej części projektu jest ogólnikowość. Badacz informuje na przykład, że w celu znalezienia odpowiedzi na postawione pytania przeprowadzi „szeroko zakrojone badania na uczniach ostatniej klasy szkoły podstawowej” i określi, jakie są ich aspiracje oświatowe, inteligencja, warunki domowe itd. Jest oczywiste, że na podstawie podobnych informacji nie sposób wyrobić sobie opinii o poprawności projektu, toteż trudno się dziwić, że ma on małą szansę na przyjęcie. W zakończeniu projektu warto w kilku zdaniach wyeksponować nowatorstwo badania, podnieść kwestię teoretycznej lub praktycznej użyteczności wyników, które ono przyniesie, a także zadeklarować gotowość upowszechnienia wyników (np. w postaci artykułu w prestiżowym czasopiśmie lub referatu na ważnej konferencji). Warto też przekonać recenzentów, że badacz ma dostateczne kwalifikacje do przeprowadzenia badania (np. że w przeszłości uczestniczył w badaniu zbliżonych zagadnień, ma dostęp do terenu badania, potrafi posłużyć się zaawansowanymi metodami analizy danych). Do projektu należy dodać harmonogram prac i kosztorys badania w formie wymaganej przez potencjalnego sponsora. Przejrzystość projektu to zaleta, którą trudno przecenić: niejeden wartościowy pomysł nie doczekał się realizacji, ponieważ recenzent przeoczył kluczowe informacje lub nie w pełni uchwycił pomysł autora. Ale przejrzystość nie zastąpi metodologicznej spójności. Projekt jest spójny, jeśli wszystkie jego elementy pasują do siebie. By się o tym upewnić, trzeba sobie odpowiedzieć na kilka podstawowych pytań: • Czy hipoteza jest falsyfikowalna? Falsyfikowalność nie ma nic wspólnego z fałszywością. Hipoteza jest falsyfikowalna, jeśli można sobie wyobrazić wynik badania, który świadczyłby przeciw niej. Projekt badania 21 • C zy hipoteza jest sprawdzalna, tj. czy istnieje techniczna możliwość jej sprawdzenia? Hipoteza: „Życie w ustroju demokratycznym zwiększa w ludziach poczucie odpowiedzialności za własny los” wymagałaby eksperymentowania na całych narodach i dlatego należy do sfery science fiction. Trzeba też zapytać, czy środkami naukowymi można w ogóle odpowiedzieć na pytanie badawcze. Na pytanie „Jak reforma edukacji wpłynie na przygotowanie do życia młodego pokolenia Polaków?” żadne badania nie przyniosą odpowiedzi, bo rzecz dotyczy przyszłości. • Jeśli hipoteza lub pytanie nie mają powyższej wady, trzeba się upewnić, że przyjęto właściwy schemat badania. Nagminnym błędem jest planowanie schematu przeglądowego do zagadnień, które mógłby rozstrzygnąć jedynie eksperyment. Najłatwiej je rozpoznać po tym, że zawierają słowo „wpływ”, jak w hipotezie: „Obcowanie ze sztuką wpływa na rozwój osobowości dziecka”. Jeśli badacz zamierza ją sprawdzić przez zestawienie wyników inwentarza osobowości z odpowiedziami na pytania o formy uczestnictwa w kulturze, to w najlepszym wypadku może wykazać, że pewien sposób wypełnienia kwestionariusza współwystępuje z pewną cechą osobowości, nigdy jednak – że pewne doświadczenie wpływa na tę cechę. Innym błędem, ostatnio coraz częstszym, jest dobieranie badania w schemacie indywidualizującym do zagadnienia, które wymaga uogólnienia. W dalszych rozdziałach tej książki czytelnik znajdzie obszerny przegląd typowych schematów badania wraz z informacją, do jakich celów można je stosować, a do jakich nie. • Czy próbka odpowiada hipotezie lub pytaniu co do zakresu, liczebności i losowości? Jeśli pytanie ma postać ogólną (np. „Czy osiągnięcia uczniów szkół wiejskich są niższe niż osiągnięcia uczniów szkół miejskich?”), to jest jasne, że ograniczenie próbki do uczniów z dwóch sąsiadujących ze sobą gmin czy nawet województw nie dostarczy na nie odpowiedzi. Trzeba się też upewnić, czy w próbce można będzie użyć wybranej metody zbierania danych (np. wśród pierwszoklasistów nie można planować pomiaru socjometrycznego). • Czy przyjęte metody zbierania danych i wskaźniki pojęć teoretycznych są dopasowane do hipotezy lub pytania? Z jaskrawym przykładem niedopasowania mamy do czynienia wtedy, gdy złożone zjawiska psychologiczne chce się mierzyć za pomocą ankiety lub poznawać styl dydaktyczny nauczyciela za pomocą wywiadu z dyrektorem szkoły. • Czy metody analizy danych są dostosowane do rodzaju danych? Błędem jest zarówno planowanie metod zbyt mocnych (np. współczynników korelacji Pearsona do danych w skali porządkowej), jak i zbyt słabych (np. rozkładów procentowych lub tablic liczebności do danych, które pozwalają na wieloczynnikową analizę wariancji). • Czy korzyści z przeprowadzenia badania usprawiedliwiają jego koszty? Trzeba pamiętać, że badanie wymaga publicznych pieniędzy, a także prywatnego czasu i wysiłku badacza oraz współpracujących z nim osób (np. nauczycieli lub rodziców). Jeśli wyniki badania miałyby dostarczyć potwierdzenia rzeczy powszechnie znanych lub pozornych (bo niewykonalnych) zaleceń dla praktyki, lepiej byłoby przeznaczyć środki na bardziej pożyteczną działalność. 22 Rozdział 1. Projektowanie badania: Typy, schematy i metody Rozwinięty projekt badawczy powinien być zawsze przedyskutowany w gronie kolegów badacza, nie ma bowiem takiego głupstwa, do którego nie doszedłby człowiek długo rozmyślający nad czymś w samotności. W wielu organizacjach naukowych istnieje obyczaj recenzowania projektów badawczych. Wszelkie zastrzeżenie recenzentów – nawet te, które wydają się badaczowi napastliwe i nieuzasadnione – trzeba wziąć sobie do serca, by nie odkryć poniewczasie, że było w nich racjonalne jądro. Zdarza się, że tym, co powstrzymuje badacza przed wydaniem swojego projektu na publiczną krytykę, jest obawa, czy nie zostaną naruszone jego prawa autorskie. Nie od rzeczy będzie więc przypomnieć, że kradzież pomysłu jest nie mniej odrażająca niż kradzież gotowego wytworu. Moralne aspekty badania Podejmując badanie, badacz zaciąga zobowiązanie moralne wobec badanych i wobec wspólnoty naukowej. Pierwszych zobowiązuje się nie skrzywdzić, drugich – nie wprowadzić w błąd. Badacz może skrzywdzić badanych na wiele sposobów. Po pierwsze, gdy pozwala, by informacje, które zebrał, zostały użyte przeciw nim. Z własnej inicjatywy badacz rzadko powiadamia nauczyciela o wybrykach ucznia na ulicy lub mówi dyrektorowi szkoły, jak często nauczyciel spóźniał się na lekcje. Zdarza się jednak, że wskutek jego niedbalstwa istotne informacje o badanych docierają do niepożądanych uszu. Powiedzmy wyraźnie: badacza obowiązuje dochowanie tajemnicy. Nie może on nikomu udostępnić danych w formie umożliwiającej identyfikację badanej osoby, grupy czy organizacji. Szczególnie naganne jest uleganie naciskom sponsora badania, który chciałby się dowiedzieć, kto wygłosił tę czy inną krytyczną uwagę, uzyskał niski wynik w teście itp. Dobrym zwyczajem jest niszczenie danych osobowych (nazwisk, adresów itp.) zaraz po zebraniu wszystkich informacji. W doniesieniu naukowym nazwy własne (nazwiska badanych, nazwy organizacji, a nawet nazwy mniejszych miejscowości) muszą być zmienione lub zastąpione pseudonimami. Po drugie, badacz krzywdzi badanych, gdy przyczynia się do tego, że dostają usługi gorszej jakości. Prowadząc eksperyment, badacz może podwyższyć poziom nauczania w pewnych oddziałach klasowych, ale nie wolno mu go obniżyć. Może wywoływać efekt Galatei (tj. bezpodstawnie informować nauczyciela o dużych możliwościach rozwojowych ucznia), ale wywoływanie efektu Golema (tj. przekonywanie nauczyciela, że uczeń źle rokuje) jest niemoralne. Po trzecie, badacz nie może narażać badanych na szkody psychiczne. Taką szkodą jest trwałe obniżenie samooceny, obniżenie odporności na pokusy lub ogólniej: rozluźnienie hamulców moralnych, narażenie na silne, negatywne przeżycia (np. upokorzenie, wstyd), podważenie światopoglądu lub lojalności wobec grupy itp. Dlatego badaczowi wolno stosować tylko takie oddziaływania eksperymentalne, które mogłyby samorzutnie pojawić się w codziennym życiu badanych. Po czwarte wreszcie, badacz nie powinien traktować badanych przedmiotowo. Prowadzenie badania jest rodzajem interakcji społecznej, a każda interakcja Moralne aspekty badania 23 wymaga obopólnego zaufania. Jeśli badacz z góry zakłada, że będzie oszukiwał i wykorzystywał badanych do własnych celów, to choćby nawet badani mieli się o tym nigdy nie dowiedzieć, nadużywa ich zaufania. Dlatego ilekroć badanie wymaga wprowadzenia badanych w błąd (np. co do natury zadania, które mają wykonać, albo reakcji ze strony innych uczestników), trzeba po zakończeniu badań sprostować fałszywe informacje, usprawiedliwić je i przeprosić tych, którzy czują się dotknięci. Niezbędne jest uświadomienie badanemu, że tylko od niego zależy, czy weźmie udział w badaniu, i że w każdej chwili może się z niego wycofać. W USA badani podpisują formalne oświadczenie, że godzą się na przedstawione im warunki badania i wykorzystania danych oraz zobowiązują się zachować w tajemnicy wszystko, czego dowiedziały się o innych osobach w trakcie badania. Bez takiego kontraktu badanie jest nielegalne. Gdy badanym jest dziecko, decyzja przysługuje jego rodzicom. Trzeba poinformować rodziców, że ich dziecko zostało wybrane do badania, i prosić o zgodę. Używanie instytucjonalnego przymusu jest niedopuszczalne. Poszanowanie prawa wyboru wymaga, by badany został poinformowany o celu badania, choć trzeba pamiętać, że zbytnia szczerość często przekreśla wartość wyników. Wiele wskazuje na to, że beztroskie wystawianie badanych na ryzyko w myśl zasady, że cel uświęca środki, należy już do przeszłości. Coraz częściej powołuje się komisje etyczne, bez których zgody nie można rozpocząć badania, i opracowuje kodeksy etyczne (np. Kodeks etyczno-zawodowy psychologa, 1992). Mniej uwagi poświęca się natomiast obowiązkom badacza wobec wspólnoty naukowej. Badacz narusza swoje zobowiązanie wobec kolegów po pierwsze wtedy, gdy fałszuje dane lub naciąga wnioski. Wymyślanie danych przy biurku zdarza się na szczęście bardzo rzadko. Mniej jaskrawe, ale nie mniej szkodliwe są nadużycia w fazie analizy danych. Badacz może wyłączyć z analizy obiekty zachowujące się niezgodnie z hipotezą, zawyżyć liczebność próbki, ukryć niewygodne fakty (np. świadectwa nierzetelności pomiarów lub nietrwałości rezultatu oddziaływania), formułować wnioski, które nie mają pokrycia w wynikach analizy itp. W celu zapewnienia wspólnocie naukowej kontroli nad procesem badawczym badacz ma obowiązek przechowywać protokoły pomiarów przez kilka lat od chwili opublikowania badania i udostępniać je polemistom na żądanie. Po drugie, badacz występuje przeciw społeczności uczonych, gdy przywłaszcza sobie cudze osiągnięcia lub je przemilcza. Mam na myśli nie tylko zwykły plagiat, ale i niezamieszczenie informacji, że hipoteza została wcześniej wysunięta przez kogoś innego, że podobna metoda pomiaru była już stosowana itp. Ignorowanie w tekście doniesienia naukowego prac pewnych badaczy wskutek animozji między ośrodkami naukowymi jest niemoralne, a także świadczy o zaściankowości autora. Po trzecie, badacz nie powinien publikować tekstów poznawczo i praktycznie jałowych. Badacz, który z rozmysłem rozdziela wątłe odkrycie na jeszcze wątlejsze fragmenty i publikuje je jako osobne artykuły, nadużywa zaufania innych członków wspólnoty naukowej. Czytelnik, który przystępuje do lektury z nadzieją, że dowie się czegoś nowego, spostrzega poniewczasie, że zmarnował czas. Co gorsza, duża liczba takich pozornych doniesień tworzy szum informacyjny, który utrud- 24 Rozdział 1. Projektowanie badania: Typy, schematy i metody nia wyłowienie wartościowych artykułów. Dlatego goniący za liczbą publikacji sprzeniewierzają się etyce zawodowej. Techniczne aspekty badania Do badania trzeba się przygotować. Przy większych projektach należy przede wszystkim dokonać podziału pracy i obsadzić poszczególne zadania. Warto też zadbać o właściwą organizację dokumentacji. W badaniach na dużych próbkach sterta papierów rośnie szybko. By się w nich nie zgubić, trzeba każdemu obiektowi nadać niepowtarzalny identyfikator (najlepiej numer) i stosować go we wszystkich zestawieniach. Wszystkie protokoły, kwestionariusze itp. powinny być dobrze oznaczone i przechowywane w z góry ustalonych miejscach (np. w oznaczonych szufladach). Przy zakładaniu komputerowych plików danych nie należy improwizować, lecz posługiwać się wcześniej ustalonym systemem nazw, by później nie zastanawiać się, co też może zawierać plik o nazwie „ZAD1.DAT” lub gdzie może być potrzebny fragment danych. By się przekonać, jak dobrze jesteśmy przygotowani do stojących przed nami zadań, warto przeprowadzić próbę kostiumową, czyli badanie pilotażowe – zminiaturyzowaną wersję właściwego badania lub jego wybranych etapów. Celem badania pilotażowego jest sprawdzenie, czy: • jest możliwe zebranie zaplanowanych danych (np. czy obserwator może usłyszeć, co się mówi w badanym zespole, czy zapis magnetofonowy jest czytelny, stopa zwrotów ankiety pocztowej wystarczająca), • oddziaływania eksperymentalne są skuteczne, a zaplanowane pomiary trafne w badanej populacji, • instrukcje stosowane w pomiarach grupowych są jednoznaczne i zrozumiałe, • zadania stawiane badanym nie są zbyt męczące i czy z tego powodu nie są wykonywane niedbale, • na wyniki nie mają wpływu uboczne okoliczności badania (np. miejsce badania lub częste w badaniach oświatowych informowanie się badanych o tym, czego się od nich wymaga). Prowadząc zaplanowane czynności, uzupełniamy je obserwacją i wywiadami z badanymi, by się dowiedzieć, jak pojmowali cel badania i swoją w nim rolę, i co czuli podczas badania (zwłaszcza co ich irytowało lub rozpraszało). Badanie pilotażowe często podpowiada, co zmienić w projekcie: zastąpić pomiar grupowy indywidualnym lub odwrotnie, podzielić jedną długą sesję na dwie krótsze, zmienić kolejność pomiarów, przenieść badanie w inne miejsce (np. ze szkolnego ambulatorium do harcówki) itd. Rozdział 2 BADANIA ILOŚCIOWE I JAKOŚCIOWE O podziale na badania ilościowe i jakościowe napisano tomy. Wielu autorów zakłada, że jest to podział podstawowy, definiujący dwa zwalczające się obozy, i że każdy badacz musi podjąć osobistą decyzję, do którego z nich się przyłączyć. Na czym polega ten podział? Niestety, pisze się o tym językiem raczej ideologii niż logiki, a sądy formułuje w tak skrajny sposób, że często powstaje wrażenie, jakby cechą rozpoznawczą obozu jakościowego było to, że w ogóle odrzuca on etos nauki. Stosunek do teorii. Powiada się, że badania jakościowe nie rozpoczynają się od teorii, lecz od danych. Idzie o to, by badany obiekt mógł sam się wypowiedzieć (np. by ludzie mogli powiedzieć, jak spostrzegają i odczuwają swoją sytuację). „Badacz jakościowy” szuka sensu zachowań, który jest konstruowany przez uczestnika w ramach pewnego kontekstu (np. instytucjonalnego), chce zobrazować złożone wzorce studiowanego obiektu i udostępnić je komuś, kto ich nie doświadczył. Natomiast „badacz ilościowy” już w punkcie wyjścia przyjmuje teorię i korespondującą z nią metodę, narzuca obiektom własne pojęcia, rejestruje fakty społeczne wyprane z subiektywnych sensów i wyjaśnia zaobserwowane zjawiska jako konkretyzacje (przypadki) ogólnego prawa. Stosunek do obiektywizmu. Powiada się, że w badaniach jakościowych badacz nie ucieka od własnych wrażeń, uczuć i wartości, lecz wprost przyznaje, że badanie to ciąg jego osobistych wyborów. W szczególności pozwala, by jego wartości (np. feminizm) wchodziły w interakcję z wartościami badanego terenu, a on sam w osobiste interakcję z osobami badanymi (Wyka, 1990). Niektórzy pod wpływem postmodernizmu mówią wprost, że nauka to przedsięwzięcie retoryczne, a kult bezstronności badawczej to tylko nieudolna próba zamaskowania tej prawdy. Wytworem badania mają być symulakra (kopie niemające oryginałów) pozbawione epistemologicznego oparcia. Natomiast „badacz ilościowy” ucieka w mechaniczną procedurę, by zabezpieczyć swoje wnioski przed wpływem własnych wartości i wartości badanych osób. Te dwie cechy właściwie eliminowałyby badania jakościowe z rodziny badań naukowych. Według takich wskazówek może powstać reportaż (subiektywna narracja dziennikarza o losach i przeżyciach innych ludzi). Reportaż może być ciekawy i dawać do myślenia, ale trudno go nazwać doniesieniem naukowym. Na szczęście istnieją bardziej zrównoważone ujęcia. 26 Rozdział 2. Badania ilościowe i jakościowe Liczby i teksty Najbardziej uchwytna różnica między badaniem ilościowym a jakościowym tkwi w rodzaju surowych danych, które badacz gromadzi. W badaniu ilościowym dane mają postać liczb (np. zbiór ilorazów inteligencji). W badaniu jakościowym dane mają postać tekstu (np. korespondencja, pamiętnik, pełny zapis wywiadu, szczegółowy opis epizodu interakcyjnego). Stąd bierze się różnica w metodach analizy: zbiory liczb można analizować metodami statystycznymi, zbiory tekstów wymagają innych zabiegów. Różnica między liczbą a tekstem może się komuś wydać powierzchowna. Teksty można zamieniać na liczby, czyli poddawać kwantyfikacji: np. obliczyć częstość względną określonych słów i fraz w wypowiedziach badanej osoby lub częstość określonych interakcji podczas lekcji. W klasycznym badaniu wpływu, jaki wywiera społeczna aprobata dla indywidualnych osiągnięć na rozwój gospodarczy kraju, McClelland (1961) przekształcił teksty czytanek szkolnych i innych książek dla dzieci w ilościową miarę obecności motywu osiągnięć w kulturze, zagregował ją dla każdego z badanych krajów, po czym zastosował statystyczną metodę analizy regresji, by wykazać, że im częściej dzieci danego kraju stykały się z motywem osiągnięć, tym więcej energii produkował ten kraj w następnym dwudziestopięcioleciu. Podobnie, choć z większym trudem, można zamieniać liczby na tekst: np. wyobrażać sobie, co myśleli w pewnej sytuacji badani mający wysokie wyniki w skali autorytaryzmu. A jednak różnica między danymi liczbowymi i tekstowymi pozostaje w mocy. Sens liczby pochodzi z narzędzia, które zastosowaliśmy w pomiarze. Sens tekstu pochodzi z sytuacji, w której tekst został wytworzony i zarejestrowany. Gdy zbieramy dane liczbowe, chcąc nie chcąc przyjmujemy wszystkie założenia leżące u podstaw metody zbierania danych. Gdy zbieramy teksty, założenia co do warunków ich sensowności ograniczamy do minimum. Znaczenie tekstu jest bowiem pochodną wielu okoliczności towarzyszących badaniu. W przypadku wywiadu na te okoliczności składają się: kto pyta (np. kobieta czy mężczyzna?), o co (o sprawy osobiste czy o ogólne poglądy?), jak (czy badacz przejawia pewność siebie, czy skrępowanie?), kogo (czy badany czuje się jak uczeń na egzaminie, czy raczej jak informator, który przekazuje badaczowi wartościowe wiadomości), jakie wrażenie badany chce wywołać na badaczu (zaimponować mu, zwieść, zbyć?), gdzie odbywa się rozmowa (w miejscu pracy, w domu, w kawiarni) itd. To samo dotyczy interakcji między ludźmi. Dość wspomnieć, z jak różnymi intencjami uczniowie zgłaszają się w klasie do odpowiedzi: jedni chcą zrobić przyjemność nauczycielce, inni – odciągnąć jej uwagę od kolegi, jeszcze inni – zaimponować rówieśnikom. Kto by chciał po prostu zsumować akty zgłaszania się do odpowiedzi i traktować ten agregat jako wskaźnik aktywności klasy, musiałby w punkcie startu zignorować te odmienności, uznać – wbrew oczywistości – że wszystkie akty są nierozróżnialną manifestacją aktywności w ogóle. Skutkiem zakorzenienia danych jakościowych w kontekście jest więc to, że nie można ich zliczać, tj. reprezentować zbiorowości za pomocą sum, średnich czy innych agregatów. Zainteresowanie kontekstem 27 Najłatwiej agregować liczby. Jeśli na przykład zmierzymy wzrost pewnego rocznika dzieci za pomocą miarki centymetrowej, to jest jasne, że możemy obliczyć, ile dzieci w próbce miało 130 cm, 131 cm itd., a ponadto znaleźć statystyki rozkładu (średnią, odchylenie standardowe itp.). Zliczać można także dane nieliczbowe, jeśli są traktowane w sposób ilościowy. Załóżmy, że za pomocą wywiadu zbieramy dane o sposobach przeżywania własnej płci. Dane o płci biologicznej (wywnioskowane przez badacza na podstawie wyglądu osoby badanej) można zliczać (np. powiedzieć: „przeprowadzono wywiady z 10 kobietami i 5 mężczyznami”). Wynik zliczania informuje o badanej zbiorowości i pozwala ją porównać z inną zbiorowością. Ale odpowiedzi badanych na pytanie: „Jak pani przeżywa fakt, że jest pani kobietą?” nie da się w ten sposób zliczyć. Każda wypowiedź jest jedyna w swoim rodzaju (gdyby zdarzyły się dwie identyczne, bylibyśmy pewni, że to pomyłka osoby prowadzącej wywiady). Można je oczywiście zredukować do pojedynczych znaczeń, np.: „jest dumna, że jest kobietą”, „żałuje, że jest kobietą” i „ma mieszane uczucia”. Teraz dane stają się ilościowe, ponieważ można je zliczać (np. powiedzieć: „6 kobiet i 4 mężczyzn wyraziło dumę z faktu należenia do własnej płci”). Ale oczywiście nie są to już te same dane. Mnóstwo wątków utracono, a ogólne znaczenie narzucono; można to podejrzewać zwłaszcza wtedy, gdy kategoria „mieszane uczucia” jest liczebnie duża. A teraz wyobraźmy sobie, że budujemy psychologiczną skalę akceptacji własnej płci. Kwestionariusz jest zbiorem pytań, a więc daje zbiór odpowiedzi, który łącznie moglibyśmy nazwać wypowiedzią. Tym razem istnieje jednak gotowa metoda zliczania. Każda wypowiedź jest z góry zaliczona do jednego ze stopni akceptacji własnej płci (na podstawie liczby odpowiedzi uznanych za diagnostyczne). Można łatwo policzyć, ile wypowiedzi zawiera jedną odpowiedź diagnostyczną, ile dwie itd. Takie zestawienie charakteryzuje daną zbiorowość i pozwala ją porównać z inną. Wniosek z tego taki: dane uznaje się za jakościowe, gdy nie istnieje gotowy schemat klasyfikacji przypadków. Taki schemat tworzy się „od dołu”, szukając podobieństw i różnic między wypowiedziami (jeśli dwie wypowiedzi są pod jakimś względem podobne do siebie, np. powołują się na postaci wielkich ludzi z własnej płci, i różne od trzeciej, to ten wzgląd jest kandydatem na kategorię w klasyfikacji). Tworzenie schematu klasyfikacji wymaga namysłu nad znaczeniem poszczególnych składników wypowiedzi, dlatego utarło się łączyć dane jakościowe ze znaczeniem, a dane ilościowe ze składem (strukturą). Nie jest jednak tak, iżby dane ilościowe nie wymagały namysłu nad ich znaczeniem. Ten namysł przeprowadzono podczas konstruowania narzędzia pomiaru: to wtedy ustalono znaczenia odpowiedzi na poszczególne pytania. Zainteresowanie kontekstem Z faktu, że kontakt badacza z empirią polega na zbieraniu tekstów, wynika wzmożone zainteresowanie kontekstem. Mówiąc o kontekście, mam na myśli wszystkie okoliczności towarzyszące wytwarzaniu danego tekstu: zarówno językowe (np. to, 28 Rozdział 2. Badania ilościowe i jakościowe co badany i badacz mówili przed i po głównej wypowiedzi), jak i parajęzykowe (np. mimika, gestykulacja) i pozajęzykowe (związane z całą sytuacją, w której badacz kontaktuje się z badanym). W badaniu ilościowym kontekst jest zawadą, toteż idzie o to, by go zneutralizować. Wskutek zainteresowania kontekstem badanie jakościowe przebiega w miejscach mających dla badanego ustalony sens (np. w izbie szkolnej, a nie w laboratorium), badanych wybiera się z pewną myślą (a nie losuje z populacji), a ich zbiór rozszerza lub zwęża w trakcie badania. Inny jest też przebieg badania. W badaniach ilościowych najpierw planuje się oddziaływania i pomiary, potem rygorystycznie wykonuje ten plan w odniesieniu do wszystkich obiektów próbki, a na końcu analizuje zebrane dane. Odpowiada temu typowy podział pracy w zespole badawczym: kierownik zespołu planuje badanie i interpretuje wyniki, podwładni zbierają i przetwarzają dane. Trudno o lepszy dowód pomijania kontekstu: pierwotny kontakt z empirią zapewnia tu osoba, która trzyma się takiej samej instrukcji w odniesieniu do wszystkich obiektów, ale nie wie, po co zbiera dane i dlaczego właśnie te. W badaniu jakościowym osoby zbierające dane są wprowadzone we wszystkie tajniki programu badawczego i wolno im modyfikować plan zbierania danych w miarę postępów pracy. Zaczynając od ogólnego pytania, np.: „Jak nauczyciele radzą sobie ze stresem zawodowym?”, badacz najpierw gruntownie zaznajamia się ze szkołą, obserwuje nauczycieli i rozmawia z nimi, potem może skupić uwagę na zachowaniach i punktach widzenia tylko kilkorga z nich, i to w wybranych sytuacjach, by ponownie rozszerzyć ją na członków rodzin wybranych nauczycieli itd. Nie czeka też z przetwarzaniem informacji, aż zbierze wszystkie dane, lecz nieustannie analizuje narastającą masę tekstów. Szukając w nich odpowiedzi na początkowe pytanie, dopuszcza możliwość, że jego dane lepiej odpowiadają na inne, inaczej postawione pytanie. Wskutek takiego przeformułowywania pytania końcowy rezultat badania często odbiega, i to znacznie, od początkowego zamiaru. Jak widać, w badaniu jakościowym badacz nie tyle odżegnuje się od teorii, ile nie pozwala, by uprzednia teoria odcięła go od całości badanego obiektu, zmusiła obiekt, by mówił tylko „tak” i „nie” w odpowiedzi na ścisłe pytania. Obiekt nie jest jednym z przypadków, które mają potwierdzić jakiś porządek poza nim; to w samym obiekcie jest porządek, który czeka na odkrycie. Nie ma więc liniowej sekwencji: teoria – hipoteza – metoda – wynik, lecz jest kołowość: pytanie prowadzi do danych, dane – do innego pytania itd. Badacz nieustannie przepatruje całe swoje przedsięwzięcie oraz każdy jego etap w świetle poprzednich etapów i podejmuje decyzje metodologiczne, jak postępować w następnym etapie. Zawsze pyta, w jakim stopniu użyte dotąd metody, kategorie i teorie pasują do obiektu. Teoria jest więc końcem, a nie początkiem badania. Taką teorię Glaser i Strauss (1967) nazywają ugruntowaną (grounded). Związek z kontekstem widać też w formie doniesienia badawczego. Trzonem doniesienia z badania ilościowego są zestawienia wysoce przetworzonych liczb w formie współczynników, tabel i wykresów. Doniesienie z badania jakościowego jest natomiast szczegółową narracją o myślach i czynach badanych osób czy grup. Badacz nie ukrywa się za bezosobowym językiem, lecz otwarcie mówi o swoich Zainteresowanie kontekstem 29 próbach nawiązania kontaktu z badanymi, szczęśliwych i nieszczęśliwych pomysłach interpretacyjnych, wrażeniach i ocenach. Kryzys reprezentacji Powiedzieliśmy, że badanie jakościowe polega na zbieraniu tekstów i przekształcaniu ich w inne teksty (zwłaszcza w tekst końcowego doniesienia). Ale tekst to nie fakt, lecz relacja – zawsze czyjaś. Trudno więc twierdzić, że zbierając i przetwarzając teksty, dotykamy rzeczywistości. Badacz, np. etnograf, nie chwyta żywego doświadczenia, on je tworzy w tekście swojego doniesienia. Czy to nie kompromituje badań jakościowych, nie odbiera im znamienia naukowości? Trudność ta prowadzi do ataku na pojęcie rzeczywistości jako czegoś, co istnieje poza subiektywnymi, podzielanymi społecznie punktami widzenia. Nie ma takiej rzeczywistości – powiada się – są tylko ludzkie spojrzenia i ludzkie relacje. Trzeba badać, co ludzie mają za rzeczywiste, w czym się wyrażają te mniemania, jak na nie wpływa fakt, że są obserwowani, co sam obserwator uważa za rzeczywiste i od czego to zależy. Badacz nie bada zatem świata, lecz jedynie tworzy własną wersję świata, jedną z wielu (może tylko bardziej sformalizowaną i abstrakcyjną), opartą na innych wersjach, z którymi zapoznał się w terenie. Ten pogląd uzasadnia się wszechobecnością mimesis: przekształcania tego, co naturalne, w to, co symboliczne. Mimesis to warunek wszelkiego zrozumienia. Najpierw badany przekształca własne doświadczenie w tekst, potem badacz przekształca te teksty w jakiś supertekst, czyli teorię, która na końcu tego cyklu wraca w świat doświadczenia. W żadnym punkcie podmiot nie kontaktuje się z gołą rzeczywistością, już bowiem samo doświadczenie jest nasycone przedrozumieniem (np. co do tego, czym różni się oddziaływanie w świecie ludzi od oddziaływania w świecie rzeczy). Bruner (1990) wyraża to prosto: żyć to opowiadać samemu sobie życie. Narracja imituje życie, życie imituje narrację. Jeśli tak, to zamiast spierać się o istnienie obiektywnej rzeczywistości, trzeba zapytać, czy jest jakiś powód tworzenia tekstu z tekstów? Odpowiedź jest prosta: nowe teksty tworzy się po to, by doświadczyć świata w nowy sposób. Każda teoria jest tymczasową i względną wersją świata. Gdy powstanie, daje badaczowi i czytelnikom jego doniesienia nową perspektywę, z której mogą patrzeć na swój świat. Stąd wynika naczelne kryterium wartości badania jakościowego: musi przynosić wyniki, które zaskakują, problematyzują oczywistości, burzą stereotypy, otwierają nowe perspektywy. Dzięki dobremu badaniu badacz nie tylko dowiaduje się czegoś, ale mądrzeje, tzn. ujawnia i rewiduje przedrozumienie, z którym przystępował do pracy. Lyotard (1984) powiada: celem nauki nie jest utrzymanie odpowiedniości z rzeczywistością, lecz odkrywanie różnic i sprzeczności w naszych wersjach świata. Teoria mimesis jest dominującą próbą uprawomocnienia badań jakościowych. Natomiast ukierunkowują je, tj. określają ich przedmiot i metody, pewne paradygmaty teoretyczne. Najczęściej wymienia się trzy: • symboliczny interakcjonizm: program badania subiektywnych znaczeń, • etnometodologia: program badania interakcji ludzkich, 30 Rozdział 2. Badania ilościowe i jakościowe • paradygmat modeli kulturowych („obiektywna hermeneutyka”): program badania głębokich struktur tekstu. Wielu metodologów uważa te paradygmaty raczej za uzupełniające się niż konkurencyjne (Flick, 1998). W konkretnym badaniu można je łączyć i w ten sposób głębiej wnikać w świat tekstów (rys. 2.1). Badanie osoby B i jej punktu widzenia ◀ ◀ Analiza interakcji i dyskursu ◀ Badanie osoby A ◀ i jej punktu widzenia ◀ Badanie kulturowych ram praktyki Rysunek 2.1. Paradygmaty badawcze w badaniach jakościowych. Źródło: Flick (1998, s. 25) Wiarygodność Wielkim problemem badania jakościowego jest wiarygodność jego wyników. Badanie ilościowe wykorzystuje narzędzia o ustalonej rzetelności i trafności, a osoba zbierająca dane nie może nieświadomie ukierunkowywać zachowania badanych, ponieważ nie zna założeń badania, a zwłaszcza hipotezy, którą ma ono sprawdzić. Także analiza danych, prowadzona standardowymi technikami statystycznymi, a często skomputeryzowana, znacznie ogranicza możliwość stronniczych ingerencji w układ wyników. Wiarygodność jest tu więc produktem automatyzacji procedury badawczej. Dzięki automatyzacji osoba badacza: jego poglądy, pragnienia, styl porozumiewania się z ludźmi itp. zostaje oddzielona od danych. W badaniu jakościowym automatyzacja jest wykluczona. Badacz angażuje się w badaną rzeczywistość, co znaczy, że może świadomie lub nieświadomie narzucać badanym swój punkt widzenia. Gdy analizuje zbiór tekstów, czyni to zawsze z pewną myślą, a to znaczy – selektywnie. Luźna kompozycja doniesienia naukowego sprzyja eksponowaniu tekstów (np. cytatów, opisów interakcji) uderzająco zgodnych z proponowanym rozumieniem badanego zjawiska i pomniejszaniu wagi lub wręcz pomijaniu tekstów niezgodnych. Czytelnik doniesienia może być pewny, że to, o czym czyta, rzeczywiście się zdarzyło, nie wie jednak, co działo się ponadto, a nie mając kontaktu z całym materiałem, nie może kontrolować poprawności wniosków, jakie mu badacz podsuwa. Rzetelność i trafność Trudność tę dobrze rozumieją niektórzy zwolennicy badań jakościowych i by jej zaradzić, wprowadzają odpowiedniki pojęć używanych do oceny wiarygodności badań ilościowych. Najdalej poszli tą drogą Kirk i Miller (1986) w książce pod znamiennym tytułem Rzetelność i trafność w badaniach jakościowych1. Mówiąc 1 Jak zobaczymy, rzetelność i trafność to nierozłączna para bohaterów każdego doniesienia z badań ilościowych. Wiarygodność 31 o rzetelności, rozważają kilka jej rodzajów. Wymaganie stałości wyników uzyskiwanych tą samą metodą nazywają rzetelnością nierealistyczną (quixotic), jeśli bowiem dostajemy ciągle taki sam obraz, powinniśmy raczej podejrzewać badacza o zamierzoną stronniczość. Wymaganie stałości wyników w czasie to rzetelność diachroniczna – też wątpliwa, bo rzeczywistość nie jest niezmienna. Wymaganie zbieżności wyników uzyskanych różnymi metodami, który nazywają rzetelnością synchroniczną, pokrywa się z triangulacją, o której za chwilę. We wszystkich tych przypadkach rzetelność łączy się z odtwarzalnością wyniku, co jest właściwe raczej potocznej niż naukowej odmianie tego pojęcia. Z pewnością natomiast rzetelność jest sprawą redukcji przypadkowości we wszystkich etapach badania. Służą temu standaryzacja procedury i szkolenie osób mających prowadzić wywiady lub obserwacje. Przyjmuje się jednolitą formę notatek terenowych (zwłaszcza gdy badanie prowadzi kilka osób). Regularnie przegląda się protokoły z wywiadu lub obserwacji, by zapobiec bezwiednym zmianom stylu pytań lub formy rejestracji. W fazie analizy i interpretacji sprawdza się wyłaniające się kategorie na innych fragmentach tekstu lub innych tekstach. Zawsze zachowuje się wyraźną granicę między tym, co zostało powiedziane lub zaobserwowane w terenie, a tym, co badacz z tego wywnioskował. Wreszcie wymaga się, by całe postępowanie było dokumentowane w dzienniku terenowym. Trafność Kirk i Miller (1986) sprowadzają do pytania, czy badacz widzi to, co myśli, że widzi. Trzy błędy wchodzą tu w grę: • badacz spostrzega coś, czego nie ma, • badacz nie spostrzega czegoś, co jest, • badacz stawia nietrafne pytania wobec tego, co jest. Stosunku między badaną rzeczywistością a jej wersją dostarczoną przez badacza nie da się definitywnie określić, zresztą w badaniu jakościowym idzie nie tyle o odzwierciedlenie rzeczywistości, ile o jej przedstawienie. Można jednak pytać, w jakim stopniu konstrukcje badacza są zakorzenione w konstrukcjach osób badanych i w jakim stopniu to zakorzenienie jest widoczne dla czytelnika. Pierwszą przesłanką oceny trafności są warunki, w jakich powstają dane. W odniesieniu do wywiadu sprawdza się, czy sytuacja badania gwarantuje autentyczność danych. Na przykład jeśli w protokole z wywiadu narracyjnego (o którym więcej w rozdz. 7) jest mało narracji, to znak, że badanego coś krępowało. Ogólniej – można pytać, czy treść wypowiedzi jest poprawna, sensowna i szczera. Jeśli natrafi się na ślad, że badany miał powód do skonstruowania stronniczej wersji swojego doświadczenia, dane uważa się za nieautentyczne. Niektórzy radzą, by po zrobieniu protokołu z pierwszej sesji zorganizować drugie spotkanie z badanym, pokazać mu protokół wraz z uwagami i prosić o ustosunkowanie się. Jest jednak wątpliwe, czy aprobata badanego może rozstrzygać o autentyczności, zwłaszcza w tych punktach, które umykają jego świadomości. Wielekroć się przekonałem, z jaką energią nauczyciele odrzucają przypuszczenie, jakoby odmiennie traktowali uczniów i uczennice, mimo że sami wcześniej dostarczyli mu mocnych podstaw. Inna rada to śledzić w protokole wywiadu ślady wzajemnego dogadywania się badacza i badanego co do intencji ich słów. Czasem te ślady są widoczne (bada- 32 Rozdział 2. Badania ilościowe i jakościowe ny prosi o wyjaśnienie pytania, badacz parafrazuje wypowiedź badanego, by się upewnić, że dobrze ją zrozumiał itp.), czasem nie (badacz nie reaguje na mylne zrozumienie pytania przez badanego). Jeśli nie widać, by obaj troszczyli się o wiarygodność powstającego tekstu, można mieć wątpliwości co do jego autentyczności. W odniesieniu do badań etnograficznych Wollcot (1990, s. 127n) radzi, by w terenie badacz powstrzymywał się od przemawiania, a nastawił na słuchanie, robił możliwie najdokładniejsze notatki, nie zwlekał z pisaniem doniesienia i robił to tak plastycznie, by czytelnik mógł zobaczyć to, co widział badacz. Doniesienie powinno być kompletne, bezstronne i zrównoważone. Trzeba je pokazać ludziom z badanego terenu, a przynajmniej innym badaczom, i prosić o krytykę. Sprawie trafności służy świadomość badaczy, że oni sami są ważnym elementem kontekstu, przeto wpływają na treść wytwarzanych tekstów. Taką świadomość nazywa się refleksyjnością. Badacz refleksyjny zawsze bierze pod uwagę możliwość, że on sam mógł się przyczynić do tego, że badany okazał raczej współczucie niż oburzenie, raczej kooperował niż rywalizował z innymi itp., i dlatego sprawdza swoje spostrzeżenia, np. ponawiając pytanie w zmienionej formie czy podejmując obserwację w innych warunkach. Zauważmy na koniec, że trafność badania jakościowego wchodzi w konflikt z jego rzetelnością. Rzetelność wymaga standaryzacji, trafność – odchodzenia od standaryzacji. Jeśli badacz troszczy się o autentyczność tekstu, to słucha badanego z pewną dozą krytycyzmu, gotów zawsze upewnić się co do znaczenia, sprawdzić szczerość itd. To jednak znaczy, że nie trzyma się ustalonej procedury i otwiera wrota przypadkowi. Z tej trudności, nieznanej badaczom stosującym podejście ilościowe, płynie wniosek, że trzeba ostrożniej kopiować pojęcia. Klasyczne pojęcie rzetelności niezbyt się nadaje do oceny badań, w których granica między tym, co należy do samej rzeczy, a tym, co zewnętrzne i przypadkowe, jest z istoty zatarta. Lepiej więc byłoby mówić nie tyle o rzetelności, ile o zwykłej staranności. Sprawdzanie takiej właśnie staranności proponuje się czasem powierzyć niezależnemu audytorowi. Jeśli każdy krok przedsięwzięcia badawczego jest udokumentowany, to audytor może ocenić wszystko: staranność zbierania i rejestrowania surowych danych, redukowania i rekonstrukcji danych, integracji teoretycznej oraz doniesienia naukowego. Audytor sprawdza, czy właściwie dobrano osoby do badania, czy starannie zebrano dane, dobrze osadzono kategorie w danych, przeprowadzono poprawne wnioskowania, uwzględniono alternatywne wyjaśnienia itd. Szczególną uwagę zwraca na ślady możliwej stronniczości badacza – sympatyzowanie z jedną tylko stroną, niejawne redefinicje przedmiotu w trakcie badania, przedwczesne zamknięcie poszukiwań, pozostawienie niezanalizowanych danych, a zwłaszcza pominięcie przypadków niemieszczących się w kategoriach czy hipotezie itd. Ocenia też poziom bieżącej ewaluacji badania. Triangulacja Nie tylko rzetelność, ale i trafność uważają niektórzy za pojęcie mało użyteczne w badaniach jakościowych. Trafność wiąże się z oceną wyniku: pytaniem, czy odniesienie przedmiotowe doniesienia naukowego koresponduje z samym Wiarygodność 33 przedmiotem, lub prościej – czy opis zgadza się z rzeczywistością. Ale w tradycji jakościowej o rzeczywistości mówi się niechętnie z racji kryzysu reprezentacji. Ważniejsze niż trafność jest więc ugruntowanie wiedzy. Ugruntowanie jest związane z cechami procesu wytwarzania wiedzy: otwartością i brakiem stronniczości. Wytwórca wiedzy ugruntowanej zbiera fakty i trzyma się faktów, choć ciągle jest świadomy, że wiele może przeoczyć, że jego fakty mogą być artefaktami lub że mogą nie przystawać do jego pojęć. Kontrola ugruntowania polega na porównywaniu różnych wersji badanego miejsca. Nazywa się ją triangulacją, przez analogię do geodezyjnej metody wyznaczania położenia pewnego punktu przez obserwowanie go z dwóch innych punktów. Denzin (1989, s. 237n) wyróżnia 4 typy triangulacji: • Triangulacja źródeł – porównuje się dane pochodzące od różnych osób, z różnych miejsc terenu i z różnego czasu. • Triangulacja badaczy – porównuje się wnioski, do których dochodzi kilku badaczy pracujących w tym samym terenie. Jeśli dwie osoby niezależnie zbierające dane o życiu młodzieży w pewnej dzielnicy miasta dochodzą do podobnych wniosków, ich wiarygodność wzrasta. W przeciwnym razie rodzi się podejrzenie, że wnioski odzwierciedlają indywidualne nastawienia badaczy. • Triangulacja metod – porównuje się dane zebrane różnymi metodami, np. za pomocą ankiety i wywiadu. • Triangulacja teorii – porównuje się interpretacje danych w różnych perspektywach teoretycznych. Te odmiany triangulacji mogą współwystępować ze sobą. Jeśli chcemy poznać relacje współpracy i antagonizmu w klasie szkolnej, możemy wybrać kilka oddziałów z różnych szkół (źródła), zatrudnić dwóch badaczy (badacze), zaplanować obserwacje na przerwach oraz wywiady z uczniami (metoda), uzupełnić je wywiadami z nauczycielami (źródła), a zebrany materiał przeszukiwać pod kątem subiektywnych definicji współpracy i antagonizmu (interakcjonizm symboliczny) oraz społecznych metod podtrzymywania współpracy i antagonizmu (etnometodologia) (teoria). Byłoby naiwnością spodziewać się, że obraz badanych relacji zawsze będzie taki sam, jednak tam, gdzie pojawią się poważne rozbieżności, powinniśmy podejrzewać niedostatek ugruntowania. Indukcja analityczna Indukcja analityczna to jeszcze bardziej radykalny sposób podniesienia wiarygodności wyników. Jak każda indukcja, polega ona na wyprowadzaniu hipotez z danych i sprawdzaniu ich na danych (Robinson, 1951). Obóz badań jakościowych cofa się tym samym do przedpopperowskiego, pozytywistycznego okresu świadomości naukowej2 . Inaczej jednak rozkłada się akcenty: przypadki wyłamujące się z hipotezy nie są pomijane, lecz uwydatniane. 2 Jak zobaczymy w rozdz. 3, we współczesnej tradycji ilościowej inaczej rozumie się hipotezę. Wielu zwolenników tradycji jakościowej świadomie zwraca się do indukcji, by pozbyć się teorii stojącej między badaczem a badanym światem. Nie przeszkadza to prozelitom oskarżać tradycję ilościową o związki z pozytywizmem. 34 Rozdział 2. Badania ilościowe i jakościowe Indukcja analityczna zaleca, by sformułowawszy hipotezę, sprawdzać ją przypadek po przypadku. Jeśli któryś z rzędu zaprzeczy hipotezie, trzeba albo przeformułować hipotezę, albo tak zredefiniować badane zjawisko, że nieposłuszny przypadek przestaje się mieścić w jego zakresie i można go wyłączyć z analizy. Po każdym takim zabiegu sprawdzanie trzeba zacząć od początku, jest bowiem możliwe, że przypadki potwierdzające starą wersję hipotezy nie potwierdzą nowej albo nie mieszczą się w nowej definicji przedmiotu badania. W końcu jednak niezgodne przypadki przestaną się pojawiać. Hipoteza zyskuje wtedy status teorii doskonale ugruntowanej w danych. Uogólnianie W tradycji ilościowej nic tak nie wpływa na wiarygodność wyników, jak odtworzenie się ich w niezależnym badaniu. Jeśli inni badacze nie są w stanie uzyskać takich wyników, jak moje, wiarygodność moich wyników jest wątpliwa, choćbym zastosował nieskazitelnie poprawną procedurę badawczą. W tradycji jakościowej sprawa jest bardziej złożona. Jeśli badanie przeprowadzono bezbłędnie, wyniki badania można uznać za wiarygodne. Można je ogłosić, ponieważ powiększają naszą wiedzę o zbadanych terenach czy osobach. Co jednak z innymi terenami i osobami – czy wykryte prawidłowości stosują się także do nich? Czy tradycja jakościowa pozwala uogólniać wyniki badania? Zwolennicy tej tradycji zajmują tu niezbyt konsekwentne stanowisko. Przyznając, że uogólnianie wyników nie ma uzasadnienia, dopuszczają jednak możliwość „przenoszenia” (transferability) wyników uzyskanych w jednym kontekście na inne konteksty, jeśli tylko są one podobne do pierwszego. Niestety, „przenoszenie” i „uogólnianie” to niemal synonimy. Obiekty podobne do siebie pod pewnym względem zawsze można nazwać desygnatami jednego pojęcia, a jeśli tak, to przenoszenie jest równoznaczne z wnioskowaniem „z niektórych o wszystkich”. Co gorsza, podobieństwo między obiektami tak złożonymi jak szkoły czy biografie ludzkie jest pojęciem nieobiektywnym. Mówiąc, że dwa obiekty są podobne, ponieważ zajmują zbliżone pozycje na jednym lub kilku wymiarach znaczeniowych, ignorujemy fakt, że zajmują one odmienne pozycje na wielu innych wymiarach. Wystarczy zmienić perspektywę, by obiekty podobne stały się niepodobne, a obiekty odmienne zbliżyły do siebie. Można się pocieszać, że pierwsze z tych wymiarów są ważniejsze niż drugie, ale skąd to wiadomo? Świadomi tej trudności zwolennicy badań jakościowych powiadają, że trzeba systematycznie badać wpływ różnych wymiarów kontekstu na wykrytą prawidłowość. Stwierdziwszy na przykład, że w małej szkole wyznaniowej najlepsi uczniowie są najsilniej związani z ortodoksją religijną, badacz powinien następnie poszukać tej prawidłowości w dużej szkole wyznaniowej, potem w małej i dużej szkole świeckiej itd. Niestety, potencjalnie istotnych wymiarów szkoły jest zbyt dużo. Gdybyśmy chcieli sprawdzić każdą kombinację (np. szkoła duża, świecka, niepubliczna, współpracująca z lokalnym uniwersytetem itd.), musielibyśmy w nieskończoność powtarzać to samo badanie, wskutek czego przestałoby się ono różnić od standardowego badania ilościowego. Mimo to nigdy nie mielibyśmy pewności, czy prawidłowością nie rządzi jakiś nieuwzględniony dotąd aspekt szkoły. Współpraca 35 Systematyczne badanie wpływu kontekstu jest wątpliwe także dlatego, że oprócz błędów systematycznych występują błędy losowe. Przypisując pewną własność Q obiektom mającym cechę A zamiast obiektom mającym zarazem cechy A i B, popełniam błąd systematyczny, polegający na nieuwzględnieniu cechy B. Błąd ten skoryguję, jeśli odkryję przypadek A niemający Q i domyślę się roli B. Błędów losowych tak łatwo skorygować się nie da. Ten sam człowiek dziś błyszczy inteligencją, jutro wydaje się zupełnie przeciętny. W tej samej szkole raz panuje atmosfera sennego przygnębienia, innym razem – radosnego ożywienia. Na błędy losowe jest tylko jeden sposób: powtarzać i uśredniać pomiary. Przed tym jednak tradycja jakościowa broni się najbardziej, wtedy bowiem rozpuściłaby się w tradycji ilościowej. Lepiej więc, żeby się wyrzekła ambicji uogólniania swoich wyników. Współpraca Okazuje się, że mimo wszystkich odmienności obóz badań jakościowych nie jest wrogi celom nauki – odrzucając bowiem jedne ograniczenia, wprowadza inne, w trosce o prawomocność, wiarygodność i precyzję sądów. Odmienności te zresztą są tyleż epistemologiczne, ile psychologiczne: duża ich część wiąże się z postawą wobec zawodu badacza. Jak wszędzie, tak i w nauce są „rzemieślnicy” i „artyści”. Artysta to ktoś otwarty, ciekawy szczegółu, a przede wszystkim niechętny rutynie. Pracuje bez reguł i dopiero gdy rzecz ukończy, formułuje reguły, których się trzymał. Mniej dba o procedurę niż o końcowe wrażenie, jakie zrobi swoim doniesieniem. Chce jednak zrobić wrażenie nie elegancją języka i walorami retorycznymi testu (choć i o to zabiega), lecz nową wiedzą, która byłaby czymś więcej niż projekcją jego wyobrażeń i postaw. Jest zrozumiałe, że tacy artyści zasilają obóz badań jakościowych. Dlatego – zauważmy na marginesie – nie mogą się powieść próby wprowadzenia sztywnego schematu oceniania badania jakościowego. Wystarczy zresztą rzut oka na publikowane propozycje, by się przekonać o ich bezużyteczności. Z jednej strony – wdzierają się w proces myślenia badacza (np. „Jak wybrano kategorię centralną, dlaczego tę, czy wyboru dokonano nagle, czy stopniowo, czy był on trudny, czy łatwy?”), z drugiej – są tak ogólnikowe, że niczego nie mogą zdyskwalifikować (np. „Czy szersze warunki, które wpływają na badane zjawisko, zostały wbudowane w jego wyjaśnienie?”). W badaniach jakościowych nie warto mnożyć reguł – zastępuje je zwiększona odpowiedzialność badacza za wynik jego pracy. Ten aspekt badań jakościowych powinien nieco chłodzić entuzjazm początkujących badaczy (np. magistrantów czy doktorantów). Podejście jakościowe może się im wydać pociągające, ponieważ przypomina codzienny proces poznania społecznego, no i nie wymaga znajomości statystyki. Ale może się okazać, że po miesiącach ciężkiej pracy przygniata ich góra danych, z których nie wyłania się żadne odkrycie. Zabrakło przebłysku intuicji, która jest niezbędna, by podjąć trafną decyzję, jakie dane zbierać i jak je analizować. Ta intuicja jest sprawą szczęśliwego trafu, który jednak częściej się zdarza badaczom o dużej wiedzy i wrażliwości. 36 Rozdział 2. Badania ilościowe i jakościowe Z powyższego płynie wniosek, że różnice między oboma obozami nie wykluczają współpracy. Dialog rzemieślnika z artystą pozostaje możliwy i płodny, bo obaj zmierzają do podobnych celów, tyle że wychodzą z odmiennych przesłanek. Ogólne cele badania jakościowego nie są inne niż cele badania ilościowego. Badanie jakościowe może mieć cel praktyczny: dostarczyć przesłanek do decyzji lub oceny. Może też mieć cel teoretyczny: gromadzić wskazówki co do budowy teorii lub sprawdzać teorię. Większość badań jakościowych to badania eksploracyjne, weryfikacyjne albo eksploracyjno-weryfikacyjne. Mogą występować samodzielnie lub w połączeniu z badaniami ilościowymi. Niżej kilka typowych wariantów. Inne znajdzie czytelnik w podręcznikach Denzina i Lincoln (1994) oraz Milesa i Hubermana (1984). Badanie jakościowe prowadzące do teorii jednostkowej. Może to być teoria jednej organizacji (np. hospicjum lub szkoły), społeczności (np. gangu młodzieżowego), przedsięwzięcia społecznego (np. reformy oświaty) czy nawet jednej historii życia. Wprawdzie takiej teorii nie można uogólnić na inne obiekty, ale wzbogaca ona – jeśli tylko jest dobrze zakorzeniona w danych – nasz repertuar wyjaśnień, uświadamia, że istnieje jeszcze jeden wariant ludzkiej odpowiedzi na nieskończenie złożony strumień życia. Nie bez racji powiada się, że kolekcja takich wyjaśnień lepiej służy zrozumieniu społecznego świata niż jedno proste uogólnienie, które właśnie ze względu na swoją prostotę i ogólność niebezpiecznie zbliża się do stereotypu. Badanie jakościowe prowadzące do typologii. Od czasów M. Webera typem idealnym nazywa się wewnętrznie spójny obiekt wzorcowy utworzony przez połączenie cech przysługujących w różnym stopniu rzeczywistym obiektom. Rzeczywiste obiekty uważa się za realizacje typu (w podobnym sensie, w jakim się mówi, że każde wykonanie na przykład Symfonii pastoralnej jest realizacją partytury Beethovena), tj. przyjmuje się, że ich idealność jest „zanieczyszczona” przez szczególne warunki, w jakich powstały i istnieją. Po dołączeniu dwóch relacji: równości i przewyższania typ może służyć szeregowaniu rzeczywistych obiektów ze względu na liczbę i nasilenie cech wzorca. Pojedynczy typ zwiększa precyzję terminologii naukowej (np. pozwala odróżnić kościół od sekty), a zbiór typów tworzy typologię (np. rodziny, praktyk oświatowych). Te korzyści poznawcze zależą jednak od prawomocności typu. Ponieważ z reguły nie ma on desygnatów, nie można go sprawdzić przez proste odwołanie się do rzeczywistości. Jego prawomocność zależy więc od tego, jak dobrze znaliśmy rzeczywiste obiekty, z których go wywiedliśmy. Jeśli mieliśmy o nich jedynie potoczną wiedzę, typ jest fikcją – przypadkową, jedną z wielu równie możliwych, a więc bezużyteczną. W im większym stopniu rozumiemy jednostkowe obiekty, tym mniej arbitralny jest typ. Dlatego użyteczne typologie wyrastają z badań jakościowych, a badania ilościowe jedynie kontrolują ich zupełność i niesprzeczność. Badanie jakościowe jako wstęp do badania ilościowego. Można to rozumieć tak, że wnioski z badań jakościowych są źródłem wartościowych hipotez dla badania ilościowego. Sprawdzać można przewidywania teorii jednego przypadku lub przewidywania wynikające z prób pogodzenia kilku sprzecznych teorii jednostkowych. W innym sensie badanie jakościowe pomaga zaplanować badanie ilościowe Współpraca 37 i opracować narzędzia pomiaru. Często na przykład prowadzi się najpierw swobodne wywiady lub grupy tematyczne z udziałem nielicznych, celowo dobranych osób, by dowiedzieć się, o co i jakimi słowami zapytać badanych w kwestionariuszu. Gotowy kwestionariusz stosuje się następnie na próbce reprezentatywnej, a odpowiedzi badanych analizuje metodami statystyki indukcyjnej. Badanie jakościowe pomagające zrozumieć wyniki badania ilościowego. Jeśli w badaniu ilościowym wykrywa się intrygującą regularność, to badanie jakościowe, uwzględniające pełny kontekst zjawiska, może pozwolić ją zrozumieć. Dotyczy to zwłaszcza regularności makrospołecznych (np. nierówności oświatowych), o których można sądzić, że są wytwarzane na poziomie mikrospołecznym (np. w życiu rodzinnym, sąsiedzkim lub szkolnym). Literatura pedagogiczna wielokrotnie odnotowywała z dezaprobatą spadek liczby dzieci objętych wychowaniem przedszkolnym w Polsce lat dziewięćdziesiątych, nikt jednak, o ile wiem, nie próbował wyjaśnić tego faktu na poziomie mikrospołecznym, bez czego trudno myśleć o skutecznych strategiach zaradczych. Wiele lat temu jeden z moich studentów, zapoznawszy się z wynikami badania ilościowego, które świadczyły, że osoby altruistyczne są zarazem poznawczo zależne od otoczenia, zapytał z pozorną naiwnością, czy nie było wyjątków od tej prawidłowości. Kiedy wyjaśniłem, że wyjątki zdarzają się zawsze, bo w naukach społecznych współczynniki korelacji nigdy nie zbliżają się do jedności, powiedział, że prawidłowość ilościowa pozostanie niejasna, dopóki nie przyjrzymy się każdemu wyjątkowi z osobna i nie zrozumiemy, skąd się wzięła jego wyjątkowość. Wtedy takie postępowanie nie mieściło się w kanonie metodologicznym. Dziś wydaje się programem godnym polecenia. Badanie ilościowe sprawdzające wyniki badania jakościowego. Związki ujawnione w badaniu jakościowym można niekiedy sprawdzić za pomocą kwantyfikacji tekstów i poddania ich bezstronnym metodom analizy statystycznej. Jeśli analiza ilościowa potwierdzi związek, staje się on bardziej wiarygodny, niż gdy opiera się jedynie na zapewnieniach autora i garści cytatów lub obserwacji. Jakościowe i ilościowe metody analizy danych można łączyć w jednym przedsięwzięciu badawczym. Jeśli badacz zaczyna od zbierania tekstów, może je poddać kwantyfikacji i szukać interesujących związków ilościowych, a znalazłszy – powrócić do tekstów, by zrozumieć, co je wytwarza. Może też zacząć od badania ilościowego, po czym – jak chciał mój student – przyglądać się przypadkom wyłamującym się z wykrytej regularności. Badanie jakościowe i ilościowe jako niezależne i uzupełniające się przedsięwzięcia naukowe. Wiele zagadnień oświatowych ma dwa aspekty: obiektywny (rozkłady cech i działań w populacji) i subiektywny (indywidualne doświadczenia, poglądy, uczucia i działania). Załóżmy, że chcemy stworzyć pedagogiczną teorię niepełnosprawności umysłowej. Aspekt subiektywny: doświadczenia osób upośledzonych może ujawnić jedynie badanie jakościowe. Aspekt obiektywny: skuteczność szkolnictwa specjalnego w przygotowywaniu tych osób do życia w społeczeństwie wymaga badania ilościowego (np. porównawczego badania losów życiowych reprezentatywnej próbki absolwentów tych szkół). Poprzestanie na badaniu jednego rodzaju grozi jednostronnością wniosków. Rozdział 3 BADANIA UOGÓLNIAJĄCE W tym rozdziale zajmiemy się badaniami, w których badacz zbiera dane o pojedynczych obiektach po to, by wypowiadać się o całym ich zbiorze, czyli populacji. Istotą badań uogólniających jest dezindywidualizacja badanych obiektów. Poddając pomiarom zachowanie Jana czy Piotra, abstrahujemy od wszystkiego, co ich wyróżnia spośród innych ludzi, interesują nas bowiem nie oni sami, lecz wszyscy ludzie podobni do nich pod pewnym względem. Kiedyś dokonałem następującego odkrycia: w pewnym zadaniu umysłowym Jan i kilkunastu jego rówieśników z IV klasy popełnili dużo więcej błędów niż Piotr i kilkunastu jego rówieśników z klasy zerowej (Konarzewski, 1985). Wynik ten nic nie mówi o Janie czy Piotrze – twierdzę bowiem, że ktokolwiek byłby na ich miejscu, wynik byłby taki sam. Nie mówi też nic o konkretnym zadaniu, które postawiłem dzieciom. O czym więc mówi? O zmianach, które zachodzą w populacji rozwijających się dzieci (dokładniej: o pojawieniu się pojęcia niezmiennika w stadium operacji konkretnych). Jest to typowy przykład badania uogólniającego. Badania tego rodzaju mają kilka charakterystycznych cech: • są ukierunkowane przez gotową lub tworzącą się teorię, • są prowadzone na próbkach, czyli względnie małych zbiorach obiektów reprezentujących większe (czasem nieskończone) zbiory obiektów, • redukują właściwości obiektów biorących udział w badaniu do niewielkiej liczby zmiennych, • zawierają specjalne zabezpieczenia służące obronie prawomocności wniosków. Omówimy dokładniej te cechy z wyjątkiem pojęcia próbki, któremu jest poświęcony cały rozdz. 6. Zmienna W języku potocznym mówimy o cechach, a w języku badań ilościowych o zmiennych. Kryje się za tym głęboka różnica pojęciowa. Cecha to atrybut obiektu, coś, co obiekt ma. Zmienna to zbiór stanów, w których obiekt może być. Stany te są rozłączne, a ich zbiór jest wyczerpujący, tzn. pozwala scharakteryzować każdy obiekt należący do rozpatrywanego zbioru obiektów. Sens pojedynczego stanu zależy od pozostałych. Gdy słyszę o Janie, że jest przyzwoitym człowiekiem, nie Zmienna 39 mogę być pewny, co to znaczy, dopóki nie poznam innych określeń stosowanych przez moich rozmówców do oceniania moralności. Załóżmy, że pierwszy z nich stosuje tylko dwa określenia: „łobuz” i „przyzwoity”, a drugi trzy: „łobuz”, „przyzwoity” i „szlachetny”. Od razu widać, że pierwszy ma wyższe mniemanie o Janie niż drugi, mimo że obaj użyli identycznego słowa. W matematyce, skąd wywodzi się pojęcie zmiennej, poszczególne stany nazywa się wartościami. Możemy więc powiedzieć, że zmienna to nazwa plus ustalony zbiór wartości. Zdefiniować zmienną to tyle, co wskazać ten zbiór. Płeć zatem to zmienna o dwóch wartościach: {kobieta, mężczyzna}, wiek ucznia w badaniu osiągnięć szkolnych szóstoklasistów to zmienna mogąca przyjmować wartości ze zbioru {132 ...180 miesięcy}. W tej książce zmienne będziemy oznaczać dużymi literami (np. X), a ich wartości małymi literami z subskryptami (x1, x2,..., xk). Typy zmiennych W badaniach społecznych zmienne dzieli się na obserwowalne i nieobserwowalne oraz na ustalone i losowe. Pierwszy podział odnosi się do sposobu poznawania wartości, jakie zmienna przybiera w poszczególnych obiektach. Zmienną nazywa się obserwowalną, jeśli jej wartości można dokładnie określić. To, czy biorą w tym udział gołe oko lub ucho, czy zmysły uzbrojone w przyrząd pomiarowy, jest obojętne. Zmiennymi obserwowalnymi są zatem zarówno trzeciorzędne (widoczne), jak i pierwszorzędne (niewidoczne) cechy płciowe, podobnie jak liczba poprawnych odpowiedzi w teście osiągnięć szkolnych, temperatura ciała itp. Zmienną nazywa się nieobserwowalną, jeśli jej wartości są dostępne jedynie za pośrednictwem zmiennych obserwowalnych. Mówimy wówczas o szacowaniu (estymacji) wartości zmiennej. Ponieważ pula zmiennych obserwowalnych jest zawsze niepełna, każdemu oszacowaniu towarzyszy błąd, którego wielkość nie jest znana. Przykładem zmiennej nieobserwowalnej jest poparcie dla pewnej partii w populacji wyborców, jeśli jej wartość (odsetek wyborców gotowych na nią głosować) szacuje się na podstawie deklaracji próbki wyborców. Innym przykładem są zmienne psychologiczne: zdolności (np. inteligencja) lub skłonności (np. neurotyzm). Wartość, jaką przyjmują u poszczególnych ludzi, można jedynie oszacować na podstawie zmiennych obserwowalnych (np. wyniku testowania). W obu przykładach szacunki są obarczone niedającym się usunąć błędem. Statystycy zwykli oznaczać zmienne nieobserwowalne literami greckimi, a obserwowalne – łacińskimi. Drugi podział odnosi się do niepewności co do wartości, jaką zmienna może przyjąć w obiekcie. Zmienną nazywamy losową, jeśli może swobodnie przyjmować każdą wartość z określonego zbioru z określonym prawdopodobieństwem. Taką zmienną jest na przykład odpowiedź uczniów na zadanie z testu osiągnięć szkolnych. Wiadomo, że każdy badany może odpowiedzieć na dwa sposoby: poprawnie lub niepoprawnie, i wiadomo, jakie jest prawdopodobieństwo każdej z tych wartości (tj. jaka jest trudność zadania), ale z góry nie wiadomo, jakiej odpowiedzi udzieli Jan czy Piotr. Zmienną nazywamy ustaloną, jeśli jej zmienność została ograniczona, zwykle decyzją badacza, tak że z góry wiadomo, jaką wartość przyjmuje w danym obiekcie. 40 Rozdział 3. Badania uogólniające Krzyżując ze sobą oba podziały, otrzymujemy 4 typy zmiennych. Zmienne niezależne to zmienne obserwowalne i ustalone. Odnoszą się one do oddziaływań lub właściwości badanych obiektów, które pozostają pod kontrolą badacza. Chcąc zbadać, powiedzmy, wpływ liczby powtórzeń pewnego tekstu na jego zrozumienie, musimy ustalić zmienną powtarzania – na przykład zdecydować, że jednej grupie uczniów tekst zostanie zaprezentowany raz, drugiej – trzy razy itd. Chcąc się dowiedzieć, jak dobrze rozumieją pewien tekst uczniowie w różnym wieku, musimy ustalić zmienną wieku, czyli przedstawić tekst 7-, 8- i 9-latkom. Zarówno liczba powtórzeń, jak wiek są zmiennymi obserwowalnymi, a nazywamy je ustalonymi, ponieważ z góry wiemy, jaką wartość przyjmą w każdym przypadku. Zmienne zależne to zmienne obserwowalne i losowe. Odnoszą się one do jawnego zachowania się lub jawnych cech obiektów scharakteryzowanych przez wartości zmiennych niezależnych. W powyższym przykładzie zmienną zależną jest liczba poprawnych odpowiedzi w teście rozumienia. Parametry to zmienne nieobserwowalne i ustalone. Parametrami są wartości różnych agregatów (np. proporcji lub średniej) w populacji, a także dyspozycje jednostek. Są one ustalone, ponieważ zakładamy, że istnieje prawdziwa wartość odpowiadająca społecznemu poparciu dla partii politycznej czy inteligencji Jana. Są jednak nieobserwowalne, ponieważ nie możemy bezpośrednio określić wartości, którą przyjmują w populacji lub osobie (dyspozycję osoby pojmuje się jako wartość oczekiwaną populacji wyników pomiaru tym samym narzędziem), i musimy się uciec do szacowania. Błędy to zmienne nieobserwowalne i losowe. Kiedy szacujemy parametr na podstawie wartości zmiennych obserwowalnych stwierdzonych w ograniczonej liczbie obiektów lub w ograniczonej liczbie sytuacji, nigdy nie możemy mieć pewności, że nasz szacunek pokryje się z prawdziwą wartością parametru w populacji. Socjolog stwierdził na przykład, że z 1000 dorosłych Polaków 600 zadeklarowało poparcie dla pewnej partii. Twierdząc, że w całej populacji dorosłych Polaków jest 60% zwolenników tej partii, naraża się na błąd zwany błędem próbkowania. Wielkości tego błędu nie da się określić, można jedynie oszacować jego zróżnicowanie. Jak zobaczymy w rozdz. 6, jest to podstawa wnioskowania o przedziale, w jakim może leżeć prawdziwa wartość parametru. Z czterech typów zmiennych najwięcej wątpliwości budzi rozpoznawanie w projektach badawczych zmiennych niezależnych i zależnych. Pogłębiają ją niektóre książki o metodologii badań społecznych. Częstym błędem jest wiązanie podziału na zmienne zależne i niezależne z wyobrażeniami o naturze rzeczywistości. Pewien autor twierdził, że zmienne „niezależne” to te, które nie podlegają woli człowieka, a „zależne” to te, które jej podlegają. Płeć czy pochodzenie społeczne ucznia byłyby w tym sensie „zmiennymi niezależnymi”, bo żadnym sposobem nie można ich zmienić, a jego osiągnięcia szkolne – „zmienną zależną”, bo mogą się zmieniać w zależności od ludzkich wysiłków. Inny błąd z tej samej parafii to utożsamienie zmiennych niezależnych z przyczynami zmiennych zależnych. Ten błąd przytrafia się nawet wytrawnym autorom prac metodologicznych. Ary i in. (1996, s. 363) dzielą badania porównawcze na Zmienna 41 dwa rodzaje. Pierwszy miałby polegać na tym, że tworzy się grupy badanych według wartości zmiennej „niezależnej” (np. w jednej umieszcza się uczniów z rodzin pełnych, w drugiej z rodzin niepełnych) i patrzy, czy te grupy różnią się pod względem zmiennej „zależnej” (np. czasu spędzanego na wagarach). W badaniach drugiego rodzaju miałoby się tworzyć grupy badanych według wartości zmiennej „zależnej” (np. jedną z osób, które skończyły szkołę średnią, drugą z tych, które przedwcześnie przerwały naukę) i sprawdzać, czy grupy te różnią się pod względem zmiennych „niezależnych” (np. jasności celów życiowych i samodyscypliny). Podobnie rzecz ujmuje Brzeziński (1997, s. 224-5). Jeśli wybieramy dwie próbki dzieci: zdrowych i dotkniętych zespołem Downa i badamy, w jakim wieku były ich matki w chwili porodu, to wiek matki w tych badaniach miałby być zmienną „niezależną”, a stan zdrowia dzieci zmienną „zależną”. W obu przykładach omawiany podział traci sens techniczny i odwołuje się do domniemanych związków przyczynowych w świecie. Jasność celów życiowych lub wiek matki nazywa badacz zmiennymi niezależnymi, ponieważ wydaje się mu, że są związane z przyczyną wytrwałego kontynuowania nauki lub przyjścia na świat potomka z zespołem Downa. Ale nasze stereotypowe przekonania o przyczynowo-skutkowej strukturze świata nie powinny być sankcjonowane w technicznym języku badania. Kłopot, jaki stąd wynika, widać w fazie analizy danych. Żeby odpowiedzieć na pytanie, czy wiek matki ma coś wspólnego z zespołem Downa u dziecka, trzeba przeprowadzić analizę wariancji, w której grupy porównawcze (dzieci z zespołem Downa i dzieci normalne) reprezentują dwie wartości zmiennej ustalonej, czyli niezależnej, a wiek matki jest wielowartościową zmienną losową, czyli zależną. Prowadzi to do wewnętrznie sprzecznego zdania, że zmienna niezależna jest zmienną zależną. Sprzeczność ta jest wynikiem ekwiwokacji, czyli użycia tych samych słów w dwóch różnych znaczeniach: technicznym i teoretycznym. Powtórzmy zatem: zmienna niezależna to taka zmienna, której wartości ustala sam badacz. Najłatwiej to zobaczyć w schemacie eksperymentalnym. Powiedzmy, że badacz chce się dowiedzieć, czy wielkość nagrody ma wpływ na wykonanie zadania. Wielkość nagrody jest zmienną niezależną, ponieważ badacz sam ustala jej wartości: decyduje, ile będzie miała wartości (np. trzy: mała, średnia i duża), i przyporządkowuje każdego badanego do jednej z nich. Jakość wykonania zadania jest natomiast zmienną zależną, czyli swobodną: badacz nie ma wpływu na to, jak dobrze wykona zadanie Jan czy Piotr. Jeśli jakość wykonania zadania w trzech grupach będzie się wyraźnie różnić, uznamy, że nagroda jest jedną z jej przyczyn. Jest to jednak wniosek z badania, a nie założenie, z którym przystępuje się do pracy. W schemacie porównawczym, w którym porównuje się próbki pobrane z ustalonych populacji (np. populacji dzieci zdrowych i populacji chorych), zmienną niezależną jest kryterium wyróżniające te populacje: {zdrowie, choroba}, a zmienną zależną – cechy, pod względem których są one porównywane. W sprawdzaniu hipotez przyczynowych możemy równie dobrze wychodzić od domniemanych przyczyn, co od domniemanych skutków. Żeby sprawdzić hipotezę: „P jest jedną z przyczyn Q” (w sensie: ilekroć P, to Q), możemy zebrać przypadki P i nie-P i zo- 42 Rozdział 3. Badania uogólniające baczyć, czy różnią się pod względem Q, albo zebrać przypadki Q i nie-Q i zobaczyć, czy różnią się pod względem P. W obu podejściach spodziewamy się różnicy, ponieważ prawdziwość hipotezy przesądza o niewystępowaniu przypadków, które są zarazem P i nie-Q. Które podejście wybierzemy, zależy od wygody i kosztu pomiaru P i Q: grupy porównawcze tworzymy zwykle za pomocą tańszego pomiaru. W badaniach przeglądowych, w których szuka się związków między zmiennymi losowymi w jednej próbce, po to by móc przewidywać Y na podstawie X, zmienną X uważa się za niezależną, ponieważ jej wartości muszą być ustalone, jeśli ma w ogóle dojść do przewidywania. Jeśli jednak badacz poprzestaje na współczynnikach korelacji, wyróżnianie zmiennych niezależnych i zależnych traci sens. W wielu doniesieniach z badań pedagogicznych oprócz zmiennych niezależnych i zależnych spotyka się zmienne „pośredniczące”, „interweniujące”, „modyfikujące” itp. To jeszcze jedna odmiana błędu, który polega na wiązaniu zmiennych z wyobrażeniami badacza o naturze rzeczywistości. Pewien badacz zdefiniowawszy cztery zmienne: ekstrawersję, umiejscowienie kontroli, motywację do nauki i osiągnięcia szkolne, oświadczył, że pierwsza jest niezależna, druga pośrednicząca, a trzecia i czwarta to zmienne zależne. Taki zabieg nazywa się szumnie budowaniem modelu. Jeśli jednak nie ma teorii uczenia się w szkole, która mówiłaby coś o związkach między zjawiskami wewnętrznymi i zewnętrznymi, taki model jest najzupełniej arbitralny, zatem bezwartościowy. Język zmiennych pośredniczących, interweniujących itp. jest surogatem takiej teorii i (jak każdy surogat) pozwala się bez niej obejść. Ponieważ podważa to sensowność pracy naukowej, zmienne z takimi przydawkami powinny zniknąć z naszych doniesień. Związki badania z teorią Badania uogólniające najczęściej wyrastają z zainteresowania teoretycznego. Czasem u początków badania stoi rozwinięta, sformalizowana teoria, czasem tylko luźny domysł czy przeczucie – zawsze jednak twór myśli wykraczającej poza bezpośrednie spostrzeżenia. Planując badanie, chcemy osiągnąć jeden z dwóch celów: zweryfikować twierdzenie teoretyczne lub uzyskać wskazówki co do treści twierdzenia teoretycznego. W pierwszym przypadku tym, co steruje planowaniem, jest hipoteza. W drugim – pytanie badawcze. Hipoteza Wokół pojęcia hipotezy panuje niezłe zamieszanie. Jedni, dziś w mniejszości, w ogóle nie używają tego pojęcia, twierdząc, że badanie naukowe polega na uogólnianiu jednostkowych obserwacji. Uczony miałby najpierw badać pojedyncze obiekty, notując swoje spostrzeżenia („Ten kruk jest czarny”), a zebrawszy dostateczną ich liczbę, zbudować twierdzenie ogólne („Zatem wszystkie kruki są czarne”). Takie stanowisko nazywa się indukcjonizmem. Inni, dziś w większości, nie rozstają się z tym pojęciem, twierdząc, że bez hipotezy nie ma badania naukowego, badanie bowiem miałoby się składać z trzech koniecznych kroków: Związki badania z teorią 43 • wykrycie i sformułowanie problemu, • wysunięcie hipotetycznego rozwiązania problemu, • sprawdzenie hipotezy. Trudno nie zapytać, czym sobie zasłużyła hipoteza na takie uznanie. Dużą rolę odegrała tu powierzchownie odczytana książka J. Deweya (1988) Jak myślimy? Jej autor wykazał, że w pełnym akcie myślenia nie może zabraknąć intuicyjnego przypuszczenia, skoku od tego, co zaobserwowane, do tego, co niezaobserwowane (np. od zjawiska do przyczyny, od wytworu do powodu) – w przeciwnym bowiem razie nasza myśl mogłaby tylko porządkować dostarczone informacje, od czego jednak nie przybywałoby wiedzy, podobnie jak nie przybywa słodyczy w herbacie pod wpływem jej mieszania. Wystarczy nazwać te przypuszczenia „hipotezami”, by dojść do wniosku, że musi je generować każdy myśliciel, a więc i badacz. Dlaczego jednak miałby się nimi dzielić z czytelnikiem? Czy doniesienie naukowe jest zapisem procesu myślowego badacza, rodzajem dziennika wewnętrznego? Przecież to nie badacz znajduje się w centrum uwagi. Jako czytelnika interesuje mnie rozwiązanie problemu, a nie prowadzące do niego operacje myślowe badacza. Zresztą akceptowanemu doniesieniu daleko do dziennika. Po pierwsze, zawiera tylko jedną hipotezę, mimo że Dewey napomina, by nie ograniczać się do jednego przypuszczenia („kultywowanie jak najróżnorodniejszych pomysłów jest bardzo ważnym czynnikiem dobrego myślenia”, s. 106). Po drugie, nie zawiera przypuszczeń nietrafnych, bo nie ma zwyczaju ogłaszania hipotez niepotwierdzonych przez wyniki badania. Jaką więc rolę odgrywa hipoteza w doniesieniu naukowym? Jeśli wyniki, mimo że niezgodne z hipotezą, wydają się interesujące, to zawsze można zmienić hipotezę, tak by się z nimi zgadzała. Czy to naganne? Nie, bo rzecz dotyczy prywatnych domysłów badacza, a celem badania nigdy nie jest sprawdzenie, czy miał on rację. Upierać się przy hipotezie może tylko ten, kto ją pojmuje na podobieństwo zakładu na wyścigach konnych. Zmienić zakład po biegu to oszustwo. Ale badanie nie jest biegiem mającym rozstrzygnąć czyjkolwiek zakład. Trzeba zatem inaczej zdefiniować hipotezę i lepiej osadzić ją w planie badania. Hipoteza to nie jest domysł lub przypuszczenie badacza, lecz wniosek logiczny z teorii, który odnosi się do dającego się zaobserwować stanu rzeczy. Gdy nie ma teorii, nie ma i hipotezy. Rolą zaś hipotezy nie jest bynajmniej ukierunkowanie procesu myślenia, lecz umożliwienie weryfikacji teorii. Rzecz w tym, że każda teoria jest bezpośrednio niesprawdzalna. Każde twierdzenie teoretyczne (np. „Ludzie reagują agresją na frustrację”), zawiera pojęcia nienaoczne (niefenomenalistyczne) i dlatego nie sposób stwierdzić, czy jest tak, jak ono głosi. Jedyny sposób to „ukonkretnić” twierdzenie, czyli wyprowadzić z niego wniosek pozbawiony pojęć nieobserwowalnych. Wnioskowanie przebiega według następującego schematu: Jeśli twierdzenie teoretyczne T jest prawdziwe, to w warunkach X da się zaobserwować stan rzeczy Y. Następnik w tej implikacji (w warunkach X da się zaobserwować Y) to właśnie hipoteza. W odniesieniu do podanego wyżej twierdzenia wnioskowanie może biec następująco: „Jeśli jest prawdą, że ludzie reagują agresją na frustrację, to studenci, 44 Rozdział 3. Badania uogólniające których poinformuję, że nie zaliczyli pracy seminaryjnej, uzyskają wyższe wyniki w skali agresywności Bussa niż studenci, którym powiem, że pracę zaliczyli”. Czytelnik zechce zauważyć, że hipoteza wynika logicznie z twierdzenia pod warunkiem, że zostanie ono wzbogacone o dodatkowe przesłanki dotyczące oddziaływań lub pomiarów, np. „Poinformowanie studenta, że nie zaliczył pracy, wywołuje w nim frustrację” i „Skala Bussa mierzy skłonność do agresji w sposób trafny i rzetelny”. Prawdziwość hipotezy można sprawdzić: wystarczy zrealizować opisane warunki, dokonać wskazanych pomiarów i porównać ich wyniki. Wtedy mamy jedno z dwojga: • Jeśli hipoteza okazuje się fałszywa, to albo samo twierdzenie, albo któraś z przesłanek towarzyszących jest fałszywa. Wprawdzie nie wiemy, czy fałszywe jest twierdzenie, czy przesłanki, czy twierdzenie i przesłanki naraz, ale możemy być pewni, że gdzieś kryje się błąd. • Jeśli hipoteza okazuje się prawdziwa, to teoria nie musi być prawdziwa, ale możemy mieć do niej większe zaufanie niż przed przeprowadzeniem badania1. Stawianie hipotez często bywa rażąco błędne. Hipoteza formalnie błędna to hipoteza niesprawdzalna lub niefalsyfikowalna. Niesprawdzalność, polegająca na tym, że projektowane badanie nie jest w stanie potwierdzić hipotezy, bierze się z niechęci do suchego języka zmiennych obserwowalnych. W doniesieniach pedagogicznych roi się od hipotez w stylu „Partnerskie stosunki między nauczycielem a uczniami umożliwiają pełniejszy rozwój osobowości dzieci niż stosunki dyrektywne”. Jak porównywać „pełnię rozwoju” osobowości dzieci w obu grupach? Po czym poznać, że stosunki partnerskie „umożliwiają” rozwój? Autor takiej hipotezy ma zwykle jej roboczą wersję, ale zachowuje ją dla siebie. Czytelnik musi ją sam zrekonstruować na podstawie zastosowanego schematu badania i metod pomiaru. Z reguły okazuje się ona odległa od wyrażonej na piśmie2. Hipoteza jest niefalsyfikowalna, gdy nie istnieje wynik, który mógłby ją obalić. Weźmy hipotezę: „Dzieci pochodzące ze wsi podejmują wyższe studia rzadziej niż dzieci pochodzące z miasta”. By ją odrzucić, wystarczy, żeby odsetek młodzieży ze wsi w jakimś roczniku studentów przewyższał odsetek młodzieży ze wsi w populacji młodzieży kraju sprzed 12 lat. Jaki jednak wynik zmusiłyby nas do odrzucenia hipotezy o stosunkach umożliwiających rozwój osobowości? Czy brak różnic w wynikach inwentarza osobowości w obu grupach? Nie – autor mógłby mimo to twierdzić, że te stosunki czynią rozwój możliwym. Ponieważ udowodnić niemożliwość można jedynie w naukach formalnych (niemożliwe jest kwadratowe koło), hipotezy nie może obalić żaden wynik empiryczny. Taka hipoteza nie może patronować żadnemu przedsięwzięciu naukowemu. Schemat zdaniowy ((T ^ P) → H) ^ H) → (T ^ P) nie jest tautologią, czyli prawem rachunku zdań, ale schemat ((T ^ P) → H) ^ ~H) → ~(T ^ P) jest. Dlatego z prawdziwości hipotezy nie możemy niezawodnie wnioskować o prawdziwości T ani P, ale z fałszywości hipotezy możemy niezawodnie wnioskować, że fałszywa jest T lub P, lub obie naraz. 2 Niektóre poradniki wzmacniają ten zwyczaj, zalecając, by badacz najpierw sformułował „hipotezę teoretyczną”, a potem „roboczą”. Jest to w najlepszym przypadku zbędne mnożenie pojęć, w najgorszym zaś sprowadza badanie na manowce. 1 Związki badania z teorią 45 Wskaźniki Hipoteza jest, jak widzieliśmy, pomostem między światem teorii a światem empirii. W świecie teorii występują pojęcia teoretyczne, a w świecie empirii – zmienne obserwowalne. Hipoteza przekłada twierdzenia teoretyczne na język związków między zmiennymi obserwowalnymi, dzięki czemu empiria może wziąć udział w dyskusji nad prawomocnością teorii. Wynika stąd, że w stawianiu hipotezy zawiera się czynność opisywana w podręcznikach metodologii jako operacjonalizacja lub dobieranie wskaźników. W naszym przykładzie dwuwartościowa zmienna: {poinformowanie studenta o niezaliczeniu, poinformowanie o zaliczeniu} odpowiada pojęciu frustracji, a zmienna wielowartościowa: wynik pomiaru skalą Bussa odpowiada pojęciu agresywności. Nie ma więc powodu, by rozwodzić nad rodzajami wskaźników i sztuką ich dobierania. Wystarczy rozpatrzyć kilka typowych zagadnień. Zacznijmy od przypadku najtrudniejszego: wskaźników zmiennych nieobserwowalnych. Dyspozycje psychiczne. Wskaźnikiem takich pojęć jak wiadomości, umiejętności, postawy, inteligencja czy neurotyzm jest wynik pomiaru zmiennej nieobserwowalnej (rozdz. 7). Zadanie badacza sprowadza się na ogół do wyszukania gotowego narzędzia, puszczając się bowiem na budowanie własnego, musiałby zapewnić mu odpowiednie właściwości psychometryczne (głównie trafność i rzetelność), co może pochłonąć więcej czasu i pieniędzy niż właściwe badanie. Kto by zaś podarował sobie tę pracę, popełniłby dyskwalifikujący błąd. Pewien badacz wymyślił świetny, jak mu się zdawało, wskaźnik pojęcia „identyfikacja ucznia z zespołem klasowym”: prosił dyrektora, by wzywał ucznia do swego gabinetu i pytał go, kim jest. Gdy uczeń podawał nazwę oddziału („Jestem z IVb”), uznawano go za identyfikującego się. Gdy opuszczał nazwę oddziału („Jestem Tomek Kowalski”) – za nieidentyfikującego się. Niestety, doniesienie autora zostało przyjęte kwaśno, ponieważ nie dostarczył on żadnych dowodów, że wzmianka o oddziale jest zachowaniem nieprzypadkowym i że ma coś wspólnego z identyfikowaniem się z zespołem klasowym. Procesy lub stany wewnętrzne. Wskaźnikiem takich pojęć jak frustracja czy motywacja jest oddziaływanie eksperymentalne. Wskaźnikiem pobudzenia motywacji do osiągnięć może być instrukcja wiążąca zadanie z poczuciem własnej wartości, wskaźnikiem niepokoju – zapowiedź bolesnych lub nieprzyjemnych doświadczeń, wskaźnikiem koncentracji na „ja” – ustawienie przed badanym lustra. W badaniach z udziałem zwierząt wskaźnikiem siły motywacji jest czas deprywacji jakiejś potrzeby (np. liczba godzin bez jedzenia). Od takich wskaźników wymaga się skuteczności, toteż badacz musi udowodnić, że jego oddziaływania rzeczywiście wywołują spodziewane procesy czy stany. Taki dowód najczęściej opiera się na wynikach pomiaru zmiennych nieobserwowalnych (chwilowy niepokój mierzy skala Spielbergera, motyw osiągnięć – liczba projekcji związanych z odnoszeniem sukcesu w metodzie McClellanda). W pozostałych przypadkach wskaźniki wywodzą się wprost z definicji terminów teoretycznych. Cechy jawnego zachowania się badanych. Pierwszym krokiem jest staranne zdefiniowanie zachowania, które interesuje badacza. Na przykład oszukiwanie to 46 Rozdział 3. Badania uogólniające korzystanie z niedozwolonych środków dla własnej korzyści. Ten warunek spełnia dziecko poprawiające ukradkiem błąd w swoim arkuszu testowym, który dano mu wraz z kluczem w celu samodzielnego obliczenia wyniku. Liczbę takich poprawek można równie dobrze nazwać wskaźnikiem, co miarą oszukiwania. Procesy lub stany zbiorowości. Wskaźnikiem jest zagregowana wartość indywidualnych pomiarów. Porządna definicja terminu teoretycznego powie, co i jak agregować. Wskaźnikiem ekonomicznej produktywności społeczeństwa jest wartość produktu krajowego brutto. Wskaźnikiem powszechności nauczania w społeczeństwie jest współczynnik skolaryzacji brutto lub netto (współczynnik brutto to wyrażony procentowo stosunek wszystkich osób uczących się w szkołach danego szczebla do populacji osób w wieku urzędowo przypisanym temu szczeblowi). Drugoroczność to odsetek uczniów powtarzających klasę. Dyskryminacja oświatowa danej grupy społecznej to odsetek dzieci z tej grupy w zbiorowości uczniów odniesiony do odsetka dzieci tej grupy w społeczeństwie. W badaniach systemu oświaty na ogół lepiej korzystać ze wskaźników przyjętych przez społeczność badaczy, niż wymyślać własne, ponieważ przekreśla to porównywalność wyników. Definicje wielu takich wskaźników znajdują się w wydawnictwie International Education Indicators (Paris 1991, OECD/CERI). Jeśli pomiarem objęliśmy wszystkie obiekty zbiorowości, to wskaźnik jest tożsamy z pojęciem, jeśli zaś tylko próbkę obiektów, to wskaźnik jest szacunkiem obarczonym błędem próbkowania. Złożona własność obserwowalna. Jeśli pojęcie teoretyczne oznacza własność będącą konstelacją innych własności, to wskaźnikiem pojęcia może być jeden czy kilka jego składników. Gdyby ktoś chciał, mógłby go nazwać metonimicznym (pars pro toto). Na przykład zamożność to różnica między wartością rynkową posiadanych dóbr a wartością zobowiązań. Nie mogąc zrobić kompletnego bilansu zamożności każdego badanego, możemy wybrać tylko jeden składnik (np. wartość samochodu). Pozycja społeczna ucznia w klasie to liczba pozytywnych ustosunkowań się do niego ze strony rówieśników. Ich próbkę możemy pozyskać metodą obserwacji lub socjometrii (rozdz. 7). Im jaśniejsze pojęcie, tym łatwiej ocenić trafność wskaźnika. Co składa się na poparcie reformy oświaty? Znajomość jej rozwiązań, pozytywna ocena rozwiązań, przygotowywanie się do wprowadzenia ich w życie, bronienie ich w publicznych dyskusjach. Możemy zdobyć dane o wszystkich tych składnikach i zbudować pełny wskaźnik poparcia. Możemy też wybrać jeden składnik, zdając sobie sprawę, że pierwszy jest mniej trafny niż czwarty. Nowak (1970) proponuje ponadto tzw. wskaźniki empiryczne. Są to zmienne związane ze zmienną wskazywaną nie analitycznie (mocą definicji), lecz empirycznie. Jest to wątpliwa propozycja. Można by na nią przystać, gdy dwie zmienne łączy związek przyczynowy. T. Tyszka zauważył, że dobrym wskaźnikiem przedsiębiorczości jednostki jest samodzielne obliczanie przez nią swojego podatku dochodowego. Jest tak dlatego, że osoba przedsiębiorcza skutecznie wyszukuje różne źródła zarobkowania, wskutek czego nie może zlecić wypełnienia swojego PIT-u pracodawcy (chyba że oszukuje fiskusa). Jeśli jednak związek jest korelacyjny, wnioskowanie o jednej zmiennej z drugiej bywa zawodne. Wiadomo, że ilość pie- Związki badania z teorią 47 niędzy na koncie jest dodatnio skorelowana z poziomem konsumpcji, czy można jednak – jak chce Nowak (s. 103) – uznać zasobność konta za wskaźnik poziomu konsumpcji? Co z ludźmi, którzy dochodzą do pieniędzy, ponieważ odmawiają sobie różnych dóbr konsumpcyjnych? Gdyby współczynnik korelacji znajdował się w okolicy 0,90, moglibyśmy zaryzykować błąd, ale tak wysokie współczynniki nie zdarzają się w badaniach społecznych. Generalnie – wynik badania powinien być sformułowany w terminach zmiennych, które faktycznie zmierzyliśmy. Jeśli zmierzyliśmy stan konta, nie wypowiadamy się o poziomie konsumpcji. Jeśli zmierzyliśmy opinie dyrektora o jakości pracy nauczyciela, nie wypowiadamy się o jakości pracy nauczyciela. Jeśli zmierzyliśmy zainteresowanie przedmiotem nauczania, nie wypowiadamy się o osiągnięciach w tym przedmiocie. Przybliżone ekwiwalencje są źródłem sprzeczności w wynikach badań. Im więcej mamy takich wyników, tym mniej jesteśmy pewni, jak się rzeczy mają. Pytanie badawcze W badaniach eksploracyjnych hipotez się nie stawia. To zrozumiałe: hipoteza jest wnioskiem z twierdzenia teoretycznego, a tu takiego twierdzenia jeszcze nie ma. Zamiast hipotezy stawiamy wówczas pytanie badawcze. Pytanie określa, czego się chcemy dowiedzieć, i w ten sposób ukierunkowuje planowanie badania. Nie znaczy to, że badanie eksploracyjne obywa się bez założeń teoretycznych. W istocie, badanie bezzałożeniowe jest niemożliwe, bo badać to korzystać z tego, co już wiemy, by poznać coś, czego jeszcze nie wiemy. Badanie eksploracyjne opiera się na teorii, tyle że niedostatecznie rozwiniętej: mającej fragmenty ogólnikowe, nieokreślone lub niedokładne. Pytania badawcze określają rodzaj informacji, dzięki którym dałoby się usunąć te wady. Większość pytań można zatem zaliczyć do jednej z trzech klas. Pytania dopełnienia. Stawia się je wtedy, gdy teoria wiąże pewne pojęcie z całą rodziną pojęć, zamiast z określonymi pojęciami z tej rodziny. Oto przykład. Zgodnie z teorią bezradności umysłowej najważniejszą przyczyną bezradności uczniów w jakimś przedmiocie nauczania są cechy praktyki dydaktycznej (Sędek, 1995). Teoria ta nie wskazuje jednak szczegółowych zachowań nauczyciela, które są odpowiedzialne za ten stan. By usunąć tę ogólnikowość, przeprowadziłem wraz z Sędkiem badanie, w którym wzięliśmy pod uwagę zarówno spostrzeżenia uczniów o pracy ich nauczycieli, jak i wyniki niezależnej obserwacji nauczycieli na lekcji. Badanie było podporządkowane pytaniu: „Czym różni się praktyka oświatowa nauczycieli mających wielu bezradnych uczniów od praktyki nauczycieli mających niewielu bezradnych uczniów?” Nazywamy je pytaniem dopełnienia, ponieważ wstawienie określonej cechy (np. „Tym, że pierwsi mówią dużo, niepewnie i niekonkluzywnie”) przekształca je w zdanie prawdziwe lub fałszywe. Badania eksploracyjne z pytaniem dopełnienia są bodaj najczęstszym rodzajem badań oświatowych. Pytania rozstrzygnięcia. Stawia się je wtedy, gdy w jakiejś sprawie teoria jest nieokreślona, tzn. dopuszcza odmienne przewidywania. Na przykład teoria wypalenia zawodowego dopuszcza różne przewidywania co do tego, w jakich sytu- 48 Rozdział 3. Badania uogólniające acjach przejawia się wypalenie nauczycieli. Jest możliwe, że wypalenie ogranicza się do sytuacji szkolnych, ale jest też możliwe, że sięga życia prywatnego. Badanie, które mogłoby pomóc w rozstrzygnięciu tej wątpliwości, byłoby podporządkowane pytaniu: „Czy życie prywatne nauczyciela wypalonego zawodowo różni się od życia prywatnego nauczyciela niewypalonego?” Pytania ilościowe. Stawia się je wtedy, gdy teoria mówi, że jedno zjawisko wpływa na inne, ale dopuszczając oddziaływania ze strony innych zjawisk, nie jest w stanie przewidzieć, jak silny jest ten wpływ. Wiadomo na przykład, że na osiągnięcia szkolne ucznia wpływa status socjoekonomiczny jego rodziny. Ale trudno przewidzieć, jak silny jest ten wpływ, ponieważ wiadomo też, że na osiągnięcia wpływa wiele innych czynników. Pytanie badawcze brzmi: „Jaki procent zróżnicowania wyników testu osiągnięć szkolnych wyjaśnia status socjoekonomiczny rodziny niezależnie od innych czynników?” Zauważmy, że w podanych przykładach hipoteza musiałaby być albo ogólnikowa, albo bezpodstawna. Zauważmy też, że jakkolwiek większość pytań wywodzi się z teorii naukowych, tyle że niedostatecznie rozwiniętych, są też możliwe pytania pochodzące z osobistej teorii (czyli doświadczenia życiowego) badacza. Odpowiedzi pomagają przekształcić taką osobistą teorię w teorię naukową. Niezależnie od źródła, z którego pochodzi pytanie badawcze, powinno być ono przemyślane i (podobnie jak hipoteza) sformułowane w terminach zmiennych obserwowalnych. Pełne zastosowanie mają tu wcześniejsze uwagi o wskaźnikach. Analiza danych z badania eksploracyjnego polega na pracowitym przekładaniu wyników tak długo, aż pojawi się wyraźny, dający się opowiedzieć obraz. Niczego się tu z góry nie ustala: ani porządku przyczynowego (możemy zacząć analizę od przypuszczenia, że X jest przyczyną Y, a potem wypróbować odwrotne przypuszczenie), ani nawet znaczenia pomiarów (możemy je redefiniować). Ale trzeba pamiętać, że badanie eksploracyjne dostarcza wiedzy niepewnej. Podsuwa pomysł na teorię, ale jej nie weryfikuje. Badanie weryfikacyjne często przynosi rozczarowanie. Obdarzony wyobraźnią badacz może na podstawie pewnego zbioru danych opowiedzieć piękną historię, która jednak nie daje się uogólnić. Nic dziwnego: im więcej wyników wykorzystuje ta historia, tym bardziej niepowtarzalny staje się ich zbiór i tym mniej jest prawdopodobne, że odtworzy się w następnym badaniu. Nie znaczy to, że wnioski badacza muszą być fałszywe. Jeśli mają solidne oparcie w zebranych danych, są prawdziwe dla zbadanych przypadków. Pytanie, co wyróżnia te przypadki spośród wszystkich, bywa drogą do interesujących odkryć. Prawomocność wniosków Każde badanie przynosi wynik i wniosek. Nie są to rzeczy tożsame. Wynikiem (efektem) badania będziemy nazywać zdanie podsumowujące analizę danych, np. że dwie grupy badanych różnią się pod względem zmiennej zależnej lub że dwie zmienne są ze sobą skorelowane. Wnioskiem będziemy nazywać wynik odniesiony do teorii, czyli zinterpretowany teoretycznie. Wniosek różni się od wyniku pod Badania eksperymentalne 49 dwoma względami. Po pierwsze, zastępuje nazwy zmiennych obserwowalnych pojęciami, które nazwy te wskazują. Po drugie, rozciąga wynik na obiekty, których nie badano. Wynik opisuje fakty, a wniosek wykracza poza fakty. Skoro wniosek wykracza poza to, co zrobiliśmy i zaobserwowaliśmy, musi być obarczony niepewnością. Jest jasne, że nie możemy jej rozproszyć przez skonfrontowanie wniosku z rzeczywistością – gdyby to było możliwe, badania byłyby niepotrzebne. Niepewność można więc zmniejszyć tylko w jeden sposób: wykazać, że wniosek ma mocne oparcie w wyniku, tzn. że konkurencyjne interpretacje wyniku są albo niemożliwe, albo mało prawdopodobne. Taki dowód opiera się na zabezpieczeniach, które wbudowujemy w schemat badania. Badanie, które zostało tak zaplanowane, że umożliwia obalenie konkurencyjnych wniosków, nazywa się trafnym. Za Campbellem (Campbell i Stanley, 1966) wyróżnia się dwie odmiany trafności: wewnętrzną i zewnętrzną. Od trafności wewnętrznej zależy prawomocność przekładu wyniku na wniosek. Jest to sprawa właściwego schematu badania i trafnych metod pomiaru. Od trafności zewnętrznej zależy prawomocność uogólnienia wyniku na szersze zbiorowości. Jest to sprawa reprezentatywności oddziaływań i próbek. Jest oczywiste, że zapewnienie trafności badania wymaga antycypowania zarzutów wobec wniosku. Planując badanie, badacz powinien powiedzieć sobie: Załóżmy, że uzyskuję wynik, który chciałbym uzyskać, i wyprowadzam zeń wniosek, o który mi chodzi. Jakie zarzuty mogą wysunąć przeciwko temu wnioskowi potencjalni krytycy? Może powiedzą, że skala, którą zastosowałem, nie mierzy tego, co moim zdaniem mierzy? Może powiedzą, że korelacja dwóch zmiennych jest pozorna? Może uznają, że we wniosku nie wolno mówić o ludziach, skoro badaniem objąłem tylko mężczyzn? Co powinienem zrobić, by móc odeprzeć te zarzuty, jak się zabezpieczyć przed tą krytyką? Uprzedzając wątpliwości, możemy zwiększyć prawomocność naszego wniosku, choć całkowitej pewności nigdy nie zdołamy osiągnąć. Badania eksperymentalne Istotą eksperymentu jest badanie reakcji obiektów na oddziaływania lub warunki, które zostały stworzone przez badacza. U podłoża tego schematu leży wnioskowanie, które J. S. Mill nazwał kanonem jedynej różnicy. W wersji, jaką nadał mu Ajdukiewicz (1965, s. 152n), jest to wnioskowanie dedukcyjne, w którym wniosek wynika logicznie (niezawodnie) z przesłanek. Zaczynamy od przesłanki ogólnej: „(Każde X1 jest przyczyną Y) lub (Każde X2 jest przyczyną Y) lub ... (Każde Xk jest przyczyną Y)”. Następnie realizujemy dwie sytuacje. W jednej występują wszystkie zdarzenia X wyliczone w przesłance ogólnej: X1 i X2 i ... Xk. W drugiej – wszystkie oprócz jednej, np. tylko X2 i ... Xk. Jeśli Y zachodzi w pierwszej sytuacji, ale nie w drugiej, mamy prawo twierdzić, że X1 jest przyczyną lub składnikiem przyczyny Y. Jest tak dlatego, że niezajście Y w drugiej sytuacji obala (eliminuje) wszystkie człony alternatywy poza pierwszym. W badaniach społecznych wynik jest zawsze probabilistyczny, toteż zadowalamy się różnicą – byle dostatecznie dużą – w częstości względnej lub nasileniu Y w obu sytuacjach. 50 Rozdział 3. Badania uogólniające Zacznijmy od prostego przykładu. Jedna z moich studentek, zapoznawszy się z teorią modelowania zachowań agresywnych, wysunęła hipotezę, że obejrzenie filmu zawierającego sceny grozy i okrucieństwa zwiększy agresywne zachowania dzieci. Chcąc ją sprawdzić, przeprowadziła eksperyment z udziałem 18 uczniów z jednego oddziału klasy II. Uczniów podzieliła na dwie grupy (x1 i x2) w następujący sposób: Brała pary kolejnych nazwisk z dziennika i podrzucała monetę. Jeśli wypadł orzeł, pierwsze dziecko wchodziło do grupy x1, a drugie do grupy x2, jeśli reszka – odwrotnie. Tak powstały dwie dziewięcioosobowe grupy. Pewnego dnia powiedziała dzieciom, że obejrzą film o dinozaurach. Tłumacząc się ciasnotą, zaprowadziła każdą grupę do osobnego pomieszczenia. Grupa x1 obejrzała pełen grozy film Pradawny ląd D. Blutha, a grupa x2 – pogodny film Smok Dino M. Striblinga. Zaraz po projekcji wszystkie dzieci przeszły do sali gimnastycznej na lekcję wychowania fizycznego. Zachowanie się dzieci w czasie lekcji obserwowały dwie osoby, nie wiedząc, jaki film obejrzało każde dziecko. Obserwatorzy dostali arkusz obserwacji w postaci tabeli. Siedem kolumn tej tabeli odpowiadało różnym aktom niespokojnego i agresywnego zachowania się (np. „krzyczy”, „hałasuje przedmiotami”, „kopie, szczypie, popycha, podstawia nogę”), a 9 wierszy odpowiadało dzieciom. Kolejność dzieci w tabeli ustalono w następujący sposób: brano parę nazwisk z dziennika (jedno przydzielone do x1, drugie do x2) i rzucano monetą. Jeśli wypadł orzeł, na pierwszym miejscu wpisywano dziecko z grupy x1, a na drugim z grupy x2. Jeśli reszka – odwrotnie. W ten sposób każdy obserwator miał obserwować dziewięcioro dzieci w kolejności: x1, x2, x2, x1, x2, x1, x2, x1, x2. Każde dziecko było obserwowane przez 5 minut. Ilekroć w tym czasie dziecko zachowywało się w sposób opisany w kolumnach tabeli, obserwator stawiał kreskę w odpowiedniej rubryce. Po zakończeniu eksperymentu obliczono średnią i odchylenie standardowe liczby aktów agresywnych w obu grupach. W grupie x1 średnia wyniosła 3,67 (przy odchyleniu standardowym równym 1,58), a w grupie x2 1,22 (0,83). Ponieważ test statystyczny t wykazał, że różnica między średnimi jest dostatecznie duża, badaczka uznała, że wynik eksperymentu potwierdził jej hipotezę. Zauważmy, że w eksperymencie sam badacz wytwarza jedyną różnicę, toteż jest w stanie stwierdzić, jakie czynniki są, a jakie nie są konieczne dla wystąpienia mierzonych zachowań. Eksperyment jest zatem jedynym schematem, który pozwala na interpretację przyczynową wyniku. Mówiąc dokładniej: eksperyment pozwala zweryfikować twierdzenie teoretyczne, że stan rzeczy P należy do zbioru przyczyn stanu rzeczy Q. Może to znaczyć, że: • P jest warunkiem wystarczającym i koniecznym Q (ilekroć jest P, to jest Q, a ilekroć nie ma P, nie ma też Q). • P jest warunkiem wystarczającym Q (ilekroć jest P, jest też Q, ale brak P nie wyklucza Q – co można rozumieć tak, że Q może być wywołane także przez inne czynniki), • P jest warunkiem koniecznym Q (jeśli nie ma P, nie ma też Q, ale pojawienie się P nie przesądza o pojawieniu się Q – co można rozumieć tak, że Q zależy od łącznego działania P i innych czynników), • P jest warunkiem sprzyjającym Q (P nie gwarantuje pojawienia się Q, a brak P nie gwarantuje braku Q, ale prawdopodobieństwo warunkowe pojawienia się Q przy P jest większe niż prawdopodobieństwo pojawienia się Q przy braku P). Badania eksperymentalne 51 W eksperymentalnych badaniach oświatowych pierwszy z wymienionych związków występuje najrzadziej, a ostatni – najczęściej. Zawsze jednak jest to związek przyczynowy, który najprościej poznać po tym, że zmiana P pociąga za sobą zmianę Q. Taki związek jest czymś więcej niż zwykłym współwystępowaniem P i Q. Ary i in. (s. 370) opisują zabawny przykład pomieszania związku przyczynowego ze współwystępowaniem. W 1958 r. rada szkoły średniej w Rexburg zabroniła uczniom przyjeżdżać do szkoły samochodem, ponieważ stwierdzono, że nie robił tego ani jeden uczeń mający piątki, a robiło aż 83% uczniów dostających jedynki. Najwyraźniej uznano, że powstrzymanie uczniów od przyjeżdżania samochodem do szkoły może poprawić ich stopnie. Pewien polski badacz doniósł niedawno, że umiejętność odczytywania przez ucznia wykresów zależy od liczby książek w jego domu. Czyżby wierzył, że ta umiejętność wzrośnie, gdy matka dokupi kilka książek do domowej biblioteczki? Trzeba więc rozważnie używać słów. Takie słowa, jak wpływ czy zależność, oznaczają związki przyczynowe. Wnioskując, że oczekiwania nauczyciela wpływają na osiągnięcia ucznia, że osiągnięcia zależą od oczekiwań nauczyciela lub są spowodowane przez te oczekiwania, twierdzimy, że gdy nauczyciel zmieni swoje oczekiwania, zmienią się też osiągnięcia jego uczniów. Jeśli nie ma do tego podstaw, powinniśmy poprzestać na stwierdzeniu, że zmienne są związane ze sobą. Trafność eksperymentu Powiedzieliśmy, że badanie przynosi wynik i wniosek. Wynik opisanego wyżej eksperymentu można ująć w zdaniu: „U dzieci, które obejrzały film ze scenami grozy i okrucieństwa, zaobserwowano istotnie więcej aktów agresji niż u dzieci, które obejrzały pogodny film na podobny temat”, a wniosek w zdaniu: „Obserwowanie scen grozy i okrucieństwa podwyższa w człowieku motywację do zachowań agresywnych”. Jakiej krytyki może się spodziewać autor tego wniosku? W grę wchodzą zarzuty dwojakiego rodzaju: • Wniosek fałszywie przedstawia związek między wartościami zmiennej niezależnej i zmiennej zależnej. Krytyk mógłby na przykład zauważyć, że w grupie x1 użyto starszego magnetowidu, więc dzieci z tej grupy oglądały obraz niższej jakości niż dzieci z grupy x2. Podwyższona liczba zachowań agresywnych w grupie x1 mogła być skutkiem nie tyle treści filmu, ile niskiej jakości obrazu. Zatem – konkludowałby krytyk – należałoby wnioskować, że agresję wywołuje nie tyle obserwowanie okrucieństwa, ile frustracja. • Wniosek jest sformułowany zbyt szeroko. Krytyk mógłby dowodzić, że opisany wynik odnosi się jedynie do dzieci przed 12. rokiem życia, a nie do ludzi w ogóle. Mówiąc inaczej – mógłby twierdzić, że nie należy się spodziewać, by odtworzył się w podobnym eksperymencie z udziałem studentów. Pierwszy zarzut godzi w trafność wewnętrzną, drugi w trafność zewnętrzną eksperymentu. Trafność wewnętrzna Nietrafność wewnętrzna może być związana z nietrafnością pomiarów, o czym piszę w rozdz. 8, lub z niedostatecznym zabezpieczeniem się przed działaniem 52 Rozdział 3. Badania uogólniające czynników ubocznych. Załóżmy, że między grupami porównawczymi zaszła oczekiwana różnica. Wynik ten nie przemawia na rzecz teorii, jeśli można go przypisać czynnikom, które niechcący i bezwiednie uaktywniliśmy podczas realizacji eksperymentu. A teraz załóżmy, że nie stwierdziliśmy różnicy. Ten wynik też może być niekonkluzywny, jeśli są powody, by przypuszczać, że różnica została zamaskowana przez inne czynniki, utonęła w wytworzonym przez nie szumie. Campbell i Stanley (1966) wyliczają osiem klas zmiennych ubocznych, które zagrażają wewnętrznej trafności eksperymentu: • zdarzenia, które zaszły przed lub w trakcie eksperymentu, • zmiany zachodzące w badanych obiektach wskutek upływu czasu, • zabiegi pomiarowe, którym są poddawane obiekty, • zmiany dokonujące się w narzędziach pomiaru (np. zmęczenie obserwatora, zużywanie się urządzeń), • samorzutne zmiany skrajnych wyników pierwszego pomiaru w kierunku wyników typowych (tzw. regresja do średniej), • zmienne indywidualne różniące obiekty wybrane do badania, • ubywanie obiektów w trakcie badania. • interakcje zmiennych indywidualnych z niezależnymi zdarzeniami, zmianami zachodzącymi pod wpływem czasu itp.3 Autorzy mają tu na myśli możliwość, że z nałożenia się zewnętrznego zdarzenia na skład grupy powstaje „nowa jakość”, która bardziej zagraża trafności niż oba te składniki osobno. Powiedzmy, że prowadzimy eksperyment na dwóch oddziałach klasy VI. W trakcie eksperymentu odchodzi z pracy dyrektor szkoły. Jeśli uczył on kiedyś w jednym z tych oddziałów, to mamy interakcję: wpływ zdarzenia (odejście dyrektora) na zmienną zależną jest w tym oddziale większy niż w innych oddziałach. Zmienne uboczne mogą być skorelowane lub nieskorelowane ze zmienną niezależną4. Jeśli są nieskorelowane (tzn. jeśli ich rozkłady nie różnią się w poszczególnych grupach porównawczych), to tworzą szum maskujący właściwy efekt, czyli obniżają czułość eksperymentu. Taki eksperyment nie jest stanie wykryć słabych skutków oddziaływania. Widziałem wiele planów eksperymentów oświatowych, które z góry były skazane na porażkę, ponieważ miały przebiegać w warunkach naturalnych, operować słabymi lub krótkotrwałymi oddziaływaniami i mierzyć zmienne zależne w sposób mało rzetelny. Rozczarowany wynikiem badacz zaczyna powątpiewać o swojej teorii albo o prawomocności badań empirycznych w ogóle, zamiast jedynie o własnych umiejętnościach badawczych. Jeśli zmienne uboczne są skorelowane ze zmienną niezależną, tzn. jeśli ich rozkłady różnią się w poszczególnych grupach porównawczych, będziemy je nazywać uwikłanymi5. Często cytowanym przykładem działania zmiennej uwikłanej Dwie zmienne są w interakcji ze względu na trzecią, jeśli wpływ pierwszej na trzecią zależy od wartości, jaką przyjmuje druga. Więcej o tym w rozdz. 8. 4 Dwie zmienne są skorelowane, jeśli pewne kombinacje ich wartości są częstsze, a inne rzadsze, niżby to wynikało z przypadku. Szczegóły w rozdz. 8. 5 Po angielsku confounding lub confounded, czemu odpowiadają polskie „wikłająca” i „uwikłana”. Zmienne te są zarazem uwikłane w schemat badania i wikłają interpretację wyniku. 3 Badania eksperymentalne 53 jest efekt Hawthorne. W Hawthorne znajdowała się elektrownia. Przeprowadzono w niej eksperyment, który wykazał m.in., że po zwiększeniu oświetlenia w hali fabrycznej wzrosła wydajność pracy. Później jednak okazało się, że przyczyną tej zmiany była raczej świadomość robotników, że ktoś się nimi zainteresował, wybierając ich do udziału w eksperymencie. Mamy tu zatem zmienną uboczną (zdarzenie), która działa w grupie eksperymentalnej, a nie działa w grupie kontrolnej. Trafność zewnętrzna Zewnętrzna trafność eksperymentu decyduje o tym, jak szeroko można uogólnić wynik; mówiąc inaczej – czy są podstawy, by oczekiwać, że wynik odtworzy się w innych warunkach. W zależności od tego, jak rozumiemy tę inność, mamy trzy rodzaje trafności zewnętrznej. Trafność populacyjna: czy wynik odtworzy się w innych populacjach? W eksperymencie grupy porównawcze reprezentują sztuczne populacje zdefiniowane przez wartości zmiennej niezależnej. Ale kandydaci, z których tworzy się grupy, należą do populacji realnej (np. szóstoklasiści ze szkoły w Kożuszkach). Dlatego ma sens pytanie, czy wynik eksperymentu w Kożuszkach wolno uogólnić na wszystkich szóstoklasistów w kraju. Odpowiedź na to pytanie zależy od tego, czy dzieci z Kożuszek wyróżniają się pod względem jakiejś zmiennej, która wchodzi w interakcję ze zmienną niezależną. Jeśli tak, to odkrycie nie odtworzy się poza Kożuszkami. Załóżmy, że badamy wpływ warunków, w których uczniowie wypowiadają się o swojej szkole, na poziom krytycyzmu ich wypowiedzi. Eksperyment w Kożuszkach przyniósł wyraźny wynik: wypowiedzi anonimowe były znacznie bardziej krytyczne niż wypowiedzi, które trzeba było podpisać. Ale w dużej szkole warszawskiej taka różnica mogłaby się nie pojawić, gdyby tamtejsze dzieci mniej obawiały się kary za jawne wyrażenie krytyki. Jak pokazuje rys. 3.1, obawa przed karą wchodzi w interakcję ze zmienną niezależną: warunki wypowiedzi inaczej wpływają na krytycyzm, gdy obawa jest niska, niż gdy obawa jest wysoka. W tym samym duchu kwestionuje się trafność wielu eksperymentów z udziałem studentów, ponieważ uważa się, że mają oni wyższe poczucie panowania nad swoim życiem niż ich pracujący rówieśnicy, a ta zmienna wchodzi w interakcję z licznymi zmiennymi niezależnymi. Jak widać, odtworzeniu się wyniku w innych populacjach zagraża nie każda różnica między populacją eksperymentalną a tymi populacjami, lecz tylko różnica pod względem zmiennych, które wchodzą w interakcję ze zmienną niezależną. Trudno z góry wykluczyć taką interakcję, toteż trafność populacyjna eksperymentu jest zawsze problematyczna. Trafność ekologiczna: czy wynik odtworzy się w innych okolicznościach niż te, które stworzył badacz? Nie jest wcale pewne, czy eksperymentalnie sprawdzona metoda nauczania okaże się lepsza w zwykłej klasie, gdzie jest więcej uczniów, więcej hałasu, nauczyciel nie zawsze jest cierpliwy itp. W eksperymentach psychologicznych oddziaływania mogą być mało realistyczne. Gdyby słynne badanie S. Milgrama było studium okrucieństwa, to byłoby nietrafne ekologicznie, ponieważ wiadomo, że ludzie, którzy wymierzali dotkliwe uderzenia prądem „ucznio- 54 Rozdział 3. Badania uogólniające 25 Krytycyzm 20 15 10 5 Obawa wysoka Obawa niska 0 jawne anonimowe Warunki wypowiadania się Rysunek 3.1. Średnie krytycyzmu wypowiedzi w czterech grupach uczniów. wi” w laboratorium, wcale nie musieli stosować surowych kar wobec własnych dzieci nierobiących postępów w nauce. Badanie Milgrama jest natomiast ekologicznie trafne jako studium posłuszeństwa. Nie od wszystkich eksperymentów wymagamy trafności ekologicznej. Jeśli sprawdzamy wyrafinowaną hipotezę dotyczącą na przykład procesów pobierania i przetwarzania informacji, z reguły umieszczamy badanych w warunkach tak niezwykłych (np. w izolowanej kabinie, przed okularem tachistoskopu czy przed monitorem), że samo pytanie, czy zachowaliby się oni podobnie w codziennym życiu, nie ma sensu. Trafność operacyjna: czy wynik odtworzy się przy innych operacjonalizacjach pojęć teoretycznych? W pewnym eksperymencie badającym skutki frustracji wywoływano u dzieci frustrację przez zakaz dotykania atrakcyjnych zabawek. Czy można się spodziewać, że wynik odtworzy się, gdy frustracja zostanie wywołana przez nierozwiązywalne zadanie? Z powyższych przykładów wynika, że trafność zewnętrzną można oszacować tylko na podstawie powtarzania eksperymentu: z udziałem różnych badanych, różnych eksperymentatorów, różnie zrealizowanych oddziaływań i różnie mierzonych skutków. Ma to obosieczne działanie. Z jednej strony – nie pozwala się chełpić autorowi jednego udanego eksperymentu, ale z drugiej – chroni go przed napastliwą krytyką. W dyskursie naukowym istnieje norma nakazująca przyjmować założenie ciągłości (Shaughnessy i Zechmeister, 1994, s. 189). Założenie to mówi: wykryte zachowanie uważa się za ciągłe względem czasu, miejsc i osób, chyba że są dowody na jego nieciągłość. Znaczy to, że ciężar dowodu (onus probandi) spoczywa na krytyku. Jeśli utrzymuje, że uogólnienie wyniku na młodych ludzi jest błędne, ponieważ zbadano jedynie studentów, powinien przytoczyć dane, które popierają tę opinię, a najlepiej powtórzyć eksperyment z udziałem młodzieży pracującej. Badania eksperymentalne 55 Schematy badań eksperymentalnych Jak pamiętamy, największym zagrożeniem trafności wewnętrznej eksperymentu są zmienne uboczne. Zmienne te badacz stara się kontrolować. Po polsku lepiej byłoby powiedzieć, że badacz stara się nad nimi zapanować, tzn. ustalić albo ich wartości, albo ich rozkłady. Ustalenie wartości (fixing) polega na zadbaniu, by zmienna uboczna miała tę samą wartość we wszystkich grupach porównawczych. Gdy tak się stanie, łatwo obalić każdą próbę wyjaśnienia za jej pomocą różnic w zmiennej zależnej. Staramy się więc, żeby osoby z każdej grupy były badane przez tego samego badacza, w tym samym pomieszczeniu, o tej samej porze dnia itd. Układamy przekonującą instrukcję, by wszystkie osoby podobnie myślały o celu eksperymentu i o swojej roli. Zmienne uboczne powinny być ustalone na możliwie niskim poziomie w imię czułości eksperymentu (jeśli na przykład podejrzewamy, że hałas może wpływać na zmienną zależną, powinniśmy nie tylko wyrównać jego poziom we wszystkich grupach, ale i zredukować go). Jest oczywiste, że ustala się tylko wybrane zmienne, nie zaś wszystkie (nie znam eksperymentu, w którym ustalono by na przykład wielkość ciśnienia atmosferycznego). Ustalenie rozkładów, czyli równoważenie (balancing), polega na zadbaniu, by zmienna uboczna miała taki sam rozkład we wszystkich grupach porównawczych. Jeśli musimy prowadzić eksperyment w dwóch pomieszczeniach, to dbamy o to, by w każdej grupie odsetek osób badanych w każdym z tych pomieszczeń był taki sam. Równoważenie jest jedyną metodą kontroli zmiennych indywidualnych. Zauważmy, że ludzie to wyjątkowo niewdzięczne obiekty badania uogólniającego, ponieważ już w punkcie startu bardzo różnią się między sobą. Można powiedzieć, że wnoszą do eksperymentu zróżnicowane dyspozycje psychiczne: jedni są bardziej, inni mniej bystrzy, agresywni, skłonni do współpracy, lękliwi itd. Cóż z tego, że badacz ustali wartość zmiennej niezależnej, skoro w tych samych warunkach jedna osoba zachowa się tak, a druga inaczej? Tych zmiennych indywidualnych ustalić niepodobna, można je tylko równoważyć za pomocą specjalnych metod doboru badanych do grup porównawczych. Definiują one schematy badań eksperymentalnych. Na najwyższym poziomie dzielimy je na schematy niezależnych grup (independent groups designs) i schematy porównań wewnątrzosobniczych (within-subjects designs). Schematy grup niezależnych Najprostszy schemat tego rodzaju zawiera dwie duże (od 30 osób wzwyż) grupy utworzone przez niezależne losowanie. Każda z tych grup realizuje jedną wartość zmiennej niezależnej. Jedną lub więcej zmiennych zależnych mierzy się tylko raz. Kluczowe znaczenie ma tu losowanie: dzięki niemu możemy mieć nadzieję, że wszystkie zmienne indywidualne (znane lub nieznane badaczowi) zostaną zrównoważone (np. że w obu grupach będą podobne odsetki osób lękliwych). Zrównoważenie osiąga się za pomocą doboru losowego (random selection), przydziału losowego (random assignment) lub upodabniania grup (matched groups design). 56 Rozdział 3. Badania uogólniające Dobór losowy. Mając do dyspozycji osoby należące do tej samej, dobrze zdefiniowanej populacji, możemy niezależnie wylosować dowolną liczbę próbek (np. za pomocą tablicy liczb losowych). Te próbki przydziela się – też losowo, np. za pomocą rzutu monetą – wartościom zmiennej niezależnej. Tak utworzone grupy porównawcze są statystycznie równoważne. Przydział losowy. Gdy populacja, którą tworzą kandydaci do eksperymentu, nie ma teoretycznego znaczenia (np. gdy są to studenci, którzy odpowiedzieli na ogłoszenie), stosujemy przydział losowy – najczęściej randomizację blokową. Oznaczmy przez k liczbę grup (wartości zmiennej niezależnej), a przez n – liczbę osób w każdej grupie. Każde k kolejnych osób zgłaszających się na badanie tworzy jeden blok. Znajdujemy n losowych sekwencji k wartości zmiennej niezależnej: x1, x2,..., xk i przyporządkowujemy je blokom. Pierwszą osobę w bloku przydziela się do pierwszej grupy w przyporządkowanej mu sekwencji, drugą do drugiej itd. Blok Nr badanego Grupa 1 1 2 3 x2 x3 x1 2 4 5 6 x3 x1 x2 ... ... ... 10 28 29 30 x1 x3 x2 Nazwisko J. Kowalski A. Wieczorek B. Radwan ... Nazwisko M. Szulc ... Powiedzmy, że prowadzimy eksperyment z trzema grupami (k = 3) i że w każdej grupie chcemy mieć 10 osób (n = 10). Musimy znaleźć 10 losowych sekwencji trzech wartości, np. x2, x3, x1; x3, x1, x2 itd. i wpisać je w kolumnie „Grupa” powyższego formularza. Nazwisko pierwszej osoby, która przyszła na badanie, wpisujemy pod numerem 1 i przydzielamy ją do grupy x2, nazwisko drugiej wpisujemy pod numerem 2 i przydzielamy ją do grupy x3 itd. Jeśli osoba nie kończy badania (B. Radwan), na jej miejscu umieszczamy następną (M. Szulc), a powód opisujemy na odwrocie formularza (np. awaria urządzenia, zmęczenie, zniechęcenie). Musimy znać powody nieukończenia badania, ponieważ niektóre z nich – związane ze zmiennymi indywidualnymi – kwestionują równoważność grup. Zaletą randomizacji blokowej jest to, że przydziału osób nie trzeba dokonywać przed eksperymentem, więc gdy nie przychodzą one w umówionym terminie, nie rujnuje nam to badania. Tę metodę można stosować nie tylko do zrównoważenia zmiennych indywidualnych. Powiedzmy, że chcąc szybciej ukończyć eksperyment, zatrudniamy dwóch badaczy. Ale każdy badacz to wiązka dodatkowych zmiennych ubocznych: np. jeden jest bardziej, drugi mniej zdystansowany. Gdybyśmy pierwszemu powierzyli grupę x1, a drugiemu x2, pogwałcilibyśmy zasadę równoważności. Lepiej więc Badania eksperymentalne 57 przypisać każdemu po 5 bloków badanych. Trzeba się jednak liczyć ze wzrostem zróżnicowania wyników wewnątrz grup, czyli ze spadkiem czułości eksperymentu. Upodabnianie grup. W tej odmianie schematu grup niezależnych idzie o zwiększenie podobieństwa między grupami porównawczymi. Zamiast zdać się na los, staramy się sami wyrównać rozkłady pewnych zmiennych ubocznych. Zaczynamy od pomiaru wstępnego, czyli pretestu. Najczęściej mierzymy zmienną zależną. Jeśli badamy wpływ organizacji tekstu na jego zrozumienie, zaczynamy od testu czytania. Możemy też mierzyć zmienne indywidualne (np. osiągnięcia szkolne, iloraz inteligencji, cechy osobowości). Mając wyniki pretestu, dzielimy osoby na bloki o liczebności k, tak by w każdym bloku znalazły się osoby z podobnym wynikiem. Następnie przydzielamy osoby z każdego bloku do jednej z k grup porównawczych według losowej sekwencji liczb od 1 do k. Jest oczywiste, że najstaranniejsze upodabnianie grup nie gwarantuje podobieństwa pod wszystkimi względami. Co gorsza, wprowadzenie pretestu może dawać niemiłe skutki uboczne. Po pierwsze, pretest może wchodzić w interakcję ze zmienną niezależną (np. aktywizować umiejętności, do których odwołuje się oddziaływanie). Po drugie, przy dwukrotnym testowaniu tym samym narzędziem zachodzi zjawisko regresji do średniej. Polega ono na tym, że zdarzenia nietypowe (tu: skrajne wyniki pomiaru) są rzadsze, czyli mniej prawdopodobne, niż zdarzenia typowe. Osoby, które w pierwszym pomiarze wypadły gorzej niż zwykle, w drugim wypadają lepiej, a osoby, które w pierwszym pomiarze wypadły lepiej niż zwykle, w drugim wracają do typowego dla siebie poziomu. W pewnych warunkach ten samorzutny ruch można pomylić ze skutkiem oddziaływania. Schematy porównań wewnątrzosobniczych Kłopoty związane z nierównoważnością grup porównawczych można ominąć w prosty sposób: przydzielić te same osoby do wszystkich oddziaływań. Taki schemat ma wiele zalet: eliminuje indywidualne zmienne uboczne, zmniejsza zróżnicowanie wyników wewnątrz grup (a tym samym podwyższa czułość eksperymentu), no i wymaga mniejszej liczby badanych. Jest niezastąpiony, gdy zmienna zależna jest zdefiniowana jako różnica pewnych zmiennych (np. gdy bada się zmiany zachowania się tej samej osoby pod wpływem zmian w oddziaływaniu). Słabą stroną tego schematu jest to, że tę samą osobę trzeba kilkakrotnie poddawać pomiarowi. Te pomiary nie są oczywiście niezależne od siebie. Badany może nabywać wprawy, wskutek czego będzie uzyskiwać coraz lepsze wyniki. Może się męczyć lub nudzić, wskutek czego jego wyniki będą coraz gorsze. Tego rodzaju zmiany nazywamy efektami ćwiczenia (praktyki). Jeśli ich nie zrównoważymy, eksperyment będzie nietrafny. W pewnym eksperymencie przeprowadzonym w schemacie porównań wewnątrzosobniczych badano, jak dzieci w różnym wieku spostrzegają odcienie różnych kolorów. Eksperyment wykazał, że wiek różnicuje rozpoznawanie odcieni koloru niebieskiego: błędnie szeregowała je połowa trzylatków, a tylko 11% dziesięciolatków. Już po opublikowaniu wyniku krytycy zauważyli, że odcienie koloru niebieskiego zawsze eksponowano jako ostatnie. Dzieci, zwłaszcza młodsze, mogły być 58 Rozdział 3. Badania uogólniające już znużone powtarzającym się zadaniem. Powtórzenie badania ze zrównoważoną kolejnością kolorów potwierdziło to przypuszczenie. Odkrycie okazało się pozorne. Równoważenie kolejności oddziaływań może być zupełne lub niezupełne. Równoważenie zupełne. Możemy tu zastosować znaną już metodę randomizacji blokowej. Załóżmy, że zmienna niezależna ma 3 wartości i że każda wartość jest eksponowana każdej osobie 18 razy. Jedna osoba wykonuje zatem serię 54 prób. Trzy kolejne próby tworzą jeden blok. W każdym bloku występują 3 wartości zmiennej niezależnej w porządku losowym. Wskutek tego w całej sekwencji 54 prób każda wartość X ma średnio taką samą pozycję. Łatwo to sprawdzić, obliczając średnią pozycję każdej wartości (tj. sumując numery miejsc zajmowanych przez tę wartość i dzieląc sumę przez 18). Efekty ćwiczenia zostały w ten sposób zneutralizowane. Metody tej nie należy stosować, gdy seria prób jest krótka. Bezpieczniejsze jest wtedy tzw. równoważenie ABBA, czyli uzupełnianie sekwencji wartości zmiennej niezależnej przez jej odwrotność. Jeśli w pierwszym bloku wartości występowały w kolejności x2, x1, x3, w drugim wystąpią w kolejności x3, x1, x2. Metoda ta zapewnia pełną kontrolę efektów ćwiczenia, jeśli rosną one równomiernie z próby na próbę. Jeśli natomiast efekty te są skokowe (np. w kilku pierwszych próbach następuje duży przyrost wprawy, a w następnych mały), można po prostu usunąć początkowe bloki z analizy. Równoważenie niezupełne. Stosuje się je wówczas, gdy badany wykonuje tylko jedną próbę w każdym z warunków eksperymentalnych – np. ma ocenić cztery sylwetki nauczycieli pod względem „kompetencji wychowawczej”. Oceny jednej osoby są niezrównoważone, ale można je zrównoważyć w całej próbce badanych. Zasada jest prosta: każda sylwetka (wartość zmiennej niezależnej) musi pojawiać się jednakowo często na miejscu pierwszym, drugim, trzecim i czwartym. Można wypisać wszystkie możliwe porządki czterech liczb i losowo przydzielić je badanym. Przy czterech wartościach takich porządków jest 24 (ogólnie k!), więc w eksperymencie muszą wziąć udział przynajmniej 24 osoby lub dowolna wielokrotność tej liczby. Ale liczba porządków szybko rośnie wraz ze wzrostem k (np. gdy k = 6, to n = 720), więc gdy zmienna niezależna ma więcej niż 4 wartości, musimy ograniczyć się do niektórych porządków. Jak je wybrać? W takich wypadkach najczęściej stosuje się kwadrat łaciński. Wartościom X przyporządkowujemy losowo liczby od 1 do k, budujemy kwadrat k × k i wypełniamy go porządkami wiersz po wierszu. Pierwszy wiersz kwadratu powstaje według ogólnej reguły: 1, 2, k, 3, k–1, 4, k–2, 5, k–3 itd. Każdy następny powstaje z dodania jedności do liczby w poprzednim wierszu, przy czym k + 1 równa się 1. Oto kwadrat łaciński dla k = 6: 1 2 3 4 5 6 2 3 4 5 6 1 6 1 2 3 4 5 3 4 5 6 1 2 5 6 1 2 3 4 4 5 6 1 2 3 Badania eksperymentalne 59 Jeśli k jest liczbą nieparzystą, równoważenie wymaga dodania drugiego kwadratu, którego wiersze zawierają liczby w odwrotnej kolejności. Dla k = 5 mamy zatem kwadrat: 1 2 3 4 5 2 3 4 5 1 5 1 2 3 4 3 4 5 1 2 4 5 1 2 3 4 5 1 2 3 3 4 5 1 2 5 1 2 3 4 2 3 4 5 1 1 2 3 4 5 Każdy wiersz kwadratu przydziela się losowo jednej osobie badanej, skąd wynika, że liczba badanych musi być wielokrotnością k. Inną metodą równoważenia niezupełnego jest rotacja. Pierwszy porządek k wartości uzyskuje się przez losowanie, a następne tworzy przez przesuwanie liczb w lewo o jedno miejsce. W ten sposób z porządku 2, 3, 1, 4 otrzymujemy trzy nowe: 3, 1, 4, 2; 1, 4, 2, 3 i 4, 2, 3, 1. Trzeba pamiętać, że nie wszystkie efekty ćwiczenia dają się zrównoważyć. Każda metoda równoważenia zawiedzie, jeśli wprawa przenosi się w sposób zróżnicowany: bardziej z xi na xj niż z xj na xi. Weźmy najprostszą, dwuwartościową zmienną niezależną, w której x1 to nowa, hipotetycznie lepsza metoda nauczania, a x2 to jej tradycyjny odpowiednik. Jeśli ta nowa metoda jest rzeczywiście skuteczna, to będzie wywierać wpływ na uczenie się pod kierunkiem metody tradycyjnej, natomiast metoda tradycyjna niewiele wniesie do uczenia się pod kierunkiem nowej. Wskutek tego wyniki nauczania metodą x2 będą zawyżone, a różnica między x1 i x2 mniejsza, niż jest w rzeczywistości. Ilekroć podejrzewamy, że zachodzi zróżnicowany przepływ (transfer) wprawy, powinniśmy się posłużyć schematem grup niezależnych. Czytelnik zechce zauważyć, że gdy stosujemy metodę wszystkich porządków k wartości w próbce badanych o liczebności n (równej wielokrotności k!: n = ak!), to pierwsza próba każdej osoby tworzy eksperyment w schemacie k grup niezależnych z a (k – 1)! osobami w grupie. Dane tego subeksperymentu analizuje się osobno, a wyniki porównuje z wynikami całego eksperymentu. Jeśli są między nimi istotne różnice, to znaczy, że istnieje zróżnicowany transfer wprawy. Eksperyment w schemacie porównań wewnątrzosobnicznych należy wówczas uznać za nietrafny. Schematy złożone Dotąd rozpatrywaliśmy schematy z jedną zmienną niezależną. Gdy jest ich więcej, mówimy o schematach złożonych (wieloczynnikowych). Każda zmienna niezależna może być zrealizowana albo w schemacie grup niezależnych, albo w schemacie porównań międzyosobniczych. Schematy złożone są niezbędne, gdy weryfikujemy twierdzenia teoretyczne mówiące o łącznym wpływie kilku zmiennych niezależnych na zmienną zależną. Jedno z takich twierdzeń mówi, że zachowanie agresywne jest wywoływane przez frustrację połączoną ze spostrzeżeniem skutków cudzej agresji. W eksperymencie 60 Rozdział 3. Badania uogólniające sprawdzającym stosowną hipotezę potrzebujemy dwóch zmiennych niezależnych (w najprostszym przypadku dwuwartościowych) i jednej zmiennej zależnej. Załóżmy, że na wielkość frustracji wpływamy za pomocą rzekomo nieprzeznaczonego dla uszu osoby badanej komentarza na jej temat: neutralnego lub obraźliwego. Na treść spostrzeżenia wpływamy za pomocą jednego z dwóch filmów przedstawiających agresywną grę w koszykówkę: pokazującego agresywne akty napastników lub oznaki cierpienia ofiar napaści. Wielkość agresji w zachowaniu się badanego szacujemy za pomocą iloczynu napięcia i czasu trwania szoków elektrycznych wymierzanych przezeń innemu badanemu w rzekomym eksperymencie nad rolą kar w uczeniu się. Mamy zatem dwie zmienne niezależne: • treść komentarza: {neutralny, obraźliwy}, • treść filmu: {agresja napastnika, cierpienie ofiary}, i jedną zmienną zależną: • suma iloczynów napięcia i czasu trwania wymierzanych szoków elektrycznych. Mając dwie dwuwartościowe zmienne niezależne, musimy utworzyć 2 × 2, czyli 4 grupy porównawcze. Jeśli w każdej ma być po 10 osób, potrzebujemy 40 osób. Z tych osób najpierw tworzymy (np. metodą randomizacji blokowej) dwie 20-osobowe grupy różniące się pod względem podsłuchanego komentarza, a potem z każdej z nich tworzymy tą sama metodą dwie 10-osobowe grupy różniące się pod względem treści filmu. Średnie arytmetyczne zmiennej zależnej mogłyby się ułożyć tak, jak w poniższej tabeli6. Komentarz neutralny obraźliwy Średni efekt filmu Napastnik 54,9 58,0 56,5 Ofiara 41,7 78,0 59,9 Średni efekt komentarza 48,3 68,0 Treść filmu Tabela zawiera średnie z czterech grup porównawczych oraz średnie brzegowe z grup odpowiadających wartościom jednej zmiennej niezależnej. Takie dane pozwalają zdefiniować trzy rodzaje efektów: • Efekt główny zmiennej niezależnej: odnosi się do różnic między średnimi, które odpowiadają wartościom tej zmiennej bez względu na wartości innych zmiennych. Nasze dane pokazują, że główny efekt komentarza (19,7) jest znacznie większy niż główny efekt treści filmu (3,4). • Efekt prosty zmiennej niezależnej: odnosi się do różnic między średnimi w obrębie jednej wartości innej zmiennej niezależnej. Zmienna komentarza ma dwa efekty proste: większy przy filmie eksponującym cierpienia ofiary (36,3), mniejszy przy filmie eksponującym akcje napastnika (3,1). Podobnie dwa efekty proste ma zmienna treści filmu (–13,2 i 20,0). • Efekt interakcyjny dwóch (lub więcej) zmiennych niezależnych: odnosi się do różnic między efektami prostymi tej samej zmiennej. Im większe są te różnice, 6 Ten układ danych nie jest całkiem fikcyjny (por. Hartmann 1969). Badania eksperymentalne 61 w tym większym stopniu obie zmienne niezależne współdziałają ze sobą w wytwarzaniu wartości zmiennej zależnej. Efekt interakcyjny zasługuje na szersze omówienie. Gdybyśmy w naszym przykładzie ograniczyli się do efektów głównych, to stwierdzilibyśmy, że treść filmu nie wpływa na zachowanie agresywne. Byłby to jednak wniosek fałszywy7. Treść filmu wpływa na to zachowanie, tyle że w interakcji z komentarzem. By to lepiej zrozumieć, warto sporządzić wykres średnich (rys. 3.2). Można go czytać tak, jakby przedstawiał wyniki dwóch eksperymentów z jedną zmienną niezależną (treścią komentarza). Widać, że oba eksperymenty prowadzą do różnych wniosków: pierwszy („cierpienie ofiary”) mówi: jest wyraźna zależność między rodzajem komentarza a agresją w zachowaniu się, drugi mówi: nie ma zależności między rodzajem komentarza a agresją. Taka rozbieżność jest świadectwem istnienia interakcji. 90 Średnia iloczynu 80 70 60 Cierpienie ofiary 50 Akcja napastnika 40 30 neutralny obraźliwy Rozdzaj komunikatu Rysunek 3.2. Średnie dotkliwości szoków elektrycznych w zależności od rodzaju komunikatu i treści filmu Graficznym odpowiednikiem interakcji jest nierównoległość linii reprezentujących poszczególne eksperymenty8. Taka nierównoległość powstaje wtedy, gdy w pewnych punktach wykresu (czyli w pewnych grupach porównawczych) dzieje się coś szczególnego: splot pewnych wartości zmiennych niezależnych wytwarza nową jakość, która podwyższa lub obniża wartości zmiennej zależnej. Interpretacja interakcji polega zwykle na wskazaniu takiego punktu i wyjaśnieniu, jakie siły w nim działają. W naszym przykładzie takim szczególnym punktem zdaje się ten, Ogólniej – brak głównego efektu dowolnej zmiennej nigdy nie jest dostatecznym powodem uznania jej za obojętną wobec danej zmiennej zależnej, zawsze bowiem pozostaje możliwość, że wchodzi ona w interakcję z jakąś nieznaną zmienną niezależną. 8 Jest tak pod warunkiem, że nierównoległość nie jest wytworzona przez ograniczenie zmiennej zależnej od góry („efekt sufitowy”) lub od dołu („efekt podłogowy”). Źródłem takich ograniczeń jest zbyt krótka skala pomiaru zmiennej zależnej, wskutek czego większość badanych osiąga maksymalne albo minimalne wyniki. 7 62 Rozdział 3. Badania uogólniające w którym dochodzi do spotkania chęci zaszkodzenia innemu z demonstracją skuteczności szkodzenia: ta kombinacja prowadzi do większej erupcji agresji, niżby to wynikało z samego dodania obu składników. Schematy złożone mogą mieć dowolną liczbę zmiennych niezależnych (czynników), a każda zmienna dowolną liczbę wartości. Jeśli wszystkie są zrealizowane w schemacie grup niezależnych, to łączna liczba grup porównawczych (w żargonie środowiskowym: „kratek”) jest równa iloczynowi liczby wartości wszystkich czynników, liczba głównych efektów – liczbie czynników, liczba interakcji dwóch zmiennych – liczbie par czynników, liczba interakcji trzech zmiennych – liczbie trójek czynników itd. Powiedzmy, że prowadzimy eksperyment mający trzy czynniki – siła motywacji (3 wartości), trudność zadania (2 wartości) i wielkość potrzeby stymulacji (2 wartości) oraz jedną zmienną zależną – jakość wykonania zadania. Taki eksperyment opisuje formuła 3 × 2 × 2 (znak „×” czyta się „na”). Analiza polega na oszacowaniu i zinterpretowaniu trzech efektów głównych, trzech interakcji dwóch zmiennych i jednej interakcji trzech zmiennych. Oprócz sprawdzania hipotez wieloczynnikowych schematy złożone służą też do kontrolowania zmiennych ubocznych. Dotąd omówiliśmy dwie takie metody: ustalanie i równoważenie. Obie mają wady. Ustalając zmienną, ograniczamy trafność zewnętrzną eksperymentu. Na przykład badając uczenie się, musimy kontrolować trudność zadania. Jeśli użyjemy wyłącznie zadań łatwych, pozostanie wątpliwość, czy wynik odtworzy się przy zadaniach trudnych. Równoważąc zmienną, zwiększamy zróżnicowanie wyników w grupach porównawczych, a przez to zmniejszamy czułość eksperymentu. Schemat złożony pozwala wbudować zmienną uboczną jako dodatkową (kontrolowaną) zmienną niezależną. Typową zmienną uboczną jest płeć badanych. Możemy ją ustalić, prowadząc eksperyment z udziałem tylko dziewcząt lub tylko chłopców. Możemy ją równoważyć, dbając, by proporcja dziewcząt była taka sama we wszystkich grupach. Możemy wreszcie wprowadzić płeć jako dodatkową dwuwartościową zmienną niezależną. Opisany wyżej eksperyment dotyczący czynników agresywnego zachowania się obejmował jedynie młodych mężczyzn. Gdyby dodać 4 identyczne grupy z udziałem młodych kobiet (czyli stworzyć schemat 2 × 2 × 2), dowiedzielibyśmy się, czy oba efekty (komentarza i filmu) pojawiają się także w populacji kobiet. Gdybyśmy wykryli istotną interakcję płci z innymi czynnikami eksperymentalnymi, ogólne twierdzenie (zachowanie agresywne wzmaga frustracja połączona ze spostrzeżeniem skutków cudzej agresji) przyszłoby ograniczyć do mężczyzn. Sprawdzając istotność głównego efektu płci, dowiedzielibyśmy się ponadto, czy kobiety są mniej agresywne, tzn. czy wymierzają, średnio rzecz biorąc, słabsze i krótsze uderzenia prądem niż mężczyźni. Schematy eksperymentów naturalnych Eksperymenty zwykło się dzielić na laboratoryjne i naturalne, zwane też terenowymi. Pierwsze przebiegają w specjalnie urządzonych, odizolowanych od resz- Badania eksperymentalne 63 ty świata pomieszczeniach, drugie w miejscach codziennego życia badanych (w szkole, zakładzie pracy, szpitalu itp.). W pierwszych stosuje się oddziaływania, które nie występują na co dzień, w drugich – oddziaływania właściwe miejscu (np. różne metody nauczania, organizacji pracy czy leczenia). Eksperymenty naturalne prowadzi się z różnych powodów. Czasem po to, by sprawdzić przewidywanie, które dotyczy zmian długofalowych (np. skutków określonej diety), albo po to, by określić trafność zewnętrzną eksperymentu laboratoryjnego. Częściej jednak eksperymenty naturalne podejmuje się z intencją praktyczną: by sprawdzić skuteczność nowej metody praktycznego działania. Eksperymenty naturalne podlegają wielu ograniczeniom. Najważniejsze to niemożność losowego tworzenia grup porównawczych. Trudno oczekiwać, że dyrektor szkoły zgodzi się utworzyć dwa nowe oddziały klasy VI według wskazań badacza. Zaprotestować mogą też potencjalni badani. Ponieważ trzeba ich poinformować o celu badania, to ci, którzy wierzą uczonym, mogą nie zgodzić się na udział w grupie kontrolnej, a ci, którzy nie wierzą – w grupie eksperymentalnej. Zresztą dobór losowy mógłby obniżyć zewnętrzną trafność eksperymentu. Wyniki badania skuteczności nowej metody nauczania w sztucznym oddziale klasowym nie musiałyby się wcale odtworzyć w naturalnych oddziałach. Trzeba więc pracować na grupach naturalnych, które powstały na długo przed eksperymentem, np. na całych oddziałach klasowych, zespołach pracowniczych czy oddziałach szpitalnych. Innym ograniczeniem jest efekt Hawthorne. Nauczyciele wybrani do eksperymentu czują się wyróżnieni i pracują inaczej niż zwykle. Uczniowie, nawet jeśli nie powiedziano im, że biorą udział w eksperymencie, mogą się tego domyślać, widząc zmiany w codziennej rutynie. Jeszcze innym – zanieczyszczenie eksperymentu (contamination). Nazywamy tak zakłócenia biorące się stąd, że uczestnicy eksperymentu informują się o tym, co się dzieje w ich grupach. Jeśli osoby z grupy kontrolnej dowiedzą się, że w grupie eksperymentalnej dzieją się ciekawe rzeczy, mogą stracić zapał do pracy lub poczuć się oszukani. Może się też wywiązać rywalizacja między grupami. W eksperymentach naturalnych wątpliwa bywa trafność zewnętrzna, a to dlatego że zmienne miejsca, np. tradycja danej szkoły, często wchodzą w interakcję z oddziaływaniami. Wskutek tego metoda projektów może się sprawdzić w szkole stawiającej na samodzielność, ale nie sprawdzić w szkole wymagającej posłuszeństwa. Dlatego większość eksperymentów naturalnych to quasi-eksperymenty. Nie znaczy to, że nie należy ich prowadzić. Wyniki nawet ułomnych badań mają większą wartość niż gołosłowna propaganda. Na zakończenie przedstawię kilka najczęściej używanych schematów eksperymentów naturalnych wraz z uwagami o ich ograniczeniach, by czytelnik mógł wybrać najlepiej dostosowany do jego celu. Zacznijmy od najbardziej bodaj popularnego schematu. Mamy dwie grupy naturalne (nielosowe): „eksperymentalną” i „kontrolną”. W pierwszej stosuje się oddziaływanie (X), i pomiar zmiennej zależnej (P), a w drugiej pomiar bez oddziaływania. Na przykład w jednym oddziale nauczyciel ilustruje lekcję filmem, a w drugim nie, po czym daje uczniom stosowny test wiadomości. X–P P 64 Rozdział 3. Badania uogólniające Niestety, schemat ten ma same wady. Oddziały klasowe różnią się od siebie pod wieloma względami, więc nie mogą być uznane za równoważne. Losowy wybór oddziału eksperymentalnego w niczym tego nie zmienia. Wprowadzenie jakiejkolwiek nowości może wywrzeć wpływ na zapamiętanie treści, ponieważ uczniowie są zaciekawieni, czują się wyróżnieni itp., więc bardziej uważają na lekcji. Także nauczyciel staranniej przygotowuje się do lekcji „eksperymentalnej” niż do „kontrolnej”. Podobnie chorzy mogą się poczuć lepiej na samą wiadomość o tym, że dostali nowy lek. W tym schemacie mamy tylko jedną grupę naturalną i dwa pomiary: przed i po oddziaływaniu. O wpływie X wnioskuje się z różnicy między P2 i P1. Trafność wewnętrzna tego schematu jest niedopuszczalnie niska. Nie wiadomo, w jakim stopniu wynik zależy od składu grupy i kwalifikacji nauczyciela, zastosowania pretestu (lepszy wynik w drugim pomiarze może być po prostu efektem ćwiczenia), zdarzeń ubocznych (np. innych zajęć szkolnych) lub ubywania dzieci w czasie eksperymentu (np. wskutek choroby). P1–X– P2 Udoskonalona wersja poprzedniego schematu: dwie nierównoważne grupy naturalne. W grupie eksperymentalnej mamy dwa pomiary: przed i po oddziaływaniu, w grupie kontrolnej – takie same pomiary bez oddziaływania. Porównanie P1 w obu grupach informuje o ich podobieństwie, a porównanie P2 z P1 w grupie kontrolnej o tym, czy różnica P2 – P1 w grupie eksperymentalnej nie jest wywołana przez czynniki uboczne (np. zewnętrzne zdarzenia lub zmiany rozwojowe). Niestety, brak różnicy w pretestach nie wyklucza możliwości, że grupy różnią się pod innymi ważnymi względami (np. pod względem szybkości uczenia się czy wytrwałości). Wiadomo, że oddziały klasowe często tworzy się w sposób nielosowy (np. według osiągnięć, trudności wychowawczych czy pochodzenia społecznego uczniów). Podobnie brak różnicy między oboma pomiarami w grupie kontrolnej nie wyklucza, że różnica w grupie eksperymentalnej została wywołana przez jakieś lokalne wydarzenie (np. wyjazd na wycieczkę, zwycięstwo w jakimś konkursie). Nie kontroluje się tu także regresji do średniej, a może ona istotnie obniżyć trafność eksperymentu, jeśli badacz sztucznie wyrówna wyniki pretestu. Gdy jeden oddział okazuje się w preteście lepszy niż drugi, badacz może po prostu uwzględnić w analizie tylko tych uczniów z pierwszego oddziału, którzy uzyskali gorsze wyniki, i tylko tych z drugiego, którzy uzyskali lepsze. Ale w drugim pomiarze można się spodziewać podwyższenia średniej w pierwszej grupie i obniżenia średniej w drugiej wyłącznie wskutek regresji. Jeśli pierwszy oddział jest grupą eksperymentalną, grozi to przyjęciem hipotezy fałszywej. Jeśli jest grupą kontrolną, grozi to odrzuceniem hipotezy prawdziwej. Początkowe różnice między grupami próbuje się czasem zniwelować przez redefinicję zmiennej zależnej. Zamiast porównywać średnie P2 w obu grupach, proponuje się porównywać średnie wskaźnika zmiany (tj. różnice P2 – P1 dla każdej osoby). Jeśli różnica między średnimi zmiany jest istotna, wynik można sforP1–X– P2 P1– – P2 Badania eksperymentalne 65 mułować tak: „Uczniowie z grupy eksperymentalnej zmienili swoje zachowanie bardziej niż uczniowie z grupy kontrolnej, niezależnie od stanu początkowego”. Kłopot w tym, że wskaźnik zmiany jest mało rzetelny, a ponadto zwykle ujemnie skorelowany z wynikiem pretestu, ponieważ spektakularny postęp łatwiej osiąga nowicjusz niż ekspert (u drugiego z nich zachodzi efekt sufitowy). Łatwiej więc potwierdzić hipotezę, gdy grupą eksperymentalną jest oddział gorszy w preteście, niż gdy jest nią oddział lepszy w preteście. Udoskonalona wersja drugiego schematu: schemat szeregów czasowych. Mamy tu jedną grupę naturalną. Dokonujemy szeregu pomiarów zmiennej zależnej w ustalonych odstępach czasu (tu: 5), wprowadzamy oddziaływanie i kontynuujemy pomiary. O wpływie oddziaływania wnioskujemy na podstawie zmiany wartości następujących po nim pomiarów. Na przykład przez kilka tygodni rejestrujemy liczbę spóźniających się uczniów, następnie wprowadzamy pewną innowację (np. premię za punktualność) i znów przez kilka tygodni liczymy spóźnialskich. Hipotezę o skuteczności innowacji uznaje się za potwierdzoną, jeśli od momentu jej wprowadzenia widać natychmiastowy lub odroczony spadek spóźnień. Liczne pomiary przed i po oddziaływaniu eliminują konkurencyjne wnioski odwołujące się do zmian zachodzących samorzutnie w badanych, do regresji lub wpływu zabiegów pomiarowych. W wielu praktycznych zastosowaniach tego schematu pomiary zastępuje się danymi archiwalnymi. Można na przykład oszacować skuteczność nakazu jeżdżenia z włączonymi światłami w ciągu doby przez porównanie liczby wypadków drogowych zarejestrowanych przez policję przed i po wprowadzeniu nakazu. P1–P2–P3–P4–P5–X–P6–P7–P8–P9–P10 Lepsza wersja poprzedniego schematu, wzbogacona o nierównoważną grupę kontrolną. Poprzedni schemat pozostawiał wątpliwość, czy zmiany w pomiarach następujących po oddziaływaniu nie biorą się z innych źródeł. Spóźnienia, podobnie jak wagary, samorzutnie zmniejszają się zimą, a wzrastają wiosną. Pracowitość studentów rośnie w miarę zbliżania się sesji egzaminacyjnej. Wprowadzenie grupy kontrolnej (sąsiedniej szkoły czy sąsiedniego państwa) pozwala wyeliminować tę wątpliwość. Można też wprowadzić, a po kilku pomiarach usunąć oddziaływanie. Jeśli zmienna zależna powróci do stanu początkowego, będzie to silny dowód, że jest przyczynowo związana z oddziaływaniem. Zauważmy na zakończenie, że doskonałym remedium na nierównoważność grup są schematy porównań wewnątrzosobniczych. Jeśli chcemy sprawdzić czytelność trzech podręczników: x1, x2, x3, musimy jedynie zrównoważyć kolejność, w jakiej uczniowie będą się z nimi zapoznawać. Przydaje się tu rotacja. Schemat pokazuje poniższa tabela. Uczniowie nie mogą, oczywiście, trzykrotnie czytać o tym samym, gdyż wywoływałoby to zróżnicowany transfer wprawy, który niweczy trafność eksperymentu. P1–P2–P3–P4–P5–X–P6–P7–P8–P9–P10 P1–P2–P3–P4–P5– –P6–P7–P8–P9–P10 66 Rozdział 3. Badania uogólniające Oddział VIa VIb VIc Kolejność I II III x1 x3 x2 x3 x2 x1 x2 x1 x3 Badania porównawcze Badania porównawcze pod pewnym względem przypominają eksperyment: tu też tworzy się grupy reprezentujące wartości zmiennej niezależnej, definiuje zmienną zależną i porównuje jej rozkłady w grupach w celu wykrycia związków między zmienną niezależną a zależną. Ale inaczej niż w eksperymencie badacz nie wytwarza warunków czy oddziaływań, lecz korzysta ze zróżnicowania, które wytworzyło samo życie. Badania porównawcze są substytutem badań eksperymentalnych. Stosujemy je wtedy, gdy eksperymentowanie jest trudne lub niemożliwe. Jeśli chcemy sprawdzić hipotezę o wpływie powodzi na stosunki społeczne na wsi, o wpływie amputacji kończyny na poczucie własnej wartości pacjenta lub o wpływie rozwodu rodziców na zaburzenia emocjonalne u potomstwa, nie możemy wywołać powodzi, dokonać amputacji czy sprowokować rozwodu. Możemy natomiast utworzyć grupy porównawcze złożone odpowiednio: ze wsi, które doświadczyły, i wsi, które nie doświadczyły powodzi, z młodych ludzi, którzy w ciągu ostatniego miesiąca przeszli amputację, i ich rówieśników nie dotkniętych tym nieszczęściem, z dzieci z rodzin rozbitych i pełnych. Z tego powodu schemat badań porównawczych jest szeroko stosowany przez socjologów, antropologów kultury, psychologów rozwojowych i klinicystów, a także wielu pedagogów. W badaniach porównawczych zmienną niezależną jest kryterium doboru porównywanych populacji. Każda wartość zmiennej niezależnej odnosi się do jednej realnej populacji, np. {polskie dzieci z rodzin rozbitych, polskie dzieci z rodzin pełnych}. Z każdej populacji pobieramy metodą niezależnego losowania próbkę o wielkości tak dobranej, by uzyskać pożądaną dokładność porównania (por. rozdz. 6). W próbkach mierzymy jedną lub więcej zmiennych zależnych, po czym szacujemy efekty główne, proste i interakcyjne. Mimo że badania porównawcze są podobne do eksperymentalnych, nie dają one równie mocnych podstaw do wnioskowania przyczynowego. Po pierwsze, w eksperymencie wartość zmiennej zależnej jest zawsze odpowiedzią badanego na wytworzone warunki, a zatem zdarzeniem późniejszym niż wartość zmiennej niezależnej. Jeśli damy badanym z jednej grupy serię nierozwiązywalnych zadań, a z drugiej – serię podobnych, lecz rozwiązywalnych zadań i stwierdzimy, że większość pierwszych zareagowała zespołem wyuczonej bezradności, możemy uznać, że to bezproduktywny wysiłek umysłowy jest przyczyną wyuczonej bezradności, a nie na odwrót. Ale w badaniach porównawczych stosunki czasowe między obiema zmiennymi mogą być rozmaite. Badania porównawcze 67 Bywa, że pewne wartości zmiennej zależnej ukształtowały się wcześniej niż wartości zmiennej niezależnej. Załóżmy, że wylosowaliśmy dwie próbki: bezrobotnych i mających stałe zatrudnienie, zmierzyliśmy różne cechy osobowości tworzących je osób i stwierdziliśmy, że osoby z pierwszej próbki mają poczucie mniejszego panowania nad własnym życiem niż osoby z drugiej próbki. Wniosek, że bezrobocie jest przyczyną spadku poczucia panowania, byłyby jednak pochopny – jest bowiem możliwe, że u bezrobotnych poczucie to było obniżone jeszcze przed utratą pracy, wskutek czego mniej aktywnie zabiegali o jej utrzymanie i zostali zwolnieni. Gdy nie ma wątpliwości, że zmienna zależna ukształtowała się później niż zmienna niezależna, wniosek, że pierwsza jest skutkiem drugiej, obronić łatwiej. Wiadomo, że uczniowie pochodzący z rodzin o wysokim statusie socjoekonomicznym mają wyższe osiągnięcia szkolne niż uczniowie z rodzin o niskim statusie. Ponieważ jest mało prawdopodobne, by osiągnięcia szkolne wpływały na status rodziny ucznia, wolno twierdzić, że jakieś zmienne składające się na status (choć oczywiście nie wiadomo, jakie) należą do zbioru przyczyn powodzenia oświatowego. Zauważmy przy okazji, że schemat badań porównawczych dopuszcza pewną dowolność, którą ze zmiennych ustalimy, tj. uznamy za niezależną. Wybór wpływa jednak na prawomocność wniosków przyczynowych i dlatego powinien być poprzedzony analizą stosunków czasowych między zmiennymi. Wyobraźmy sobie, że chcemy sprawdzić fragment teorii socjalizacji, która głosi, że niepowodzenia szkolne odpychają ucznia od „większościowej” wspólnoty normatywnej, że zatem szuka on innej, z konieczności „mniejszościowej” wspólnoty, która mogłaby go zaakceptować, i że często bywa to grupa przestępcza. Mamy do wyboru dwie drogi: • możemy wylosować próbkę dobrych uczniów i próbkę złych uczniów, po czym porównać ich stosunek do norm prawnych, • możemy wylosować próbkę młodzieży łamiącej normy prawne i próbkę młodzieży przestrzegającej norm, po czym porównać ich osiągnięcia szkolne. W pierwszym wariancie ograniczamy się tylko do uczniów. Zmienna niezależna może być ustalona jako górny i dolny kwartyl średniej stopni szkolnych. Zmienną zależną mogą być opinie nauczycieli lub zarejestrowane akty łamania norm (np. kradzieże lub maltretowanie słabszych kolegów). Gdy stwierdzimy różnicę, możemy sformułować wniosek: „Dobrzy uczniowie mają na koncie mniej wykrytych aktów łamania prawa niż źli uczniowie”. W drugim wariancie populacją generalną jest kohorta (np. rocznik osiemnastolatków). Zmienną niezależną ustalamy na podstawie rejestrów policyjnych lub sądowych. Zmienną zależną jest średnia stopni szkolnych z, powiedzmy, dwóch ostatnich klas szkoły podstawowej. Gdy stwierdzimy różnicę, możemy powiedzieć: „Młodzież, która weszła w konflikt z prawem, dostawała w przeszłości niższe stopnie niż młodzież, która nie miała konfliktów z prawem”. Z tych dwóch wniosków jeden mówi o bieżącym zdrowiu moralnym dobrych i złych uczniów, a drugi o przeszłości oświatowej młodzieży normalnej i wykolejonej. Ponieważ nasza teoria zakłada, że niepowodzenia szkolne są jedną z przyczyn wykolejenia się, lepiej wybrać wariant drugi, w którym niepowodzenia są wcześ- 68 Rozdział 3. Badania uogólniające niejsze w stosunku do wykolejenia. Wariant pierwszy – choć znacznie łatwiejszy do przeprowadzenia – pozostawia wątpliwość, czy stan zdrowia moralnego należy do zbioru skutków, czy do zbioru przyczyn tego, jak się uczniowi wiedzie w szkole. Drugi powód tego, że wnioskowanie przyczynowe jest zawsze wątpliwe, wiąże się z niepełną kontrolą zmiennych ubocznych. Próbki pobrane z realnych populacji są zawsze heterogeniczne. Osoby należące do poszczególnych próbek różnią się od siebie pod wieloma względami. Dobór losowy kontroluje część różnic indywidualnych, ale nie wszystkie – zawodzi w odniesieniu do tych zmiennych, które są skorelowane ze zmienną niezależną. Weźmy prosty przykład. Chcemy sprawdzić hipotezę, że osoby zajmujące stanowiska kierownicze cechuje wyższy indywidualizm niż osoby na stanowiskach podporządkowanych. Pobrawszy dwie losowe próbki (kierowników i podwładnych), aplikujemy badanym stosowną skalę psychologiczną i stwierdzamy, że w pierwszej próbce średnia indywidualizmu jest istotnie wyższa niż w drugiej. Do jakiego wniosku uprawnia taki wynik? Wiemy już, że nie uprawnia do wniosku, że stanowisko jest przyczyną indywidualizmu, równie dobrze bowiem może być odwrotnie. Ale nawet ostrożny wniosek, że obie zmienne są ze sobą związane, może być nieuzasadniony, jeśliby się okazało, że w tym schemacie jest uwikłana zmienna płci (tj. że na stanowiskach kierowniczych są nadreprezentowani mężczyźni). Recenzent doniesienia miałby prawo utrzymywać, że różnica średnich indywidualizmu została wytworzona raczej przez płeć niż przez stanowisko, więc że wyniki nie rozstrzygają o prawdziwości hipotezy. Nie ma metody, która pozwoliłaby się zabezpieczyć przed wszelką krytyką tego rodzaju. Gdy badanie ma charakter eksploracyjny, niepewność co do prawdziwej przyczyny zaobserwowanych różnic może być bardzo dotkliwa. Prowadząc badania weryfikacyjne, jesteśmy w lepszej sytuacji. Nie przystępujemy do pracy z ogólnikowym pytaniem: „Od czego to może zależeć?”, lecz z określonym przewidywaniem. Im bardziej rozwinięta jest teoria, tym bardziej szczegółowe i nieoczywiste są te przewidywania. Jeśli się potwierdzą, będzie bardzo trudno przypisać je jakimś zmiennym uwikłanym. W tym sensie szczegółowość i nieoczywistość przewidywań to najlepsza obrona przed krytyką. Badania poprzeczne i podłużne Badania porównawcze, podobnie jak przeglądowe, o których pomówimy za chwilę, występują we dwóch wariantach: poprzecznym i podłużnym (longitudinal). Badania poprzeczne polegają na jednorazowym pomiarze zmiennej zależnej w wybranych próbkach. Można sobie wyobrazić, że tniemy je poprzecznie, jak makowiec, i porównujemy przekroje. Wszystkie dotychczasowe przykłady należały właśnie do tej kategorii. Badania podłużne polegają na tym, że w pobranych próbkach zmienną zależną mierzy się kilkakrotnie w ustalonych odstępach czasowych. Analizie poddaje się wówczas dynamikę zmiennej zależnej w próbkach. Wyobraźmy sobie, że młodzież z dwóch próbek: ze szkół zawodowych i liceum ogólnokształcącego pytamy dwukrotnie: w klasie I i III czy chodzi do teatru. Jeśli Badania przeglądowe 69 w pierwszej próbce liczba obejrzanych sztuk wzrasta, a w drugiej maleje, mamy większe podstawy do twierdzenia, że za uczestnictwo w kulturze wysokiej odpowiada program kształcenia, niż gdybyśmy poprzestali tylko na jednym pomiarze. Niestety, nawet schemat podłużny nie wyklucza możliwości, że na różnicę wpływają jakieś zmienne uwikłane. Wiele badań podłużnych ma charakter retrospektywny, tzn. wykorzystuje dane archiwalne. Powiedzmy, że chcemy sprawdzić hipotezę – dla wielu będącą pewnikiem – że pobyt dziecka w przedszkolu ułatwia mu start szkolny. W grę wchodzą dwa warianty badania. Pierwszy polega na tym, że populację siedmiolatków dzielimy na trzy subpopulacje: dzieci, które spędziły cztery lata w przedszkolu, dzieci, które do przedszkola chodziły tylko przez ostatni rok, i dzieci, które w ogóle nie chodziły do przedszkola. Wylosowawszy trzy niezależne próbki, cierpliwie gromadzimy dane o postępach szkolnych dzieci na przykład przez trzy lata (w odstępach semestralnych), po czym przystępujemy do analizy. Drugi wariant wykorzystuje fakt, że szkoła archiwizuje dane o osiągnięciach dzieci. Zamiast populacji siedmiolatków wybieramy populację dziesięciolatków i losujemy trzy próbki zdefiniowane jak wyżej. Teraz wystarczy zajrzeć do dzienników klasowych, by stwierdzić, jakie stopnie dostawały dzieci w ciągu sześciu semestrów nauki. Choć takie badanie możemy przeprowadzić w ciągu miesiąca, są to porównawcze badania podłużne, ponieważ śledzimy tu losy zbiorowości reprezentujących z góry określone populacje. Rzecz jasna, dane archiwalne mogą być nietrafne lub nierzetelne. W powyższym przykładzie powinniśmy jednak je uznać, ponieważ stopnie i opinie nauczycieli są definicyjnym wskaźnikiem powodzenia szkolnego ucznia. Badania przeglądowe Schemat, do którego teraz przechodzimy, po angielsku nazywa się survey (to survey znaczy tyle, co przyglądać się czemuś, dokonywać przeglądu), po polsku zaś – sondaż lub schemat korelacyjny. Nie są to najszczęśliwsze nazwy, dlatego proponuję nową: badania przeglądowe. Nazwa ta dokładnie odpowiada charakterowi tych badań: dostarczają one bowiem przeglądu wielu zmiennych losowych w jednej próbce pobranej z realnie istniejącej populacji – podobnie jak odpowiednio zabarwiony preparat przeglądany pod mikroskopem ujawnia strukturę tkanki, z której pochodzi. Najbardziej znane są przeglądy (sondaże) opinii publicznej. Fachowo przeprowadzony przegląd zaczyna się od wylosowania próbki reprezentującej populację dorosłych Polaków. W tej próbce zbiera się dane za pomocą kwestionariusza zawierającego pytania typu: „Gdyby wybory prezydenckie odbywały się dzisiaj, to na kogo by Pani/Pan głosował/a?” Wynikiem badania jest rozkład głosów oddanych na poszczególnych kandydatów. Rozwinięte badania przeglądowe nie poprzestają na tak skromnym wyniku, idzie w nich bowiem nie tylko o poznanie rozkładów zmiennych, ale i związków między nimi. Zwykły kwestionariusz opinii publicznej zawiera często pytania 70 Rozdział 3. Badania uogólniające demograficzne (o płeć, wiek, miejsce zamieszkania, wykształcenie, stan cywilny itd.), po to by można było wykryć korelacje między tymi zmiennymi a opiniami. Wiedza, że kandydata X najczęściej stawiają na pierwszym miejscu młodzi ludzie z maturą, nieco rzadziej – starsi robotnicy, a prawie nigdy – kobiety mieszkające na wsi, ma duże znaczenie dla zespołu, który przygotowuje kampanię wyborczą. W złożonych badaniach przeglądowych mierzy się jednocześnie wiele zmiennych – postawy, fakty biograficzne itp. W znanych badaniach Jessora i in. (1980) reprezentatywną próbkę amerykańskich nastolatków pytano o palenie marihuany i picie alkoholu. Analiza korelacyjna wykazała, że osoby często palące marihuanę spodziewały się miernych osiągnięć w nauce, miały większą tolerancję dla różnych wykroczeń, miały przyjaciół dezaprobowanych przez rodziców, a także przypisywały niezależności większą wartość niż osiągnięciom szkolnym. Takie zmienne skorelowane z interesującą nas zmienną nazywa się korelatami tej zmiennej. Nazwa „korelat” ma przypominać o podstawowym ograniczeniu badań przeglądowych: braku podstaw do wnioskowań przyczynowych. W korelatach nie można upatrywać ani przyczyn, ani skutków interesującej nas zmiennej. Mimo wysokiego współczynnika korelacji między dwiema zmiennymi związek może być pozorny. Na przykład w Europie utrzymywała się przez wiele lat ujemna korelacja między stopą urodzeń a liczbą śmiertelnych wypadków drogowych, z czego bynajmniej nie wynika, że działania pobudzające rozrodczość mogły zmniejszyć liczbę wypadków. Obie te zmienne pozostawały pod wpływem właściwych im przyczyn (odpowiednio: upowszechniania się nowego wzoru kariery życiowej i wzrostu intensywności ruchu drogowego), a korelacja między nimi wynikała po prostu stąd, że obie przyczyny były skorelowane ze zmienną czasu. W prostszym przypadku dwie zmienne są pozornie skorelowane ze sobą, gdy mają wspólną przyczynę. Wiadomo na przykład, że zachodzi istotna korelacja między liczbą strażaków i liczbą pożarów w mieście. Odpowiada za nią trzecia zmienna: wielkość miasta. Nawet gdyby za jakąś korelacją stał związek przyczynowy, często nie bylibyśmy w stanie rozstrzygnąć, która zmienna jest przyczyną, a która skutkiem. Nieostrożny badacz wykrył korelację między agresywnym zachowaniem się dziecka w przedszkolu a stosowaniem kar fizycznych w domu, po czym oznajmił: bicie dzieci podwyższa w nich skłonność do agresji. Wniosek brzmi rozsądnie, ale nie wynika z danych. Z równym uzasadnieniem można by twierdzić, że to skłonność dziecka do agresji zwiększa częstość kar fizycznych. Pamiętając o ograniczeniach schematu badań przeglądowych, możemy go stosować do znajdowania odpowiedzi na rozmaite pytania: • o różnice między częściami próbki pod względem jakiejś zmiennej (np. Kto dostaje lepsze stopnie: dziewczynki czy chłopcy?), • o różnice między rozkładami zmiennych w całej próbce (np. Z jakiego przedmiotu stawia się wyższe stopnie: z matematyki czy z nauki o środowisku?), • o związki między zmiennymi w całej próbce lub w dowolnej jej części (np. Jaki jest współczynnik korelacji między wynikiem testu inteligencji i stopniami Badania przeglądowe 71 szkolnymi? lub Czy ten współczynnik w grupie chłopców ma podobną wielkość, co w grupie dziewczynek?9). Czytelnik zechce zauważyć, że takiej swobody nie dawał schemat badań porównawczych. Porównując dwie próbki pobrane z dwóch populacji pod względem dwóch zmiennych, nie mogliśmy połączyć próbek, by obliczyć współczynnik korelacji między zmiennymi. Łączenie niezależnych próbek o arbitralnych liczebnościach nie ma sensu, ponieważ połączona próbka nie reprezentuje żadnej populacji10. Tu natomiast liczebności części próbki nie są arbitralne, można je więc dowolnie tworzyć i łączyć, nie odrywając się od rzeczywistości. Zauważmy też, że na każdej próbce z badania porównawczego można prowadzić osobne badanie przeglądowe. Niektóre zastosowania badań przeglądowych Typowym wynikiem badania przeglądowego jest współczynnik korelacji lub – gdy mierzymy większą liczbę zmiennych – macierz współczynników korelacji. Do czego można wykorzystać taki wynik? Oto kilka możliwości. Przewidywanie. Jest oczywiste, że jeśli między dwiema zmiennymi istnieje wysoka korelacja, to znając wartość jednej zmiennej (zwanej predyktorem), możemy przewidywać wartość drugiej zmiennej. Ma to sens praktyczny, gdy jedna zmienna jest bardziej doniosła i zarazem mniej dostępna niż druga. Tak bywa w zadaniach selekcji – uczniów do określonej szkoły, kandydatów do pracy itd. Zmienne powodzenia w nauce lub w pracy są dobrze zdefiniowane, ale by się przekonać, jakie wartości przyjmą u konkretnego kandydata, trzeba go przyjąć i cierpliwie czekać. Ponieważ jest to kosztowne, szuka się zmiennych silnie skorelowanych ze zmiennymi powodzenia i łatwych do zmierzenia, by na ich podstawie podejmować decyzje o przyjęciu lub odrzucenia kandydatów. Szuka się też zmiennych, które pozwoliłyby przewidzieć niepożądane zachowania. W cytowanym badaniu Jessora i in. (1980) wykryto trzy predyktory palenia marihuany przez nastolatków: posiadanie palących marihuanę przyjaciół, liczba przypadków nadużycia alkoholu w ciągu ostatniego roku oraz udział w czynach zabronionych przez normy prawne lub moralne. Trzeba zwrócić uwagę, że dla przewidywania nie jest istotne, czy predyktor jest związany ze zmienną zależną związkiem przyczynowym, a tym bardziej zrozumienie tego związku. Przewidujący działa na czysto empirycznej podstawie, mówiąc sobie, że skoro dotąd obserwowano współwystępowanie wartości dwóch zmiennych, zapewne będzie tak nadal. Nie trzeba dodawać, że taka postawa może być usprawiedliwiona w świecie praktyki, ale nie nauki. Sprawą kluczową jest natomiast wielkość współczynnika korelacji. Słabe korelacje prowadzą do przewidywań, których trafność niewiele odbiega od zwykłego 9 Na to drugie pytanie odpowiedź jest przecząca, co ma interesujące konsekwencje teoretyczne (Konarzewski, 1995). 10 Chyba że podział populacji generalnej był wyczerpujący, a proporcja każdej populacji w populacji generalnej znana. Wtedy można oszacować parametr w populacji generalnej, ważąc tymi proporcjami mierniki parametru w próbkach. 72 Rozdział 3. Badania uogólniające zgadywania. Metoda, która pozwala przekształcić zmienne w predyktory i oszacować błąd przewidywania, to analiza regresji. Poznamy ją w rozdz. 8. Szczególnym przypadkiem przewidywania jest przewidywanie miejsca, które zajmie obiekt w pewnej klasyfikacji. Często chcielibyśmy zawczasu wiedzieć, czy Jan znajdzie się w populacji dobrych czy złych studentów, sprawnych czy nieudolnych pracowników itp., by podjąć uzasadnioną decyzję o jego przyjęciu lub odrzuceniu. W tym celu oblicza się wskaźnik będący liniową kombinacją wielu predyktorów (funkcję dyskryminacyjną) – taki, który maksymalizuje różnice między populacjami. Porównując klasyfikację przewidywaną z rzeczywistą, możemy obliczyć odsetek błędnie sklasyfikowanych obiektów i na tej podstawie zdecydować, czy wskaźnik może być używany do celów praktycznych. Metoda analizy dyskryminacyjnej wchodzi w skład większych pakietów programów statystycznych (np. SPSS-PC). Budowanie i weryfikacja typologii. Zbiór k zmiennych przedziałowych zmierzonych w badaniu przeglądowym prowadzi do macierzy k (k – 1) / 2 współczynników korelacji. W takiej macierzy jest zazwyczaj pewien ukryty porządek. Tworzy go kilka nieobserwowalnych zmiennych wyższego rzędu, które odpowiadają za zaobserwowane współczynniki. Te zmienne często mają znaczenie teoretyczne jako pojęcia porządkujące zmienne empiryczne (np. typy idealne). Istnieją metody, które pozwalają je ujawnić w nawet w obszernych zbiorach zmiennych (rodzina analiz czynnikowych). Szczegółowo omawia je Zakrzewska (1994). Weryfikacja twierdzeń przyczynowych. Jeśli dwie zmienne są skorelowane, to nie muszą być związane przyczynowo, ale jeśli są związane przyczynowo, to muszą być skorelowane. Z twierdzenia przyczynowego wynika więc hipoteza o wielkości współczynnika korelacji. Załóżmy, że nasza teoria głosi: lęk obniża wykonanie testów osiągnięć mających limit czasowy (tzw. testów szybkości). Wynika z niej następująca hipoteza: bezwzględna wartość współczynnika korelacji między wynikiem skali lęku Spielbergera a wynikiem testowania z limitem czasowym jest istotnie większa niż między wynikiem skali Spielbergera a wynikiem testowania bez limitu czasowego. Jeśli ta hipoteza się potwierdzi, nie wolno, rzecz jasna, napisać: „Badanie wykazało, że lęk jest przyczyną porażki w testach szybkości”, ponieważ badanie przeglądowe tego wykazać nie może. Ale potwierdzenie hipotezy z pewnością zwiększa zaufanie do teorii. Jeszcze więcej wnosi niepotwierdzenie hipotezy. Trzeba wtedy ponownie przemyśleć twierdzenie teoretyczne lub zastosowane metody pomiaru. Badanie zmian. Badań przeglądowych często używa się do śledzenia zmian zachodzących w populacji. Można do tego stosować zarówno schemat poprzeczny, jak i podłużny. Jak pamiętamy, w badaniu poprzecznym jednokrotnie mierzymy zbiór zmiennych w próbce. Takie badanie można jednak powtarzać w ustalonych odstępach czasu na nowych próbkach losowanych z tej samej populacji. Uzyskujemy wtedy szereg niezależnych przekrojów poprzecznych. Porównując je, widzimy zmiany, jakie zachodzą w populacji – wzrost lub spadek zaufania do rządu, zadowolenia z życia, wartości przypisywanej życiu rodzinnemu itp. Badania przeglądowe 73 Ten schemat ma swoje ograniczenia. Po pierwsze, nie można wnioskować o ciągłości lub zmianie na poziomie jednostek, ponieważ bada się coraz to nowe osoby. Stwierdziwszy, że w pierwszym pomiarze za integracją z UE opowiedziało się 60%, a w drugim 55% respondentów, nie możemy napisać: „Ludzie trwają w przekonaniu, że...”, ponieważ nie można wykluczyć, że wielu z nich zmieniło zdanie (ci, którzy najpierw opowiadali się za integracją, teraz mogą być jej przeciwni, i odwrotnie). Stałość opinii w pewnej populacji nie implikuje stałości jej zwolenników. Schemat dopuszcza natomiast wniosek w formie: „Integracja jest ciągle popularna: liczba popierających ją osób prawie się nie zmieniła”. Po drugie, pewne populacje mają z definicji zmienny skład, np. populacja polskich gimnazjalistów co roku wymienia z grubsza trzecią część swego składu. Zmniejsza to użyteczność przekrojów poprzecznych, trudno bowiem mieć pewność, czemu przypisać zmianę wartości pomiarów: zmianie warunków pracy gimnazjów czy wejściu nowego rocznika uczniów o szczególnych doświadczeniach życiowych. W badaniu podłużnym powtarzamy pomiary na osobach z tej samej próbki. Dzięki temu możemy się wypowiadać o kierunku i zakresie zmian w jednostkach, a także – wiedząc, co działo się między pomiarami – wnioskować o wpływie tych zdarzeń na jednostki. Jeśli na przykład w części badanych rodzin zdarzył się rozwód rodziców, możemy pokazać, jak to odbija się na potomstwie. Warto zwrócić uwagę, że inaczej niż w schemacie porównawczym, dysponujemy tu wiedzą o stanie poprzedzającym wydarzenie. Jeśli porównawszy dwie próbki uczniów: z rodzin pełnych i rozbitych, stwierdzimy, że drudzy są bardziej agresywni niż pierwsi, możemy się spotkać z zarzutem, że ta różnica mogła się ukształtować grubo przed rozwodem rodziców. Badanie podłużne pozwala obalić taki zarzut. Pozwala też śledzić rozwój zaburzeń, w miarę jak rodzina zbliża się do rozpadu. Badania podłużne są rzadsze, niżby tego wymagały pytania badawcze. Nic dziwnego: badanie, które trwa latami, niełatwo zorganizować, niełatwo też otrzymać zgodę wylosowanych osób na wielokrotne zakłócanie ich prywatności. Sporym problemem jest zmniejszanie się próbki, czyli dosłowna i przenośna śmiertelność. Pół biedy, jeśli ubytki mają charakter losowy. Jeśli jednak z pola widzenia badacza znikają osoby należące do określonej kategorii, to fakt ten najprawdopodobniej wpłynie, choć w nieznany sposób, na bieżący obraz próbki. W pewnych przypadkach same pomiary mogą wpływać na opinie badanych (pytania kwestionariusza mogą uwrażliwiać ich na pewne zjawiska) i na następne pomiary (badani mogą się czuć związani odpowiedziami, których kiedyś udzielili). Rozdział 4 BADANIA INDYWIDUALIZUJĄCE Istotą badań indywidualizujących jest założenie o niepowtarzalności każdego obiektu. Stąd wynika założenie o nieporównywalności pomiarów: każdy wynik jest zależny od kontekstu. Nie zakłada się żadnej całości wyższego rzędu (ponadindywidualnej), w związku z czym agregowanie danych indywidualnych (np. obliczanie średniej dla grupy badanych) traci sens. Nie ma „rewolucji w ogóle”, są tylko pojedyncze rewolucje. Poznanie rewolucji angielskiej nie pomaga zrozumieć rewolucji francuskiej. Związek między dwiema zmiennymi wykryty w jednym oddziale klasowym nie musi się pojawić w innym oddziale. Pewien uczeń może regularnie reagować w określony sposób na pewną sytuację, ale to nie znaczy, że podobnie będzie reagować inny uczeń. Wbrew pozorom takie badania mogą mieć cel teoretyczny: dostarczać wskazówek co do szczegółów twierdzenia teoretycznego lub nawet weryfikować teorię pojedynczego obiektu (idiograficzną). Badanie indywidualizujące mogłoby też weryfikować teorię ogólną, gdyby nie to, że w naukach społecznych ma ona zawsze sens probabilistyczny. Jakkolwiek kierując się wygodą, mówimy: „Frustracja wywołuje agresję”, to nie mamy na myśli, że każdy, kto doświadczy frustracji, zachowa się agresywnie w ciągu kilku najbliższych godzin, lecz jedynie że prawdopodobieństwo agresywnego zachowania się jest większe w populacji osób sfrustrowanych niż w populacji niesfrustrowanych. Wynika stąd natychmiast, że żaden pojedynczy przypadek nie może obalić teorii ogólnej – rzecz trudna do zrozumienia dla początkujących badaczy. Teoria jednostkowa może dotyczyć splotu przyczyn pewnego wydarzenia, reguł współżycia społecznego w pewnej grupie, skutków pewnego doświadczenia itd. Jeśli podejrzewam, że pewien kryzys polityczny był wynikiem spisku, szukam świadectw wzajemnych kontaktów między hipotetycznymi spiskowcami; jeśli sądzę, że czyjaś choroba ma charakter psychosomatyczny, badam okoliczności, w których dochodzi do ataków. Nie jest więc tak, by w badaniu indywidualizującym nie dochodziło do uogólnień. Powiedzmy wyraźnie: ktoś, kogo bez reszty pochłaniają zjawiska obserwowane w konkretnych miejscach i czasie, w ogóle nie prowadzi badania naukowego. Spostrzeżenie ma znaczenie naukowe, jeśli mówi coś więcej niż to, że tego a tego dnia ten a ten zrobił to a to. Mówić więcej znaczy tyle, co wpływać na nasz stosunek do innych spostrzeżeń. Skoro badany zrobił to a to w obecności obserwatora, zapewne musiał to robić w przeszłości lub zrobi to w przyszłości. Spostrzeże- Eksperyment jednoosobowy 75 nie przenosi się na sytuacje nieobserwowane, co jest klasycznym uogólnieniem. Pojedyncze spostrzeżenie może też wpływać na zrozumienie czegoś, co stało się wcześniej lub później. Jeśli ktoś nieoczekiwanie upił się tuż po rozmowie ze swoim zwierzchnikiem, to znaczy, że przeżył ją silniej, niżby to wynikało z jego słów. To też jest uogólnienie (podniesienie obserwacji do roli następnika w regule wnioskowania, która wiąże upicie się z reakcją na zachwianie poczucia własnej wartości). Jednego wszakże robić nie wolno: uogólniać teorii indywidualnego obiektu na inne obiekty. Jeśli udało się nam zrozumieć, że pewien nauczyciel dlatego ośmiesza swoich uczniów, że czuje się zdegradowany przez los, to nie możemy twierdzić, że wszyscy nauczyciele robią to z tego samego powodu. Jeśli, kontynuując badanie w tym samym duchu, znaleźlibyśmy jeszcze dwóch podobnych i trzech niepodobnych nauczycieli, to nie moglibyśmy twierdzić, że połowa polskich nauczycieli ośmiesza uczniów z powodu poczucia niezasłużonego poniżenia. Pewien autor, zbadawszy cztery rodziny dzieci uzdolnionych muzycznie, napisał: „W rodzinach tego typu ojciec jest zazwyczaj mniej aktywny muzycznie. Najczęściej słucha muzyki popularnej oraz znanych piosenkarzy. Bardzo też lubi słuchać śpiewu żony i dzieci”. Zwróćmy uwagę, jak zręcznie przeszedł on od badania indywidualizującego do uogólniającego: dokonał zarazem agregacji danych („zazwyczaj” lub „najczęściej” to przybliżone, porządkowe miary częstości względnej) i uogólnienia na populację rodzin „tego typu”. Jest jednak jasne, że „zazwyczaj” musi tu znaczyć: w trzech rodzinach na cztery. Równie dobrze można by się wypowiadać o składzie wody w Wiśle na podstawie kropli pobranej u stóp Baraniej Góry. Zakaz uogólniania nie znaczy wcale, że nie można porównywać teorii indywidualnych przypadków między sobą (np. szukać wspólnych rysów dotychczas zbadanych rewolucji) i tak klasyfikować teorii, by zwiększyć ich podobieństwo wewnątrz klasy i różnice między klasami. Takie porównania mogą być źródłem interesujących sugestii teoretycznych (np. typów idealnych). Mogą też odsłaniać różnorodność tam, gdzie teoria jej nie przewiduje. Wtedy staje się jasne, że nie ma sensu spierać się o to, „jak jest”, tylko o to, jak są rozłożone różne wzorce. Eksperyment jednoosobowy Eksperyment, opisany w swych rozmaitych odmianach w poprzednim rozdziale, jest przede wszystkim sposobem weryfikowania teorii ogólnych. Tym ciekawsze jest zastosowanie eksperymentu w badaniach indywidualizujących. Eksperyment indywidualizujący to eksperyment z udziałem jednej osoby w schemacie porównań wewnątrzosobniczych. Hipoteza, jak zawsze w badaniach eksperymentalnych, dotyczy związku między zmienną niezależną, której wartości wytwarza badacz, a zmienną zależną, czyli zachowaniem się badanego. Hipoteza głosi więc, że badany zmieni swoje zachowanie pod wpływem określonego oddziaływania. Schemat ten jest najczęściej stosowany w pedagogice specjalnej i psychologii klinicznej w celu poznania czynników łagodzących niepożądane stany czy zachowania pacjenta. W najprostszym przypadku eksperyment składa się z dwóch faz. W pierwszej wielokrotnie mierzy się określony aspekt zachowania w zastanych warunkach (np. czas, jaki zajmuje upośledzonemu dziecku ubranie się z rana, czy liczba uderzeń we 76 Rozdział 4. Badania indywidualizujące własną głowę u dziecka autystycznego). Wynik tego pomiaru to poziom podstawowy (baseline). W drugiej wprowadza się oddziaływanie (np. oferuje się dziecku nagrodę za ubranie się w ciągu 10 minut) bez przerywania pomiaru. W najczęściej używanym schemacie ABAB fazy te następują po sobie (A: pomiar bez oddziaływania, B: oddziaływanie i pomiar, A: pomiar bez oddziaływania, B: oddziaływanie i pomiar). Wyniki pomiaru nanosi się na wykres, w którym oś odciętych reprezentuje kolejne dni eksperymentu. Dzięki temu można się bez trudu przekonać, czy po wprowadzeniu oddziaływania następuje zmiana zachowania badanego i czy każda zmiana zachowania jest poprzedzona wprowadzeniem oddziaływania. Jeśli wzór dostatecznie wyraźnie rzuca się w oczy, żadna statystyka nie jest potrzebna, by uzasadnić wniosek o zależności przyczynowej zmiany od oddziaływania. Schemat ten łatwo rozbudować przez objęcie pomiarem kilku zmiennych zachowania się badanego. Rysunek 4.1 przedstawia procent czasu spędzanego na interak80 60 40 20 Z dorosłymi 0 80 60 40 20 0 Z dziećmi 1–5 6–11 12–16 17–25 podstawawzmacnianiewygaszanie wzmacnianie 31–51 follow-up Rysunek 4.1. Procent czasu spędzanego w przedszkolu przez 4-letnią dziewczynkę w interakcjach z dorosłymi i dziećmi w ciągu 2-godzinnych sesji porannych. Źródło: Allen, Hart, Buell, Harris i Wolf (1964) Eksperyment jednoosobowy 77 cjach z dorosłymi i dziećmi przez czteroletnią dziewczynkę w przedszkolu w ciągu dwugodzinnych sesji porannych (Allen i in., 1964). Po 5 dniach fazy A wprowadzono nagrodę za każdy kontakt z rówieśnikami. Jak widać, w fazie B nastąpił wyraźny spadek interakcji z dorosłymi i wzrost interakcji z dziećmi. Że te zmiany można przypisać samemu oddziaływaniu, a nie jakimś ubocznym czynnikom, przekonuje następnych 5 dni, w których wycofano oddziaływanie. Gdyby nie nastąpił spadek interakcji z dziećmi i wzrost interakcji z dorosłymi, musielibyśmy uznać, że korzystne zmiany wytworzyła jakaś zmienna uwikłana w oddziaływanie (np. zwiększona uwaga ze strony personelu) albo że podtrzymują je inne zmienne (np. zmiana stosunku rówieśników do dziecka). Druga faza B trwała 9 dni. Znów widać wyraźny wzrost interakcji z rówieśnikami. Eksperyment potwierdził więc skuteczność nagradzania tej dziewczynki za kontaktowanie się z rówieśnikami. Dodatkowym elementem schematu był pomiar dystansowy (follow-up), dokonany czterokrotnie w ciągu następnych 3 tygodni. Upewnił on badaczy o trwałości wywołanej zmiany. Krytycy schematu ABAB podnoszą, że druga faza A oznacza zgodę na powrót dziecka do niepożądanego zachowania, co jest niemoralne. By uniknąć tego zarzutu, Kazdin i Kopel (1975) zaproponowali skupić uwagę na kilku nieskorelowanych ze sobą zmiennych niepożądanego zachowania dziecka (np. na trzech: Y1, Y2 i Y3) i na dostosowanych do nich oddziaływaniach korekcyjnych. Schemat takiego eksperymentu wygląda wówczas następująco: • I faza: A(Y1) + A(Y2) + A(Y3), • II faza: B(Y1) + A(Y2) + A(Y3), • III faza: B(Y1) + B(Y2) + A(Y3), • IV faza: B(Y1) + B(Y2) + B(Y3). Uznanie skuteczności każdego oddziaływania zależy od tego, czy zachowanie, które ma ono korygować, zmienia się tuż po wprowadzeniu tego oddziaływania. Innym wyjściem jest powielenie jednoosobowego eksperymentu. Powiedzmy, że bierzemy do badania troje dzieci z tej samej grupy. Ustaliwszy dla każdego poziom podstawowy, wprowadzamy oddziaływanie najpierw wobec jednego dziecka, potem wobec drugiego i w końcu wobec trzeciego. Jeśli oddziaływanie jest przyczyną zmiany zachowania, to powinna ona kolejno pojawiać się u badanych dzieci, poczynając od pierwszej sesji, w której wprowadzono oddziaływanie. Ten sposób poznawania skuteczności różnych metod nauczania umiejętności (np. motorycznych) zbliża się do badań uogólniających. Na zakończenie garść przestróg. Ponieważ najczęściej pomiarów dokonuje się metodą obserwacji, trzeba się upewnić, czy jest ona rzetelna, tzn. obliczyć współczynnik zgodności między dwoma obserwatorami. Nierzetelność pomiarów zwiększa zmienność wyników w obrębie jednej fazy, co znacznie utrudnia wzrokową analizę całego wzoru wyników. Jeśli mimo uściślenia definicji kategorii obserwacyjnych zmienność się utrzymuje, mamy do wyboru: kontynuować pomiary poziomu podstawowego aż do momentu ustabilizowania się wartości zmiennej, szukać przyczyn zmienności i próbować je usunąć lub wspomóc analizę wzrokową rachunkami (najprościej – agregować pomiary w obrębie faz i porównywać agregaty, lepiej – zastosować analizę szeregów czasowych). 78 Rozdział 4. Badania indywidualizujące Eksperyment jednoosobowy ma poważną wadę: nie pozwala wykryć interakcji czynnika eksperymentalnego i zmiennych indywidualnych. Skoro nie można się przekonać, czy jakieś cechy badanej osoby nie współdziałają z oddziaływaniem w wytwarzaniu zmiany w zachowaniu, to trafność zewnętrzna eksperymentu jednoosobowego jest zawsze wątpliwa: nie sposób mieć pewność, że podobne oddziaływanie przyniesie podobne skutki u innych osób. Oczywiście, jak podpowiada doświadczenie nauczycieli i klinicystów, wiele oddziaływań, które służą jednym pacjentom, okazuje się też służyć innym, toteż zawsze możemy traktować eksperyment jednoosobowy jako źródło hipotez dla badania uogólniającego. Badania jakościowe Jakkolwiek typowe badanie ilościowe zmierza do uogólnienia obserwacji poszczególnych przypadków, to jednak możliwe są indywidualizujące badania ilościowe, czego dowodem jest eksperyment jednoosobowy. Ale badania jakościowe są zawsze indywidualizujące, zakładają bowiem niepowtarzalność każdego przypadku. Rzadko też mają charakter weryfikacyjny, ponieważ trudno zbudować teorię jednego przypadku przed nawiązaniem z nim kontaktu. Najczęściej więc są to badania eksploracyjno-weryfikacyjne: w tym samym przedsięwzięciu badawczym szuka się wskazówek, jak zbudować twierdzenie teoretyczne, i weryfikuje to twierdzenie. Jak widzieliśmy w rozdz. 2, fazy te mogą się przeplatać ze sobą. W badaniu jakościowym uwaga koncentruje się zwykle na ludziach w określonej instytucji społecznej (np. małżeństwie) lub organizacji (np. poradni psychologiczno-pedagogicznej). Jeśli wybieramy próbkę, nie jest ona losowa, lecz celowa. Samo badanie jest wstępnie ukierunkowane przez pytanie badawcze. Ogólne pytanie może brzmieć: co się dzieje z małżonkami, gdy ich dziecko wchodzi w okres dorastania, jak przebiega proces udzielania uczniowi porady co do wyboru szkoły? To pytanie rozwija się w szereg pytań szczegółowych: jak spostrzegają samych siebie ludzie w tej organizacji, jak pojmują swoją rolę, jak widzą swój prestiż, jak obiektywne cechy organizacji wpływają na subiektywne interpretacje, jakie są powody, że ludzie działają w zaobserwowany sposób? Ale nawet taka konkretyzacja pytania nie wystarczy, badacz nie może bowiem zwracać uwagi na wszystko, co dzieje się w badanym terenie. Potrzebne jest coś, co Glaser i Strauss (1967) nazywają pojęciami analitycznymi i uwrażliwiającymi. Jeśli badamy poradnictwo, takim pojęciem może być zaufanie: definicyjny warunek wykorzystania porady. Pytamy wtedy, czy klient ufa poradni i jej personelowi, jak wpływa na zaufanie opinia o kompetencjach doradcy itd. Można też postawić dwa równoległe pytania, by przedwcześnie nie zamknąć sobie dostępu do interesujących aspektów terenu. Jedno może dotyczyć „teorii zaufania”, której hołduje doradca, drugie tego, jakie „etnometody” wytwarzają zaufanie w procesie doradzania. Gdy wiemy już, na co zwrócić uwagę, wybieramy metody zbierania danych (rozdz. 7). Jest ważne, by wybrana metoda przynosiła dane dające szansę odpowiedzi na pytanie badawcze. Dane z wywiadu mogą pozwolić na rekonstrukcję osobistej „teorii zaufania” doradcy, ale nic nie powiedzą o stosowanych przezeń Badania jakościowe 79 sposobach wzbudzania zaufania u klienta. Do tego trzeba obserwacji jakościowej. Dobrze jest użyć kilku metod, by móc zastosować triangulację metod. Po zebraniu danych albo ich części analizuje się je metodami opisanymi w rozdz. 8 i formułuje końcowy wniosek. W tak zarysowanym polu jakościowych badań indywidualizujących można wyodrębnić trzy schematy: studium przypadku, badanie etnograficzne i badanie historyczne. Studium przypadku Przypadek (case) to słowo dwuznaczne. W podstawowym znaczeniu to pewna przypadłość (np. choroba, talent, rola społeczna, rozwiązanie praktycznego problemu) ulokowana w konkretnej osobie lub grupie, np. w Janie, rodzinie Kowalskich, klubie młodzieżowym na osiedlu „Sielanka”, lokalnym gangu motocyklowym, szkole. We wtórnym znaczeniu to sam obiekt dotknięty tą przypadłością: rodzina Kowalskich, osiedlowy klub młodzieżowy itp. W tym znaczeniu przypadkiem nazywa się też każdą osobę wybraną lub wylosowaną do badania w dowolnym schemacie (próbka to zbiór przypadków). Jeśli studium przypadku ma się wyróżniać jako odrębny schemat, nie wystarczy powiedzieć, że jest to badanie „losu jednostki”, zwłaszcza gdy dalej mówi się też o badaniu „konkretnych zjawisk” (Pilch, 1995, s. 48). Powiemy więc, że studium przypadku to schemat badania jakościowego, które zmierza do stworzenia jednostkowej teorii zjawiska ogólnego. Załóżmy, że interesuje nas nieśmiałość uczniów – zjawisko bez wątpienia ogólne. Możemy je badać na dwa sposoby. Pierwszy to badanie ilościowe z myślą o teorii ogólnej. Musimy wtedy wybrać schemat (np. przeglądowy), opracować metody pomiaru nieśmiałości i innych zmiennych (np. klimatu rodzinnego, postawy nauczycielki wobec uczniów), wylosować próbkę oddziałów klasowych, przeprowadzić pomiary, a wyniki poddać analizie statystycznej. W ten sposób możemy dojść do interesujących wniosków, np. że w populacji nauczycieli stosunek do uczniów nieśmiałych jest mniej życzliwy niż do śmiałych, co podtrzymuje ich nieśmiałość. Jest jednak oczywiste, że możliwe wnioski z takiego badania są z góry ograniczone przez naszą decyzję, jakie zmienne mierzyć. Drugie podejście wymaga, byśmy najpierw znaleźli ucznia, którego charakteryzuje wiele objawów nieśmiałości, po czym starali się dowiedzieć o nim jak najwięcej – skąd pochodzi, kim są jego rodzice, jak układało mu się dotąd życie w domu, na podwórku, w organizacjach oświatowych, w jakich sytuacjach ujawnia najwięcej oznak nieśmiałości (np. przy spotkaniu z nieznanymi osobami czy w grupie znanych rówieśników), co sam myśli o sobie, czy czuje się inny niż rówieśnicy, jakie ma aspiracje, jak wyobraża sobie własną przyszłość, co o nim myślą rodzice, nauczyciele i rówieśnicy... Analiza różnorodnych danych jakościowych może doprowadzić do teorii „nieśmiałości Jana”. Choć takiej teorii nie możemy uogólnić na Piotra czy Pawła, może ona znacznie powiększyć naszą wiedzę o nieśmiałości. Możemy ją wykorzystać do postawienia hipotezy dla badania weryfikacyjnego lub do celów praktycznych (np. do opracowania indywidualnego programu wychowania Jana lub reedukacji jego wychowawców). 80 Rozdział 4. Badania indywidualizujące Studium przypadku okazuje się bezcenne, gdy interesujące nas zjawisko jest rzadkie. Piękna książka A. Łurii O pamięci, która nie miała granic to doniesienie z wieloletniego studium przypadku niezwykłej pamięci. Są też doniesienia o zachowaniu się ludzi z rzadkimi uszkodzeniami mózgu. Studium pacjenta, któremu z powodu epilepsji usunięto fragmenty płatów skroniowych wraz z hipokampem, wykazało, że utracił on zdolność trwałego zapamiętywania wiadomości. Wynik ten w efektowny sposób potwierdził teorię dwóch systemów pamięci (krótko- i długotrwałej). Zauważmy, że zgodnie z naszą definicją bohaterami studium przypadku nie muszą być pojedyncze osoby, równie dobrze bowiem przedmiotem teorii jednostkowej mogą być konkretne organizacje (np. szkoła w Kożuszkach). Rzecz jasna, szkoła nie może być „nosicielem” zjawisk właściwych osobom, ale jest wiele zjawisk typowo szkolnych, które zasługują na zbadanie. Burgess i in. (1995) zajęli się alternatywnym sposobem oceniania postępów uczniowskich zwanym rejestrem osiągnięć (Records of Achievement)1, wykonując cztery studia przypadku (tzn. badając funkcjonowanie rejestru w czterech szkołach). Studium przypadku innowacji dydaktycznej czy wychowawczej z reguły daje o niej głębszą wiedzę niż masowe i powierzchowne badania przeglądowe. W Polsce takie studia są nadzwyczaj rzadkie. Mnożą się natomiast „monografie pedagogiczne”. Pilch (1995, s. 46) nazywa tak badanie pojedynczych organizacji („struktur sformalizowanych”) prowadzące do „gruntownego rozpoznania struktury instytucji, zasad i efektywności działań wychowawczych oraz opracowania koncepcji ulepszeń i prognoz rozwojowych”. Ponieważ zjawiskiem ogólnym są tu całość tego, co robi organizacja („działania wychowawcze”) i wszystkie tego aspekty („struktury, zasady, efektywność”), wypada stwierdzić, że monografia pedagogiczna to nieukierunkowane studium przypadku2. Plonem takich badań są doniesienia przedstawiające tę czy inną szkołę od piwnic po strych, nieodmiennie w tonacji pochwalnej. Starannie oprawione, przechowywane w gabinecie dyrektora, budują tradycję miejsca i wiążą z nim personel, ale wartości naukowej nie mają, bo w żaden sposób nie powiększają naszej wiedzy o oświacie. Trzeba pamiętać, że studium przypadku to schemat badania, a nie pretekst do rozmów z ludźmi i snucia się po korytarzach, toteż powinno być zaplanowane. Nie planuje się tu zmiennych, które będą mierzone, ale planuje się metody zbierania danych. Najczęściej stosuje się obserwację jakościową (zwłaszcza zdarzeń krytycznych), wywiad i przeszukiwanie archiwów. Przydają się także metody ilościowe 1 Jest to portret całej osoby ucznia oparty na różnych źródłach i obejmujący różne pola aktywności. Ogólna opinia wychowawcy i oceny opisowe nauczycieli dokumentują osiągnięcia w przedmiotach szkolnych. Opisowa samoocena ucznia, czasem potwierdzana przez instruktora czy trenera, dokumentuje osiągnięcia w zajęciach pozalekcyjnych i pozaszkolnych. Sam uczeń dokumentuje osiągnięcia osobiste (np. w zakresie inicjatywy, dotrzymywania słowa, punktualności, pomagania innym) w formie zapisków w pamiętniku i szacunków na dostarczonych skalach. 2 Pomijam pomysł włączenia do definicji badania naukowego „koncepcji ulepszeń i prognoz rozwojowych”, ponieważ jest jawnie błędny. Badać to stwierdzać, jak się rzeczy mają, a nie – jak je udoskonalić lub jak się będą miały w przyszłości. Nie wyklucza to, że lepsze rezultaty daje projektowanie i prognozowanie na podstawie wyników badań niż na podstawie potocznych mniemań czy pobożnych życzeń. Badania jakościowe 81 (skale, testy, a zwłaszcza reptest). Wybrawszy metody, trzeba zaplanować, co, kogo i w jakiej kolejności będziemy nimi badać. Typowe studium przypadku ma dwie fazy: otwartą i ukierunkowaną. Pierwsza służy orientacji, toteż jej plan jest luźniejszy, druga – sprawdzeniu pomysłów interpretacyjnych, które się zrodziły w pierwszej. W pewnym studium badacz najpierw obserwował stosunki między pacjentem chorującym na astmę a otoczeniem i na tej podstawie wysunął hipotezę, że ataki astmatyczne pacjenta są następstwem jego spotkań z matką. W drugiej fazie badania sklasyfikował podstawowe formy aktywności pacjenta i obliczył współczynniki siły związku między każdą z nich a częstością ataków. Układ współczynników potwierdził hipotezę. Zauważmy przy okazji, że mimo zasadniczo jakościowego charakteru tych badań autorzy studiów przypadku nie odżegnują się od gromadzenia danych ilościowych i metod analizy ilościowej. Można też planować równoległe studia przypadku. Burgess i in. (1995) donoszą o 4 studiach rejestru osiągnięć prowadzonych przez cztery osoby w czterech szkołach (trzech miejskich i wiejskiej, która też była najmniejsza, miała najniższy status i najdłużej stosowała rejestry). Gdyby w tych szkołach przeprowadzić badanie ilościowe (np. ankietowe), różnice byłyby nieinterpretowalne, szkoły bowiem różniły się od siebie pod zbyt wieloma względami. Ale cztery teorie jednostkowe wolno porównywać między sobą na takich samych zasadach jak wszelkie teorie. Z tych porównań może się wyłonić interesujące twierdzenie ogólne. Warto więc prowadzić równoległe studia przypadku, bo wtedy szansa na odkrycie rośnie. W studium przypadku nie planuje się natomiast odrębnych faz zbierania i analizowania danych. Analiza towarzyszy zbieraniu danych. Każde nowe spostrzeżenie badacz konfrontuje z hipotezą utworzoną na podstawie uprzednich spostrzeżeń, a stwierdziwszy niezgodność, próbuje dociec, skąd się wzięła, czyli stawia sobie nowe pytania ukierunkowujące proces zbierania danych. Nowe dane mogą wykazać, że niezgodność była pozorna, a jeśli nie, to badacz musi zrewidować hipotezę i zebrać nowe dane. Dopiero gdy nowe spostrzeżenia potwierdzają to, co badacz już wie o przypadku, studium dobiega naturalnego kresu. Jest oczywiste, że takie postępowanie jest nieprzewidywalną wyprawą w nieznane i nie może być z góry zaplanowane. Warunkami powodzenia studium przypadku są obiektywizm, czyli niepoleganie na swoich i cudzych wrażeniach (wrażenia są ważne jako źródło wskazówek, ale nie jako materiał dowodowy), krytycyzm, czyli nawyk wystawiania na próby własnych pomysłów interpretacyjnych, i otwartość, czyli stała gotowość rewidowania pomysłów pod wpływem nowych spostrzeżeń. Niestety, nie wszyscy spełniają te warunki. Nagminnym błędem jest rozpoczynanie studium przypadku z gotową hipotezą i kończenie go po zebraniu garści danych, które ją potwierdzają. Ponieważ hipoteza pochodzi zwykle z żelaznego repertuaru stereotypów, które powstają w ramach każdej kultury zawodowej, znaczenie badania sprowadza się do tego, że nadaje stereotypowi status twierdzenia naukowego. W badaniach oświatowych częstym przypadkiem jest tzw. uczeń trudny. Na ogół już po pierwszym zetknięciu się z uczniem, a czasem wcześniej, badacz zna odpowiedź na pytanie, dlaczego jest taki: pochodzi z rodziny rozbitej, przebywa w złym towarzystwie, jest ociężały umysłowo itp. Badanie polega wtedy na zbieraniu da- 82 Rozdział 4. Badania indywidualizujące nych, które potwierdzają hipotezę, i ignorowaniu tych, które mogłyby jej zaprzeczyć. W doniesieniu autor zamieszcza szczegółowe opisy opłakanych warunków domowych badanego, wylicza wykroczenia popełniane przez jego przyjaciół, rozwodzi się nad prymitywizmem jego rysunku, wskutek czego doniesienie bardziej przypomina akt oskarżenia niż pracę naukową. Uderzający brak krytycyzmu autora nie pozwala wierzyć, że wysunął on i wykluczył inne wyjaśnienia badanego zjawiska. Dobre studium przypadku zawsze podejmuje to wyzwanie. Badacz szuka potwierdzenia swego pomysłu w różnych źródłach (np. dowiedziawszy się, że dziecko zachowuje się agresywnie w szkole, odwiedza też inne miejsca, w których dziecko przebywa, by zobaczyć, czy tam zachowuje się podobnie). Wysuwa też alternatywne wyjaśnienia i próbuje je sprawdzić. W doniesieniu konfrontuje ze sobą dane, szukając najtrafniejszej teorii. Ponieważ wszystko to wymaga sporego doświadczenia, studium przypadku nie powinno być polecane początkującym badaczom. Wobec studium przypadku formułuje się czasem zarzut, że nie przynosi wiedzy ogólnej, ponieważ „siły powodujące jedną osobą lub jednostką życia społecznego mogą pozostawać w nikłym związku z siłami, które powodują innymi osobami lub jednostkami” (Ary i in., 1996, s. 484). Równie dobrze można by zarzucać parowozowi, że jest napędzany parą. Studium przypadku rozmyślnie poprzestaje na zrozumieniu jednostkowego obiektu, a na krytykę zasługuje raczej badacz, który by chciał to zrozumienie rozciągnąć na inne obiekty. Zwłaszcza zachwalanie pewnych metod lub środków (np. lekarstw) na podstawie kilku indywidualnych sukcesów to nieuczciwy, choć skuteczny niestety, zabieg reklamowy. Indywidualizujący charakter studium przypadku nie przeszkadza, jak widzieliśmy, że może być ono źródłem wartościowych inspiracji teoretycznych. Badania etnograficzne Éthnos to po grecku lud, grápho – piszę. Badania etnograficzne to zatem badania ludoznawcze. Badacz przenosi się na pewien czas do badanej społeczności lub organizacji, mieszka na jej terenie, pracuje lub spędza tam długie godziny, obserwując zachowanie się jej członków i rozmawiając z nimi – a wszystko w celu znalezienia odpowiedzi na ogólne pytanie, którego przykładów dostarczają tytuły klasycznych doniesień etnologicznych3: Dojrzewanie na Samoa, Życie seksualne dzikich w północno-zachodniej Melanezji czy Wzory kultury. W wielu książkach schemat ten nazywa się „obserwacją uczestniczącą” (np. Denzin, 1989), co może być jednak mylące, ponieważ badacz w terenie nie ogranicza się do obserwacji, lecz także w szerokim zakresie korzysta z wywiadu i badania archiwaliów. Niejasne jest także, jak zobaczymy w rozdz. 7, pojęcie uczestnictwa. W pedagogice etnografią nazywa się długotrwałe, indukcyjne i holistyczne badanie kultury życia codziennego w jednej organizacji lub grupie społecznej, które 3 Etnologia to europejska nazwa nauki o kulturach. W krajach anglosaskich nazywa się ją antropologią społeczną (UK) lub kulturową (USA). Pierwotnie zainteresowana kulturami obcymi (np. kulturą wsi lub społeczności przedpiśmiennych), dziś obejmuje także lokalne kultury własnego społeczeństwa („antropologia życia codziennego”). Etnografia jest jej podstawowym schematem badawczym. Badania jakościowe 83 pełnią funkcje socjalizacyjne. Mogą to być na przykład sierociniec czy gang młodzieżowy (socjalizacja pierwotna) albo szkoła czy jednostka wojskowa (socjalizacja wtórna). Badanie etnograficzne jest długotrwałe: obejmuje pełny cykl działania organizacji, np. rok szkolny. Jest indukcyjne, czyli postępuje od danych do teorii, a nie od teorii do danych. Jest holistyczne, czyli nastawione na uchwycenie wzoru lub wzorów badanej kultury. Do takiej teorii dochodzi się przez pracowite przekładanie danych i domysłów, dopóki nie stworzą sensownej całości. Holizm odróżnia schemat etnograficzny od studium przypadku: studium jest nastawione na zrozumienie pojedynczego zjawiska, etnografia natomiast zmierza do zrozumienia konfiguracji wielu zjawisk. Kto chciałby się dowiedzieć, jak prowadzić oświatowe badania etnograficzne, powinien przeczytać klasyczne doniesienia: Willisa (1980), Wooda (1996) czy McLarena (1986), a w języku polskim Kayser i Wagemanna (1998). Tu naszkicujemy tylko kilka ogólnych zasad. Wybór terenu. Badanie rozpoczyna się od wybrania terenu. Choć może to być najzwyklejsza organizacja lub społeczność, z reguły wybiera się teren nieco „obcy” (np. szkołę, do której chodzą dzieci z różnych grup etnicznych, szkołę wyznaniową, zakład poprawczy). Nie ma tu hipotez, listy zmiennych i szczegółowych metod pomiaru. Wstępnego ukierunkowania dostarcza ogólne pytanie badawcze. Nawiązanie kontaktu. Znalazłszy się w terenie, badacz szuka kogoś, kto mógłby go wprowadzić do grupy, nawiązuje kontakty, przełamuje lody. Czasem członkowie grupy nie są świadomi podwójnej roli badacza, częściej o niej wiedzą (przynajmniej niektórzy), ale godzą się, że są obserwowani. Wymaga to z ich strony sporej dozy zaufania. Żeby je zyskać i utrzymać, badacz musi się przedstawić jako życzliwy i dyskretny obserwator głęboko zainteresowany zrozumieniem badanego terenu; nie wolno mu natomiast oceniać tego, co widzi, z perspektywy własnej kultury (np. książkowej wiedzy pedagogicznej), pouczać i okazywać wyższości. Jakkolwiek badacz uczestniczy w życiu grupy, pozostaje tak bierny, jak to możliwe; zwłaszcza powstrzymuje się od osobistych interwencji. Zbieranie danych. W terenie badacz przede wszystkim zbiera dane o strukturze miejsca i działaniach ludzi, a także o tym, jak rozumieją oni to, gdzie są i co robią. Poznając teren, badacz stara się patrzeć na zdarzenia z pozycji członków społeczności, chwytać sens, który oni nadają temu czy innemu zwyczajowi. Badaczowi oświaty sprawia to wielką trudność, ponieważ dysponuje sporą wiedzą o organizacjach oświatowych. Wskutek tego: zbyt często sam badacz mówi nam, co to wszystko znaczy (a nawet jak powinno być), zamiast próbować «uchwycić punkt widzenia tubylca i jego stosunek do życia, rozpoznać jego wizję jego świata», jak powiedział Malinowski ponad 75 lat temu. Żaden chyba pojedynczy czynnik nie stanowi większego zagrożenia dla urzeczywistnienia możliwości etnografii. (Wolcott, 1997, s. 338) Główną metodą zbierania danych jest obserwacja etnograficzna. Uzupełniają ją wywiad (zwłaszcza narracyjny) i zbieranie wytworów kultury (dokumentów, wypracowań, fotografii z rodzinnego albumu itp.). Współcześni badacze nie gardzą też takimi metodami, jak spis zasobów domowych, metody projekcyjne, a nawet testowanie (Wolcott, 1997). Dane przechowuje się w formie notatek terenowych (field 84 Rozdział 4. Badania indywidualizujące notes), wspomaganych współczesnymi technikami rejestrowania obrazu i dźwięku. Fotografie nie są jedynie ubarwiającą reprodukcją rzeczywistości, lecz pełnoprawnymi danymi, które wymagają analizy (nie mogą być zatem upozowane lub wyretuszowane). Film może zarejestrować przebieg jakiegoś zdarzenia w sposób pełniejszy, niż mógłby to zrobić jeden badacz, choć trzeba się liczyć z tym, że nie będzie łatwo poddać go analizie i właściwie wykorzystać w doniesieniu. Zrobione przez badacza zdjęcia i filmy można pokazać badanym z prośbą o wyjaśnienia lub komentarz. Gromadząc dane, badacz jednocześnie je analizuje i stawia nowe, bardziej szczegółowe pytania. Postępowanie badawcze jest więc otwarte, elastyczne i zasadza się na ciągłym redefiniowaniu problemów na podstawie zebranych faktów. Oprócz notatek badacz z reguły prowadzi osobisty dziennik terenowy. Opisuje w nim swoje myśli i uczucia, które pojawiały się podczas obserwacji i wywiadów, nasuwające się pomysły interpretacyjne, wątpliwości, a także podjęte decyzje. Dziennik jest próbą uchwycenia i utrzymania w pewnej odległości od danych „czynnika ludzkiego”, jakim jest subiektywność badacza. Końcowa analiza. Dane analizuje się metodami, które dokładniej przedstawiam w rozdz. 8. Szczególną troską powinna być wiarygodność badania. Służy temu triangulacja źródeł: porównywanie wniosków, które nasuwają dane pochodzące od różnych jednostek, z obserwacji różnych epizodów czy z archiwów. Załóżmy, że udało się nam zarejestrować pewną postawę. Zanim uznamy, że jest ona wyróżnikiem badanej kultury, powinniśmy sprawdzić, czy nie jest zjawiskiem przypadkowym lub swoistą cechą jednostki. Jeśli wywnioskowaliśmy tę postawę z obserwacji kilku rozrzuconych w czasie epizodów, które pojawiły się i rozwinęły niezależnie od badacza, to możemy ją z dużą pewnością przypisać kulturze grupy. Jeśli te epizody były sprowokowane (choćby niechcący) przez badacza, nasza pewność musi być mniejsza. Najbardziej wątpliwe jest wnioskowanie o kulturze z odpowiedzi jednego badanego na zadawane pytania. Z każdym zatem wnioskiem powinno być sprzężone źródło informacji: wiem o tym stąd, że... Doniesienie. Ostatnim zadaniem jest napisanie doniesienia, które przedstawia teorię badanego terenu na tle szczegółowego, plastycznego, żywego opisu faktów. W literaturze można znaleźć różne odmiany schematu etnograficznego. Do szerzej znanych należy konstytutywna etnografia oświatowa Mehana (1978), wywodząca się z etnometodologii. Mehan zaleca: • nieustannie odwoływać się w procesie wnioskowania do danych, a zwłaszcza do warunków instytucjonalnych badanego terenu, • nie przystępować do badania z gotowym poglądem i opierać się skłonności do wykorzystywania tylko tych danych, które zgadzają się z wyłaniającymi się przypuszczeniami, • uzgadniać perspektywy badacza i badanych (badacz powinien się upewnić, czy struktury, które ujawnił w działaniu ludzi, rzeczywiście kierują działaniem tych ludzi), • unikać w analizie danych zarówno redukcjonizmu psychologicznego, jak i socjologicznej reifikacji. Badania etnograficzne z definicji nie dają się standaryzować, toteż próby uszczegóławiania tego schematu i formalizowania jego części niewiele mają sensu. Badania jakościowe 85 Każde badanie jest niepowtarzalną przygodą, której rezultat zależy tyleż od kwalifikacji metodologicznych badacza, ile od jego inteligencji społecznej i szczęśliwego przypadku. O naukowej wartości doniesienia decyduje nie tyle poprawność metodologiczna, ile odkrywczość wniosków. Schemat etnograficzny jest więc ryzykowny: jeśli nie otwiera nam oczu na nowe zjawiska i regularności, nie prowadzi do reorganizacji zastanej wiedzy, to trudno go opublikować. Do potwierdzania tego, co już wiemy, trzeba bowiem badań o większej standaryzacji i lepszej kontroli zmiennych. Badania historyczne Badania historyczne można by nazwać etnografią minionych społeczności. Ich cechą szczególną jest niedostępność badanego obiektu. Nie możemy eksperymentować z przeszłością, kontrolować zmiennych, powtarzać pomiarów itp. Musimy pracować na danych, które nie my zebraliśmy: dokumentach, relacjach i wytworach materialnych, które przechowały się do naszych czasów. Na takich danych pracuje historyk oświaty, którego interesują powstawanie i zmiany różnych instytucji (polityki oświatowej, legislacji, programów nauczania, organizacji i metod kształcenia itd.). Dane te mają formę obrazów i rzeźb, inskrypcji, kronik, pamiętników, umów, sprawozdań, metryk (urodzenia, ślubu, zgonu), świadectw szkolnych, dyplomów itp. Szuka się ich w archiwach państwowych i archiwach różnych organizacji, bibliotekach, muzeach, a także w zapomnianych kufrach na strychu. Gdy nie ma żadnych źródeł, nie ma historii. Ale gdy są, trzeba je najpierw zbadać. Zachowane dane, czyli źródła historyczne, dzieli się na pierwotne i wtórne. Źródła pierwotne to wytwory badanych społeczności (np. uchwały organów władzy, protokoły posiedzeń rady szkolnej, dzienniki klasowe) lub relacje naocznych świadków. Trzeba pamiętać, że między zdarzeniem a źródłem zawsze stoi człowiek – protokolant, operator kamery, świadek – który podejmuje decyzję, co trzeba wyeksponować, a co można pominąć. W tym sensie danym ze źródeł pierwotnych nie przysługuje ten sam stopień bezpośredniości, co danym pochodzącym z obserwacji. Źródła wtórne to cudze relacje oparte na źródłach pierwotnych. Załóżmy, że chcemy zbadać jakiś przeszły konflikt szkolny na podstawie artykułów w lokalnej gazecie. Jeśli dziennikarz osobiście obserwował zdarzenia, rozmawiał ze stronami konfliktu, uczestniczył w negocjacjach itp., to artykuły te uznajemy za źródło pierwotne. Jeśli jednak korzystał z protokołów i relacji uczestników post factum, artykuły są źródłem wtórnym. Za źródła wtórne trzeba też uznać opracowania historyczne. W historii krytyką źródeł przyjęło się nazywać potencjalny dyskurs, w którym jedna strona wysuwa zarzuty pod adresem źródła, a druga stara się je obalić i w ten sposób wykazać, że jest wiarygodne. Stosownie do natury zarzutów mówimy o dwóch rodzajach krytyki. W krytyce zewnętrznej zarzut brzmi: źródło jest nieautentyczne, np. sfałszowane, zawiera pomyłki kopisty, nie pochodzi od tego, komu się je przypisuje. Badacz stara się wykazać, że taki zarzut jest bezpodstawny. Główna metoda to rekonstrukcja dziejów źródła: skąd pochodzi, jakie były jego losy, gdzie się teraz znajduje, jaka instytucja potwierdza jego autentyczność itd. Jeśli źródłem jest ko- 86 Rozdział 4. Badania indywidualizujące respondencja między postaciami historycznymi, to trzeba się upewnić, że rzeczywiście wyszła ona spod ich piór. Można zrobić analizę grafologiczną pisma lub podpisów, zbadać chemiczne właściwości papieru i atramentu itp. Można zrobić analizę językową, by sprawdzić, czy słownictwo, składnia i stylistyka listów ma cechy znane z innych tekstów tych postaci. Można zbadać treść korespondencji, by zobaczyć, czy nie zawiera wzmianek o zdarzeniach, które nie mogły być znane domniemanym autorom. Krytyka zewnętrzna dotyczy zatem świadomego fałszerstwa, przypadkowych zniekształceń lub błędnej atrybucji źródła. W krytyce wewnętrznej zarzut brzmi: źródło jest autentyczne, ale relacja fałszywa. Zarzuca się źródłu, że jego autor nie mógł wiedzieć, jak się rzeczy miały, a jego relacja jest zmyślona, że relacja jest nieprawdopodobna w świetle tego, co skądinąd wiemy o zdarzeniu, że autor był stronniczy i pisał tak, by pewną sprawę lub pewną stronę w sporze ukazać w bardziej korzystnym świetle, że autor był uprzedzony, ponieważ hołdował stereotypom swoich czasów itd. Jeśli wpada nam w ręce relacja nauczyciela o przebiegu pewnego konfliktu w szkole, w której mówi się o dyskusjach prowadzonych w gronie osób kierujących szkołą, to powinniśmy się zastanowić, czy szeregowy nauczyciel mógł być ich świadkiem. Jeśli o tym samym konflikcie mówi seria artykułów w lokalnej gazecie, musimy się upewnić, czy gazeta lub dziennikarz nie występowali w przeszłości w obronie autorytetu władzy. Gdyby tak było, jest prawdopodobne, że gazetowe relacje fałszywie lub jednostronnie przedstawiają racje uczniów i rodziców. Jeszcze większa ostrożność jest wymagana wtedy, gdy źródłem jest pamiętnik pisany przez dyrektora szkoły. Dyrektor może być osobiście zainteresowany pozostawieniem korzystnego obrazu własnej osoby, a upływ czasu między zdarzeniem a relacją walnie temu sprzyja. Obrona przed takimi zarzutami nie jest łatwa. Jeśli pominiemy oczywiste świadectwa nietrafności relacji (np. nieprawdopodobny bilans jakiejś bitwy), obrona źródła może się opierać wyłącznie na innych źródłach, których trafność też podlega krytyce. Historyk podejmuje decyzję na podstawie długiego rozumowania i nigdy z całkowitą pewnością. Odkrycie nowych źródeł często wywraca duże obszary historiografii właśnie dlatego, że zmusza do zrewidowania przeszłych decyzji o trafności relacji zawartych w dostępnych źródłach. Generalna zasada brzmi: korzystać z wielu źródeł, konfrontować je ze sobą i nie ukrywać słabych punktów obrony. Zasada ta ma zastosowanie nie tylko przy rekonstrukcjach przeszłych zdarzeń (np. szkolnych studiach przypadku, rekonstrukcjach przedsięwzięć reformatorskich), ale i przy popularnych w nauce o wychowaniu biografiach myślicieli (typu Jan Amos Komenský – życie i dzieło). Zwykłe streszczenie dzieł autora ze współczesnej perspektywy dyskwalifikuje pracę – cóż bowiem za pożytek z pokazania, że autor przeczuwał to, co dziś można przeczytać w każdym podręczniku? Dzieła te należy osadzić w kontekście epoki, pokazać, gdzie idą za tradycją, a gdzie ją łamią. Trzeba pokazać, jak przebiegały ich recepcja i próby stosowania w praktyce. To wszystko wymaga dodatkowych źródeł i ich krytyki. Rozdział 5 BADANIA PRAKTYCZNE Istotą badań praktycznych jest cel, dla którego są podejmowane: mają one pomóc w usunięciu praktycznej trudności, a nie powiększyć czy skontrolować wiedzę teoretyczną. W pedagogice polskiej nie wyodrębnia się tych badań spośród innych, a to dlatego, że praktyczność uważa się za „zasadniczą i swoistą cechę badań pedagogicznych” (Pilch, 1995, s. 47). Uzasadnienie tego sądu jest następujące: cel poznawczy jest tylko środkiem dla celu głównego tych badań, który polega na melioracji badanego fragmentu rzeczywistości wychowawczej. Badania w pedagogice sprowadzają się najczęściej do diagnozy, która stanowi punkt wyjścia dla badań naprawczych, swoistej terapii. Bez uwieńczenia badań pedagogicznych rezultatami praktycznymi, działalnością terapeutyczną odbiera im w zasadzie społeczny sens. (Pilch, 1995, s. 48) Pogląd ten uważam za błędny, dlatego że odbiera pedagogice szansę na wypracowanie rozwiniętej teorii badanych zjawisk1. Pedagogika, podobnie jak socjologia lub psychologia, powinna dążyć przede wszystkim do zrozumienia swojego przedmiotu, tzn. ogółu społecznych praktyk socjalizacyjnych (pierwotnych, np. w rodzinach, i wtórnych – w wyspecjalizowanych organizacjach oświatowych) i na tym budować swój prestiż. Nie znaczy to, bym lekceważył zadanie ulepszania praktyki wychowawczej, wierzę jednak, że skuteczniej ulepsza praktykę ten, kto najpierw dąży do jej zrozumienia, niż ten, kto dąży tylko do ulepszania. Trafnie się mówi za K. Lewinem, że ma nic bardziej praktycznego niż dobra teoria. Żeby odpowiedzialnie rekomendować ulepszenia „badanego fragmentu rzeczywistości wychowawczej”, trzeba przede wszystkim umieć oddzielić zbiorowe mniemania (stereotypy) od struktur regulujących praktykę, to zaś wymaga teorii, która te struktury opisuje. Kogo nie przekonują te argumenty, powinien zastanowić się nad konsekwencjami nieodróżniania badań teoretycznych od praktycznych dla samej praktyki naukowej. Jedna z nich to usankcjonowanie doniesień z typowych badań praktycznych jako podstawy ubiegania się o stopnie naukowe. Oto zwierzchnik pewnej szkoły, niezadowolony z poziomu kształcenia, wprowadza w niej szereg zmian: dodaje do programu nowe przedmioty, porządkuje rygory dydaktyczne, nawiązuje współpracę z innymi szkołami itp. Chcąc się przekonać, czy te zmiany przy1 Szczegółową krytykę paradygmatu pedagogiki jako nauki praktycznej przedstawiam gdzie indziej (Konarzewski, 1995b). 88 Rozdział 5. Badania praktyczne niosły pożądane skutki, gromadzi dane, analizuje je i dochodzi do wniosku, że tak rzeczywiście się stało. Mimo że jest to osiągnięcie mieszczące się w obowiązkach służbowych zwierzchnika, opisuje je i zgłasza jako pracę habilitacyjną. Ale ta praca nie wnosi do naszej wiedzy o oświacie ani nowych pomysłów teoretycznych (twierdzeń czy hipotez), ani nawet nowych sugestii, jak doskonalić praktykę w innych szkołach, toteż zostaje odrzucona. Autor jest rozgoryczony: przecież cel poznawczy jest tylko środkiem do ulepszenia konkretnej organizacji oświatowej. Można zrozumieć entuzjazm, z jakim pedagogika polska, zdominowana zrazu przez doktrynalny marksizm-leninizm, zwróciła się ku metodom empirycznych nauk społecznych po Październiku 1956 r., i to, że proste badanie ankietowe poglądów uczniów lub testowanie ich osiągnięć szkolnych uchodziło wówczas za wyrafinowane przedsięwzięcie naukowe. Dziś jednak takie badania (znacznie bardziej zaawansowane metodologiczne) są rutynowo wykonywane przez profesjonalne ośrodki badania opinii czy rynku. Trwać przy poglądach z lat 50., to uznawać, że byle sondaż popularności polityków lub badanie dowodzące, że dodanie do jogurtu owoców w kawałkach zwiększy popyt na ten wyrób, to odkrycia naukowe, które powinny być honorowane awansami w hierarchii akademickiej. Ponieważ w żadnej innej dyscyplinie nauk społecznych nie wysuwa się podobnych roszczeń, pedagogika, która się przy nich upiera, naraża się na marginalizację. Od problemu do pytania U początków badania praktycznego leży trudność praktyczna. Trudność ta polega na tym, że określona instytucja nie działa zgodnie z oczekiwaniami: nie przynosi pożądanych efektów, przynosi efekty niepożądane, pochłania zbyt wiele środków itp. Trudność taka jest odczuwana, ale niekoniecznie rozumiana. Wiadomo, że dzieje się źle: spada morale nauczycieli, rośnie liczba wagarów, zmniejsza się odsetek młodzieży ze wsi na studiach itp., ale nie wiadomo, jaki jest zasięg i jakie źródła tej trudności. Nie wiadomo też, co zrobić, by ją usunąć. W obliczu tej niepewności zwierzchnicy trapionej trudnością organizacji mogą albo działać na oślep, albo zamówić badanie praktyczne. To ważna okoliczność: badanie praktyczne jest zawsze zlecane i finansowane przez kogoś, kto ma możliwości działania. Podejmowanie takich badań z inicjatywy samego badacza (i za pieniądze publiczne przeznaczone na rozwój nauki) nie ma żadnego uzasadnienia. Wartość takiego badania zasadza się wyłącznie na tym, że pomaga komuś w podjęciu decyzji o sposobie postępowania. Jeśli nie ma nikogo, kto stałby przed taką decyzją, badanie nie ma sensu. Jeśli ktoś taki jest, niechże się zaangażuje finansowo, bo wtedy trudniej mu będzie odłożyć niewygodne wyniki na półkę. Zamówiwszy badanie, zwierzchnik nie powinien jednak oczekiwać, że wyniki powiedzą mu, co robić. Wyniki badania odpowiadają jedynie na zadane pytania o to, jak się rzeczy mają, nie mówią zaś, co należy zmienić, by miały się inaczej. Odpowiadają – dodajmy – pod warunkiem, że pytania są sensowne, a badanie właściwie przeprowadzone. Te odpowiedzi mogą naprowadzić zwierzchnika lub eksperta na trop skutecznego rozwiązania, ale same go przynieść nie mogą. Od problemu do pytania 89 Jak zatem przełożyć trudność na pytania badawcze? Po pierwsze, trzeba zapytać o rodzaj, zasięg, źródła i otoczenie trudności. Jeśli zwierzchnik otrzyma przekonujące odpowiedzi na te pytania, może sam lub we współpracy z badaczem obmyślić środki zaradcze i podjąć decyzję o wprowadzeniu ich w życie. Ani sam pomysł działania, ani tym bardziej decyzja zwierzchnika nie należą do aktywności badawczej – sądzić inaczej to zakładać, że badacz przejmuje kontrolę nad badaną organizacją. Ale po podjęciu decyzji badanie znów się staje potrzebne – tym razem po to, by odpowiedzieć na pytanie, jak przebiega wprowadzanie w życie postanowionej innowacji i jakie skutki przynosi. Są więc dwa rodzaje pytań i zatem dwa rodzaje badań praktycznych. Badania pierwszego rodzaju nazywa się zwykle diagnostycznymi, a ich wynik diagnozą. Takie nazewnictwo nadaje nowe znaczenie słowu, które zadomowiło się w języku w zupełnie innym znaczeniu. Diagnoza to tyle, co rozpoznanie choroby na podstawie jej objawów. Pojęcie diagnozy zakłada dwa poziomy rzeczywistości: poziom nieobserwowalny (chorobę) i obserwowalny (objawy). Zakłada też, że objawy są mniej ważne niż choroba: w diagnozie idzie nie o kompletny opis objawów, lecz o zidentyfikowanie pewnej konstelacji („profilu”) objawów jako pozycji na znanej liście chorób. Lekarz prowadzi lub zamawia badania, dopóki się nie upewni, że ma do czynienia ze szkarlatyną, a nie na przykład z różyczką. Badania, o których mowa, wcale na tym nie polegają. Typowy przykład to badanie osiągnięć szkolnych w określonej dziedzinie wiedzy. Wynik: „49% uczniów klasy III źle wykonuje zadanie wymagające porównania ilorazowego” jest zwykłym streszczeniem danych, a nie diagnozą, która sięgałaby nieobserwowalnych regionów rzeczywistości. Jest to takie samo nadużycie terminu, jak nazwanie diagnozą spisu mebli w szkole. Dlatego będziemy nazywać takie badania rozpoznawczymi. Ich celem jest rozpoznanie rodzaju, zasięgu, źródeł i otoczenia konkretnej trudności praktycznej. Badania drugiego rodzaju nazywa się ewaluacyjnymi. Słowo to jest zapożyczeniem z angielskiego. Evaluation znaczy tyle, co badanie czegoś w celu wydania sądu o jego wartości, jakości, ważności czy stanie. W języku polskim dokładnie odpowiada mu „ocenianie”. Wytwór oceniania to ocena: sąd o wartości, jakości, ważności czy stanie. Kiedy wprowadzano „ewaluację” do słownika pedagogicznego, tłumaczono, że trzeba odróżnić ocenianie pracy szkoły od oceniania osiągnięć uczniów. Ale obce słowo energicznie wypiera polskie: coraz częściej czyta się o „ewaluacji kompetencji matematycznych uczniów”. Stąd wniosek, że nie warto pożyczać obcych słów, chyba że mają ścisłe znaczenie naukowe (np. wariancja, stres). Dlatego zostaniemy przy skromnej, a jasnej nazwie: badania oceniające, rozumiejąc przez nią badania, które dostarczają oceny przebiegu i skutków zamierzonych działań. W literaturze można znaleźć wiele innych podziałów, często wątpliwych i zbędnych. Ritchie i Spencer (1995) odróżniają na przykład badania „kontekstowe” (np. jakie są potrzeby danej społeczności?) od „diagnostycznych” (np. skąd się wzięły te potrzeby?). Nawiązuje to do popularnego w Polsce podziału na badania opisujące i wyjaśniające. Takiego podziału przeprowadzić jednak nie można, ponieważ nie istnieją „zabiegi wyjaśniające”, które różniłyby się od „zabiegów opisujących”. 90 Rozdział 5. Badania praktyczne Wyjaśnienie to wniosek z analizy danych; czy możemy go wyciągnąć, zależy od struktury danych. Załóżmy, że w ramach rozpoznawania potrzeb oświatowych pytamy młodych ludzi w gminie, na jakim szczeblu zamierzają zakończyć własną edukację, a przy okazji – jaka jest dochodowość per capita ich rodzinnego gospodarstwa. Jeśli analiza wykaże, że obie te zmienne są skorelowane (im niższa dochodowość, tym większa chęć poprzestania na szkole przysposobienia rolniczego), badanie dostarczy pewnego wyjaśnienia rozkładu potrzeb. Jeśli korelacji nie będzie, badanie dostarczy tylko opisu potrzeb. Widać stąd, że szansa na wyjaśnienie pewnej zmiennej jest tym większa, im więcej zmiennych obejmuje badanie. O liczbie zmiennych nie decyduje jednak badacz, lecz sponsor. Jeśli władze gminy chcą zaplanować środki na dożywianie dzieci w szkołach, wystarczy im płytki opis: liczba dzieci, które tego potrzebują. Nie muszą angażować środków w dociekanie powodów tego, że dzieci bywają głodne. Jeśli natomiast producent chce zwiększyć sprzedaż jakiegoś towaru, musi się dowiedzieć, dlaczego ludzie nie chcą go kupować. Cytowani autorzy mówią też o badaniach „oceniających” (np. jak dobrze dana organizacja zaspokaja potrzeby ludzi?) i „strategicznych”, które mają wskazywać nowe teorie, zasady lub plany działania mogącego przezwyciężyć określoną trudność. Ta druga kategoria jest wielce podejrzana. Z żadnego opisu stanu rzeczy nie wynika logicznie projekt działania, żadne zatem badanie nie może „odkryć, co należy zrobić”. Między stanem rzeczy a projektem działania rozciąga się sfera obca metodologii: ocena (zależna od hierarchii wyznawanych wartości), jak bardzo nie do zniesienia jest ten stan rzeczy, oszacowanie własnych możliwości oraz przewidywanie różnorodnych skutków interwencji i powstrzymania się od interwencji. Dlatego projekty działania sporządzają i przyjmują ludzie w ramach swoich kompetencji politycznych i to oni, a nie badacze, ponoszą odpowiedzialność za ich skutki. Te i inne aspekty zagadnienia poruszają niedawno wydane antologie pod redakcją Korporowicza (1997) i Mizerka (1997). Badania rozpoznawcze Powiedzieliśmy, że celem badań rozpoznawczych jest dokładniejsze poznanie trudności. Cel ten wyraża się w pytaniach o jej: • Charakter – czy na przykład narzekania na poziom pewnej usługi oświatowej mają pokrycie w obiektywnych cechach tej usługi? Gdyby nie miały, trzeba by je uznać za subiektywne i szukać ich źródła w knowaniach konkurencji, w niechęci do kierownictwa organizacji czy ogólnej propagandzie klęski. • Zasięg – gdzie i kiedy trudność (lub poczucie trudności) występuje częściej, a gdzie i kiedy rzadziej? Jeśli by się okazało, że na wysoką liczbę wagarów w mieście zapracowuje głównie szkoła na przedmieściu wiosną, znacznie ułatwiłoby to szukanie rozwiązania. • Źródła – co wywołuje trudność: zła technologia (np. program kształcenia niedostosowany do lokalnych aspiracji), zła organizacja pracy (np. system dwuzmianowy), a może brak kwalifikacji lub niedbalstwo personelu? Badania oceniające 91 • Otoczenie – kto lub co może pomagać lub przeszkadzać w próbach usunięcia trudności? Dobre badanie rozpoznawcze powinno wskazywać zasoby środowiska, na które kierownictwo może liczyć: czy na przykład ludzie są gotowi poświęcić swój czas lub pieniądze na program działań zaradczych, czy udzieliliby poparcia pewnym zmianom organizacyjnym itp. Badanie powinno też wskazywać obszary możliwego oporu wobec zmian (np. ze strony nauczycieli dorabiających korepetycjami do pensji). Badania rozpoznawcze wykonuje się najczęściej w schemacie przeglądowym na całej populacji (badanie wyczerpujące). Dane zbiera się za pomocą obserwacji ilościowej (np. uzębienia uczniów lub kanapek przynoszonych do szkoły), testowania (np. osiągnięć szkolnych) i ankiety. Dane analizuje się tak, by uzyskać odpowiedzi na wymienione przed chwilą pytania. Przykłady: przed podjęciem decyzji, czy zatrudnić nauczyciela języka niemieckiego, dyrektor szkoły zarządza ankietę, by stwierdzić, jak duża jest liczba uczniów zainteresowanych nauką niemieckiego. Przygotowując budżet gminy, wójt zarządza spis pomocy dydaktycznych, w które są wyposażone jego szkoły, by zobaczyć, komu i ile dać na zaspokojenie najbardziej palących potrzeb. Zaniepokojony porażkami absolwentów na egzaminach wstępnych, dyrektor liceum zleca ekspertom z uniwersytetu pogłębione rozpoznanie stanu wiedzy uczniów z najważniejszych przedmiotów. Niektóre badania rozpoznawcze są luźniej związane z trudnością i programem działania. Zbiera się na przykład opinie uczniów o najbardziej dolegliwych stronach szkoły z myślą o tym, by wykorzystać je do wysunięcia żądań wobec władz oświatowych w ogóle. Czy kogokolwiek z adresatów zainteresuje doniesienie, nie jest wcale pewne, ludzie ci bowiem żyją własnymi problemami. Gdyby badanie nawiązywało do tych problemów, byłoby przez nich przyjęte z wielką uwagą, w przeciwnym razie powędruje do szafy. Wypada więc powtórzyć, że badanie praktyczne musi być związane z czyjąś trudnością lub czyimś zamiarem. Jeśli służy wyłącznie zaspokojeniu ciekawości badacza, nie powinno być finansowane ze środków publicznych przeznaczonych na badania naukowe. Badania oceniające W pewnym sensie wszystkie badania praktyczne mają charakter oceniający, toteż można by poprzestać na jednej nazwie. Ale w nauce o wychowaniu podział na „diagnozę” i „terapię” jest tak głęboko zakorzeniony, że warto go uszanować na poziomie terminologii. Badania, które nazwaliśmy rozpoznawczymi, leżą po stronie „diagnozy”, a badania, które nazwaliśmy oceniającymi – po stronie „terapii”: dostarczają oceny przebiegu i skutków podjętych działań naprawczych. W wielu organizacjach wartość innowacji ocenia rynek (jeśli po zmianie opakowania sprzedaż wyrobu wzrosła, to zmiana była skuteczna), więc badania oceniające są zbędne. Ale są organizacje nierynkowe, które dostarczają dóbr i usług społecznych (szkoły, szpitale, komisariaty policji itp.). Liczyć tu na niewidzialną rękę rynku byłoby absurdem, ponieważ ludzie ani nie mają pełnej swobody wybo- 92 Rozdział 5. Badania praktyczne ru tych usługodawców, ani pełnej informacji o poziomie ich usług (najlepsza jest informacja, która pochodzi z własnego doświadczenia, o nią jednak trudno, gdy kontakt z organizacją jest jednorazowy lub rzadki). Badania oceniające okazują się wtedy niezastąpione, bez nich można by bowiem latami trwonić pieniądze i wysiłek na nikomu niepotrzebne, a nawet szkodliwe innowacje. Celem badań oceniających jest dostarczyć sponsorowi przesłanek do decyzji w sprawie przyjętego sposobu działania (programu, innowacji). W grę wchodzą, najogólniej mówiąc, trzy opcje decyzyjne: kontynuować, zmodyfikować, porzucić. By ten cel osiągnąć, badania oceniające powinny dostarczyć odpowiedzi na następujące pytania: • Jak przebiega wprowadzanie innowacji w życie? Czy różne linie działania są właściwie skoordynowane (np. czy dostarczono pracownikom niezbędnych środków i informacji, co mają robić), terminy dotrzymane, personel zmobilizowany, pozytywnie nastawiony do zmian i rzeczywiście realizuje innowację. To ostatnie pytanie zasługuje na podkreślenie, często bowiem innowacja nie przynosi skutków po prostu dlatego, że personel popierając ją słownie, pracuje po staremu. • Czy innowacja przynosi oczekiwane skutki, jeśli nie, to dlaczego? • Czy innowacja przynosi nieoczekiwane skutki, jeśli tak, to jakie? • Jakie są całkowite koszty innowacji, jak rozkładają się na poszczególne zadania, czy mają tendencję wzrostową, czy spadkową? Badania oceniające są tym bardziej potrzebne, im większa jest skala innowacji. Gdy nauczyciel zmienia podręcznik, dyrektor szkoły zaostrza przepisy porządkowe, rada szkoły zleca przebudowę korytarza, to skutki takich innowacji można ocenić gołym okiem. Jeśli jednak innowacje obejmują wiele szkół lub nawet wszystkie, jak to bywa przy reformach rządowych, gołe oko jest bezsilne. Może ono wypatrzyć, że gdzieś reforma ma charakter pozorny, pogarsza warunki pracy, zwiększa koszty, przynosi skutki odwrotne do oczekiwanych, ale temu zawsze można przeciwstawić równie jednostkowe obserwacje pozytywnych skutków. Stanowiska w takiej debacie łatwo przewidzieć na podstawie sympatii politycznych jej uczestników. Wyniki badań oceniających są bardziej miarodajne, choć, jak zobaczymy, nawet one mogą nie przynieść rozstrzygnięcia sporu, czy reforma jest udana, czy nie. Pojęcie badania oceniającego wydaje się proste, ale zwodnicza to prostota. Kto, dla kogo i na jakich założeniach ma oceniać innowacje – to kwestie sporne. Ocena z punktu widzenia usługodawcy Najbardziej oczywiste może się wydawać ocenianie prowadzone przez samą organizację, która świadczy badaną usługę. Organizuje je kierownictwo organizacji i adresuje wprost do personelu, który usługę realizuje. Takie ocenianie ma kilka etapów. Ważne jest, by zacząć od uzgodnienia w gronie usługodawców wizji oczekiwanych wyników. Służy temu dyskusja nad założeniami, celami i metodami programu. Etap ten często się pomija, gdy organizacja oświatowa przyjmuje gotowy, Badania oceniające 93 szczegółowo opisany program (np. nauczania czytania w przedszkolu lub kształcenia uzdolnień matematycznych w szkole). Niesłusznie – bezpośredni wykonawcy mogą bowiem inaczej rozkładać akcenty niż autor programu i w konsekwencji dążyć do nieco innych celów. Powiedzenie sobie, co chcemy osiągnąć, i wyrażenie tych deklaracji w języku zmiennych obserwowalnych jest więc zawsze pożądane. Zwiększa to spójność zespołu realizatorów i ich wrażliwość na wyniki pomiaru. Samo badanie przebiega zwykle w którymś ze schematów eksperymentu naturalnego (najczęściej w schemacie jednogrupowym z prestestem i posttestem lub szeregów czasowych). Doniesienie, które sporządza kierownik programu, mówi, czy nastąpił oczekiwany wzrost (np. wyników testowania osiągnięć matematycznych) lub spadek (np. liczby opuszczonych lekcji). Takie doniesienie przedstawia się personelowi i poddaje pod dyskusję. Daje ono wyobrażenie, w jakim zakresie udało się zespołowi osiągnąć jego własne cele, ale nic ponadto. Zespół nie dowie się o nieoczekiwanych skutkach programu i o tym, co myślą o programie usługobiorcy. Tego rodzaju ocenianie jest osadzone w podejściu, które Popkewitz (1984) nazywa inżynierskim. Zakłada ono, że system oświaty, podobnie jak przemysł czy kolej, jest urządzeniem zbudowanym w określonym celu. Cel ten trzeba zdefiniować tak wyraźnie, by dało się go mierzyć, a system tak zaprojektować, by zmaksymalizować szansę osiągnięcia celu. Czy system działa właściwie, powiedzą wyniki testowania osiągnięć szkolnych uczniów. W wielkiej cenie są międzynarodowe programy mierzenia tych osiągnięć, pozwalają bowiem porównywać funkcjonowanie całych systemów. Ocena z punktu widzenia usługobiorcy Równie często ocenianie programu odwołuje się opinii usługobiorców, np. uczniów czy ich rodziców, by ustalić, czy dostają oni wartościową usługę (Scriven, 1980). Ten rodzaj oceniania stosuje się w szkolnictwie wyższym, pytając studentów, co wynieśli z wykładów lub ćwiczeń. Według Scrivena ocenianie powinno być z góry zaplanowane co do czasu (np. dwa razy w roku) i zmiennych. Badanie jest wyczerpujące i wykonane w schemacie przeglądowym. Wymaga zbierania zarówno danych obiektywnych (o liczebności i cechach uczestników programu, ich osiągnięciach, kosztach itp.), jak i subiektywnych (opinie uczniów o wartości i skutkach nauczania według danego programu czy metody). Zbieranie obiektywnych danych o osiągnięciach wymaga sformułowania celów behawioralnych. Jeśli celem programu jest rozwinięcie umiejętności krytycznego myślenia, cel w wersji behawioralnej mógłby wyglądać tak: Przy końcu roku szkolnego 90% uczniów uczestniczących przez cały rok w programie osiągnie w skali staninowej wynik równy lub większy od 7 w Skali krytycznego myślenia Watsona i Glasera. (Eby i Smutny, 1998, s. 183) Dane subiektywne zbiera się za pomocą ankiety. W kwestionariuszu ankiety mogą się znaleźć pytania typu: • Jakie są, twoim zdaniem, cele programu? • Czy dobrze objaśniono Ci cele programu? • W jakim stopniu program osiąga te cele? 94 Rozdział 5. Badania praktyczne • Pod jakim względem program nie osiąga tych celów? • Czy miałeś okazję otwarcie wypowiedzieć się w sprawie celów i skutków programu? Doniesienie z takiego badania powinno odpowiadać na cztery pytania: • Komu służy innowacja – ile osób z niej korzysta, jak zostały dobrane? • Jak działa innowacja – czy jest dostępna, co w świetle pomiaru osiągnięć i subiektywnych opinii daje uczniom, czy to odpowiada celowi, który zadeklarowała szkoła, ile środków i energii pochłania? • Jak efektywna jest innowacja – czy uczniowie są zadowoleni, co chcieliby zmienić, czy mogą swobodnie komunikować się z personelem, przekazywać swoje uwagi, odbierać wskazówki? • Jakie są nieoczekiwane skutki innowacji – czy wywiera niezamierzony wpływ na uczniów, personel szkolny i inne osoby (np. okolicznych mieszkańców)? Doniesienie powinno być przedyskutowane na zebraniu personelu, a także przekazane uczniom i ich rodzicom, by zapobiec stronniczemu (selektywnemu) podejściu do wyników. Dzięki temu uogólnione opinie uczniów prowadzą do zmian, które zapewniają coraz lepsze zaspokajanie ich potrzeb. Jest to naczelnym celem oceniania z punktu widzenia usługobiorcy. Ocena z punktu widzenia społeczeństwa Trzecie podejście do oceniania innowacji zakłada, że między oceniającym a ocenianym istnieje konflikt. Oceniający jest skłonny eksponować błędy, zaniedbania i niepożądane skutki uboczne, a oceniany – świadectwa skuteczności swojego działania i jego błogosławione skutki. Gdy obie role pełni ten sam zespół, można się spodziewać rozmaitych kompromisów, które obniżają wiarygodność oceny. Dlatego najlepiej powierzyć ocenianie osobom spoza programu, które nie są nim osobiście zainteresowane. Adresatem ich oceny powinna być raczej społeczność lokalna lub całe społeczeństwo niż usługodawcy czy usługobiorcy. Ma to szczególne znaczenie, gdy innowacja jest finansowana ze środków publicznych. Podatnicy zasługują na to, by wiedzieć, na co idą ich pieniądze. Wprowadzenie oceny do publicznego obiegu wywiera nacisk na władze oświatowe i skłania do bardziej racjonalnego rozdzielania funduszy (Guba i Lincoln, 1981). Ocena innowacji z punktu widzenia społeczeństwa jest często przedmiotem artykułów prasowych lub programów telewizyjnych. Dziennikarze biorą na celownik jakiś publiczny program działania i drążą go w poszukiwaniu przemilczanych faktów, niewygodnych liczb i krytycznych opinii. W oświatowych badaniach oceniających rolę dziennikarzy pełni wynajęty zespół wizytatorów z kuratorium lub konsultantów z uniwersytetu. Nikt z nich nie może mieszkać lub pracować w zasięgu jednostki samorządu, która prowadzi program, tak by nie było cienia wątpliwości, że reprezentują interes publiczny. Badanie oceniające ma tu najczęściej charakter jakościowy i przebiega w schemacie studium przypadku. Badacz nie wnosi do badanej szkoły gotowej wizji celów i zamierzonych wyników, lecz prowadzi nieuprzedzoną obserwację jakościową i wywiady. Zbiera też i analizuje rozmaite dokumenty. Jego celem jest ujawnić zarówno zamierzone, jak i niezamierzone procesy i wyniki programu, korzystne i niekorzystne. Badania oceniające 95 Studium przypadku może obejmować kilka celowo dobranych przypadków, np.: • przypadki skrajne – oceniając, powiedzmy, program resocjalizacji, wybiera się albo osoby, które wróciły na łono społeczeństwa – żeby zobaczyć, jakie elementy programu im pomogły, albo recydywistów – żeby zobaczyć, dlaczego program zawiódł, • przypadki typowe – te, których losy najbardziej przypominają modalną, • przypadki kluczowe – osoby lub miejsca, w których badane zjawisko występuje najwyraźniej lub które są szczególnie istotne dla funkcjonowania badanego programu, • przypadki maksymalnie zróżnicowane pod określonymi względami (np. płci, wieku, zamożności). Choć w tej odmianie badań oceniających przywiązuje się wielką wagę do bezstronności i trafności oceny, to jednak dominujący schemat wprost prosi się o krytykę za stronniczość i nietrafność. Zauważmy najpierw, że podstawą oceny są tu próbki: samych szkół i zdarzeń wewnątrz każdej szkoły. Studium przypadku ma zwykle wąskie ramy czasowe: badacz spędza w szkole zaledwie kilka dni, obserwuje kilkanaście zajęć, rozmawia z kilkunastoma osobami. Natrafiamy tu na ten sam problem, z którym boryka się każdy zespół wizytatorów. Resort oświaty wymaga na przykład, by każdy zakład kształcenia nauczycieli był oceniony przez taki zespół raz na 5 lat. Nawet gdyby wizytatorzy spędzili w zakładzie 3 dni, to i tak mogliby się bezpośrednio zapoznać ze zdarzeniami wypełniającymi promile czasu, którym zakład gospodaruje w ciągu 5 lat. Oceniać jakość kształcenia na podstawie tak niereprezentatywnej próbki jest wysoce ryzykowne. Zbyt silna jest też pokusa, by zyskać 5 lat spokoju za cenę wyreżyserowania 3 dni wizytacji. Wytrawni badacze jakości kilka razy odwiedzają szkołę, by wyrobić sobie możliwie wszechstronny pogląd na badaną innowację. Krytykom może to jednak nie wystarczyć. Po wtóre, nawet najlepsza wola nie zabezpiecza badacza przez uleganiem naciskom ze strony ocenianej organizacji. Trzeba się też liczyć z efektem bumerangowym: rzeczywiste czy tylko domniemane naciski mogą skłonić badacza do szukania dziury w całym. Gdy program jest złożony i ma szeroki zasięg, zawsze coś się znajdzie. Polityczne aspekty oceniania Przedmiotem badań oceniających mogą być przedsięwzięcia w dowolnej skali: zarówno innowacje w klasie szkolnej, jak i reformy oświatowe w skali całego kraju. Drugi z tych przypadków zasługuje na baczniejszą uwagę, ponieważ otwiera oczy na problemy, które w mikroskali są mniej widoczne. Najważniejszy to ten, że badanie oceniające legitymizuje lub delegitymizuje konstytucyjne organy władzy, które patronują reformie, ale samo pozostaje poza demokratyczną kontrolą. Trudno więc nie zapytać, co legitymizuje samo to badanie. Czy powinniśmy się domagać badań oceniających ocenianie, a jeśli tak, to jak uniknąć regresji w nieskończoność? Problem ten powinien nam uświadomić, że błędem jest widzieć w badaniu oceniającym jedynie przedsięwzięcie techniczne, neutralne politycznie. W istocie, ocenianie jest formą ukrytej walki o władzę. Kto mówi, że ujawnia fakty i tylko 96 Rozdział 5. Badania praktyczne fakty, powinien pamiętać, że fakty są korelatem oczekiwań i pytań. Jestem w stanie powiedzieć, jaki kapelusz miał spotkany przed chwilą przechodzień, jeśli sam jestem kapelusznikiem lub jeśli mnie ktoś o to zapyta. W przeciwnym razie kapelusz przechodnia nigdy nie stanie się faktem, który można by wykorzystać w debacie o elegancji Polaków. W sferze polityki najlepszego przykładu faktów wykreowanych przez pytanie dostarcza każde referendum. Podobnie jest z badaniami oceniającymi: ich mocodawcy i wykonawcy często ukrywają głębsze przesłanki swoich pytań, ponieważ zależy im na wydobyciu pewnych faktów i ukryciu innych. Z powyższego wynika, po pierwsze, że badania oceniające nie mogą być niczyją własnością: nikt nie powinien swobodnie rozporządzać ani ich procedurą, ani wynikami. Badanie oceniające musi zawsze być własnością publiczną, dostępną analizie i krytyce w otwartym dyskursie. Cronbach i in. (1980, s. 1–2) tak o tym piszą: ocenianie programu to proces, w którym społeczeństwo poznaje samo siebie i który powinien przyczyniać się do oświeconej dyskusji o alternatywnych planach społecznego działania [...] Społeczeństwo otwarte staje się zamknięte, gdy tylko kręgi kierownicze wiedzą, co się dzieje. Informacja jest źródłem władzy i w tej mierze ocenianie służące jedynie twórcom polityki pozbawia ludzi ich obywatelskich uprawnień. Drugi krok w tym rozumowaniu stawia Popkewitz (1984, rozdz. 7). Zwraca on uwagę, że autorzy badań oceniających ostentacyjnie wykorzystują naukowe schematy i metody, ale odrzucają refleksyjny i samokorygujący mechanizm dyskursu naukowego. Ocenianie sprowadzone do porównania wielkości z góry przyjętych zmiennych (np. wyników testowania osiągnięć lub częstości stosowania danego podręcznika) ignoruje problem wartości celów praktyki. Oceniający z triumfem demonstruje wykres krzywej, która bez wątpienia rośnie. Nie pyta jednak, czy słusznie i mądrze jest cieszyć się z tego, a zapytany, przytakuje bez namysłu. Takie podejście zaciera świadomość konfliktów i blokuje debatę w sprawie porządku społecznego, politycznej legitymizacji i autorytetu, bez której każde badanie oceniające pozostanie uzurpacją. W konkluzji wypadnie wrócić do samego pojęcia badań praktycznych. Czy rzeczywiście nie mają one żadnego związku z teorią naukową poza teorią pomiaru? Jest to w istocie pytanie, czy można zdefiniować praktyczną trudność w języku ateoretycznym. Czasem zapewne tak, ale czasem nie. Pod praktyczną trudnością często kryją się odmienne wartości, sprzeczne punkty widzenia i rozbieżne interesy. Racjonalne podejście do trudności wymaga ujawnienia tych sprzeczności, by można ją było najpierw zdefiniować, a potem rozwiązać w zrównoważony sposób. To jest zadanie, którego nie sposób wykonać bez teorii. Kto odrzuca refleksję teoretyczną, temu grozi los eksperta, którego najmują elity władzy, by nieświadomie przemawiał w ich interesie. Badanie w działaniu Większość badań praktycznych służy działaniu, ale jest od niego oddzielona: ktoś działa, ktoś inny bada, jakie skutki przynosi to działanie, by ktoś jeszcze inny mógł podjąć decyzję: kontynuować je, zmodyfikować czy porzucić. Schemat, który te- Badanie w działaniu 97 raz omówimy, odrzuca ten podział pracy. Badanie w działaniu (research and development, action research) jest prowadzone przez tę samą osobę (osoby), która działa i podejmuje decyzje. Schemat ten pociąga tych, którzy nie tylko chcieliby wiedzieć, jak się rzeczy mają, ale i wpływać na nie w pożądanym kierunku. Załóżmy, że pewną szkołę trapią chuligańskie wybryki uczniów. Personel szkoły zawiązuje zespół badania w działaniu. To, co dalej się dzieje, składa się z pięciu etapów: Etap I. Obserwowanie uczniów podczas lekcji i przerw w celu stwierdzenia, jakie są rodzaje zakłóceń i jaki jest ich rozkład. Stosuje się tu obserwację ilościową i jakościową obserwację zdarzeń krytycznych. Etap II. Analiza danych pod kątem pytania, jacy uczniowie sprawiają najwięcej kłopotów i czemu to można przypisać. Może się na przykład okazać, że w każdym oddziale jest to czterech lub pięciu chłopców, którzy rozrabiają pod wpływem nudy, frustracji wywołanej zbyt abstrakcyjnymi zadaniami, niekonsekwentnego wprowadzenia reguł porządkowych lub represyjnego stylu utrzymywania dyscypliny. Etap III. Dyskusja nad wynikami badania na zebraniu rady pedagogicznej, wzmocnionej przez doradców z zewnątrz, i obmyślenie programu działań zaradczych. Rada może na przykład postanowić, że lekcje trzeba dzielić na mniejsze i bardziej zróżnicowane jednostki, stawiać uczniom krótsze i bardziej praktyczne zadania, dokładniej wyjaśniać dydaktyczne cele zadań, uporządkować reguły zachowania się w szkole i porozumieć się z uczniami co do sankcji za ich łamanie. Etap IV. Obserwowanie lekcji i wywiady z nauczycielami w celu sprawdzenia, w jakim zakresie nauczyciele wprowadzają w życie uzgodniony program, a także jakie pojawiają się wykroczenia i ile ich jest. Etap V. Analiza danych, przekształcenie ich w ocenę programu, obmyślenie i wprowadzenie koniecznych modyfikacji. Niektórzy w tym schemacie chcieliby prowadzić ocenianie wszelkich przedsięwzięć oświatowych i społecznych. Cronbach (1982) twierdzi, że ocenianie zewnętrzne, prowadzone przez niezależną agencję badawczą na zlecenie władz oświatowych, jest mniej skuteczne niż powszechne badania w działaniu prowadzone przez praktyków na swoim terenie. Nie tylko potrafią oni lepiej ocenić dodatnie i ujemne skutki innowacji, ale też mogą lepiej wykorzystać wyniki tego oceniania do zmiany swojego zachowania i postaw. Zaangażowanie praktyków, a nie jakość programu, ma być kluczem do sukcesu. Żeby wywołać to zaangażowanie, trzeba oddać program praktykom i przekonać ich, by spojrzeli na siebie jak na osoby, od których zależy to, jakie wyniki program przyniesie. Wielkie nadzieje wiąże się z powstaniem oddolnego ruchu na rzecz programu. Tworzą go sami nauczyciele, gdy odwiedzają inne szkoły w celu zapoznania się ze stosowanymi tam rozwiązaniami, czytają bieżące doniesienia w czasopismach oświatowych, uczestniczą w kursach i konferencjach itd. To wtedy właśnie dokonują wstępnej oceny swojej pracy i pod jej wpływem obmyślają udoskonalenia. Tak powstaje osobista wersja innowacji dostosowana do miejsca pracy nauczyciela, potrzeb uczniów, materiałów i środków finansowych, a także jego zainteresowań i wartości. By zapobiec modyfikacjom, które byłyby w istocie 98 Rozdział 5. Badania praktyczne powrotem do starej praktyki, trzeba podtrzymywać współpracę między nauczycielami i szkolić ich w obserwowaniu i analizowaniu cudzej praktyki. Środki, które wydaje się na zewnętrzne badania oceniające, lepiej przeznaczyć na wspieranie nauczycielskich badań w działaniu. Taka synteza badań rozpoznawczych i oceniających oraz praktycznego działania jest bez wątpienia korzystna dla morale nauczycieli. Przestają być pracownikami najemnymi, stają się właścicielami środków własnej pracy. Ale ma to swoją cenę. O założeniach oceniania decyduje horyzont poznawczy praktyków. Kierują się oni osobistymi teoriami kształcenia i wychowania, które są nierozerwalnie splecione z ich doświadczeniem i osobowością. Wskutek tego kwestie publiczne mieszają się z problemami prywatnymi, co utrudnia krytyczny namysł nad własnymi zamiarami i wynikami. Mówiąc prościej, badacz w działaniu bezkrytycznie przyjmuje zastane poglądy i kategorie pojęciowe, zamiast z typową dla uczonego nieufnością oglądać je z szerszej perspektywy, którą może dać jedynie rozwinięta teoria. Na koniec uwaga o roszczeniach badań w działaniu do roli źródła wiedzy naukowej. Nie przecząc, że mogą one dawać dobre rezultaty w udoskonalaniu praktyki, odrzucam pomysł, by używać wyników takich badań do sprawdzania i rozwijania teorii naukowej. Po pierwsze, dlatego że nie kontroluje się tu żadnych zmiennych ubocznych (a jest ich legion), więc jeśli nawet program przynosi oczekiwane skutki, nikt nie może wiedzieć, dlaczego tak się dzieje i czy będzie tak gdzie indziej. Po drugie, dlatego że sam działający uzasadnia tu potrzebę działania i ocenia jego skutki. Rodzi to dwa zniekształcenia: percepcyjne – działający ma skłonność wyolbrzymiać początkowe nieszczęście i końcowe szczęście, czyli wyolbrzymiać różnicę między pretestem i posttestem, oraz motywacyjne – działający sam wkłada w działanie mnóstwo energii i zaraża nią innych. W rzeczywistości sam program działania może nie wywoływać tak wielkiej zmiany, jak się wydaje działającemu, a ta, którą wywołuje, może wynikać raczej z niezwykłej mobilizacji działających niż z jego trafności. Gdy działającym jest zwierzchnik (np. dyrektor szkoły), oba te zniekształcenia potęgują się. Nic więc dziwnego, że po opublikowaniu doniesienia z udanego badania w działaniu innym działaczom rzadko udaje się powtórzyć ten sukces. Często też program z czasem przestaje działać także w miejscu jego narodzin, ponieważ w wykonawcach wypaliła się energia lub odwołano zwierzchnika. Nie warto więc wskrzeszać bałamutnej tezy o praktyce będącej ostatecznym sprawdzianem teorii. Rozdział 6 METODY DOBORU PRÓBKI Populacja i próbka Jak wiemy, badania można podzielić na indywidualizujące i uogólniające. Różnica między nimi polega na zakresie stosowalności wniosków wyciągniętych z wyników. W badaniu indywidualizującym są one ograniczone do jednego, zbadanego obiektu, a w badaniu uogólniającym odnoszą się do szerszej zbiorowości obiektów. Tę zbiorowość nazywa się populacją. Populacje mogą być nieskończone lub skończone. Do nieskończonych odnoszą się prawa nauki, na przykład prawo Archimedesa, które opisuje zachowanie się wszelkich ciał zanurzonych w cieczy. Do podobnej ogólności aspirują czasem psychologowie, formułując twierdzenia o ludziach w ogóle, niezależnie od zajmowanego przez nich miejsca w czasie i przestrzeni. Ale w typowych badaniach społecznych populacje są zawsze skończone. Socjolog wypowiada się o istniejących grupach społecznych, badacz oświaty mówi o praktykach stosowanych w istniejących oddziałach klasowych czy szkołach. Jeśli pedagog bada osiągnięcia szkolne, to jego sądy nigdy nie dotyczą ucznia w ogóle, lecz pewnej dającej się przeliczyć zbiorowości uczniów: z jednego oddziału, szkoły, gminy, województwa czy kraju. Badanie skończonych populacji można prowadzić na dwa sposoby. Pierwszy, zwany wyczerpującym, polega na poddaniu pomiarom każdego obiektu należącego do populacji. Wybierają go czasem organizacje statystyki państwowej (np. Główny Urząd Statystyczny). Częściej stosuje się drugi sposób, zwany reprezentacyjnym (Pawłowski, 1972). Pomiarom poddaje się wtedy tylko niektóre obiekty populacji. Zbiór tych obiektów nazywa się próbką. Badanie reprezentacyjne ma wiele zalet: jest szybsze, tańsze i wprowadza mniej zakłóceń w codzienne życie badanej populacji. Ograniczenie liczby obiektów pozwala zwiększyć liczbę pomiarów lub zatrudnić wyżej wykwalifikowanych badaczy, dzięki czemu dane są bogatsze i bardziej wiarygodne. Te zalety byłyby jednak 100 Rozdział 6. Metody doboru próbki bez znaczenia, gdybyśmy nie wiedzieli, w jakim stopniu wnioski z próbki stosują się do populacji. Jest intuicyjnie oczywiste, że ograniczenie pomiarów do próbki niesie ryzyko błędnych sądów o populacji, jeśli próbka nie jest do niej podobna, czyli jeśli źle reprezentuje populację. Próbka wolna od tej wady nazywa się próbką reprezentatywną lub krótko – reprezentacją1. Jak zapewnić reprezentatywność próbki, zobaczymy za chwilę. Pierwszy krok w doborze próbki to precyzyjne określenie populacji. Określając populację, deklarujemy, o jakiej zbiorowości zamierzamy się wypowiadać na podstawie wyników badania, czyli wysuwamy roszczenie do prawomocności wniosków odnoszących się do tej zbiorowości. Najczęściej popełnia się tu dwa błędy. Pierwszy to zatarcie różnicy między populacją a próbką. Napisawszy na przykład: „Badanie przeprowadzono na populacji młodzieży w okresie dorastania”, autor referuje wyniki ankiety wypełnionej przez uczniów klasy I gimnazjum w Koluszkach. Prawda, że zbadani uczniowie należą do zbioru młodzieży w okresie dorastania, ale z tego nie wynika, że to ten zbiór jest przedmiotem badania. Drugi błąd to brak informacji o populacji. Autor zaczyna i kończy na określeniu próbki: „W badaniu wzięło udział 445 osób w wieku 6–17 lat...” i dopiero wniosek: „Poziom kompetencji wokalnych dzieci i młodzieży na różnych poziomach wieku jest w Polsce niższy niż w krajach Europy Zachodniej” ujawnia, że zamiarem badacza było dostarczenie wiedzy o całej zbiorowości polskich dzieci i młodzieży, czyli z grubsza licząc, o 6 mln osób. Gdyby to był napisał na początku, bardziej byłby wrażliwy na możliwe odchylenia swojej próbki od tej populacji. Określenie populacji polega na podaniu własności jasno wytyczającej interesujący badacza zbiór obiektów, np.: „polscy uczniowie w I etapie kształcenia (tj. z klas I–III)”, „tegoroczni absolwenci warszawskich szkół podstawowych”, „matki, które urodziły dzieci w pierwszym tygodniu marca 1968 r.”, „gminne wydziały oświaty w województwie mazowieckim” itp. Warto zauważyć, że populacje zdefiniowane przez bieżącą własność mogą się zmieniać: np. co roku zmienia się trzecia część uczniów nauczania początkowego. Jeśli tego nie chcemy, możemy zdefiniować populację przez własność uprzednią, np. rok urodzenia czy udział w jakimś kolektywnym zdarzeniu. Taka populacja, nazywana w demografii kohortą, nie zmienia swego składu, jeśli nie liczyć wymierania członków. Określiwszy populację, możemy się zająć wyłonieniem próbki. Można to zrobić w sposób losowy lub nielosowy. Losowaniem nazywa się taką metodę wyłaniania próbki, która zapewnia wszystkim możliwym próbkom jednakową szansę realizacji. W podręcznikach teorii prawdopodobieństwa ilustruje się ją za pomocą urny, w której znajduje się populacja jednakowych ponumerowanych kul. Losowanie polega na wyciągnięciu kuli, zapisaniu jej numeru i włożeniu jej z powrotem do urny. Jest oczywiste, że gdy populacja liczy tysiące czy miliony obiektów, takie postępowanie jest zupełnie niemożliwe. Dlatego opracowano sposoby losowania, które dają się zastosować w praktyce, a jednocześnie zapewniają dostateczne przybliżenie do teoretycznego ideału. Zostaną one opisane w dalszej części tego rozdziału. 1 Spotykany czasem termin „próbka reprezentacyjna” trzeba uznać za błędny. Populacja i próbka 101 Oprócz losowych wykorzystuje się też próbki nielosowe. Trzeba jednak pamiętać, że metody wnioskowania statystycznego o cechach (parametrach) populacji z cech próbki mają zastosowanie jedynie do próbek losowych. W literaturze metodologicznej najczęściej utożsamia się próbkę losową z próbką reprezentatywną (np. Pawłowski, 1972), niektórzy jednak nazywają reprezentatywną każdą próbkę, która pod pewnymi względami jest podobna do populacji – niezależnie od sposobu, w jaki została wyłoniona. Jest dobrym zwyczajem nie mnożyć nazw o identycznym zakresie, więc reprezentatywność będziemy rozumieć w drugim znaczeniu. Ma to pewną zaletę: zwraca uwagę, że i próbka losowa może czasem być niereprezentatywna. Załóżmy, że z populacji szóstoklasistów wylosowaliśmy próbkę 200 uczniów i że znalazło się w niej 90 chłopców. Ponieważ wiadomo, że w populacji młodzieży jest ok. 51,5% chłopców, próbka, w której 45% stanowią chłopcy, musi być uznana za niereprezentatywną pod względem płci. Nie zdarza się to często (jak łatwo obliczyć – rzadziej niż 4 razy na 100 losowań), ale jest możliwe. Jeśli mamy podstawy przypuszczać, że płeć jest skorelowana ze zmiennymi, które będziemy mierzyć (np. z wynikami takich testów, jak Myślenie techniczne Dobruszka), to próbkę powinniśmy uznać za niereprezentatywną także ze względu na nie (tu: grożącą niedoszacowaniem umiejętności technicznych w populacji). W takim przypadku próbkę należałoby wylosować ponownie albo użyć estymatorów stosunkowych (rozdz. 8). Przykład ten pokazuje, że reprezentatywność jest zawsze odniesiona do zmiennej, której parametry (tzn. wartości w populacji) są znane, a także do wszystkich zmiennych, które są z nią skorelowane. Jeśli planujemy pomiary zmiennych, o których nie wiemy, czy są skorelowane ze zmiennymi o znanych parametrach, wtedy badanie reprezentatywności próbki traci sens. Zawsze natomiast ma sens pojęcie losowości. Ostatnia kwestia, którą winniśmy tu przedyskutować, brzmi: Czy każde badanie naukowe musi opierać się na próbce reprezentatywnej? Pytanie jest interesujące, ponieważ wielu metodologów odpowiada na nie kategorycznym „Tak”, a wielu badaczy ostrożnym „Nie”. Jak się ustosunkować do tej rozbieżności między normą a praktyką? Jeden z wybitnych zwolenników reprezentatywności (Brzeziński, 1997) rozumuje tak: • sensem każdego badania (psychologicznego) jest możliwość uogólnienia wyniku z próbki na populację (s. 68), • koniecznym warunkiem prawomocności takiego uogólnienia jest podobieństwo zakresu wartości zmiennych (niezależnych i zależnych) w próbce i populacji, czyli reprezentatywność próbki (s. 69), • reprezentatywność próbki osiąga się za pomocą losowego doboru obiektów z populacji (s. 231), • jeśli zatem psycholog przeprowadzi badanie na próbce nielosowej, to jego „wnioski są prawomocne tylko dla uczniów danej szkoły, studentów danego kierunku studiów (np. psychologii), pacjentów z danego szpitala czy z danego oddziału, osób z danego przedziału wieku, danej płci itp.” (s. 261). 102 Rozdział 6. Metody doboru próbki Rozumowanie to jest podwójnie wątpliwe. Po pierwsze, ostatni sąd zaprzecza poprzednim. Jeśli badacz wykrył związek dwóch zmiennych w próbce uczniów przypadkowo wziętych ze szkolnego korytarza, to swoje odkrycie powinien – w świetle drugiej przesłanki – ograniczyć wyłącznie do zbadanych uczniów, ponieważ nie ma żadnych podstaw, by twierdzić, że są oni podobni do zbiorowości uczniów tej szkoły pod względem wartości tych zmiennych. Nielosowość próbki przesądzałaby więc o indywidualizującym charakterze badania. Ale po drugie, temu wnioskowi zaprzecza praktyka badawcza. Rozważmy słynną serię 10 eksperymentów Craika i Tulvinga (1975) weryfikujących teorię, która wiąże zapamiętanie wiadomości ze stopniem aktywności umysłowej człowieka podczas kontaktu z tą wiadomością (stopniem „opracowania” czy prościej – zrozumienia wiadomości). W pierwszym eksperymencie wzięło udział 20 studentów. Zgłosili się na ochotnika i mieli dostawać pieniądze za udział w badaniu. Badanym eksponowano na ekranie pytanie, a następnie w ciągu 0,2 sek. napis, którego dotyczyło pytanie. Badany miał odpowiedzieć „tak” lub „nie” przez naciśnięcie jednego z dwóch przycisków. Główną zmienną niezależną był poziom pytania. Zmienna ta miała 5 wartości. Pytanie mogło być znakowe (Czy to słowo?), graficzne (Czy jest napisane wersalikami?), fonemiczne (np. Czy rymuje się z „góra”?), kategorialne (np. Czy to rodzaj ryby?) i zdaniowe (np. Czy pasuje do schematu zdaniowego „Spotkał ... na ulicy”?). Badanie składało się z 40 takich zadań (5 poziomów pytania × 2 typy odpowiedzi × 4 listy napisów). Po wykonaniu wszystkich zadań nieoczekiwanie przeprowadzono pomiar zapamiętania eksponowanych słów metodą rozpoznawania (badany dostawał listę 80 słów i miał podkreślić te, które widział na ekranie). Badanie przyniosło wynik (rys. 6.1), który potwierdził hipotezę i tym samym rzucił nowe światło na naturę ludzkiej pamięci. Ale ponieważ w żadnym punkcie nie losowano badanych, Brzeziński zapewne uznałby, że można go odnieść jedynie Frakcja rozpoznanych słów 1,2 1 0,8 0,6 0,4 Twierdzące 0,2 Przeczące 0 znakowy graficzny fonemiczny kategorialny zdaniowy Poziom przetwarzania Rysunek 6.1. Względna liczba trafnie rozpoznanych słów w zależności od rodzaju pytania poprzedzającego ekspozycję słowa i typu odpowiedzi. Źródło: Craik i Tulving, 1975. Populacja i próbka 103 do 20 zbadanych studentów lub do podobnych im kolegów. Swoje stanowisko autor ilustruje przykładem badania preferencji seksualnych Amerykanów, przeprowadzonego pół wieku temu przez A. Kinseya. Na podstawie ankiety na próbce 20 tys. osób stwierdził on, że preferencje te były mniej konwencjonalne, niż przypuszczano. Ale próbka Kinseya była złożona z ochotników, a więc nielosowa. Wykazano, że ochotnicy mają, średnio rzecz biorąc, wyższe poczucie własnej wartości, z czym idzie w parze mniejsze skrępowanie wobec seksu. Wniosek jest prosty: zbadawszy próbkę nielosową, Kinsey nie powinien był rozciągać uzyskanych wyników na całe społeczeństwo, a ponieważ to zrobił, przedstawił je w krzywym zwierciadle. Ponieważ oba te przykłady prowadzą do odmiennych rekomendacji, najprawdopodobniej muszą się pod ważnym względem różnić od siebie. Rzeczywiście, różnią się zakresem twierdzenia, które badacz zamierza wprowadzić do nauki. Craik i Tulving myśleli o ludziach w ogóle, Kinsey zaś o przeciętnym dorosłym Amerykaninie żyjącym w jego czasach. Można powiedzieć, że badacze odnosili swoje twierdzenia do innych populacji: dla Craika i Tulvinga była to sztuczna populacja ludzi znajdujących się w warunkach, które wymodelowali w swoim eksperymencie, dla Kinseya – populacja konkretnych osób żyjących w pewnym miejscu przestrzeni i czasu. Pierwsza populacja jest nieskończona, druga skończona. Gdy populacja jest nieskończona, losowanie próbki jest niemożliwe i każdy zbiór obiektów trzeba uważać za równie reprezentatywny. Nie znaczy to, rzecz jasna, że można się przestać martwić o trafność zewnętrzną badania. Zawsze może się zdarzyć, że wybrane do badania obiekty mają szczególną cechę, która wytwarza wynik przez to, że wchodzi w interakcję ze zmienną niezależną. Ale losowanie obiektów temu nie zapobiegnie. Jedynym sposobem kontroli trafności zewnętrznej badań eksperymentalnych jest ich powtarzanie. Nie bez powodu w swoim artykule Craik i Tulving referują aż 10 eksperymentów na małych, przypadkowych próbkach. Ich badania (z najróżniejszymi modyfikacjami) były też wielokrotnie powtarzane przez innych badaczy. Replikowalność (odtwarzalność) wyniku jest głównym kryterium prawomocności uogólnienia. Z drugiej strony, gdy populacja jest skończona, można się wypowiadać o niej na podstawie próbki tylko wtedy, gdy próbka jest reprezentatywna. Jeśli eksperymentalnie sprawdzamy skuteczność nowej metody nauczania, powiedzmy: rachunku różniczkowego w liceum, a grupy porównawcze tworzymy ze studentów pedagogiki, to popełniamy dyskwalifikujący błąd. Jeśli losowo przydzielamy do grup porównawczych przypadkowych uczniów z pobliskiego liceum, popełniamy błąd lżejszego kalibru. Wiadomo, że przydział losowy ogranicza zewnętrzną trafność eksperymentu, ale nic złego się nie stanie, jeśli rekomendowana metoda nie wszędzie się sprawdzi. Wreszcie, tworząc grupy metodą doboru losowego, postępujemy bezbłędnie i zasługujemy na pochwałę. Kłopot w tym, że w praktyce takiego eksperymentu nie dałoby się przeprowadzić, bo eksperymentator musiałby zgromadzić w swoim laboratorium osoby mieszkające w najrozmaitszych miejscach Polski. Generalna zasada mogłaby brzmieć następująco: ilekroć zamierzamy mówić o skończonej populacji, staramy się pracować na próbce wylosowanej z tej popu- 104 Rozdział 6. Metody doboru próbki lacji. Jeśli to niemożliwe ze względów technicznych lub finansowych, próbujemy zwęzić populację. Powiedzmy, że brak pieniędzy na diety skazuje nas na badanie jedynie młodzieży z Łodzi. Lepiej wtedy spuścić z tonu i uznać, że interesuje nas nie populacja młodzieży polskiej, lecz populacja młodzieży łódzkiej. Próbkę można dobrać w najtańszy sposób, zapewniający jedynie przybliżenie do losowości. Słowem, jeśli nie można zrobić tego, czego wymaga podręcznik metodologii, lepiej zrobić to, co można, niż nic. Od tej zasady jest jeden wyjątek: nie wolno rezygnować z losowości, jeśli wyniki naszego badania mają być użyte do porównywania całych populacji. Jeśli badacz zamierza się włączyć do dyskusji o poziomie umiejętności wokalnych młodzieży polskiej w porównaniu z młodzieżą niemiecką, to zbadanie 445 młodych ludzi z Łodzi jest błędem dyskwalifikującym badanie. Próbki losowe Przystępując do losowania próbki, powinniśmy odróżniać schemat losowania od techniki losowania. Schemat losowania to zasada budowania operatu losowania. Operatem losowania nazywamy pełny i ponumerowany (od 1 do N) wykaz wszystkich obiektów składających się na interesującą nas populację. Bez sprawdzonego operatu nie ma próbki losowej. Jeśli populację stanowią uczniowie klasy VI z pewnej szkoły, operat losowania to lista nazwisk wszystkich uczniów. Jeśli populacja jest większa (np. uczniowie klasy VI polskich szkół), to sporządzenie imiennej listy uczniów może być niewykonalne i operat trzeba budować inaczej. Są dwa kryteria podziału schematów losowania (Pawłowski, 1972). Jeśli mamy operat, który wyszczególnia obiekty całej, niepodzielonej populacji, mówimy o schemacie losowania nieograniczonego. Jeśli dzielimy populację rozłącznie i wyczerpująco na pewne podpopulacje (np. województwa lub typy szkół) i tworzymy osobne operaty dla każdej z nich, mówimy o schemacie losowania warstwowego. Niezależnie od powyższego podziału elementem operatu mogą być albo pojedyncze obiekty składające się na populację (np. dla populacji uczniów – pojedynczy uczniowie), albo grupy takich obiektów (np. oddziały szkolne). W pierwszym przypadku mówimy o losowaniu indywidualnym, w drugim o losowaniu grupowym. Wyodrębnienie tych schematów nie jest jedynie ćwiczeniem akademickim: od schematu zależy bowiem sposób poznawania parametrów populacji na podstawie wyników z próbki. Przypomnijmy: istotą metody reprezentacyjnej jest możność wypowiadania się o populacji na podstawie próbki. Wypowiadanie się o populacji to tyle co określanie parametrów mierzonej zmiennej: głównie średniej (μ), wariancji (σ2), wskaźnika struktury (π), czyli proporcji (odsetka) obiektów mających pewną cechę, oraz współczynnika korelacji liniowej (ρ). Dokładne wartości tych parametrów są oczywiście nieznane; możemy je jedynie ocenić (oszacować) na podstawie obliczonych z próbki wielkości zwanych estymatorami. Otóż w zależności od schematu losowania estymatory wymienionych parametrów mają nieco inną budowę. Jaką – zobaczymy w rozdz. 8. Próbki losowe 105 Wybrawszy schemat, musimy wybrać technikę losowania. Wybór jest niewielki: możemy albo użyć liczb losowych, albo zastosować losowanie systematyczne. W pierwszym przypadku sięgamy do ogólnie dostępnych tablic liczb losowych. Otwieramy tablice na przypadkowo wybranej stronie, losowo wybieramy pierwszą liczbę (np. z drugiego wiersza i piątej kolumny), po czym wypisujemy n kolejnych liczb, czyli tyle, ile obiektów ma liczyć nasza próbka. Jeśli jakaś liczba jest większa od n, pomijamy ją. Podobnie pomijamy powtarzające się liczby2. Próbkę losową stanowią obiekty o numerach odpowiadających wylosowanym liczbom. Zamiast tablic można użyć programu komputerowego generującego liczby pseudolosowe z ustalonego przedziału, a gdy operat obejmuje niewielką liczbę obiektów, można go pociąć na paski, umieścić w kapeluszu i po omacku wyciągnąć potrzebną ich liczbę. Losowanie systematyczne polega na wylosowaniu spośród pierwszych k liczb naturalnych (k oznacza tu część całkowitą ułamka N/n) pewnej liczby n0. Do próbki włącza się obiekt o numerze n0 i wszystkie odległe od niego o wielokrotność k (czyli n0 + k, n0 + 2k itd.). Ten mechanizm może dawać próbki niereprezentatywne, gdy w operacie losowania obiekty są ułożone w systematycznej (nielosowej) kolejności, a liczba k pokrywa się z cyklicznym wahaniem mierzonej zmiennej. Gdyby na przykład operat losowania zawierał nazwiska uczniów z kilkunastu oddziałów uporządkowane według osiągnięć szkolnych w oddziale, mogłoby się zdarzyć, że z każdego oddziału do próbki weszliby głównie uczniowie najlepsi i najgorsi. Dlatego losowanie systematyczne uchodzi za mechanizm mniej bezpieczny niż losowanie z użyciem liczb losowych. Losowanie nieograniczone indywidualne Ten schemat stosuje się do populacji, dla których istnieje i jest dostępny kompletny wykaz obiektów. Warunek ten jest najczęściej spełniony w badaniach praktycznych o małym zasięgu: dyrektor szkoły dysponuje kompletną listą swoich uczniów, dyrektor gminnego wydziału oświaty – kompletną listą nauczycieli itp. Wystarczy wziąć tablice liczb losowych i wylosować próbkę o pożądanej wielkości. Losowanie warstwowe Jeśli populacja jest duża i wewnętrznie zróżnicowana, losowanie nieograniczone grozi niereprezentatywnością, łatwo bowiem może się zdarzyć, że jakaś część populacji będzie nadreprezentowana, a inna niedoreprezentowana w próbce. By tego uniknąć, dzieli się populację na warstwy. Rodzaj i liczba takich warstw zależy od pytania badawczego, ale każdy podział populacji musi spełniać kilka ogólnych warunków: • opierać się na jasnym i sensownym kryterium (kryterium niejasne rodzi wątpliwości, do której warstwy zaliczyć ten czy ów obiekt, kryterium bezsensowne nie ma związku z mierzonymi w badaniu zmiennymi), Jest to tzw. losowanie bezzwrotne. Statystycy rozważają też wariant losowania zwrotnego, w którym ten sam obiekt może być wylosowany kilkakrotnie. Ponieważ jednak losowanie bezzwrotne jest bardziej efektywne, będziemy mówić tylko o nim. 2 106 Rozdział 6. Metody doboru próbki • być rozłączny i wyczerpujący, • wydzielać warstwy, których bezwzględna lub względna liczebność jest znana. Chcąc na przykład oszacować rzeczywisty czas pracy nauczyciela w Polsce, możemy podzielić populację nauczycieli na 5 czy 6 warstw według typu szkoły będącej pierwszym miejscem ich pracy. Mniej sensu miałby podział na 16 warstw wojewódzkich, a jawnie niepoprawny byłby podział ze względu na miejsce zamieszkania (wieś, małe miasto itd.). To ostatnie kryterium wydaje się słabo związane ze zmienną czasu pracy, nie rozstrzyga, gdzie zaliczyć nauczyciela, który mieszka w mieście, ale pracuje w szkole na wsi, i tworzy warstwy o nieznanych liczebnościach. Po dokonaniu podziału tworzy się oddzielne operaty losowania dla każdej warstwy. Mogą one zawierać pojedyncze obiekty lub grupy obiektów. Po ustaleniu wielkości próbki (n) z każdej warstwy h losuje się obiekty w liczbie (nh) proporcjonalnej do względnej wielkości warstwy (wh), tak że nh = nwh. Oprócz tego wariantu, zwanego proporcjonalnym, istnieje wariant optymalny J. Spławy-Neymana; choć w pewnych warunkach minimalizuje wariancje niektórych estymatorów, jest rzadziej używany (więcej o tym pisze Pawłowski, 1972). Można udowodnić, że przy dużych różnicach między wielkością warstwy a wielkością próbki losowanie warstwowe daje mniejsze wariancje estymatorów μ i π niż losowanie nieograniczone, co znaczy, że tę samą dokładność oszacowania można osiągnąć na mniejszej próbce. Zysk ten jest tym większy, im bardziej są zróżnicowane poszukiwane średnie czy wskaźniki struktury w warstwach, czyli im silniejszy jest związek kryterium podziału z mierzoną zmienną. Losowanie grupowe Losowanie grupowe polega na tym, że w operacie losowania znajdują się nie pojedyncze obiekty, lecz grupy obiektów. Tu – inaczej niż w losowaniu warstwowym – dąży się do tego, by wewnątrz grup znajdowały się obiekty wysoce zróżnicowane pod względem mierzonej zmiennej, ale by same grupy mało różniły się od siebie. Niełatwo to, niestety, osiągnąć, ponieważ z reguły wybiera się grupy zdefiniowane przez pewne naturalne kryteria (np. geograficzne czy organizacyjne). Powiedzmy, że interesuje nas poziom wyposażenia polskich szkół podstawowych w sprzęt komputerowy. Jeśli zechcemy losować indywidualne szkoły, musimy mieć operat losowania liczący z grubsza 13 tys. pozycji. Jeśli zdecydujemy się na losowanie grup szkół prowadzonych przez jedną gminę, operat kurczy się do ok. 2,5 tys. pozycji. Załóżmy, że wylosowaliśmy 50 gmin z zamiarem zbadania wszystkich szkół w tych gminach. Taki schemat nazywa się grupowym jednostopniowym. Schemat ten ma pewną wadę. Jeśli wielkości poszczególnych grup są wysoce zróżnicowane, a grupy znacznie różnią się od siebie pod względem mierzonej zmiennej, to schemat, w którym każda grupa ma takie samo prawdopodobieństwo wejścia do próbki, może być źródłem jej niereprezentatywności. Na przykład w zbiorze wszystkich gmin w Polsce jest mnóstwo małych gmin wiejskich i znacznie mniej wielkich gmin miejskich, z warszawską gminą Centrum na czele. Jeśli każda będzie miała tę samą szansę wejścia do próbki, to wielkie gminy miejskie mogą zostać pominięte. By tego uniknąć, wymyślono odmianę losowania grupowego, w którym Próbki nielosowe 107 prawdopodobieństwo wyboru jest proporcjonalne do wielkości grupy. Wymaga to niewielkiej zmiany w operacie losowania: trzeba przypisać każdej grupie nie jeden, lecz więcej kolejnych numerów – tyle, ile obiektów zawiera. Jeśli grupy są duże i dość jednorodne pod względem mierzonej zmiennej, to badając wszystkie obiekty z każdej grupy, ponieślibyśmy znaczne koszty, a informacji zdobyli niewiele. Lepiej wtedy z każdej wylosowanej grupy wylosować pewną liczbę obiektów za pomocą schematu nieograniczonego indywidualnego. Taki złożony schemat nazywa się losowaniem grupowym dwustopniowym. Łatwo wyobrazić sobie jeszcze bardziej skomplikowane schematy losowania grupowego. Gdybyśmy najpierw wylosowali powiaty, z powiatów szkoły, a ze szkół uczniów, byłby to schemat losowania trzystopniowego. Jest on mniej efektywny niż losowanie jednostopniowe, ale nie wymaga sporządzenia operatu losowania w postaci kompletnej listy tysięcy obiektów, co mogłoby się okazać niewykonalne. Podstawowe schematy losowania można też łączyć ze sobą. Często łączy się losowanie warstwowe z grupowym. Populację dzieli się najpierw na rozłączne warstwy i z każdej warstwy niezależnie losuje grupy obiektów. Takie postępowanie prawie zawsze daje mniejsze wariancje estymatorów w porównaniu z losowaniem grupowym. Przy złożonych schematach losowania zagadnienie estymacji parametrów znacznie się jednak komplikuje i dlatego badacz, który chce je stosować, powinien zapewnić sobie fachową pomoc statystyka. Wielkość próbki Wśród badaczy oświaty pokutuje przekonanie, że im większa próbka, tym lepsza. Jest prawdą, że im większa próbka, tym większa szansa wykazania statystycznej istotności efektów słabych, z reguły jednak takie słabe efekty są nieinteresujące teoretycznie i praktycznie (Blalock, 1975, s. 146). Za niepoprawne trzeba zwłaszcza uznać powiększanie próbek nielosowych. Zdarza się to badaczom, którzy prowadzą badania siłami magistrantów. Jeśli każdy magistrant ma przeprowadzić kilka pomiarów na próbce 50 uczniów w dostępnej mu szkole, to dziesięcioosobowe seminarium pozwala opublikować doniesienie z badania na imponującej próbce 500 uczniów. Trzeba tu zauważyć, że sprowadzenie aktywności badawczej studenta do mechanicznego wykonywania zadanych pomiarów stoi w rażącej sprzeczności z celami pracy magisterskiej. Co gorsza, taka próbka nie musi reprezentować ani populacji uczniów, ani populacji oddziałów klasowych, toteż jej wielkość nie zwiększa wcale dokładności szacowania parametrów, a wyniki, które przynosi, można by z powodzeniem uzyskać na próbce kilkakrotnie mniejszej. Próbki nielosowe Dobór przypadkowy W badaniach eksperymentalnych, a także w badaniach eksploracyjnych często angażujemy osoby, które są pod ręką (np. studentów z własnej grupy ćwiczeniowej, 108 Rozdział 6. Metody doboru próbki młodzież z zaprzyjaźnionej szkoły lub ochotników z ogłoszenia). Próbką przypadkową są też kwestionariusze ankiety pocztowej, jeśli stopa zwrotów jest mniejsza niż 75%. Uogólnianie wyników z takiej próbki jest zawsze obarczone błędem, którego nie sposób oszacować. Dotyczy to zwłaszcza ochotników. Wiadomo, że do badań psychologicznych zgłaszają się częściej kobiety niż mężczyźni, osoby o skrajnym (wysokim lub niskim) poziomie potrzeby aprobaty społecznej i wysokim poziomie potrzeby osiągnięć, niższym lęku, autorytaryzmie i etnocentryzmie, lepiej przystosowane, zdrowsze i inteligentniejsze (Mikołajczyk i Skarżyńska, 1976). Taka próbka z pewnością nie reprezentuje populacji. Dobór kwotowy Dobór kwotowy to nielosowy odpowiednik schematu warstwowego. Często stosują go badacze opinii publicznej, ma on także zastosowanie przy standaryzacji testów psychologicznych lub dydaktycznych. Zaczynamy od sensownego podzielenia populacji na warstwy. W przypadku standaryzacji testu osiągnięć szkolnych kryteriami bywają: płeć (2 wartości), status rodziny pochodzenia (np. 3 wartości) i lokalizacja szkoły (np. 3 wartości). Skrzyżowanie tych kryteriów wyznacza 18 warstw. Trzeba, rzecz jasna, umieć oszacować ich liczebności względne. Można się w tym celu posłużyć wydawnictwami Głównego Urzędu Statystycznego. Do próbki dobieramy przypadkowe osoby, ale tak, by zachować liczebności względne w populacji. Skoro chłopcy z rodzin o niższym statusie chodzący do szkoły na wsi stanowią ok. 15% populacji szóstoklasistów, a próbka ma liczyć 200 osób, to zadaniem badacza jest znaleźć 30 takich przypadków. Czy znajdzie się w niej Jan, czy Piotr, nie ma znaczenia. Podobnie postępuje badacz opinii publicznej. Dostaje on instrukcję, że musi przeprowadzić ankietę z 40 kobietami i 40 mężczyznami między 18. a 30. rokiem życia, dotrzeć do 15 rodzin ze śródmieścia itp. Oczywistym źródłem niereprezentatywności takiej próbki jest skłonność badacza, by wybierać przypadki najbardziej dostępne. Jeśli szuka 30 chłopców ze wsi, może wybrać wieś, do której najłatwiej dojechać. Jeśli szuka 15 rodzin ze śródmieścia, to może omijać domy zaniedbane lub oficyny kamienic i oczywiście rodziny, których akurat nie było w mieszkaniu. Dobór celowy Dobór celowy polega na włączeniu do próbki przypadkowych obiektów, które spełniają pewien warunek (np. tylko uczniów z wysoką średnią ocen szkolnych albo tylko nauczycieli matematyki pracujących w szkole nie dłużej niż 5 lat). Warto podkreślić, że nie mówimy o próbce celowej, jeśli przypadki losujemy z małej populacji (najlepszych uczniów lub młodych nauczycieli) i do niej ograniczamy wnioski z badania. Od kwotowej próbka celowa różni się tym, że nie zachowuje proporcji (np. pod względem płci) charakterystycznych dla populacji. Taka próbka nie reprezentuje żadnej populacji, toteż może być stosowana wyłącznie w badaniach indywidualizujących. Próbki nielosowe 109 Typowym zastosowaniem próbki celowej jest studium przypadku. Chcąc się bliżej przyjrzeć zespołowi wypalenia zawodowego, możemy wybrać po jednym nauczycielu i nauczycielce spośród osób uzyskujących najwyższe wyniki w Skali wypalenia zawodowego Maslach, pracujących w dwóch szkołach: elitarnej i borykającej się z trudnościami wychowawczymi. Wynikiem takich badań są cztery teorie jednostkowe. Choć mogą nam one wiele powiedzieć o istocie wypalenia, nie wolno rozciągnąć tej wiedzy na nauczycieli w ogóle. Glaser i Strauss (1967) rozważają także próbkowanie teoretyczne, które polega na dobieraniu przypadków w trakcie badania według sugestii wyłaniającej się teorii. W każdym etapie badania dobiera się te przypadki, które obiecują największy przyrost wiedzy o badanym zjawisku. Jeśli dane pochodzące od kilku „wypalonych” nauczycielek sugerują związek między wypaleniem a wsparciem ze strony męża, w następnym etapie zwracamy się do żonatych nauczycieli, by zobaczyć, czy równie ważne jest wsparcie ze strony żony. Jeśli tak jest, to w wyłaniającej się teorii wsparcie ze strony męża i żony zastępujemy kategorią „wsparcie ze strony najbliższej rodziny”. Proces próbkowania uważa się za zakończony, gdy nowe przypadki nie wnoszą już nowej wiedzy o badanym zjawisku. Stan ten nazywa się nasyceniem teoretycznym. Wartościową odmianą tej metody próbkowania jest indukcja analityczna: przechodzenie od przypadków, które potwierdzają teorię, do przypadków, które jej nie potwierdzają. Rozdział 7 METODY ZBIERANIA DANYCH Nie każdy, kto gromadzi dane, jest badaczem, ale każdy, kto jest badaczem, gromadzi dane – niezależnie od tego, jakiej koncepcji nauki hołduje i jaki stosuje schemat badania. Gromadzenie danych w naukach społecznych różni się od gromadzenia danych w naukach ścisłych tym, że dane występują w kontekście, który dookreśla ich znaczenie. Szczególnym rodzajem kontekstu jest sam badacz i sytuacja badania. Wynika stąd, że kontekst jest ważnym kryterium w klasyfikacji metod gromadzenia danych. Można gromadzić dane wytwarzane w sytuacjach zwyczajnych, codziennych, albo w sytuacjach niezwykłych, które stworzył sam badacz. Na jednym skraju tej osi mieszczą się dane powstałe niezależnie od badacza, np. listy czy pamiętniki. Obok – wyniki obserwacji, bo sama obecność obserwatora nadaje sytuacji, przynajmniej na początku, rys niezwykłości. Na drugim skraju mamy testowanie. Każdy test stawia osobę badaną w szczególnej roli obserwowanego: ktoś patrzy, jak poradzi sobie z zadaniem. Najwyraźniej widać to w rozbudowanych pomiarach behawioralnych. Na przykład Reykowski (1966), chcąc zbadać wpływ stresu na wykonywanie zadań, stworzył w pełni kontrolowane stanowisko oficera dyżurnego w komisariacie policji. Drugim kryterium klasyfikacyjnym jest kanał informacyjny: obrazowy (widzenie, słyszenie) lub tekstowy (czytanie i słuchanie). Przyglądając się, poznajemy ludzkie zachowania i wytwory tych zachowań. Czytając lub słuchając, poznajemy czyjeś relacje o zachowaniach i wytworach ludzi. W porównaniu z patrzeniem słuchanie dostarcza danych z drugiej ręki: jakie jest lub było to a to, dowiadujemy się z cudzego opowiadania. Krzyżując oba kryteria, dostajemy czteropolową tablicę, w której mieści się większość, jeśli nie wszystkie metody gromadzenia danych. Kanał Kontekst Przyglądanie się zachowaniom i ich wytworom Słuchanie lub czytanie relacji Sytuacje codzienne obserwacja zbieranie archiwaliów Sytuacje niecodzienne testowanie wywiad, ankieta, skala Próbki nielosowe 111 Warunkiem zebrania danych jest nawiązanie kontaktu z terenem badania. Terenem (field) będziemy nazywać umiejscowioną zbiorowość społeczną (np. rodzinę, szkołę, grupę subkulturową), która interesuje badacza albo jako obiekt badania, albo jako środowisko, w którym żyją osoby badane. Będziemy też mówić o miejscach, rozumiejąc przez to wyspecjalizowane części terenu (np. sypialnia rodziców, szkolna ubikacja, ulubiona dyskoteka). Najpierw trzeba zlokalizować interesujący nas teren lub osoby. Nie zawsze jest to łatwe. Załóżmy, że chcemy zbadać opinie ludzi spełniających nietypowe kryteria (np. dorosłych niedosłyszących). Jak do nich dotrzeć? Możemy dać ogłoszenie w miejscowych gazetach, zaglądać do miejsc, w których często bywają, albo prosić każdego o podanie nazwisk swoich niedosłyszących znajomych. Gdy badanie ma być prowadzone w formalnej organizacji (np. w biurze), konieczna jest zgoda władz. Zwykle dyrektor żąda zarysu badania, po czym nieufnie go studiuje, podejrzewając, że może to być zawczasu przygotowana przykrywka. Badanie jest źródłem licznych zakłóceń: burzy rutynę, skłania do namysłów nad prawdziwą intencją badania, rodzi obawę, że zostaną ujawnione słabe strony organizacji. Nic dziwnego, że prośba o wpuszczenie badacza wywołuje reakcje obronne. Zarówno władze, jak i badacz dostarczają fałszywych informacji (np. dyrektor zasłania się rzekomą reorganizacją, badacz zapewnia o zbawiennych skutkach jego badań dla organizacji). Rzadko jednak wprost odmawia się badaczowi wstępu, bo mogłoby to się wydać podejrzane. Jeszcze trudniej nawiązać kontakt z terenem nieformalnym. Pojawienie się we wsi czy na dyskotece obcego, który przygląda się ludziom i próbuje zadawać pytania, wywołuje odruch nieufności. Najlepiej, gdyby był on albo pełnoprawnym uczestnikiem terenu (np. barmanką w dyskotece), albo ukrytym obserwatorem. Na ogół jednak musi wystąpić we własnej roli – badacza. Dobrze jest wtedy znaleźć osobę wprowadzającą. Badacz może upatrzyć sobie jednego członka grupy, poczekać na odpowiedni moment, przedstawić się mu, wyłuszczyć powód swojego zainteresowania grupą i prosić o pomoc. Najbardziej skłonne pomagać badaczowi są osoby zajmujące niską pozycję w grupie. Z tego samego powodu ich pomoc często bywa mało skuteczna. W zasadzie badacz powinien być wprowadzony do grupy jako badacz, a nie jako kandydat na jej członka. Jeśli ukrywa swoją prawdziwą rolę przed większością, uzależnia się od jednego czy kilku wtajemniczonych. Ujawnienie tej roli, często przez przypadek, kładzie kres badaniu. Uzyskawszy dostęp do terenu, badacz musi pozyskać informatorów. To też nie jest łatwe: upatrzony nauczyciel nie musi się zgodzić na rozmowę, a tym bardziej na obserwowanie go przy pracy z uczniami. Dobrze jest zaczynać od skromnych próśb (np. prosić wychowawcę o pozwolenie porozmawiania z kilkoma podopiecznymi), zanim poprosi się go o dostęp do sedna działalności (np. o możliwość uczestniczenia w rozmowie z matką wychowanka). Z moich doświadczeń wynika, że nie należy demonstrować swojego znawstwa terenu (badacz naiwny lub zdezorientowany wyzwala w ludziach większą chęć informowania), dobrze jest też dać do zrozumienia, że ma się nad sobą kierownika, który będzie miał za złe, jeśli 112 Rozdział 7. Metody zbierania danych pewne dane nie zostaną zebrane – co prawie zawsze jest prawdą. Najważniejsze jednak to upewnić potencjalnych badanych o własnej dyskrecji i oczywiście zachować ją. Badacz, który ujawnia postronnym zdobyte informacje albo pozwala, by dostały się w niepowołane ręce, jest zakałą swojej grupy zawodowej. Metody zbierania danych jakościowych Dane jakościowe gromadzi się metodami, które można podzielić na trzy grupy: • obserwacja jakościowa, • wywiad, • przeszukiwanie archiwów. Omówimy je dokładniej. Obserwacja jakościowa O obserwacji pisze się mętnie, a to za sprawą zwyczaju przeciwstawiania jej eksperymentowi – rzekomo na tej podstawie, że eksperyment wpływa, a obserwacja nie wpływa na badaną rzeczywistość. Ponieważ, jak pamiętamy, eksperyment jest jednym ze schematów badawczych, rodzi to skłonność przypisania obserwacji równorzędnego miejsca w hierarchii pojęć metodologicznych. Tak robią Ary i in. (1996), nazywając obserwację schematem badania i dzieląc ją na uczestniczącą i nieuczestniczącą, a tę drugą na obserwację naturalistyczną, studium przypadku i analizę treści. Dla Denzina (1989, s. 17–18) schematem jest tylko obserwacja uczestnicząca: „obserwacją uczestniczącą będziemy nazywać strategię terenową łączącą w sobie analizowanie dokumentów, prowadzenie wywiadów z respondentami i informatorami, bezpośrednie uczestnictwo i obserwację oraz introspekcję”. Samo uczestnictwo też jest rozumiane wieloznacznie. Na ogół rozumie się przez nie obserwowanie badanej społeczności z punktu widzenia jej członka, co wymaga zawieszenia własnej wiedzy pedagogicznej czy socjologicznej i przyjęcia postawy poznawczej naiwności. Ale Shaughnessy i Zechmeister (1994) uznali, że uczestniczyć znaczy: odgrywać aktywną i istotną rolę w sytuacji, w której rejestruje się czyjeś zachowanie, więc obserwację uczestniczącą uznali za przypadek obserwacji połączonej z interwencją i przeciwstawili obserwacji bez interwencji (naturalistycznej). Wszystkie te konwencje mają dziwaczne konsekwencje. Według pierwszej rodzajem obserwacji jest czytanie i analizowanie na przykład opowiadań z czasopism dla najmłodszych. Według drugiej do obserwacji należy prowadzenie wywiadu, a obserwacja bez przydawki okazuje się składnikiem obserwacji uczestniczącej. By uniknąć podobnych niedorzeczności i zbliżyć się do potocznego znaczenia słów, w tej książce obserwacją będę nazywał rodzinę metod gromadzenia danych. Można je stosować w najrozmaitszych schematach badawczych. Wśród metod gromadzenia danych obserwacja jest królową, ponieważ dostarcza danych z pierwszej ręki. Nie musi to znaczyć – danych prawdziwych. Sam obserwator jest narzędziem zawodnym: nie wszystko widzi i nie wszystko, co zobaczył, rozumie. Ale poznawanie zachowań jednostek i praktyk społecznych metodą słuchania cudzych relacji jest obarczone podwójnie. Nie dość, że sam informator Metody zbierania danych jakościowych 113 podlega ograniczeniom typowym dla każdego obserwatora, to jeszcze ogranicza go sytuacja, w której wytwarza on swoją relację. Co prawda, obserwacja to metoda rodząca wielkie, a czasem nieprzezwyciężalne trudności. Ten fakt usprawiedliwia sięganie do metod opartych na słuchaniu: z reguły lepiej bowiem gromadzić dane obciążone, niż nie gromadzić ich wcale. Obserwacja występuje w dwóch odmianach: jakościowej i ilościowej. Obserwacja jakościowa wywodzi się z etnologii (w jakiejś części także z badań etologicznych – np. obserwacja języka ciała). Obserwacja ilościowa to dziecko pozytywizmu. W obu przypadkach obserwator rejestruje to, co widzi, starając się w jak najmniejszym stopniu wpływać na teren badania, ale w obserwacji jakościowej zwraca uwagę na obszerny, z grubsza tylko wytyczony zbiór zdarzeń, a w ilościowej na zdarzenia nieliczne i dokładnie zdefiniowane. Inaczej też wygląda wytwór obserwacji: w pierwszym przypadku są to teksty (szczegółowe opisy zdarzeń i ich tła w języku naturalnym), w drugim – liczby (częstości zdefiniowanych zdarzeń lub szacunki ich natężenia). Obserwacja etnograficzna Metodę tę często stosuje się w badaniach prowadzonych w schemacie etnograficznym i stąd jej nazwa. Nie znaczy to, oczywiście, że nie może być używana także w innych schematach. W literaturze nazywa się ją rozmaicie, np. uczestniczącą lub naturalistyczną. Obserwacja etnograficzna ma przynajmniej cztery cechy szczególne. Realny teren i miejsce. Obserwacja etnograficzna ma dostarczyć danych o ludziach w codziennych sytuacjach, więc nie może się odbywać w miejscach sztucznych (np. w laboratorium). Uczestnictwo. Obserwator znajduje się wraz z badanymi w tym środowisku i w tym sensie „uczestniczy” w nim; stąd wzięła się nazwa „obserwacja uczestnicząca”. Widzieliśmy jednak, że budzi ona najzupełniej mylne skojarzenia. Uczestnictwo to cecha stopniowalna. Najwyższy stopień uczestnictwa to życie na danym terenie. Uczestniczącym obserwatorem wsi jest badacz, który w niej mieszka od lat, obserwatorem szkoły – zatrudniony w niej nauczyciel lub uczeń. Najniższy stopień uczestnictwa cechuje obserwatora, który przybywa nie wiadomo skąd, siada w kącie, przygląda się, słucha, czasem zada jakieś pytanie. Gdzieś pośrodku mieści się uczestnictwo obserwatorów, którzy są badaczami, ale świadczą też pewne usługi dla terenu (np. socjolog stojący na czatach w toalecie, gdzie zbierają się homoseksualiści). Uczestnictwo okazuje się pojęciem szerokim (wyklucza tylko skrytego podglądacza lub podsłuchiwacza), a więc niezbyt użytecznym. Co gorsza, nie przesądza ono, co wiedzą obserwowani. Mogą nie wiedzieć, że jest wśród nich obserwator, mogą wiedzieć, ale nie zwracać na niego uwagi, mogą wiedzieć i zwracać uwagę. Pierwsza możliwość, choć metodologicznie pożądana, bywa trudna w realizacji, a czasem i wątpliwa moralnie. Można w ten sposób obserwować ludzi na otwartym zebraniu przedwyborczym czy młodzież na dyskotece, ale nie gang młodzieżowy, biuro czy oddział klasowy. Są wprawdzie doniesienia z badań przeprowadzonych przez obserwatorów, którzy dostali się na oddział 114 Rozdział 7. Metody zbierania danych psychiatryczny jako pacjenci, zapisali się do szkoły jako uczniowie lub wstąpili do policji po odbyciu przeszkolenia, ale trudno polecać tę metodę. Badacz musi zachowywać nieustanną czujność, by się nie odsłonić, albo nie wejść zbyt głęboko w swoją rolę i utracić bezstronność. Ostatnia możliwość (wiedzieć i zwracać uwagę) jest niepożądana, ponieważ obecność obserwatora może istotnie zmienić zachowanie się ludzi. Wiadomo na przykład, że w obecności obcego nauczyciel stawia uczniom więcej pytań niż zwykle, częściej ich chwali i chętniej przyjmuje ich pomysły, uczniowie zaś częściej nawiązują z nim kontakt, zadając pytania lub prosząc o wskazówki. Najpraktyczniejsza zatem jest możliwość środkowa. Trzeba przyzwyczaić badanych do obecności obserwatora. Jeśli przychodzi regularnie na lekcje, nie wtrąca się i przedstawia jako osoba zainteresowana, ale nieoceniająca, to uczniowie po kilku, a nauczyciele po kilkunastu wizytach przestają skupiać na nim uwagę i powracają do zwykłych sposobów zachowania się. Zmiany ogniska obserwacji. Znaczenie danych jakościowych dookreśla kontekst, toteż musimy je zawsze wycinać z kawałkiem kontekstu. Załóżmy, że chcemy zbierać dane o aktywności uczniów podczas lekcji. Kto by po prostu stawiał kreskę, ilekroć uczeń zgłasza się do odpowiedzi, ten nie zbierałby danych jakościowych, zgłoszenie bowiem zgłoszeniu nierówne. Ale jaki fragment kontekstu wystarczy? Zapewne – pytanie czy polecenie nauczyciela i warunki odpowiadania (czy uczeń zgłasza się w trakcie dyskusji, czy do odpowiedzi na stopień). Może także to, ilu uczniów zgłasza się jednocześnie i czy ktoś już próbował odpowiedzi. Pewnych wskazówek dostarcza istniejąca lub rodząca się teoria, ale jest oczywiste, że najpierw trzeba poznać teren. Typowe gdzie indziej sytuacje (zwyczaje) mogą tam być bardzo rzadkie, a nietypowe – częste. Dlatego obserwacja etnograficzna przebiega w kilku fazach. Faza pierwsza ma zorientować badacza w terenie (obserwacja opisowa). Najpierw badacz przygląda się i opisuje teren (np. szkołę), jego miejsca (np. izbę szkolną, szatnię, korytarz, jadalnię, boisko) i uczestników. Z reguły uczy się ich imion, by móc ich później identyfikować. Jednocześnie próbuje wniknąć w charakter i atmosferę terenu. Jedno z obiecujących podejść do tego zadania zakłada, że środowisko życiowe ludzi jest ustrukturalizowane. Jednostkę tej struktury nazywa się różnie: obyczajem, sytuacją, epizodem. Jej jądrem jest ograniczona czasowo i przestrzennie interakcja (szereg wzajemnych aktów). Zawierają się w niej: wymagania stawiane uczestnikom, plan właściwego zachowania i koloryt uczuciowy. Te elementy składają się na publiczne (obiektywne) znaczenie interakcji. Kompetentni mieszkańcy danego terenu mają stabilne i jasne reprezentacje poznawcze tych epizodów. W tym sensie są one normatywne. Jednostka musi rozumieć epizod, tak jak rozumie wyrażenie językowe. Często to rozumienie jest negocjowane z innymi, co mocno podkreśla interakcjonizm symboliczny. Żeby uchwycić znaczenie epizodu, trzeba wejść w położenie aktorów; znaczenie nie jest więc arbitralnym pomysłem badacza. Forgas (1979) dowodzi, że takich sytuacji-epizodów-zwyczajów jest niewiele (w oddziałach klasowych czy drużynach sportowych nie więcej niż 20, np. krótka rozmowa ze znajomym przypadkowo spotkanym na ulicy, pójście do kina z kil- Metody zbierania danych jakościowych 115 koma kolegami, rozmowa w szatni po przegranym meczu). Zadaniem obserwacji opisowej jest ujawnienie typowych epizodów wraz z ich publicznym znaczeniem. Obserwator rejestruje je na osobnych kartkach notatnika, zawsze z nagłówkiem podającym czas i miejsce: 13 stycznia, 8:50, klasa, lekcja polskiego (N wchodzi do klasy zaraz po dzwonku i czyta ogłoszenie o zebraniu dla kandydatów do liceum. Jest gwar, co chwila otwierają się drzwi i ktoś wchodzi. N nie zwraca na to uwagi. Gdy drzwi otwierają się po raz piąty, N odwraca głowę. Wchodzą Marek i Tadek, roześmiani, luźni) N: Przestańcie się spóźniać, gdzie byliście? Marek: No tam. N: Gdzie? Tadek: W ubikacji. (śmieją się) N: Wszyscy już? Z takich notatek powstaje „gęsty” opis terenu. Czytelnik poznaje jego charakter i atmosferę, perspektywę uczestniczących w nim ludzi, ich wartości i znaczenia nadawane rzeczom i czynom. W drugiej fazie obserwator przystępuje do właściwego zadania. Jego obserwacja staje się zogniskowana przez przewodnik obserwacji. Może na przykład skupić się na interakcjach antagonistycznych na lekcji, sposobach kontrolowania grupy rówieśniczej przez jej przywódców, podziale obowiązków w rodzinie. Oprócz głównego ogniska dobrze jest ustalić ogniska poboczne (np. obserwujemy interakcje nauczyciela i uczniów na tle przebiegu lekcji, aktywność wybranego ucznia na tle oddziaływań ze strony kolegów). W trzeciej fazie obserwacja staje się selektywna: obserwator sprawdza swoje wnioski. Jeśli na przykład doszedł do wniosku, że w interakcjach antagonistycznych uczestniczy tylko kilku uczniów, może im poświęcić całą uwagę, żeby zobaczyć, czy te interakcje są inicjowane przez ucznia, czy przez nauczyciela. Jeśli odkrył wspólną cechę sytuacji, w których nauczyciel wybucha gniewem, szuka wyjątków od tej reguły, by przekonać się, w jakim stopniu jest trafna. Trzy fazy obserwacji etnograficznej nie są z góry zaplanowane. Wyniki obserwacji opisowej wyznaczają zadania obserwacji zogniskowanej, a ta – obserwacji selektywnej. Planowanie badania w trakcie zbierania danych jest, jak mówiliśmy, typowym rysem badań jakościowych. Samoobserwacja. Obserwator nie tylko obserwuje teren, lecz także samego siebie: w notatkach terenowych umieszcza wzmianki (najlepiej na marginesie), że coś go oburzyło, czuł się skrępowany, podziwiał kogoś itp. Szczególnie ważne jest obserwowanie własnego asymilowania się, czyli przyjmowania perspektywy poznawczej panującej w terenie. Zwykle ma to formę retrospekcji: „Poczułem wtedy, że mają całkowitą rację, bo nikt nie zniósłby podobnego traktowania”. Samoobserwacja realizuje zasadę refleksyjności, o której mówiliśmy w rozdz. 2. Nie znaczy to jednak, że obserwator ma się stać główną postacią swojej narracji. Irytujące jest zwłaszcza prowadzenie notatek w pierwszej osobie: Byłem zmęczony przy końcu dnia. Zbliżałem się do wejścia do metra, ziewając. Zauważyłem Rocko stojącego przy drzwiach z gromadką innych dzieciaków... 116 Rozdział 7. Metody zbierania danych Obserwacja zdarzeń krytycznych W tej odmianie obserwacji nie próbuje się zarejestrować wszystkich zdarzeń, lecz tylko te, które zdaniem obserwatora są dobrymi przejawami wybranych cech terenu, np. stylu nauczania czy stosunku uczniów do dyscypliny szkolnej. Każde zdarzenie tego rodzaju zostaje zanotowane wraz ze swoim kontekstem: co do niego doprowadziło i jakie miało skutki. Często opis uzupełnia się krótkim wywiadem z uczestnikami zdarzenia, np. z nauczycielem czy uczniem. Tu można umieścić słynne obserwacje Piageta (1966). Nie donosi on o wszystkim, co zdarzało się obserwowanemu dziecku, lecz tylko o tych zachowaniach, z których można było wnioskować o jego strukturze poznawczej. Tę metodę stosuje się w wielu badaniach psychologii rozwojowej i społecznej. Przykładem zdarzenia krytycznego są gwałtowne załamania porządku na lekcji. Pewien stażysta obserwowany przez Wragga (1995) rozpoczął lekcję chemii w swobodnym stylu, potem polecił utworzyć dwuosobowe zespoły i przeprowadzić eksperyment, mówiąc: „Wiecie, co robić, więc bierzcie przyrządy i do roboty”. Kilku chłopców pognało do szafy i zaczęło wyrywać sobie statywy, kilku innych rozpoczęło szermierkę gumowymi osłonami palników Bunsena. Stażysta musiał krzykiem i groźbami przywracać porządek. Wywiad ze stażystą po lekcji ujawnił, że starał się on naśladować swobodne obejście nauczyciela tej klasy, nie biorąc pod uwagę, że nauczyciel poświęcił kilka miesięcy na wprowadzenie i utrwalenie podstawowych reguł zachowania się w laboratorium. Zaobserwowane zdarzenie okazało się więc istotnie krytyczne: było nieprzypadkowym przejawem stylu stażysty (à la Indiana Jones) i prowadziło do poważnych konsekwencji. Inny przykładem są obserwacje w trakcie badania dyskryminacji płciowej. Obserwator wypatruje zdarzeń, które powiedziałyby nam o różnicach w traktowaniu dziewczynek i chłopców: Przedszkole, grupa pięciolatków (Chłopiec odkrywa ślimaka w piaskownicy. Dziewczynka wyciąga rękę, by go dotknąć) N: Oj, nie dotykaj go, on jest cały oślizgły! (Dziewczynka cofa rękę, chłopiec usuwa ślimaka z pudełka). Szkoła, oddział klasy 0 (Dzieci bawią się na podwórku. Nauczycielka siedzi na ławce) Dziewczynka (podaje nauczycielce wianek upleciony z kwiatów mniszka): Proszę, to dla pani. N: Dziękuję. (Dziewczynka kładzie wianek na ławce) N: Och, zobacz, jakie ty masz brudne ręce. Musisz umyć, bo się cała ubrudzisz. (Po chwili) Chłopiec (podsuwa nauczycielce bardzo brudną dłoń): Niech pani zobaczy, co znalazłem. N: To sprzączka. Uważaj, nie skalecz się! (Chłopiec odchodzi) Wyniki takiej obserwacji mogą być smakowite, ale nadają się jedynie do wykazania, że pewne zjawisko rzeczywiście występuje. Jak jest częste, na czym polega, skąd się bierze i do czego prowadzi – to już pytania poza jej granicami. Tropiąc Metody zbierania danych jakościowych 117 przejawy dyskryminacji, badacz może pomijać dziesiątki epizodów świadczących o jednakowym traktowaniu dziewczynek i chłopców. W tym sensie obserwacja zdarzeń krytycznych jest stronnicza. Wywiad indywidualny Wywiad to zainicjowana przez badacza rozmowa z osobą badaną, zwaną respondentem. Wywiady różnią się pod względem stopnia standaryzacji. Standaryzacja to tyle, co trzymanie się ustalonego wzoru postępowania w procesie wytwarzania czegoś. Dzięki standaryzacji poszczególne egzemplarze tego samego produktu zostają ujednolicone pod względem wagi, rozmiarów, składu itp. W odniesieniu do wywiadu standaryzacja polega na ujednoliceniu warunków rozmowy – przede wszystkim brzmienia i kolejności zadawanych pytań oraz zachowania się badacza. Z tego punktu widzenia można podzielić wywiady na standardowe, półstandardowe i niestandardowe. W wywiadzie standardowym poszczególne osoby udzielają odpowiedzi w niemal identycznych warunkach, wskutek czego odpowiedzi te są porównywalne: można je zliczać i prezentować w postaci rozkładów liczebności. Ta metoda jest niewrażliwa na perspektywę respondenta: ma on odpowiadać na pytania, nie zaś dzielić się swoimi przemyśleniami czy relacjonować własne doświadczenia. Dlatego omawiam ją w części poświęconej metodom ilościowym pod nazwą ankiety. Na drugim biegunie mieści się wywiad niestandardowy, będący w istocie swobodną, niepowtarzalną rozmową dwojga ludzi. Badacz stawia pytanie inicjujące, po czym pozwala badanemu na nieskrępowaną wypowiedź o dowolnej długości. Między tymi biegunami rozciągają się liczne odmiany wywiadu półstandardowego (semi-structured). Taki wywiad jest kompromisem: badanemu pozwala się wypowiedzieć, a badaczowi – zebrać dane, których potrzebuje, by osiągnąć cel badania. Tym, co standaryzuje taki wywiad, jest przewodnik wywiadu. Typowy przewodnik zawiera informacje wstępne (kto prowadzi badanie, jaki jest jego ogólny cel, jak dobiera się respondentów i jakie są gwarancje poufności danych) oraz pytania inicjujące i drążące. Na przykład wywiad z nauczycielem na temat jego pojęcia własnej roli zawodowej może się rozpocząć słowami: Nazywam się Joanna Kowalska, jestem doktorantką na Uniwersytecie Warszawskim. Chcemy poznać poglądy polskich nauczycieli na istotę zawodu nauczycielskiego i zadania współczesnej szkoły. Mamy nadzieję, że wyniki naszych badań podpowiedzą, jak udoskonalić kształcenie przyszłych nauczycieli. Naszych rozmówców dobieramy za pomocą losowania. W tych rozmowach państwo mówią o tylu ważnych rzeczach, że nigdy nie mogę nadążyć z notowaniem, dlatego chciałabym nagrywać tę rozmowę. Mam nadzieję, że nie ma pani nic przeciwko temu. Zapewniam, że wszystko, co pani powie, będzie ściśle poufne: nikt poza zespołem badaczy z uniwersytetu nie będzie miał dostępu do pani wypowiedzi. Proszę mi powiedzieć, co pani myśli o swoim zawodzie. Pytania mogą mieć różną formę: otwartą („Co w projekcie reformy oświaty robi na pani największe wrażenie?”), półotwartą („Co pani sądzi o finansowaniu szkół za pomocą bonu oświatowego?”) i zamkniętą („Czy czuje się pani dobrze, czy źle przygotowana do opracowania programu nauczania swojego przedmio- 118 Rozdział 7. Metody zbierania danych tu?”). Język pytań (słownictwo i składnia) powinien być zawsze jak najbardziej zbliżony do języka, którym badany mówi o swojej pracy na co dzień. Przy opracowywaniu przewodnika dobrze jest zaczynać od nielicznych otwartych pytań inicjujących. Każde z nich otwiera nowy temat rozmowy, a ich zbiór nadaje wywiadowi wyraźny porządek. Gdy trzeba ogólnie scharakteryzować wywiad (np. w doniesieniu), wystarczy je zacytować. Na przykład wywiad o pojęciu roli zawodowej mógłby być podzielony na trzy części. Do pierwszej, poświęconej abstrakcyjnemu pojęciu roli, wprowadza pytanie: „Po czym, pani zdaniem, można poznać dobrego nauczyciela?”. Drugą, bardziej osobistą, inicjuje pytanie: „Co uważa pani za najważniejsze w swojej pracy, na co zwraca pani największą uwagę?”. Trzecią, w której idzie o zmiany pojęcia roli, otwiera pytanie: „Proszę cofnąć się myślą do początku pani pracy w szkole. Czy wtedy myślała pani o zawodzie tak samo jak dziś?” Treść i forma pytań inicjujących powinny być starannie dobrane i wypróbowane, chcemy bowiem, by pobudzały interesujące nas obszary pamięci rozmówcy bez konieczności zadawania dodatkowych pytań drążących. Nie znaczy to jednak, że nie powinniśmy ich przygotować. Pytania drążące dotyczą szczegółowych zagadnień tematu określonego w pytaniu inicjującym. Na przykład pierwszemu pytaniu inicjującemu mogą towarzyszyć następujące pytania drążące: „Jak pani zdaniem powinien się ubierać nauczyciel?”, „Czy nauczyciel powinien przyznawać się przed uczniami, że czegoś nie wie?” itd. Podział pytań na inicjujące i drążące pomaga zbudować spójny i wyczerpujący przewodnik wywiadu, a samej rozmowie nadaje płynność. W literaturze metodologicznej można się czasem natknąć na opinię, że przewodnik zawierający szczegółowe pytania jest zbędny, a nawet szkodliwy, ponieważ usztywnia rozmowę, i że lepiej byłoby pozwolić badaczowi budować pytania w toku wywiadu. Jest to ryzykowna opinia. Formułowanie pytań korespondujących z celem badania nie jest zadaniem łatwym; jeśli zostanie powierzone badaczowi w terenie, będzie wykonywane w rozmaity sposób, a to wniesie do danych pierwiastek przypadkowości. Wcale też nie służy atmosferze wywiadu to, że badacz, zamiast zadawać pytania w tonie swobodnej rozmowy, gorączkowo zastanawia się, o co teraz zapytać, lub wypróbowuje różne wersje tego samego pytania. Trzeba więc mieć szczegółowy przewodnik, ale nie trzeba, a nawet nie należy trzymać się go niewolniczo. Odstępstwa od przewodnika mogą mieć różny charakter. Najprostsze to niestawianie pytania, na które badany odpowiedział wcześniej, i udzielanie badanemu dodatkowych wyjaśnień w razie potrzeby. Inne są bardziej złożone. Badacz musi reagować na treść odpowiedzi. Jeśli respondent uparcie trzyma się poziomu ogólnych stwierdzeń lub ocen, trzeba sprowadzić go na bardziej konkretne tory np. przez zwykłe: „Co pani ma na myśli, mówiąc, że...?”, odwołanie się do retrospekcji: „Czy pamięta pan jakąś sytuację tego rodzaju?” albo do przeżyć: „Co pani wtedy czuła?”. Jeśli – przeciwnie – badany nie wychodzi poza swoje doświadczenia, badacz może zapytać: „O czym to świadczy?” albo „Jak pan ocenia takie postępowanie?” Do badacza należy też decyzja, jak traktować wątki, które do wywiadu wprowadza sam badany: czy je rozwijać, bo niosą interesujące informacje, czy też blokować, bo prowadzą rozmowę na manowce? Mówiąc krótko: zadaniem badacza jest dostosowywanie przebiegu wywiadu do przewodnika i przewodnika do przebiegu wywiadu. Metody zbierania danych jakościowych 119 Są też odstępstwa zakazane. Osoba prowadząca wywiad powinna zawsze zachowywać postawę niedyrektywną, którą zdefiniował C. Rogers: uważnie słuchać, dawać do poznania, że rozumie punkt widzenia respondenta (np. wtrącając od czasu do czasu potakujące „mhm”; nie ma nic gorszego niż badacz, który skupia się na wypełnianiu rubryk protokołu, pokazując tym samym, że to, co mówi badany, jest mu najzupełniej obojętne), ale w żaden sposób nie wpływać na treść odpowiedzi. Zakazane są szczególnie informacje o oczekiwaniach badacza (np. „Chcielibyśmy wykazać, że ten projekt jest niedojrzały”) oraz wyrażanie aprobaty, zdziwienia lub niezadowolenia z odpowiedzi. Nie można też krytykować odpowiedzi niejasnych lub wymijających, lecz jedynie prosić o uzupełnienie (np. „Czy może to pani wyjaśnić nieco dokładniej?” lub „Proszę mi powiedzieć o tym trochę więcej”). Niezbędnym warunkiem powodzenia wywiadu jest to, czy badaczowi uda się stworzyć atmosferę zaufania. Najbardziej chyba niweczy tę atmosferę obcość badacza: ubiór, język i maniery, które świadczą o tym, że należy on do innego świata niż badany. Dość przypomnieć tu klasyczne studium Labova (1969), które wykazało, jak bardzo zmienia się mowa czarnego dziecka, gdy zamiast białego badacza rozmowę prowadzi czarny, dobrze znający środowisko. Badacz ubrany z przesadną elegancją albo przeciwnie – ekstrawagancko, mówiący językiem odbiegającym od języka osoby badanej i zachowujący się inaczej niż większość osób w miejscu badania (np. zbyt formalnie lub zbyt swobodnie), buduje atmosferę nieufności, w której rodzą się odpowiedzi obronne: ostrożne, wymijające, nieszczere. Nieufność rodzi też jawna niekompetencja badacza: nieznajomość realiów życia czy pracy badanego, zadawanie naiwnych lub niedorzecznych pytań, zadowalanie się byle jakimi odpowiedziami, onieśmielenie i skrępowanie. Nie znaczy to, oczywiście, że badacz powinien popisywać się swoją wiedzą i chwalić się przenikliwością, z jaką wyłapuje niekonsekwencje w odpowiedziach badanego. Do zabiegów budujących zaufanie należy poinformowanie badanego, w jaki sposób zapewnia się poufność uzyskanych danych (takim sposobem może być oddanie badanemu taśmy z jego głosem lub odłączenie nazwiska badanego od protokołu wywiadu). W początkowej części wywiadu nie należy też stawiać zagrażających pytań. Wymagania, jakie wywiad stawia przez przeprowadzającym go badaczem, są tak duże, że rzadko można się obejść bez szkolenia. Szkolenie badaczy obejmuje zapoznanie ich z całym projektem badawczym, zasadą doboru respondentów (jeśli próbka nie jest losowa) oraz celem samego wywiadu. Ważnym składnikiem szkolenia jest dobre zaznajomienie badaczy z terenem, na którym będą pracować. Następnie, z przewodnikiem wywiadu w ręku, szkoleni analizują intencje poszczególnych pytań, dowiadują się, jakie odpowiedzi mogą uznać za adekwatne i jak powinni reagować na odpowiedzi nieadekwatne. Dostają też wskazówki, jak powinni, a zwłaszcza jak nie powinni zachowywać się w trakcie wywiadu, w jakim stopniu mogą odstępować od przewodnika itp. Ani wykład, ani praca grupowa nie zastąpią jednak pokazu i ćwiczenia w warunkach zbliżonych do rzeczywistych. Dobrą metodą jest pokazanie szkolonym wywiadu poprowadzonego przez doświadczonego badacza, a następnie prowadzenie próbnych wywiadów przez samych szkolonych. Takie wywiady powinny 120 Rozdział 7. Metody zbierania danych być rejestrowane na taśmie wideo, by sami zainteresowani mogli zobaczyć, jak sobie radzą z nawiązywaniem kontaktu, przełamywaniem nieufności, aktywnym słuchaniem, dostosowywaniem pytań do przebiegu wywiadu i uzyskiwaniem danych, których wymaga badanie. Pamiętamy, że główną osią, na której można porządkować wywiady, jest standaryzacja. Pozostaje zastanowić się, czym się kierować w wyborze poziomu standaryzacji. Trzy przesłanki takiego wyboru wydają się oczywiste. Pytanie badawcze. Im bardziej szczegółowe, konkretne są pytania badawcze, tym mniej uzasadnione jest zbieranie danych za pomocą wywiadu niestandardowego. Trzeba pamiętać, że pytanie badawcze niemal zawsze przesądza o sposobie analizy danych, a ten sposób – o stopniu wykorzystania danych. Jeśli od planowanego wywiadu oczekujemy konkretnych informacji (np. o tym, w jakich sytuacjach i jak często nauczyciel ma poczucie bezradności), to dane z wywiadu poddamy zapewne uproszczonej analizie treści: będziemy zliczać tylko te frazy, w których nauczyciel mówi, że nie może lub może sobie z czymś poradzić, że coś nie zależy lub zależy od niego, słowem – frazy o z góry określonym znaczeniu. Pozwalając badanym swobodnie rozwijać własne wątki, możemy być pewni, że część z nich okaże się „nie na temat” i powiększy masę danych, która nigdy nie zostanie wykorzystana. Ale jeśli plonem wywiadu ma być zbiór pojęć i słów, którymi nauczyciele opisują swoją praktykę, wywiad musi być niestandardowy, w przeciwnym bowiem razie szczegółowe pytania mogłyby narzucić badanym obcy im sposób narracji. Umiejętności komunikacyjne osób prowadzących wywiad. Im bardziej niestandardowy jest wywiad, tym wyższych kwalifikacji wymaga od badacza. Selekcja i szkolenie mogą je podnieść, ale jeśli wybrani i wyszkoleni badacze nadal popełniają błędy, lepiej zwiększyć standardowość wywiadu niż ryzykować, że zbierze się dane zniekształcone i niepełne. Umiejętności komunikacyjne osób badanych. Nie wszyscy rozmówcy dobrze się czują w sytuacji, w której badacz stawia jedynie pytania inicjujące i oczekuje rozwiniętych odpowiedzi. Jedni stają się lakoniczni: Badacz: Co myślisz o swojej wychowawczyni? Badany: (7 sekund milczenia) Może być. Badacz: Co masz na myśli? Badany: (5 sekund milczenia) No, że idzie z nią wytrzymać. Inni stają się gadatliwi: gubią się w dygresjach, uporczywie powracają do tych samych wątków, pomijają szczegóły, bez których ich narracja jest niezrozumiała itp. Jeśli wiadomo, że w badanej populacji przeważają osoby nienawykłe do samodzielnego wytwarzania uporządkowanych narracji, lepiej posłużyć się wywiadem o większym stopniu standardowości. W tradycji badań jakościowych funkcjonują różne odmiany wywiadu dostosowane do szczególnych pytań badawczych. Poniżej – ich niewyczerpujący przegląd. Wywiad skoncentrowany na subiektywnych teoriach Groeben (1990) opracował ogólny przewodnik wywiadu, którego celem jest rekonstrukcja subiektywnych teorii wypracowanych przez respondentów. Taki wy- Metody zbierania danych jakościowych 121 wiad wymaga dwóch sesji. Pierwsza ma dostarczyć surowego materiału, druga – ustrukturalizować go w sposób przypominający teorię naukową. W pierwszej zadaje się badanemu trzy rodzaje pytań: otwarte (np. „Czy może mi pan powiedzieć w skrócie, z czym kojarzy się panu słowo «zaufanie», gdy myśli pan o własnej praktyce zawodowej?”), testowe, czyli wynikające z teoretycznego stanowiska badacza (np. „Czy zaufanie jest możliwe między obcymi, czy też ludzie muszą się znać, żeby sobie ufać?”) i konfrontujące. Te ostatnie polegają na przedstawieniu konkurencyjnego poglądu wobec odpowiedzi badanego (jeśli na przykład badany stwierdził, że zaufanie jest najważniejszym czynnikiem powodzenia współpracy, badacz może wtrącić: „Ale jest takie powiedzenie «Zaufanie jest dobre, ale nadzór lepszy»” lub „Wielu ludzi twierdzi jednak, że zaufali i sparzyli się”). Trzeba przy tym uważać, by nie wytworzyć wrażenia, że badacz jest niezadowolony z odpowiedzi badanego i oczekuje, że zostanie zmieniona. W drugiej sesji stosuje się technikę ujawniania struktury (SLT). Przygotowując się do niej, badacz przegląda protokół z pierwszej sesji i wypisuje kluczowe stwierdzenia badanego na małych kartkach. Badany ma najpierw sprawdzić, czy jego myśli zostały oddane adekwatne, i jeśli nie, wprowadzić poprawki. Potem prosi się go, by uporządkował kartki jako człony relacji „x warunkuje y” (dokładniej: jest niezbędny, sprzyja, przeszkadza, wyklucza itp.). W ten sposób powstaje graficzna reprezentacja subiektywnej teorii respondenta – tym wartościowsza, że z nim uzgodniona. Wywiad skoncentrowany na materiale W tej odmianie wywiadu badacz eksponuje pewien materiał, np. film, tekst, wyrób, i prosi badanego o podzielenie się wrażeniami, skojarzeniami czy ocenami na jego temat. W badaniach marketingowych, w których często się stosuje taki wywiad, materiałem bywa film reklamowy, opakowanie wyrobu czy sam wyrób. Szczególnym przypadkiem tej odmiany jest coś, co Kruszewski (1987, s. 87n) nazywa introspekcją kierowaną (stimulated lub prompted recall). Materiałem jest tu wcześniej zarejestrowane (na taśmie audio lub wideo) zachowanie się samej osoby badanej. Jej zadaniem jest przypomnienie sobie, co wtedy myślała i czuła, pod wpływem czego postąpiła tak a tak. Oto przykład z badań Kruszewskiego (s. 100– 101). Badana nauczycielka słucha nagrania z wczorajszej lekcji o Panu Tadeuszu: N: Co zrobili potem młodzi ze swoimi chłopami? U: Uważali, że skoro... N: Ale co zrobili, co? U: Uwłaszczyli ich. (Badacz zatrzymuje taśmę) B: Dlaczego przerwała pani pierwszemu uczniowi? N: To słaby uczeń. Kiedy go odpytuję na początku lekcji, pozwalam mu mówić więcej. Na lekcji go pytam, żeby uważał. Ale nie mogę go pytać o problemy wymagające samodzielności, bo zacząłby mówić to, czego nie rozumie. Zrobiłaby mi się wyrwa w lekcji... Można wątpić, czy mamy tu do czynienia z introspekcją. Skoro badany ma wnikać w przeszłe stany własnej świadomości, trafniej byłoby mówić o retrospekcji. Ale i to słowo obiecuje za wiele. Nie widać żadnych podstaw do twierdzenia, 122 Rozdział 7. Metody zbierania danych że dzięki konfrontacji z materialnym śladem swojego zachowania badany może dotrzeć do rzeczywistych pobudek przeszłego zachowania. Bezpieczniej jest założyć, że ślad ten aktywizuje subiektywne znaczenia, schematy, skrypty, słowem – struktury poznawcze, których badany używa do wytwarzania autonarracji. Opisywana odmiana wywiadu byłaby więc alternatywnym sposobem rekonstruowania subiektywnej teorii: mocniej zakorzenionej w doświadczeniu badanego, ale mniej abstrakcyjnej niż teoria wyłaniająca się z układania kartek na biurku. Materiał, który pokazuje się respondentom, może pochodzić od nich samych. Badając znaczenie warunków zamieszkania, Wuggening (cyt. Flick, 1998, s. 154) wręczał badanym aparat fotograficzny i prosił, by zrobili 12 zdjęć wnętrz swoich domostw („Sfotografuj trzy miejsca, które najbardziej lubisz w swoim pokoju, oraz trzy miejsca, których najbardziej nie lubisz. Potem zrób to samo z resztą swojego mieszkania”). Takie fotografie są materiałem, na którym badany snuje narrację. Jeśli materiał, który ma zaktywizować struktury znaczeniowe, sam jest wspomnieniem, mamy do czynienia z czymś, co Flick (1998) nazywa wywiadem epizodycznym. Taki wywiad, mający ujawnić na przykład uczniowskie pojęcie oceniania, zaczyna się instrukcją: „W tej rozmowie będę cię ciągle prosiła, żebyś przypominał sobie różne sytuacje, w których byłeś oceniany”, po czym następuje odpowiednik wprowadzenia materiału: „Czy możesz opowiedzieć, jak upłynął ci wczorajszy dzień i w jakich sytuacjach czułeś się oceniany?” Wprowadza się też – niezgodnie z nazwą – epizody przyszłe: „Jak myślisz, w jakich sytuacjach będziesz oceniany w najbliższej przyszłości?” W ostatniej części wywiadu wyłuskuje się z narracji badanego pojęcia i reguły wiedzy semantycznej, np.: „Co to jest dla ciebie ocenianie?”, „Od czego zależą stopnie szkolne?”. Można w tym widzieć graniczny przypadek wywiadu skoncentrowanego na materiale, ponieważ dociera on do pojęć zawartych w pamięci semantycznej za pośrednictwem zawartości pamięci epizodycznej (zapisu osobiście doświadczonych zdarzeń). Wywiad narracyjny Narracja to tyle, co słowna rekonstrukcja ciągu doświadczanych zdarzeń. Jeśli celem wywiadu – jak to bywa w badaniach biograficznych – jest zarejestrowanie takiej rekonstrukcji, to nazywa się go narracyjnym. Wywiad narracyjny jest zawsze niestandardowy: przewodnik zawiera bowiem tylko jedno, inicjujące pytanie: Chciałbym prosić, żeby pani opowiedziała mi historię swojej pracy zawodowej. Najlepiej byłoby zacząć od chwili, gdy po raz pierwszy weszła pani do szkoły, a potem opowiadać po kolei, co się działo aż do dziś. Proszę się nie spieszyć i nie pomijać szczegółów, bo dla mnie interesujące jest wszystko, co jest ważne dla pani. Narracji badanego nie przerywa się żadnymi pytaniami ani komentarzami, badacz nadaje jedynie sygnały, że stara się rozumieć to, co słyszy. Sam badany decyduje też, kiedy zakończyć narrację. Wywiad tego rodzaju może wymagać kilku sesji. W ostatniej badacz przyjmuje bardziej aktywną rolę: dopytuje się o szczegóły niezbędne do zrozumienia narracji (np.: „Opowiedziała mi pani, że w pierwszej szkole nie dało się pracować. Czy mogłaby pani powiedzieć o tym trochę więcej, Metody zbierania danych jakościowych 123 żebym mógł zrozumieć, co pani tam najbardziej przeszkadzało?”) oraz o ogólną interpretację (np. „Jak by pani podsumowała swoją drogę zawodową?”, „Dlaczego tak się potoczyły się sprawy?”). Taki wywiad dostarcza danych nieosiągalnych w inny sposób. Dane są żywsze, bo ludziom łatwiej opowiedzieć swoją historię niż rozwinąć swoją teorię (wielu teoretyków twierdzi, że ludzie przeżywają własne doświadczenie właśnie jako narrację). Dane są pełniejsze i mniej ocenzurowane, ponieważ narracja wciąga: zacząwszy opowiadać, badany czuje się zobowiązany doprowadzić rzecz do końca, a także zadbać, by miała sens. Dlatego ujawnia niewygodne dla siebie, a ważne dla całości narracji szczegóły, które by w innych warunkach po prostu przemilczał. Mimo to nie można założyć, że narracja przedstawia nagą prawdę o życiu badanego: jest to tylko rekonstrukcja ograniczona intencją badanego (np. inaczej wypada, gdy badany chce się usprawiedliwić, niż gdy chce zaimponować badaczowi), jego biegłością językową i zasobem dostępnych wspomnień. Można dodać, że protokół z takiego wywiadu bywa bardzo obszerny i trudniejszy do ustrukturalizowania, toteż wiele danych pozostaje niewykorzystanych. Wywiad etnograficzny Jest to wywiad, który uzupełnia obserwację uczestniczącą w badaniach terenowych. Spradley (1979) powiada, że takie wywiady przypominają przyjacielskie pogawędki w przypadkowych miejscach i czasie. Jakkolwiek są niestandardowe, to jednak zmierzają do odpowiedzi na ściśle określone pytania: opisowe (jakie coś jest, jak przebiega), kontrastujące (ujawniające wymiary znaczeniowe, których informatorzy używają do różnicowania obiektów i zdarzeń w swoim świecie) i strukturalne (ujawniające organizację wiedzy o danej sprawie). Wielką sztuką jest tak prowadzić rozmowę, by nie zmieniła się w przesłuchanie, w którym zaufanie znika, a rozmówca traci ochotę do współpracy. Badacz nie może jednak udawać, że pyta z czystej ciekawości: musi wyjaśnić rozmówcy, po co prowadzi rozmowę, dlaczego stawia takie pytania i dlaczego notuje odpowiedzi. Osobliwością wywiadu etnograficznego jest to, że badacza mniej interesuje osoba rozmówcy niż wiedza, którą rozmówca posiada. Rozmówca jest tu nie tyle osobą badaną, ile informatorem czy ekspertem: opowiada o miejscach (grupach etnicznych, subkulturowych, organizacjach itp.), a nie o sobie. Dlatego badacz delikatnie interweniuje, gdy rozmówca sprowadza rozmowę na tory osobiste (np. ekspert wciąga badacza we własne konflikty z otoczeniem) albo robi wykłady, zamiast odpowiadać na pytania. Wywiad zbiorowy Wywiad indywidualny nie ma odpowiednika w codziennym życiu i dlatego musi się respondentom wydawać sztuczny. Inaczej jest z wywiadem zbiorowym – rozmawianie o jakiejś sprawie w grupie ludzi jest powszechnym doświadczeniem każdego z nas. Robimy to jako uczniowie i studenci, członkowie zespołu roboczego w miejscu pracy, przypadkowi towarzysze podróży. Teksty wytwarzane w grupie powinny być więc bliższe życia społecznego niż teksty wytwarzane sam na sam z badaczem. 124 Rozdział 7. Metody zbierania danych Wywiad zbiorowy występuje w przynajmniej trzech wyraźnie różniących się od siebie odmianach. Wywiad grupowy W wywiadzie grupowym, podobnie jak w wywiadzie indywidualnym, badacz zadaje pytania ujęte w przewodniku, tyle że kieruje je do grupy 6–8 osób. Dodatkowo spoczywa na nim obowiązek dbania, by każda osoba miała równy udział w rozmowie, toteż jednych zachęca do zabrania głosu, innych zaś powstrzymuje. Od badanych oczekuje się odpowiadania na pytania, nie zaś dyskutowania nad odpowiedziami, rozwiązywania problemów czy wypracowywania decyzji. Taki wywiad pozwala szybciej poznać pełną gamę stanowisk w pewnej sprawie oraz zorientować się, które z nich uchodzą w badanej populacji za fałszywe, skrajne, modalne itp. Zysk na czasie okupiony jest jednak dodatkowym wysiłkiem związanym z rejestrowaniem wywiadu. Często zatrudnia się do tego dwóch badaczy: jednego, który prowadzi wywiad, i drugiego, który robi notatki. Narracja grupowa W wywiadzie narracyjnym opowieść o swoim życiu snuła jednostka, tu robi to samo grupa. Jest to zawsze grupa realna, np. rodzina. Tu też badacz nie ingeruje w narrację, protokół jest jeszcze grubszy, a jego analiza jeszcze trudniejsza. Grupa tematyczna (focus group) Wielką karierę robi trzecia odmiana wywiadu grupowego: grupa tematyczna. Jak sugeruje nazwa, jest to połączenie tematu, który wnosi badacz (zwany tu moderatorem), i sił wyzwalanych przez interakcje społeczne w małej grupie. Na temat składa się zbiór pytań lub problemów. Odpowiedzi lub pomysły rozwiązań wysuwa cała grupa. Pomysły te krążą i ścierają się ze sobą, a to pobudza jednostki do otwartości i produktywności. W grupie tematycznej ludzie ujawniają osobiste przekonania i informacje, które przemilczeliby w zwykłym wywiadzie. Gdy temat jest gorący, moderator uprzedza ich nawet, by nieopatrznie nie powiedzieli czegoś, czego potem będą żałować, i robi przerwę w dyskusji, gdy wypowiedzi stają się zbyt osobiste, a poziom stresu zbyt wysoki. Siły grupowe mogą jednak czasem przeszkadzać w zebraniu wartościowych danych, np. gdy uruchamiają skłonności konformistyczne (stwierdzono, że młodzież indagowana w warunkach prywatnych określa swoje preferencje muzyczne inaczej, niż gdy wypowiada się w obecności rówieśników) lub nakładają ograniczenia na swobodę wypowiedzi. W grupie tematycznej ludzie wpadają na pomysły, które nie przyszłyby im do głowy w innych warunkach. Często cytowanym przykładem jest odkrycie, którego dokonała pewna grupa, zapytana, dlaczego kobiety niechętnie kupują ciasta w proszku – powstrzymuje je poczucie, że w upieczenie ciasta dla rodziny powinny włożyć więcej wysiłku. Nasunęło to producentowi skuteczny, jak się okazało, pomysł, by utrudnić przygotowanie ciasta z proszku: usunąć zeń jaja w proszku i wymagać świeżych, które gospodyni musiałaby wbić do rozrobionej wodą masy. Metody zbierania danych jakościowych 125 Grupa tematyczna ujawnia więc nie tylko różnorodność stanowisk w pewnej sprawie, ale i dylematy skryte pod codziennymi oczywistościami. Członkowie grupy nie tyle mówią moderatorowi to, co wiedzieli zawsze, ile wspólnie rozwiązują problem, uwzględniając jego wewnętrzną złożoność i zewnętrzne uwarunkowania. Morgan (1998) uważa, że dzięki tej metodzie badacz może się wiele dowiedzieć, nie wiedząc nawet, jak brzmią właściwe pytania. Grupa tematyczna w dosłownym sensie pracuje dla badacza, wyręcza go w robieniu odkryć. Grupą tematyczną nazywa się dziś bardzo różne zespoły. W ścisłym sensie ta nazwa przysługuje jednak tylko grupom, które są tworzone w celu zebrania danych jakościowych w ramach programu badawczego, są skoncentrowane na temacie i osiągają swój cel w drodze dyskusji. Nie jest więc grupą tematyczną grupa seminaryjna, komisja robocza, grupa wsparcia, zebranie spółdzielców, grupa delficka (scalająca pomysły z panelu ekspertów) itp. Zastosowania opisywanej metody są szerokie. Nadaje się ona zarówno do badań teoretycznych, jak i praktycznych. W szczególności służy następującym celom. • Identyfikowanie problemu. Grupa generuje hipotezy (np. z badań wiadomo, że wielu nauczycieli ma niską samoocenę: dlaczego tak jest?) i pomysły nowych produktów czy usług, ujawnia potrzeby pewnych środowisk (np. jakie trudności napotyka społeczność Romów w zdobywaniu zatrudnienia?), wskazuje możliwości podniesienia jakości usług (np. gdzie kryją się rezerwy, które można by wykorzystać?). • Planowanie rozwiązania. Dzięki grupie tematycznej badacz może szybko zorientować się w nowym terenie i zdobyć cenne wskazówki, jak budować narzędzia zbierania danych (np. o co pytać w przyszłym wywiadzie, jak formułować pytania przyszłej ankiety?). Grupa może też zaplanować działania praktyczne, np. podwyższające jakość kształcenia (grupa absolwentów pracuje nad tematem „Gdybyście mieli dać dyrektorowi jedną radę, jak ulepszyć szkołę, to jak by brzmiała?”). • Wprowadzenie planu w życie. Grupa może dostarczyć danych potrzebnych do sprawdzenia hipotezy, poznania reakcji klientów na nowe produkty, śledzenia przebiegu innowacji itp. • Ocenianie wytworu. Grupa może pomóc w analizowaniu danych, dokonywać dogłębnej oceny produktu, wyniku itp. Grupa tematyczna liczy 6–8 osób. Może być realna (złożona z osób znających się i przebywających ze sobą) lub przypadkowa (złożona z osób nieznających się). Może być homogeniczna lub heterogeniczna pod względem płci, wieku, pozycji w organizacji itp. W grupie nie należy jednak umieszczać osób połączonych relacją zależności (zwierzchników i podwładnych, nauczycieli i profesorów uniwersytetu). Skład grupy zależy od rodzaju danych. Jeśli chcemy poznać warianty stanowiska w oderwanej sprawie (np. wobec płatków śniadaniowych), lepsza jest grupa przypadkowa, ponieważ ludzie dobrze się znający przemilczają zbyt wiele rzeczy, mając je za oczywiste. Jeśli natomiast chcemy poznać składniki stanowiska w sprawie partykularnej (np. wobec działalności gminnego ośrodka pomocy społecznej), lepiej wybrać grupę realną. Grupy heterogeniczne stosuje się rzadko, ponieważ zdarza się, że rozwija się w nich atmosfera skrępowania czy zagrożenia. Moje za- 126 Rozdział 7. Metody zbierania danych ufanie jest funkcją spostrzeganego podobieństwa między mną a innymi członkami grupy: gdy otaczają mnie odmienni, wypowiadam się ostrożniej. Grupa heterogeniczna może pomóc we wstępnym zorientowaniu się w zagadnieniu; na podstawie jej wyników można następnie zaplanować pogłębione badanie w kilku grupach homogenicznych. Wynika stąd, że badanie rzadko ogranicza się do jednej grupy. Typowy program badawczy obejmuje 3–8 grup tematycznych. Rekrutowanie członków do grup tematycznych może się stać intratną usługą. W USA powstały agencje prowadzące obszerne bazy potencjalnych uczestników: wystarczy, że badacz poda kryteria, jakim muszą odpowiadać (np. kobiety z klasy niższej, w średnim wieku, mające przynajmniej jedno dziecko), a dostaje listę adresów. W Polsce nagabuje się ludzi na ulicy lub w miejscu pracy, telefonuje do domów itp. Główna postać grupy tematycznej to moderator. Świadczy o tym choćby wysokość honorarium: w USA profesjonalny moderator orientujący się w jakiejś wyspecjalizowanej dziedzinie (np. bankowości) dostaje nawet 2 tys. dolarów za grupę. Otwierając sesję, moderator uprzedza, że wypowiedzi będą nagrywane, ponieważ inaczej nie byłby w stanie napisać doniesienia, prosi, by nie mówić jednocześnie, i zapowiada, że będzie odgrywał rolę policjanta regulującego ruch na skrzyżowaniu. Apeluje, by każdy mówił to, co myśli, nie troszcząc się, co o tym pomyślą inni członkowie, i przypomina zasady zachowania poufności danych, wyrażając przy tym przekonanie, że celem całego spotkania jest otwarte wymienianie opinii i czerpanie z tego przyjemności. Członkowie grupy przedstawiają się imieniem lub pseudonimem i mówią kilka słów o sobie, po czym moderator inicjuje dyskusję, stawiając przed grupą problem, który trzeba rozwiązać, albo pytanie, na które trzeba znaleźć odpowiedź. W trakcie dyskusji moderator stara się nie rzucać w oczy, ale pilnuje porządku, czasem coś przeczyta lub pokaże, pobudza lub uspokaja, a nawet na chwilę przerywa dyskusję, gdy osiągnie ona zbyt wysoką temperaturę. On też decyduje, w jaką stronę poprowadzić dyskusję: ku pogłębieniu czy ku poszerzeniu tematu. Nigdy jednak nie poucza członków ani nie wywiera nacisku na podjęcie decyzji czy wypracowanie konsensu. Bezpośrednimi produktami grupy tematycznej są nagranie i notatki asystenta moderatora. Zazwyczaj z nagrania sporządza się dosłowny protokół (transcript). Bywa on obszerny (z półtoragodzinnej sesji zajmuje około 25 stron bez interlinii). Taki protokół i notatki terenowe są podstawą analizy danych. Doświadczony analityk poświęca zwykle 8–12 godzin na jedną grupę. Czasem analizie poddaje się samo nagranie. Słuchając go, analityk sporządza skrócony protokół (najważniejsze wątki dyskusji, często w punktach), poświęcając na to 4–8 godzin. Najszybciej analizuje się dane, które przechowała pamięć moderatora (czasem wsparta notatkami), ale też są one wtedy najuboższe i najbardziej zniekształcone. Trzeba pamiętać, że jednostką analizy jest tu grupa, a nie osoba: analityk pyta, jakie stanowiska czy pomysły rozważała grupa, a nie – jaki wkład wnieśli poszczególni członkowie. Do tego zresztą nie ma podstaw: jeśli sześcioosobowa grupa dyskutuje przez półtorej godziny odpowiedzi na 5 pytań, to każdy uczestnik ma średnio tylko 3 min na pytanie. Jeśli chcemy poznać subiektywne światy badanych osób, powinniśmy użyć wywiadu indywidualnego. Metody zbierania danych jakościowych 127 Grupa tematyczna, będąc metodą o niskiej standaryzacji, nie dostarcza danych, które można kwantyfikować. W końcowym doniesieniu zestawia się poruszane w różnych grupach wątki, uwypuklając ich podobieństwa i różnice, ale nie utożsamia się częstości jakiegoś wątku z jego ważnością. Robienie zestawień liczbowych (np. 30% badanych wybrało produkt A), a tym bardziej rozciąganie ich na populację jest nadużyciem tej metody. Wbrew potocznym opiniom grupa tematyczna nie jest metodą szybką ani tanią. Oprócz moderatora i jego asystenta potrzebne są także osoby rekrutujące członków, przepisujące nagrania, analizujące dane i opracowujące doniesienie – cały zespół, który trzeba opłacić. Choć grupa tematyczna może pracować niemal w każdych warunkach, najlepsze wyniki osiąga się w specjalnych pomieszczeniach z pokojem obserwacyjnym i aparaturą rejestrującą dźwięk albo dźwięk i obraz. Uczestników zwykle się czymś częstuje, nagradza lub opłaca. Morgan (1998) szacuje, że pełny koszt jednej grupy sięga 5 tys. dolarów. Można go zmniejszyć, jeśli ludzie pracują bez wynagrodzenia. Na koniec dwie przestrogi. Gdy temat wiąże się z ważną dla ludzi sprawą, mogą oni oczekiwać, że badacz nie tylko wysłucha, co mają do powiedzenia, ale też pomoże rozwiązać ich problem. Wykorzystywanie tego rodzaju oczekiwań jest moralnie naganne, toteż w takim przypadku badacz powinien użyć bardziej bezosobowych metod zbierania danych (np. ankiety). Nie ma natomiast nic niewłaściwego w tym, że członkowie przypadkowej grupy tematycznej organizują się (np. wymieniają adresy) w celu udzielenia sobie pomocy, wywarcia nacisku na administrację itp. Po wtóre, trzeba respektować granicę oddzielającą mówienie o czymś od robienia czegoś. Mówiąc, ludzie ujawniają swoje postawy, ale nie zachowania. Wnioskowanie z postaw o zachowaniu jest zawsze niepewne. Bywa, że grupa tematyczna entuzjastycznie wypowiada się o jakiejś ofercie, z której – gdy znacznym nakładem wysiłku zostaje udostępniona – wcale nie korzysta. Badacz nie może traktować grupy tematycznej (ani żadnej innej metody zbierania danych) jako maszynki do formułowania przewidywań. Przewidywać pozwala tylko dobra teoria. Przeszukiwanie archiwów Archiwum to w dosłownym sensie miejsce przechowywania starych dokumentów, a dokument to pisemny ślad czynności prawnej. Dla metodologii badań społecznych takie znaczenia są zbyt wąskie. Dokumentem będziemy więc nazywać każdy materialny ślad celowej działalności ludzi: dyplom ukończenia szkoły, fotografię oddziału klasowego, dziennik lekcyjny, protokół z posiedzenia rady pedagogicznej, pamiętnik uczennicy, aparat radiowy zbudowany przez VIIIc, a nawet figury i napisy wyryte na szkolnych ławkach. W ślad za rozszerzonym pojęciem dokumentu musimy też zmienić pojęcie archiwum i uznać, że jest nim cały świat społeczny. W badaniach najczęściej wykorzystuje się typowe dokumenty, które wytwarza i przechowuje nasza kultura. Ktoś wysunął na przykład hipotezę, że hałas lotniska źle wpływa na mieszkające w pobliżu dzieci, i sprawdził ją wyłącznie na archiwaliach: porównał liczby nieobecności w szkole zapisane w dziennikach lekcyjnych. 128 Rozdział 7. Metody zbierania danych Innym przykładem jest twórcze wykorzystanie statystyki wypadków samochodowych przez Phillipsa (cyt. za Shaughnessy i Zechmeister, 1994). Badacz ten wykazał, że liczba śmiertelnych wypadków samochodowych wzrasta w okresie kilku dni po opublikowaniu w gazetach doniesień o spektakularnym samobójstwie. Ten wynik dowodzi, że głośne samobójstwa pociągają za sobą falę zamachów samobójczych i że część wypadków samochodowych to zamaskowane samobójstwa. Świadectwem zmian zachodzących w naszej kulturze może być znaczący wzrost między 1970 a 1990 r. liczby artykułów w czasopismach psychologicznych z kobietą jako pierwszym autorem. Na podstawie prywatnej kolekcji 301 listów, pisanych przez pewną matkę do przyjaciół, G. W. Allport zbudował znane studium stosunków między matką i synem. E. Durkheim sprawdził słynną hipotezę o związku stopy samobójstw z wyznaniem panującym w kraju na podstawie policyjnych statystyk. Rzadziej – rzecz jasna poza archeologią – wykorzystuje się dokumenty nietekstowe. Przykładem może być badanie dokładności wskazań zegarów w miejscach publicznych. Stwierdzono, że zegary w bankach brazylijskich wskazywały czas mniej dokładnie niż zegary w bankach amerykańskich, co potwierdziło hipotezę, że punktualność ma mniejszą wartość w kulturze Ameryki Południowej. Liczba niedopałków w popielniczkach pokoju nauczycielskiego powie nam, w jak dużym napięciu pracują nauczyciele, stopień zużycia zabawek w przedszkolu – czy jest ono rzeczywiście nastawione na dziecko (nieskazitelny stan wyposażenia dydaktycznego w pewnym przedszkolu montessoriańskim nasunął badaczowi przypuszczenie, że zapewnienia o osiągnięciach dzieci mają tam raczej propagandowy charakter). Wyniki analizy archiwaliów dobrze jest sprawdzić inną metodą, mogą bowiem być zawodne. Dokumentacja nie musi być kompletna ani bezbłędna. Czasem może też być stronnicza. Są na przykład dowody, że w razie niejasnych okoliczności śmierci człowieka policja chętniej uznaje, że spowodował ją wypadek, jeśli ofiarą był mąż i ojciec, niż wtedy, gdy był nią bezdzietny kawaler. Dodajmy na koniec, że w Polsce instytucje publiczne są zobowiązane do archiwizacji i udostępniania dokumentów na zasadach określonych w prawie. Zarządzenie nr 12 Prezesa Rady Ministrów z 23 stycznia 1963 r. stanowi, że organy administracji państwowej i inne państwowe jednostki organizacyjne mogą udostępnić dane liczbowe i jawne dokumenty m.in. pracownikom nauki i studentom, pod warunkiem wystąpienia przez kierownika placówki naukowo-dydaktycznej z należycie uzasadnionym wnioskiem. Kierownik jednostki ma obowiązek rozpatrzyć taki wniosek w ciągu 14 dni. W systemie oświaty obowiązuje zarządzenie Ministra Edukacji Narodowej z 18 marca 1993 r. w sprawie sposobu prowadzenia dokumentacji przez placówki oświatowe. Stwierdza ono, że dokumentację przebiegu nauczania (ale już nie wychowania i opieki) może udostępnić studentom i pracownikom nauki dyrektor szkoły. Zgoda organów zwierzchnich (prowadzących lub nadzorujących placówkę) nie jest wymagana. Metody zbierania danych ilościowych 129 Metody zbierania danych ilościowych Dane ilościowe są produktem pomiaru. Pomiar to tyle, co przyporządkowywanie obiektom symboli (zwłaszcza liczbowych) w taki sposób, by matematyczne relacje między symbolami odpowiadały empirycznym relacjom między obiektami. Mierząc na przykład twardość minerałów, przypisujemy im takie liczby, że minerał mający większą liczbę zarysowuje minerał mający mniejszą liczbę (Walenta, 1971). Przedmiotem pomiaru jest zmienna, a wynikiem pomiaru wartość, jaką przyjmuje zmienna w danym obiekcie. W tym sensie zmierzyć płeć Zosi to spojrzeć na Zosię i przypisać jej wartość symbolizowaną słowem „kobieta”, zmierzyć wzrost Jana to przyłożyć do Jana miarkę i przypisać mu liczbę równą liczbie jednostek (centymetrów) mieszczących się między podłogą a czubkiem jego głowy3. Pomiar zbioru obiektów daje zbiór liczb. Ale zbiór zbiorowi nierówny. Załóżmy, że dwóch badaczy chce porównać dwie gminy pod względem wykształcenia mieszkańców. Jeden przypisał dorosłym mieszkańcom liczby 1, 2, 3, 4 odpowiadające wykształceniu podstawowemu, zasadniczemu, średniemu i wyższemu. Drugi przypisał każdemu liczbę lat spędzonych w szkole: 6, 7, 8 itd. Wbrew pozorom nie są to równoważne zbiory. Różnicę łatwo uchwycić: oba pozwalają uporządkować mieszkańców pod względem wykształcenia, ale tylko drugi pozwala także uporządkować różnice między nimi pod względem długości pobytu w szkole. Jeśli pierwszy badacz przyporządkował Zofii 3, Piotrowi 4, a Janowi 2, to wolno mu stwierdzić, że Piotr ma wyższe wykształcenie niż Zofia, a Zofia wyższe niż Jan, ale nie wolno stwierdzić, że różnica między Piotrem i Zofią jest taka sama jak między Zofią i Janem. Wprawdzie 4 – 3 = 3 – 2, ale same te liczby są dobrane najzupełniej dowolnie. Równie dobrze moglibyśmy przyjąć inny szereg czterech rosnących liczb, np. 2, 3, 6, 8, a wtedy 8 – 6 ≠ 6 – 3. Od czasów S. Stevensa tego rodzaju różnice między wynikami pomiarów wiąże się z poziomem pomiaru. Najczęściej wyróżnia się cztery takie poziomy: • Nominalny – narzędzie pozwala jedynie klasyfikować obiekty pod względem płci: {kobieta, mężczyzna}, wyznania: {katolicy, luteranie, kalwiniści} itp. Jakkolwiek nazwy zawsze można zastąpić liczbami, nie wolno na nich wykonywać żadnych operacji matematycznych. • Porządkowy – narzędzie pozwala porządkować obiekty pod względem takich zmiennych, jak status społeczny: {niższy, średni, wyższy}, stopień z klasówki: {1..6} itp., ale nie odległości między nimi. Takie liczby można porównywać ze sobą, ale nie dodawać, nie można więc np. obliczać średniej arytmetycznej. • Przedziałowy – narzędzie pozwala przypisywać obiektom liczby będące krotnością ustalonej jednostki (przedziału) pomiaru. Można je uważać za ciągłe, jeśli ta jednostka jest mała w stosunku do całego zakresu pomiaru. Takie liczby można dodawać i mnożyć, a więc np. obliczać średnią arytmetyczną i odchylenie standardowe. W książkach pedagogicznych mówi się czasem o „pomiarze środowiska wychowawczego” (Pilch, 1995, s. 95n). Czymkolwiek byłoby środowisko wychowawcze, z pewnością nie jest pojedynczą zmienną, więc nie można go mierzyć – można tylko poznawać. 3 130 Rozdział 7. Metody zbierania danych • Stosunkowy – narzędzie pozwala przypisywać obiektom liczby ze zbioru liczb rzeczywistych dzięki temu, że oprócz ustalonej jednostki ma też niearbitralnie wyznaczony punkt zerowy. Możliwe jest wówczas nie tylko porównywanie różnic, ale i stosunków między obiektami. Na skali stosunkowej mierzy się zmienne fizykalne (np. temperaturę bezwzględną, masę, wysokość dźwięku) i niektóre zmienne psychofizyczne. W praktyce badawczej nauk społecznych najważniejsze jest rozróżnienie na skale porządkową i przedziałową, swoistość skali nominalnej jest bowiem oczywista, a istnienie skali stosunkowej wątpliwe4. Po czym poznać, że narzędzie daje skalę przedziałową, nie jest całkiem jasne. Uważa się, że jeśli narzędzie składa się z wielu równoważnych prób (pytań lub zadań) i daje wyniki, które mają rozkład normalny oraz są liniowo skorelowane z wynikami innych narzędzi tej samej zmiennej, to pomiar wolno traktować jako przedziałowy. Na mocy tego założenia wyniki pojedynczej skali szacunkowej mają poziom porządkowy, ale wyniki poprawnie zbudowanego testu czy skali postawy mają poziom przedziałowy. Założenie to pomaga to rozstrzygnąć niejedną wątpliwość. Weźmy żywo dyskutowany problem, jaki poziom mają stopnie szkolne. Puryści mówią, że pozwalają one co najwyżej uporządkować uczniów w oddziale klasowym. Znaczy to, że nie wolno obliczać średniej i odchylenia standardowego stopni w oddziale klasowym, współczynnika korelacji Pearsona między stopniami a ilorazem inteligencji itp. Jeśli jednak każdy uczeń ma kilka stopni (np. cząstkowych), zakaz można obejść. Najprostszym sposobem jest związanie z każdym stopniem arbitralnej wagi, czyli liczby odpowiadającej jego ważności. Wagi powinny być jak najprostsze (np. kolejne liczby naturalne). Ze stopniem niedostatecznym można związać 1, z miernym 2 itd. Podobnie waży się odpowiedzi badanego na skalach szacunkowych: „zdecydowanie nie” dostaje 1, „raczej nie” 2 itd. Dzięki temu można obliczyć ważoną sumę – np. stopni każdego ucznia lub akceptacji stwierdzenia. Suma ta jest liczbą, więc można ją podzielić przez liczbę stopni, liczbę skal szacunkowych itp., i tak dojść do średniej jako wyniku pomiaru. Ten pomiar można traktować jako przedziałowy i włączać do zaawansowanych analiz statystycznych5. Jak widać, stawką w sporze o poziom pomiaru są mocne metody analizy danych. Ponieważ słabsze metody mogą ujawnić tylko część regularności, metodolodzy usprawiedliwiają użycie mocnych, jeśli tylko nie ma wyraźnych dowodów, że pomiar nie jest przedziałowy. W tym duchu Blalock (1975, s. 172) pozwala zmienne dwuwartościowe (nazywane dychotomicznymi) traktować jako przedziałowe, bo nie ma w nich problemu z porównywaniem odległości między wartościami. Wielowartościową zmienną porządkową można przekształcić w ciągłą o rozkładzie normalnym i tak podnieść jej poziom. 4 Blalock (1975, s. 27) twierdzi, że w pomiarach, których dokonujemy w naukach społecznych, pojęcie absolutnego zera nie ma sensu. 5 Nie znaczy to, rzecz jasna, że średnia stopni (grade point average) staje się tym samym trafnym i rzetelnym wskaźnikiem osiągnięć szkolnych ucznia. Metody zbierania danych ilościowych 131 Obserwacja ilościowa Obserwacja ilościowa jest metodą przekształcania złożonego i zmiennego świata, który spostrzega obserwator, w liczby. Wynikają stąd dwa zagadnienia: • jak zredukować złożoność spostrzeganego świata, czyli co obserwować, a co pominąć? • jak przekształcać spostrzeżenia w liczby? W podejściu ilościowym obie te kwestie muszą być rozstrzygnięte przed rozpoczęciem obserwacji. Redukowanie spostrzeżeń Obserwacja ilościowa nie nadaje się do poznawania niepowtarzalnych cech lekcji, zabawy w dyskotece czy zebrania rady pedagogicznej, to bowiem, co ma być obserwowane (przedmiot obserwacji), jest tu z góry określone. Wszystko, co nie mieści się w tym określeniu, zostaje pominięte. Każda obserwacja ma swój czas, miejsce, przypadki i przedmiot. Proste zdanie: „Obserwowano interakcje zadaniowe w ciągu 5 lekcji języka polskiego w jednym oddziale klasy VI” informuje o czasie (obserwacja trwała łącznie 225 min), miejscu (lekcje polskiego w jednym oddziale), przypadkach (uczniowie i nauczycielka) oraz przedmiocie (interakcje związane z wykonywaniem zadań dydaktycznych). Przedmiot ten można pojmować dwojako: jako akty oderwane od obserwowanych osób lub związane z tymi osobami. W pierwszym wypadku uwaga obserwatora jest zogniskowana na zdarzeniach (z danych dowiadujemy się, co działo się w obserwowanym miejscu), w drugim – na osobach (z danych dowiadujemy się, co robiły poszczególne osoby lub co się im przytrafiało). Jest oczywiste, że z danych drugiego rodzaju można odtworzyć dane pierwszego rodzaju, ale nie odwrotnie. Gdy przez cały czas obserwujemy niewiele przypadków pod niewieloma względami, mówimy o obserwacji ciągłej. Gdy zbiór osób lub aktów jest większy, nie pozostaje nic innego, jak kolejno ogniskować uwagę na każdym z nich przez ściśle określony czas. Mówimy wtedy o metodzie próbek czasowych. Wymaga ona określenia interwału obserwacji i zasady przechodzenia od jednego ogniska do następnego. Oto dwa przykłady: Chcąc sprawdzić hipotezę, że stosowanie przez nauczyciela na lekcji raczej nagród niż kar zmniejsza przeszkadzanie i zwiększa uważanie, Rollins i in. (1974) zdefiniowali przedmiot obserwacji jako cztery klasy aktów: „nauczyciel nagradza”, „nauczyciel karze”, „uczeń przeszkadza”, „uczeń uważa”, przyjęli pięciominutowy interwał obserwacji oraz zasadę, że w jednym interwale zlicza się akty nagradzania i karania, w drugim – przeszkadzania, w trzecim – uważania. Taki piętnastominutowy cykl powtarzano trzykrotnie w ciągu lekcji. W moim badaniu (Konarzewski, 1995a) przedmiotem obserwacji były 84 zachowania (np. „zgłasza się ochotniczo do prac porządkowych”) dziesięciorga pierwszoklasistów wybranych losowo ze swego oddziału. Pełny czas obserwacji (52 lekcje) podzielono na piętnastominutowe interwały poświęcone jednemu dziecku. Dzieci były obserwowane w stałej kolejności, każde jednakowo często 132 Rozdział 7. Metody zbierania danych w początkowej, środkowej i końcowej części lekcji (próbkowanie systematyczne). Dziecko, które było obserwowane w początkowej części lekcji, było też dodatkowo obserwowane w ciągu dziesięciominutowej przerwy (próbkowanie sytuacji). Interwał obserwacji może być dłuższy lub krótszy. Przy obserwacji lekcji może wynosić 15 min (i wtedy obserwuje się trzech uczniów na jednej lekcji) albo 3 min (15 uczniów). Czym się kierować przy wyborze? Średnią długością obserwowanego zachowania. Jeśli interesują nas krótkie, izolowane akty (np. „zgłasza się do odpowiedzi”), wówczas należy wybierać krótki interwał, długi bowiem zwiększa wpływ kontekstu na wynik obserwacji (jest jasne, że więcej okazji do zgłaszania się do odpowiedzi ma zwykle uczeń obserwowany w środkowej części lekcji niż obserwowany w części początkowej lub końcowej). Interwał musi być dłuższy, jeśli interesują nas zachowania ciągłe (np. „samodzielnie wykonuje zadanie”) lub łańcuchy zachowań (np. „nie zgadza się z partnerem i przekonuje go do swojego poglądu”). W tym ostatnim przypadku dopuszcza się wydłużenie czasu obserwacji poza wyznaczony interwał, by móc stwierdzić, jak skończy się rozpoczęta interakcja. Zasada przechodzenia od jednego przypadku do drugiego musi zapewniać jednakowy czas i zrównoważoną kolejność obserwowania każdego z nich. Jest błędem obserwowanie uczniów według rozmieszczenia przy stolikach (np. rzędami), ponieważ rzadko bywa ono przypadkowe. Gdyby w pierwszym rzędzie siedzieli najpilniejsi uczniowie, a nauczycielka zaczynała lekcję od sprawdzenia pracy domowej, tylko oni mieliby pochwały w protokole obserwacji, co stworzyłoby mylne wrażenie, że inni nie odrabiają pracy. Najlepiej z góry przygotować losową sekwencję nazwisk. Jeśli obserwacja ma być powtarzana w odmiennych warunkach (np. na lekcjach drugiej zmiany), wówczas trzeba zadbać, by każdy uczeń był jednakowo często obserwowany we wszystkich warunkach. Czasem podział na interwały wymusza rejestrowanie stanu tego samego przypadku w stałych odstępach czasu. Specjalny zegarek wysyła sygnał dźwiękowy np. co 30 sek. Usłyszawszy go, obserwator zapisuje, co się dzieje z przypadkiem. Dane z takiej obserwacji przypominają serię statycznych fotografii i stąd jej nazwa: obserwacja fotograficzna. Ponieważ ignoruje ona wszystko, co dzieje się między sygnałami, jej użyteczność w badaniach oświatowych jest niewielka. Rejestrowanie spostrzeżeń Do przekształcania spostrzeżeń w liczby służą skale szacunkowe i systemy kategorii. Skale wymagają od obserwatora odpowiedzi na pytanie „w jakim stopniu?”, systemy kategorii – na pytanie „jak często?” Skale szacunkowe Skala szacunkowa może przybierać różne formy: bezpośredni ______________________________________ zdystansowany bardzo bezpośredni raczej bezpośredni przeciętny (równowaga) raczej bardzo zdystansowany zdystansowany Metody zbierania danych ilościowych bezpośredni 1 2 3 4 5 6 7 133 zdystansowany Zachowuje się bezpośrednio: nigdy rzadko czasem często zawsze Obserwator zaznacza punkt na odcinku, zakreśla liczbę lub wybiera jedną z podanych kategorii opisowych. Narzędziem obserwacji jest mniejszy lub większy zbiór takich skal. W skrajnym (niegodnym polecenia) przypadku stosuje się tylko jedną skalę, np. obserwację całej lekcji zamyka w pojedynczym stopniu „jakości nauczania” od niedostatecznego po celujący. Skala szacunkowa ma przypominać przyrząd pomiarowy: wystarczy przyłożyć ją do badanego obiektu, a pokaże obiektywne natężenie danej cechy. Niestety, tak nie jest. Stosowanie w obserwacji skal szacunkowych to wprowadzanie najdzikszej arbitralności pod płaszczykiem ścisłych i obiektywnych liczb. Główną wadą skali szacunkowej jest to, że wymaga od obserwatora uogólniania tego, co zaobserwował w ciągu interwału czasowego, czyli angażowania się w złożony proces wnioskowania. Obserwator musi zdecydować, czy to, co właśnie widzi, jest, czy nie jest przejawem bezpośredniości albo zdystansowania, i jeśli jest, to świadczy o wysokim czy o niskim nasileniu tej cechy. Te decyzje musi przechowywać w pamięci, tak by przy końcu interwału przypomnieć je sobie, połączyć, przyłożyć do nich skalę porządkową i wybrać stosowną wartość. Nic dziwnego, że wyniki tak prowadzonej obserwacji niosą piętno skłonności obserwatora. Gdy skale szacunkowe dotyczą nienaocznych (nieobserwowalnych) cech osoby lub jej zachowania, obserwator musi zinterpretować swoje spostrzeżenia. Reguły tej interpretacji nigdy nie są w pełni jawne. Oto nauczyciel grozi komuś palcem – czy świadczy to o bezpośredniości, czy o zdystansowaniu? Trudno powiedzieć, bo to zależy od kontekstu: czy robi to z uśmiechem, czy poważnie, czy zwraca się do małych dzieci, czy do młodzieży itd. Zamiast wdawać się w złożone analizy pola obserwacji, na które zresztą nie ma czasu, badacz kieruje się w takich wypadkach własnym wrażeniem: czy on sam odbiera taki gest jako poufały, czy oficjalny, a to wrażenie zależy od jego nastroju i osobowości. Kiedy przystępuje się do analizy tak uzyskanego zbioru liczb, nie wiadomo, o czym informują: czy o cechach badanych osób, czy o regułach interpretacji stosowanych przez obserwatora, o jego nastroju, osobowości itd. Dlatego skale szacunkowe odnoszące się do nienaocznych cech osobowości lub zachowania badanych nie powinny być stosowane w trakcie obserwacji, nie są to bowiem środki rejestrowania spostrzeżeń, lecz środki uzewnętrzniania wrażeń lub opinii badacza. Rzecz wygląda nieco lepiej, gdy od obserwatora wymaga się szacowania częstości dobrze określonych zachowań, np.: Chwali poprawną odpowiedź: nigdy rzadko czasem często zawsze, tu bowiem reguły interpretacji są jawne. Ale i takie szacunki wymagają uogólniania, które zależy od skłonności obserwatora. Niektóre z tych skłonności zostały rozpoznane i nazwane. Efekt halo polega na tym, że na poszczególne szacunki wpływa ogólne wrażenie czy opinia, jaką urobił sobie obserwator o przypadku. Jeśli podoba mu się obserwowany nauczyciel, pod- 134 Rozdział 7. Metody zbierania danych wyższa szacunki wszystkich cech, które uważa za pozytywne (np. zamiast „czasem chwali” wybiera „często chwali”), w przeciwnym razie jest skłonny je obniżać. Efekt świeżości to zależność szacunków od ostatnio zaobserwowanego zdarzenia, tak jakby blokowało ono pamięć zdarzeń wcześniejszych. Efekt ostrożności to skłonność do unikania skrajów skali (rezerwowania ich dla rzadkich przypadków, w których badacz dysponuje niezbitymi dowodami). Ponieważ te i inne efekty zachodzą w różnym stopniu u różnych obserwatorów, nie sposób twierdzić, że wyniki szacowania są porównywalne. Skala szacunkowa może być stosowana, gdy obserwuje się jeden rodzaj zachowania zamknięty w niewielkim interwale, każda wartość skali ma jednoznaczną definicję, a obserwator jest fachowcem w dziedzinie zachowania, którą obserwuje. Przykładem jest skala śpiewania Buctona: 7 – intonacja dokładna 6 – drobne niedokładności intonacyjne w trudniejszych miejscach piosenki lub tam, gdzie piosenka wykracza poza skalę głosu dziecka 5 – interwały śpiewane niedokładnie, ale zachowany kontur piosenki 4 – interwały śpiewane niedokładnie, ale zachowany kierunek melodii 3 – śpiew monotoniczny, nie wykraczający poza skalę małej tercji 2 – piosenka mówiona (głos wokalny trudno odróżnić od głosu mowy) 1 – dziecko nie śpiewa lub błąd nagrania Ta skala precyzyjnie określa i porządkuje rodzaje odchyleń od idealnego wykonania. Systemy kategorii W wielu obserwacjach nie wymaga się złożonych wnioskowań, lecz jedynie rejestrowania dobrze określonych zdarzeń, w miarę jak się pojawiają. Określenie takiego zdarzenia nazywa się kategorią, a ich zbiór systemem kategorii. Kategorie powinny być tak jasne i konkretne, jak to możliwe. Zamiast rzeczowników (np. „zachowanie agresywne”) lepiej użyć wypowiedzeń („uderza, popycha, szczypie lub pluje na inne dziecko”). Zamiast wypowiedzeń nienaocznych („jest dumny z wytworu”) – wypowiedzeń mających odniesienia naoczne („pokazuje wytwór innym, zachwala, chroni przed uszkodzeniem”). Zamiast wypowiedzeń negatywnych („nie zgłasza się do odpowiedzi”) – wypowiedzeń pozytywnych („zgłasza się do odpowiedzi”). Definiując kategorię, dobrze zacząć od krótkiej etykietki, a po dwukropku ją rozwinąć („pomaga koledze: udziela wskazówek, pożycza przybory itp. bez względu na to, czy kolega o to prosił, czy nie”). Jeśli projekt badawczy wymaga pracy kilku obserwatorów, opłaca się wydać osobną instrukcję podającą przykłady zdarzeń należących i nienależących do każdej kategorii, sposób traktowania wyliczeń (suma czy iloczyn logiczny), przypadków granicznych itd., by jak najbardziej ujednolicić warunki obserwacji. Taka instrukcja pozwala też wykryć pary kategorii splątanych (np. „przeszkadza w lekcji” i „rozmawia z innymi”). Trzeba się wystrzegać takich kategorii, jak „poniża ucznia”, wymagają one bowiem niejawnych reguł interpretacji i są nasycone wartościowaniem, a więc podatne na efekt halo. Nie znaczy to jednak, by należało dążyć do wyeliminowa- Metody zbierania danych ilościowych 135 nia wszelkiej interpretacji. Obserwator jest człowiekiem, który przetwarza różne wskazówki sytuacyjne w zrozumienie tego, co się dzieje, dzięki posiadanej wiedzy społecznej. Bez tego nie mógłby odróżnić krytyki napastliwej od rzeczowej, ironii od pochwały, pytania „do siebie”, które zapowiada następny wątek w wykładzie, od pytania do ucznia. Nie w tym więc rzecz, by zmusić obserwatora do rejestrowania jedynie „molekularnych” aspektów zachowania, lecz w tym, by skłonić go do stosowania publicznych (jawnych i uzgodnionych) reguł interpretacji. Innym błędem jest umieszczenie wśród kategorii odnoszących się do aktów kategorii odnoszących się do procesów. Weźmy kategorię „uderza, popycha, szczypie lub pluje na inne dziecko”. Jeśli obserwowane dziecko odepchnie kolegę od okna i samo przez nie wygląda, sprawa jest jasna. Ale jak ma postąpić obserwator, gdy odepchnięte dziecko stawia opór i zostaje uderzone? Czy jest dalszy ciąg już zarejestrowanego zdarzenia, czy też jest to drugie zdarzenie z tej samej kategorii? A co zrobić, jeśli oboje dzieci zaczyna się bić? Czy liczyć każde uderzenie? Trudność tę można rozwiązać przez skrócenie interwału obserwacji, jak to jest w znanym narzędziu Flandersa (1970), albo przez dokładniejsze zdefiniowanie procesu (np. jako następstwo: akt–bodziec–akt–odpowiedź). W wielu badaniach wystarczy stworzyć listę kategorii. W bardziej ambitnych projektach grupuje się kategorie i określa relacje między tymi grupami. Tak powstają systemy kategorii, np. Balesa (Newcomb i in., 1970) lub Flandersa (1970). Umieszczenie kategorii w systemie dookreśla ją i ułatwia zapamiętanie, a co ważniejsze – pozwala kontrolować rozłączność i dopełnianie się kategorii do jakiejś sensownej całości. Stworzenie spójnego i użytecznego systemu kategorii nie jest jednak łatwe. Rejestrowanie spostrzeżeń polega na wypełnianiu arkusza obserwacji. Większość arkuszy można sprowadzić do jednej z trzech odmian. W pierwszej odmianie obserwator stawia kreskę w wierszu reprezentującym daną kategorię, gdy zauważy zjawisko należące do tej kategorii. Krótki interwał obserwacji dopuszcza tylko jedną kreskę, w dłuższym kresek może być tyle, ile wystąpień zjawiska. Oto przykład fragmentu arkusza obserwacji zachowania się jednego ucznia wobec rówieśników podczas przerwy. Każda kolumna zamyka półminutowy interwał, toteż w kratce może być tylko jedna kreska. Postawa wobec rówieśników atakuje słownie lub fizycznie broni słabszych przez atakiem, pociesza narzuca swoje zdanie lub wolę podporządkowuje się woli innych strzeże swojej własności dzieli się posiadanymi dobrami bierze cudze rzeczy bez pytania pyta o zgodę skarży na kolegów osłania kolegów przed nauczycielką I II III IV V | | | | | 136 Rozdział 7. Metody zbierania danych Gdyby interwałem była cała przerwa, obserwacja byłaby łatwiejsza (arkusz miałby tylko jedną kolumnę, a obserwator nie musiałby patrzeć na zegarek), a liczba kresek odzwierciedlałaby częstość odpowiednich zachowań. Wtedy jednak pojawiłby się problem wydzielania aktów ze strumienia interakcji. Nie wiedzielibyśmy też, że obserwowane dziecko zachowało się agresywnie dopiero po kilku próbach zdominowania rówieśników. W drugiej wersji arkusza obserwacji obserwator stawia symbol zdarzenia, ilekroć się ono pojawia. W systemie Flandersa obserwator dostaje arkusz w postaci tabeli. Każdy wiersz reprezentuje jedną minutę, a kolumna trzysekundowy interwał. W każdej kratce obserwator stawia jedną cyfrę – symbol kategorii odpowiadającej temu, co działo się w tym interwale (np. „2”, jeśli nauczyciel nagrodził lub zachęcił ucznia do działania, „4” – jeśli nauczyciel zadał nieretoryczne pytanie o treść lub metodę, „8” – jeśli uczeń odpowiedział nauczycielowi, „9” – jeśli uczeń odezwał się niepytany itd.). Produktem dwudziestominutowej obserwacji jest zatem ciąg 400 cyfr reprezentujących zdarzenia na osi czasu. Zauważmy na marginesie, że tak poszatkowawszy lekcję, Flanders próbuje następnie ją scalić, zakładając na przykład, że sekwencja 4–8–2 oznacza interakcję: nauczyciel pyta, uczeń odpowiada, nauczyciel go chwali. Ale w sekwencji 4–8–9–2 nie wiadomo, kogo chwali nauczyciel: ucznia, który odpowiedział na jego pytanie, ucznia, który spontanicznie włączył się do rozmowy, czy ucznia, który właśnie skończył ścierać tablicę. Jedyne, czego możemy być pewni, to rozkład częstości izolowanych aktów. Omawiana wersja arkusza wymaga nauczenia się na pamięć symboli kategorii. Godne polecenia jest stosowanie symboli „znaczących”: zamiast cyfr – skrótów, w których poszczególne litery odpowiadają kolejno: podmiotowi, czynności i przedmiotowi (np. NPU – „nauczyciel pyta ucznia”, NGU – „nauczyciel gani ucznia”, UGU – „uczeń gani ucznia”). Ale jeśli kategorii jest kilkadziesiąt, niewiele to pomoże. Trzecią wersję arkusza stosuje się do obserwacji rozciągniętych w czasie procesów (np. „uczeń samodzielnie pracuje nad zadaniem z podręcznika”). W wierszu odpowiadającym kategorii obserwowanego procesu zaznacza jego początek i koniec (wpisuje godziny lub zakreśla umowne interwały). Ogólna zasada obowiązująca obserwatora brzmi: rejestruję tylko to, co widzę, a nie to, czego się domyślam. Jeśli kategoria jest zdefiniowana jako „uczeń prosi kolegę o upewnienie i radę”, a obserwator widzi tylko, że uczeń pochyla się do kolegi i coś mówi, nie może zaznaczyć tej kategorii, chyba że usłyszy coś w rodzaju: „Czy to jest dobrze?”, „Jak to narysować?”. By oddzielić wrażenia, opinie i oceny od rejestracji zdarzeń i procesów, można dać obserwatorowi zbiór skal szacunkowych, które wypełniałby bezpośrednio po zakończeniu obserwacji. Ponieważ wyniki obserwacji zależą od kwalifikacji obserwatorów, trzeba ich poddać szkoleniu. Dobra metoda polega na pokazaniu początkującemu obserwatorowi magnetowidowego nagrania sytuacji, którą wcześniej zarejestrował doświadczony obserwator, i poproszeniu, by poddał ją obserwacji. Dzięki temu można zobaczyć, gdzie obserwator odbiega od wzoru, wskazać i wyjaśnić błąd. Można Metody zbierania danych ilościowych 137 też go prosić o dwukrotne obserwowanie tej samej sytuacji, co pozwala ujawnić chwiejność w pojmowaniu kategorii. Krytyka danych Dane z obserwacji podlegają krytyce, która przypomina wewnętrzną krytykę źródeł historycznych. Obrona polega na odparciu dwóch zarzutów: że obecność obserwatora zniekształciła zdarzenia (to, co robili obserwowani, było inne niż zwykle) i że obserwator nietrafnie je zrelacjonował (to, co rejestrował obserwator, odbiegało od tego, co się działo). Pierwszy zarzut odpieramy przez wykazanie, że dołożyliśmy starań, by obserwator nie wpływał na przebieg zdarzeń, np. umieściliśmy go za jednokierunkowym lustrem lub za ogrodzeniem przedszkolnego podwórka, użyliśmy ukrytej kamery albo przynajmniej pozwoliliśmy badanym zaadaptować się do obecności obserwatora. Jeśli możemy pokazać, że w okresie adaptacyjnym spada liczba pytań, uwag lub spojrzeń kierowanych do obserwatora lub że rośnie częstość zachowań nagannych, nasze zapewnienia zyskują na wiarygodności. Trzeba też wykazać, że interwał obserwacji i kolejność obserwowania aktów lub przypadków nie zniekształcają obrazu zdarzeń. Drugi zarzut odpieramy przez wykazanie, że obserwator miał możność widzenia i słyszenia (np. że podczas obserwowania lekcji nie siedział przy ostatnim wolnym stoliku na końcu klasy), że pomagał sobie rejestracją magnetofonową i że został przeszkolony. Najlepszą jednak obroną jest podanie współczynnika zgodności obserwacji dwóch obserwatorów. Jeśli obserwatorzy czy „sędziowie kompetentni” rejestrują spostrzeżenia na skali szacunkowej, to najczęściej rekomenduje się jako miarę zgodności jakiś współczynnik współwystępowania, np. τ (tau) Kendalla. Ale ten i podobne współczynniki mogą przyjmować wartość bliską 1, mimo że obserwatorzy ani razu nie zgodzili się ze sobą: wystarczy, że jeden z nich systematycznie zawyża lub zaniża to, co widzi. Gdy skala ma niewiele wartości, lepiej po prostu podać odsetki przypadków zakodowanych zgodnie i prawie zgodnie przez obu obserwatorów, np.: „W 60% obserwatorzy zgodzili się całkowicie, a w 30% różnili się między sobą tylko o jedną wartość”. Takie stwierdzenie z pewnością lepiej informuje o rzetelności kodowania niż współczynnik τ = 0,75. Można też dla każdego przypadku obliczyć bezwzględną wielkość różnicy szacunków dwóch obserwatorów: |A – B|. Średnia tej różnicy pozwala obliczyć współczynnik zgodności: W = 1− 3p ⋅ A− B p2 − 1 gdzie p to liczba stopni skali. Współczynnik waha się od –2 do 1. Zero oznacza ten stopień zgodności, jaki osiąga się przy szacunkach czysto losowych (np. za pomocą kostki do gry). Gdy szacunków dokonuje większa liczba sędziów (np. pięciu nauczycieli ocenia w urzędowej skali wypracowania kilkudziesięciu uczniów), do oszacowaniu ich zgodności używa się współczynnika W Kendalla. Omawia go Brzeziński (1997, s. 500n). 138 Rozdział 7. Metody zbierania danych Jeśli badanie wymaga rejestrowania spostrzeżeń w postaci kresek lub ciągu symboli, to można uznać, że średnia liczba kresek w danej kategorii jest najlepszym oszacowaniem rzeczywistej częstości danego zdarzenia. Gdy więc jeden obserwator zaobserwował 5 aktów z danej kategorii, a drugi 3, to zakładamy, że pierwszy przecenił ich liczbę o 1, a drugi nie docenił o 1, obaj zaś zgodnie zarejestrowali 3 akty. Dzieląc to przez średnią, czyli liczbę możliwych zgód, i mnożąc wynik przez 100%, dostajemy współczynnik zgodności równy 75%. Ogólnie współczynnik ten jest dany wzorem: Z = 2⋅ min( A, B ) ⋅ 100% , A+ B gdzie A i B to liczby aktów zarejestrowane przez obu obserwatorów. Wzór nie ma zastosowania, ilekroć A = B = 0. Zamiast brać obopólny brak kresek za dowód zgodności, trzeba wyłączyć taką sytuację z analizy. Pojedynczy współczynnik zgodności jest mało rzetelny, dlatego trzeba co najmniej dziesięciokrotnie przeprowadzić obserwację z użyciem danej kategorii, a zgodność wyrazić za pomocą średniej (i odchylenie standardowego) z poszczególnych współczynników. Protokół z badania zgodności obserwacji może mieć taką formę: Kategorie K1 K2 K3 ... Km Średnie S1 0 100 ... 44 55 S2 50 100 ... 44 75 S3 44 67 86 ... 0 71 Sytuacje ... ... ... ... ... Sn 100 100 ... 36 83 Średnie 67 88 79 ... 30 75 Liczby w tabeli to współczynniki zgodności między dwoma obserwatorami posługującymi się arkuszem, który zawiera kategorie K1–Km w sytuacjach (np. lekcjach) S1–Sn. Puste miejsca (np. w kratce K1S2) oznaczają, że w sytuacji 2. obaj obserwatorzy nie zarejestrowali ani jednego zdarzenia z kategorii 1. Ostatnia kolumna zawiera średnie współczynniki zgodności dla kategorii, a ostatni wiersz – średnie współczynniki dla poszczególnych sytuacji (możemy ich użyć do zbadania, czy obserwatorzy nabywają wprawy, a także do wykrycia sytuacji szczególnie niejasnych). Nie sposób uzasadnić jakiejś granicznej wartości tego współczynnika, wydaje się jednak, że gdy spada on poniżej 70% (zwłaszcza przy dużym odchyleniu standardowym), trudno mieć zaufanie do wyników analiz, które obejmą daną kategorię. Trzeba więc uznać, że albo przynajmniej jeden z obserwatorów źle wykonał swoją pracę, albo kategoria jest zdefiniowana wadliwie (zawiera określenia wieloznaczne, nierozłączne lub wymagające złożonych wnioskowań) i musi być poprawiona. System jest wadliwy także wtedy, gdy zawiera wiele pustych kategorii. Metody zbierania danych ilościowych 139 Ankieta Ankieta, zgodnie ze źródłosłowem (enquête), to metoda zbierania danych polegająca na planowym wypytywaniu badanego. Podstawą ankiety jest kwestionariusz, czyli ustalona lista pytań, którym towarzyszy mniej lub bardziej zamknięty zbiór odpowiedzi. Podane możliwości odpowiedzi będę nazywać opcjami odpowiadania, a pytanie wraz z opcjami – pozycją kwestionariusza6. Budowanie kwestionariusza to zadanie złożone przynajmniej z 5 kroków. Krok 1. Kto zaczyna od układania pytań, naraża się na to, że jego kwestionariusz będzie dotykał wielu ubocznych kwestii, a najważniejsze potraktuje ogólnikowo i wyrywkowo. Trzeba raczej zacząć od określenia, czego chcemy się dowiedzieć, tzn. od sporządzenia rozwiniętej listy potrzebnych informacji. Krok 2. Decydujemy o formie ankiety. Pytania kwestionariusza można zadawać badanemu na co najmniej pięć sposobów: • Ankieta ustna – ankieter spotyka się z respondentem, czyta pytania, klasyfikuje i rejestruje odpowiedzi. Daje to pewność, że kwestionariusz będzie wypełniony starannie, ale ogromnie zwiększa koszt badania. Taką ankietę równie dobrze można nazwać wywiadem o najwyższym stopniu standaryzacji. • Ankieta telefoniczna – ankieter rozmawia z respondentem przez telefon. Odmiana znacznie tańsza i dająca większe poczucie anonimowości, co przy niektórych zagadnieniach bywa pożądane. Jeśli numery telefonu wybiera komputerowy generator liczb losowych, próbka przypomina losową, choć oczywiście nią nie jest, ponieważ ogranicza się do osób mających telefon. • Ankieta pisemna – ankieter daje badanemu kwestionariusz, który ten wypełnia samodzielnie i zwraca ankieterowi. • Ankieta audytoryjna – ankieter rozdaje kwestionariusze respondentom zgromadzonym w jednym miejscu (np. nauczycielom podczas zebrania rady pedagogicznej) i zbiera po wypełnieniu. • Ankieta pocztowa – kwestionariusz przesyła się pocztą. Metoda wygodna, ale niebezpieczna. Jeśli stopa zwrotów jest niższa niż 75%, trudno uogólnić wynik, bo nie można założyć, że osoby nie zwracające kwestionariusza są losowo rozrzucone w populacji (na ogół wypełnione ankiety częściej odsyłają ludzie wykształceni, obowiązkowi i zainteresowani sprawą). Krok 3. Budujemy pierwszą wersję kwestionariusza. Jeśli potrzebujemy informacji prostych i niekontrowersyjnych (np. o sposobach spędzania wolnego czasu), możemy sami ułożyć i uszeregować pozycje, po czym pokazać je ekspertom (kolegom badaczom lub osobom znającym się na badanym zagadnieniu, np. kierownikowi domu kultury) z prośbą o krytykę. W sprawach trudniejszych (np. opinii o zjawiskach budzących kontrowersje) zaleca się przeprowadzić najpierw kilka wywiadów niestandardowych (np. w grupie tematycznej), by móc sformułować pytania i opcje odpowiadania w sposób najbardziej naturalny dla badanych. Spotykane czasem terminy kafeteria i item trzeba uznać za niepoprawne. Kafeteria to rodzaj lokalu gastronomicznego, a item to niepotrzebne zapożyczenie z angielskiego. 6 140 Rozdział 7. Metody zbierania danych Krok 4. Prowadzimy badanie pilotażowe na małej próbce osób pochodzących z populacji, do której jest zaadresowany kwestionariusz. Badani powinni wypełniać kwestionariusz w obecności ankietera, który rejestruje wszystkie oznaki ustosunkowania się do brzmienia pytań i opcji odpowiadania, np. uwagi w rodzaju: „Nie wiem, o co tu chodzi”, „Tu mogłabym podkreślić równie dobrze 3, jak i 5”, odpowiedzi zaczynające się od „To zależy...”, prośby o wyjaśnienie, kwestionowanie wyrażeń jako śmiesznych lub obraźliwych, udzielanie odpowiedzi niemieszczącej się w opcjach. Jeśli jakaś pozycja jest często pomijana lub zabiera badanemu dużo czasu, to znak, że coś z nią nie w porządku. Warto dołożyć starań, by ułatwić respondentowi zadanie, stwierdzono bowiem, że czas wypełniania kwestionariusza rozsyłanego pocztą pozwala przewidzieć stopę zwrotów. Krok 5. Po wprowadzeniu niezbędnych poprawek przystępujemy do ostatniego zadania: opracowania typograficznego. Kwestionariusza nie piszemy na maszynie, lecz przygotowujemy w dobrym edytorze tekstu. Przejrzystość jest ważniejsza niż oszczędność papieru: kilka stron gęsto zadrukowanych małą czcionką zniechęci każdego respondenta. Pytania powinniśmy oddzielić od opcji odpowiadania przez rozmieszczenie ich w osobnych kolumnach lub złożenie inną czcionką. Najlepiej układać opcje jedna pod drugą, opatrując każdą numerem, bo to zmniejsza błędy w czasie kodowania. Jeśli układamy je poziomo, dobrze wziąć każdą w ramkę: 17. Jaką rolę w zdobywaniu przez ucznia dobrych stopni odgrywa to, że pochodzi z rodziny mającej dobre warunki mieszkaniowe i materialne? 1 decydującą 2 dużą 3 małą 4 żadną 5 nie wiem Oto przykładowy fragment kwestionariusza: Uniwersytet Warmińsko-Mazurski Droga Koleżanko, Prowadzimy badania warunków pracy zawodowej i życia nauczycieli. Będziemy wdzięczni, jeśli zechce Pani odpowiedzieć na pytania niniejszej ankiety. Ankieta jest anonimowa, więc liczymy na szczere odpowiedzi. PYTANIE ODPOWIEDŹ (proszę wpisać lub podkreślić) 1 Jaki jest Pani staż pracy w zawodzie nauczycielskim? 2 Czy będąc w szkole średniej, chciała Pani być nauczycielką? 3 Co Pani czuła w pierwszym roku pracy 1 Głównie satysfakcję w zawodzie nauczycielskim? 2 Głównie zniechęcenie 3 Na przemian satysfakcję i zniechęcenie 4 Nie pamiętam 16 ___________________ 1 Tak. 2 Nie, miałam inne plany. 3 Nie pamiętam. ... ... Czy Pani ma dzieci? 1 Tak 2 Nie Metody zbierania danych ilościowych 17 18 19 20 141 JEŚLI PANI MA DZIECI: Wiek najstarszego dziecka Wiek najmłodszego dziecka Gdzie Pani mieszka? ________________ ________________ 1 na wsi 2 w małym mieście (do 5 tys. mieszkańców) 3 w średnim mieście (między 5 a 50 tys. mieszkańców) 4 w dużym mieście (powyżej 50 tys. mieszkańców) Jaki jest Pani stan cywilny? 1 panna 2 mężatka 3 rozwiedziona 4 wdowa JEŚLI JEST PANI OSOBĄ SAMOTNĄ: 1 dobre, można nawet coś odłożyć Jak Pani ocenia swoje dochody? 2 skromne, wystarcza tylko na zaspokojenie bieżących potrzeb JEŚLI MA PANI RODZINĘ: 3 nie pozwalają związać końca z końcem, Jak Pani ocenia dochody swojej często trzeba pożyczać rodziny? Pozycje kwestionariusza Pozycje kwestionariusza dzielimy na zamknięte i otwarte. Pozycje zamknięte składają się z pytania i opcji odpowiadania, z których badany ma wybrać (podkreślić lub zaznaczyć) najlepiej odpowiadającą jego wiedzy. Pozycje zamknięte mogą mieć rozmaitą formę. • Pytania z wyborem: Jakie wykształcenie zamierzasz zdobyć w życiu: ___ podstawowe ___ zasadnicze zawodowe ___ średnie ogólnokształcące ___ średnie zawodowe ___ wyższe zawodowe (inżynierskie lub licencjackie) ___ wyższe magisterskie. Jeśli pytanie dopuszcza wybór kilku opcji, należy uprzedzić o tym respondenta (np.: „Można wybrać kilka odpowiedzi”). • Pytania ze skalowaniem: Czy rozumiesz to, co mówi nauczyciel na lekcji? ___ zawsze ___ często ___ czasem tak, a czasem nie ___ rzadko ___ nigdy. • Pytania ze skalowaniem w wersji Likerta: Większość nauczycieli szczerze troszczy się o moją przyszłość. ___ zdecydowanie się zgadzam ___ raczej się zgadzam 142 Rozdział 7. Metody zbierania danych ___ trudno powiedzieć ___ raczej się nie zgadzam ___ zdecydowanie się nie zgadzam. • Pytania z rangowaniem: Od czego Pani/Pana zdaniem zależą osiągnięcia szkolne dziecka? (proszę postawić 1 przy najważniejszej przyczynie, 2 przy nieco mniej ważnej i tak dalej, aż do najmniej ważnej) ___ dobre zdrowie ___ wykształcenie rodziców ___ kompetencje nauczyciela ___ zdolności ucznia ___ zamożność rodziców ___ ambicja ucznia ___ wyposażenie szkoły ___ inna przyczyna (proszę wpisać):____________________________ • Pytania z niejawnymi opcjami: Ile Pani ma dzieci? _____________ Pozycje otwarte to pytania, które dopuszczają tak różne odpowiedzi, że badacz nie był w stanie ich przewidzieć i skatalogować. Opcje odpowiadania zastępuje wtedy miejsce na wpisanie własnej odpowiedzi, np.: Co Pani/Pana zdaniem najbardziej utrudnia uczniom rozwiązywanie zadań z treścią? _____________________________________________________________________ Warto zauważyć, że pytanie o liczbę dzieci nie jest otwarte, ponieważ dopuszcza wpisanie tylko jednej liczby całkowitej od 0 do, powiedzmy, 10. Układanie dobrych pytań nie jest zadaniem łatwym. Poniższe rady nie zapewnią sukcesu, ale pozwolą się ustrzec typowych błędów. • Buduj pytania krótkie (złożone najwyżej z 20 słów) i proste składniowo. Pytanie: „Co Pani/Pan sądzi o uzależnieniu awansu zawodowego nauczyciela od wyniku egzaminu, który miałby on zdawać przed specjalną komisją?” jest długie i kręte. Lepiej zapytać: „Czy o awansie nauczyciela powinien decydować wynik egzaminu zdawanego przed specjalną komisją?”. Unikaj pytań z przeczeniem (zamiast: „Czy nie miała Pani ochoty zmienić zawodu?”, zapytaj: „Czy kiedykolwiek miała Pani ochotę zmienić zawód?”). Pytania warunkowe rozpoczynaj od warunku („Gdybyś musiał ograniczyć swoje wydatki, z czego byś zrezygnował w pierwszej kolejności?”, zamiast: „Z czego byś zrezygnował w pierwszej kolejności, gdybyś musiał ograniczyć swoje wydatki”). • Dostosuj słownictwo do słownictwa respondentów. Jeśli ankieta jest przeznaczona dla rodziców, unikaj takich słów, jak motywacja, dysleksja, edukacja ustawiczna itp. Możesz ich natomiast użyć w ankiecie adresowanej do nauczycieli. • Stawiaj jednoznaczne pytania. Pytanie do matki: „Czy często stosuje Pani kary fizyczne wobec swojego dziecka?” jest wieloznaczne, ponieważ nie wyjaśnia, co to jest kara fizyczna, i nie określa, o jakie dziecko chodzi (matka może czasem dawać klapsa młodszemu dziecku, ale nie starszemu). Także słowo „często” Metody zbierania danych ilościowych • • • • • 143 może być rozumiane niejednakowo. W rezultacie zbierzemy nieporównywalne odpowiedzi. Unikaj podwójnych pytań. Pytanie do nauczyciela: „Czy szkoła powinna dawać gruntowną wiedzę, która pomoże uczniowi znaleźć dobrą pracę?” składa się w istocie z dwóch pytań: o wiedzę gruntowną i o wiedzę użyteczną na rynku pracy. Odpowiedź twierdząca nie pozwala rozstrzygnąć, za czym naprawdę opowiada się respondent. Unikaj pytań z niejawną przesłanką. W pytaniu do licealisty: „Czy czujesz, że szkoła dobrze przygotowała cię do egzaminu na studia?” tkwi przesłanka, że wybiera się on na studia. Kto się nie wybiera, będzie miał kłopot z odpowiedzią. W takim przypadku należy najpierw zapytać: „Czy zamierzasz studiować na wyższej uczelni?”, a potem dodać instrukcję: „Jeśli nie, przejdź do pytania 17”. W pytaniach z wyborem zadbaj o to, by podane możliwości pokrywały całe pole odpowiedzi. Dołączenie do pytania „Jaki jest Pani stan cywilny?” tylko dwóch odpowiedzi: „wolna – zamężna”, pomija inne możliwości, takie jak wdowa, rozwiedziona czy żyjąca w separacji. Pozycja w kwestionariuszu dla matek: „Jak Pani nagradza swoje dziecko za dobre stopnie? – chwalę – daję pieniądze – zabieram do kina” grzeszy podwójnie. Zawiera ukrytą przesłankę (że matka w ogóle nagradza dziecko za stopnie) i ogranicza odpowiedzi (np. pomija nagrodę w postaci pozwolenia dziecku na dłuższą zabawę). Najlepiej układać opcje odpowiadania na podstawie wyników wcześniej przeprowadzonego wywiadu indywidualnego lub grupowego oraz dodawać opcję: „Inne (proszę opisać)”. Unikaj pytań mogących wprawić respondenta w zakłopotanie. Należą do nich pytania o sprawy, które mogłyby go ukazać w złym świetle: popełnione wykroczenia, dochód, wyznanie, szczegóły pożycia małżeńskiego itp. Jeśli cel badań wymaga zebrania takich informacji, pytania należy umieścić w drugiej połowie kwestionariusza (wtedy szansa, że respondent wyrzuci go do kosza, jest mniejsza) i sformułować w możliwie najdelikatniejszy sposób. Na przykład zamiast wprost pytać nauczyciela o wiek, lepiej zapytać o staż pracy. Zamiast pytać o wysokość dochodu, lepiej prosić, by respondent odniósł się do średniej krajowej (np. „dużo poniżej średniej – nieco poniżej średniej – na poziomie średniej – nieco powyżej średniej – dużo powyżej średniej”) albo do swoich potrzeb (np. „dobry, można nawet coś odłożyć – starcza tylko na zaspokojenie bieżących potrzeb – nie pozwala związać końca z końcem, często trzeba pożyczać”). Chcąc dowiedzieć się, czy małżonkowie dochowują sobie wierności, możemy zadać pytanie: „Jeśli pojawiają się między Panią a mężem napięcia, to czego najczęściej dotyczą?” i wśród opcji odpowiadania umieścić wierność małżeńską. Zamiast wprost pytać o poziom satysfakcji z życia seksualnego, lepiej zapytać: „Jaką rolę odgrywa w Pani małżeństwie seks? – Dodaje nam sił i radości życia – Zbliża nas i ułatwia porozumienie w trudnych sprawach – Pozwala na chwilę zapomnieć o kłopotach – Nie ma większego znaczenia”. Unikaj pytań, które mogą budzić stereotypowe skojarzenia. Pytania do matki: „Czy dba Pani o zdrowie swojego dziecka?” lub do nauczyciela: „Czy lubi Pan 144 Rozdział 7. Metody zbierania danych młodzież?” aktywizują stereotypy dobrej matki i dobrego nauczyciela; dlatego twierdząca odpowiedź niewiele mówi o rzeczywistym stosunku respondenta do zagadnienia poruszonego w pytaniu. Możemy obniżyć poziom stereotypowości odpowiedzi, sugerując, że w sprawie, o którą pytamy, zdania są podzielone. Jeśli zapytamy: „Czy Pani/Pana zdaniem kary fizyczne są skutecznym środkiem wychowania dziecka w rodzinie?”, ryzykujemy, że respondent odpowie tak, jak wypada w jego środowisku. Bezpieczniej jest zapytać: „Jedni rodzice są zwolennikami, a inni przeciwnikami stosowania kar fizycznych w wychowaniu dziecka. Jakie jest Pani/Pana zdanie w tej sprawie?” i podać przemyślane opcje odpowiedzi. • Pamiętaj, że sposób sformułowania pytania może wpłynąć na rozkład odpowiedzi. Badacz, który w pytaniu podsuwa badanemu pożądaną przez siebie odpowiedź, postępuje niemoralnie. W pewnym kwestionariuszu dotyczącym opinii nauczycieli o reformie oświaty przeważały pytania typu: „Czy realne jest utworzenie od 1 września 1999 r. sieci odpowiednio wyposażonych szkół gimnazjalnych? Tak – Nie – Nie mam zdania”. Na takie pytanie może odpowiedzieć twierdząco tylko niepoprawny entuzjasta. Nic dziwnego, że cały kwestionariusz przyniósł pesymistyczny obraz opinii nauczycieli. Czy trafny – można wątpić. Układ kwestionariusza Omówiwszy formę poszczególnych pozycji, zatrzymamy się przy cechach całego kwestionariusza. • Staraj się, by kwestionariusz był jak najkrótszy. Wielostronicowe kwestionariusze działają zniechęcająco, toteż albo nie są zwracane, albo są wypełniane niedbale. Gdy masz już pierwszą wersję kwestionariusza, pokaż ją kolegom. Wspólnie zastanówcie się nad każdym pytaniem, czy jest niezbędne dla osiągnięcia celu badania. • Ułóż pytania we właściwej kolejności. Zacznij od rozmieszczenia ich w kilku blokach tematycznych. Każdy blok otwieraj pytaniem najbardziej ogólnym: C1. Czy kiedykolwiek zastanawiał/a się Pan/i, kto i jak powinien finansować szkolnictwo? Tak – Nie C2. JEŚLI TAK: Jaka jest Pani/Pana opinia w tej sprawie? potem przejdź do opinii szczegółowych, np.: C3. Czy popiera Pan/i istnienie dwóch rodzajów szkół: bezpłatnych (publicznych) i płatnych (niepublicznych)? Tak – Nie – Nie mam zdania następnie przejdź do uzasadnienia tych opinii: C5. Poniżej zgromadziliśmy różne argumenty za przekształcaniem szkół bezpłatnych w płatne. Proszę postawić plus przy argumentach, z którymi Pan się zgadza, i minus przy argumentach, z którymi Pan się nie zgadza. Na końcu zapytaj o stopień pewności tych opinii: C9. Jak bardzo jest Pan pewny swoich poglądów w tej sprawie? Całkowicie pewny – Dość pewny – Niezbyt pewny. Zazwyczaj kwestionariusz otwiera blok najbardziej interesujących pytań, mających przykuć uwagę respondenta. Zaczynanie od bloku danych demograficz- Metody zbierania danych ilościowych 145 nych („metryczki”) jest błędne, chyba że badanie prowadzi ankieter i proste pytania demograficzne dają mu okazję do nawiązania porozumienia z respondentem. • Naturalnym odruchem respondenta jest pytanie, kto go indaguje i po co. Dlatego w nagłówku ankiety umieść nazwę organizacji, która prowadzi badania (np. „Uniwersytet Warmińsko-Mazurski”), a właściwe pytania poprzedź kilkuzdaniowym wyjaśnieniem celu badania: Prowadzimy badania nad przyczynami złego samopoczucia u dzieci rozpoczynających naukę. Wyniki tych badań pozwolą doradzić władzom oświatowym, co zmienić w praktyce szkolnej. Ponieważ dziecko Państwa zostało wylosowane do badań, prosimy o kilka informacji na jego temat. Gwarantujemy pełną poufność odpowiedzi. • Upewnij się, że potencjalni respondenci wystarczająco dobrze orientują się w zagadnieniach poruszanych w ankiecie. Pytając rodziców o opinie w sprawie szczegółowych rozwiązań proponowanych w reformie oświaty, ryzykujemy, że zbierzemy przypadkowe odpowiedzi, ponieważ większość rodziców niewiele wie o tych sprawach. W formułowaniu pytań z wyborem, które odwołują się do wiedzy lub wcześniejszych przemyśleń respondenta, trzeba zawsze dodać możliwość: „Nie wiem”, „Nie mam zdania” lub „Trudno powiedzieć”, by nie zmuszać badanego do wyboru którejś ze stanowczych odpowiedzi. Gdy kwestionariusz rozsyłamy pocztą, troszczymy się o stopę zwrotów. Jest ona tym niższa, im kwestionariusz dłuższy7, bardziej siermiężny typograficznie i skomplikowany w wypełnianiu. Stopę zwrotów podwyższa list przewodni. Powinien być napisany na papierze firmowym i zawierać następujące elementy: • Data. • Zwrot grzecznościowy: Szanowna Pani, Szanowny Panie, • Określenie celu badania: Uniwersytet Warmińsko-Mazurski w porozumieniu z Ministerstwem Edukacji Narodowej zbiera opinie młodych nauczycieli o tym, jak uczelnia, w której studiowali, przygotowała ich do zawodu nauczycielskiego. Mamy nadzieję, że wyniki tego badania pomogą ulepszyć programy kształcenia przyszłych nauczycieli. • Wyjaśnienie, dlaczego zwracamy się do danego respondenta: Nazwisko Pani/Pana zostało wylosowane z listy nauczycieli pracujących w zawodzie od 3 do 5 lat. • Prośba o współpracę: Badanie przyniesie wiarygodne wyniki tylko wtedy, gdy wszystkie kwestionariusze zostaną wypełnione i odesłane. Wypełnienie kwestionariusza zajmuje nie więcej niż 20 min, a może zaważyć na powodzeniu całego badania. • Termin odesłania ankiety: Bardzo proszę o włożenie wypełnionego kwestionariusza do załączonej koperty i wrzucenie jej do skrzynki pocztowej w terminie do 20 lutego 2000 r. Gdy kwestionariusza nie daje się skrócić, można użyć techniki, którą Lord (1962) nazywa próbkowaniem macierzowym. Polega ona na stawianiu losowo dobranym respondentom pytań będących losowym podzbiorem całego kwestionariusza. 7 146 Rozdział 7. Metody zbierania danych • Zapewnienie o dyskrecji: Ankieta jest anonimowa. Na kopercie zwrotnej znajduje się numer identyfikacyjny, dzięki któremu będziemy mogli zaznaczyć nazwisko Pani/Pana na liście adresowej. Zaraz potem koperta zostanie zniszczona. Nikt, łącznie z nami, nie będzie mógł stwierdzić, czyje odpowiedzi czyta. • Obietnica udostępnienia wyników: Jeśli interesują Panią/Pana zbiorcze wyniki tego badania, proszę zakreślić kwadracik na odwrotnej stronie koperty. Wyniki prześlemy pocztą w ciągu trzech miesięcy. • Wyrazy wdzięczności: Będziemy bardzo wdzięczni za szczere, staranne i terminowe wypełnienie kwestionariusza. • Podpis: Z wyrazami szacunku – Kierownik projektu badawczego, dr Jan Kowalski. Oprócz listu przewodniego do kwestionariusza powinna być dołączona zaadresowana koperta zwrotna. Z doświadczeń amerykańskich wynika, że lepiej działa naklejony znaczek pocztowy niż nadruk zryczałtowanej opłaty i że dołączenie do każdego kwestionariusza niewielkiej nagrody pieniężnej (półdolarówki) zwiększa stopę zwrotów nawet o 20%. Inna możliwość zachęcenia respondenta to zapowiedź udziału w losowaniu większych nagród pieniężnych lub rzeczowych. Jeśli kwestionariusz nie został zwrócony w ciągu 10 dni od dnia nadania, dobrze jest wysłać do respondenta kartkę pocztową z uprzejmym przypomnieniem, że termin minął. Gdy i to nie skutkuje, można jeszcze raz wysłać respondentowi kwestionariusz wraz z listem, który podkreśla wagę badań i konieczność uzyskania odpowiedzi od każdego respondenta. W obliczu ciągle niskiej stopy zwrotów badacz może wysłać trzeci list, tym razem pocztą poleconą, a w nim kartkę pocztową, na której respondent ma zaznaczyć, że nie chce brać udziału w badaniu i nie zamierza odsyłać kwestionariusza. Co robić, gdy mimo to stopa zwrotów jest poniżej 75%? By ratować swoje badanie, badacz może postąpić tak: • Sprawdzić jak dobrze osoby, które zwróciły ankietę, reprezentują badaną populację pod względem wieku, płci, wykształcenia, statusu socjoekonomicznego, miejsca zamieszkania itp. Jeśli nie stwierdzi istotnych odchyleń, może uogólniać wyniki na populację (np. napisać: „Większość polskich nauczycieli nie czuje się przygotowana do samodzielnego budowania programu nauczania swojego przedmiotu”). W przeciwnym razie musi ograniczyć swoje wnioski jedynie do zbadanej grupy („Większość respondentów nie czuje się przygotowana do samodzielnego budowania programu nauczania swojego przedmiotu”). Wykrycie cech, które łączą osoby niezwracające kwestionariusza, może podsunąć badaczowi interesujące hipotezy do przyszłych badań. • Sprawdzić, czy grupa respondentów, którzy w terminie odesłali ankietę, udziela podobnych odpowiedzi jak grupa respondentów, którzy odesłali ankietę po terminie (np. pod wpływem ponaglenia). Ta analiza opiera się na założeniu, że druga z tych grup jest podobna do trzeciej grupy, tj. do tych, którzy w ogóle nie odesłali ankiety. Jeśli badacz nie stwierdzi istotnych różnic między odpowiedziami dwóch pierwszych grup, może przyjąć, że nie ma ich też między pierw- Metody zbierania danych ilościowych 147 szą a trzecią, co znaczy, że pula odpowiedzi, jakimi dysponuje, wystarczająco dobrze reprezentuje odpowiedzi w interesującej go populacji. • Przeprowadzić wywiad na podstawie kwestionariusza ankiety z małą, losową próbką osób, które nie odesłały ankiety. Jeśli tak uzyskane odpowiedzi nie różnią się od pozostałych, badacz może założyć, że osoby, które udzieliły odpowiedzi, stanowią nieobciążoną próbkę wszystkich osób, do których wysłano ankietę. Trafność kwestionariusza Ankieta jest metodą zbierania danych ilościowych, a nie jakościowych: nadaje się do poznawania nie tyle nowych wariantów opinii, ile rozkładu znanych już wariantów. W doniesieniu z badania tą metodą królują liczby: Większość nauczycieli (64%) zgadza się, że projekt reformy oświaty ma błędy i trzeba się wstrzymać z jego realizacją. Stanowiska skrajne popiera 10% nauczycieli: 5% uważa projekt za dobry, a 5% za zły... Jakie błędy widzi w projekcie każdy z 95% badanych, jak uzasadnia konieczność wstrzymania reformy każdy z 83% badanych, jakie doświadczenia za nimi stoją – tego wszystkiego kwestionariusz nam nie powie. Badacze, którym przeszkadza to ograniczenie, mnożą w kwestionariuszu pytania otwarte. Trudno to pochwalić: danych jakościowych to nie dostarczy, a ilościowe psuje. Odpowiedzi na pytania otwarte są zawsze lakoniczne, bo muszą się zmieścić w kilku wierszach. O rozbudowanych wnioskowaniach czy opisach nie może być mowy. Gdy respondent sam wypełnia kwestionariusz, stara się wyrazić swoją opinię jak najkrócej. To samo robi ankieter: nawet rozwiniętą wypowiedź sprowadza do dwóch lub trzech prostych zdań. Tak zredukowane odpowiedzi podlegają dalszej redukcji w fazie kodowania kwestionariusza. Kodowanie pytań otwartych wymaga, by badacz najpierw zapoznał się ze wszystkimi odpowiedziami i podzielił je na niewielką liczbę kategorii. Potem musi powtórnie przeczytać każdą odpowiedź i przypisać jej symbol kategorii. Im dłuższa, bardziej złożona lub niejasna jest odpowiedź, tym większa szansa, że zostanie zakodowana niezgodnie z intencją respondenta. Trafność tak zebranych danych jest zatem niewielka, znacznie zwiększa się natomiast czasochłonność analizy wyników. Pozycje zamknięte nie wymagają kodowania, lecz jedynie przeniesienia numeru zaznaczonej opcji na arkusz wyników. Coraz częściej używa się do tego celu czytników komputerowych, co skraca czas i eliminuje błędy. Jakkolwiek schematyczne byłyby dostarczone opcje odpowiadania, mamy pewność, że przetwarzamy dane pochodzące bezpośrednio od respondenta. Nie gwarantuje to, rzecz jasna, prawomocności wniosków, które wyprowadzamy z wyników badania. Ta prawomocność jest kwestią trafności kwestionariusza. Mówimy, że kwestionariusz jest trafny, jeśli dostarcza odpowiedzi, które pokrywają się z rzeczywistymi opiniami badanych. Nietrafność wynika przynajmniej z trzech źródeł: Pierwsze – to pytania, które wydają się respondentowi niezrozumiałe albo niejednoznaczne, lub wadliwe opcje odpowiadania (nierozłączne, niewyczerpujące). 148 Rozdział 7. Metody zbierania danych Drugie – to pytania, które odwołują się do wiedzy, zainteresowań lub doświadczeń niedostępnych respondentowi. Opcje „Nie wiem” lub „Nie mam zdania” często nie wystarczają, by powstrzymać od odpowiadania respondentów, którzy słabo orientują się w danej sprawie lub nie mają ukształtowanej opinii. Jak bardzo błędne mogą być wnioski z ankiety, przekonuje badanie Nalaskowskiego (1999). Uczestnikom kursu dla kierowników placówek oświatowych rozdał on ankietę z listą tytułów czasopism o tematyce edukacyjnej. Przy każdym tytule znajdowała się skala: „Czytam systematycznie – Czytam od czasu do czasu – Czytam rzadko – Nie czytam w ogóle”. Pewne czasopisma okazały się bardzo popularne, inne mniej, mimo że żadne nie istniało! Wśród prawie stu osób znalazły się tylko dwie sprawiedliwe, które odpowiedziały, że nie czytują żadnego. Kto może zagwarantować, że podobne badania, tyle że dotyczące istniejących czasopism, dają trafny obraz czytelniczych preferencji? Trzecie źródło nietrafności to pytania, które budzą poczucie zagrożenia: respondent nie udziela szczerej odpowiedzi ze strachu przed konsekwencjami. Jeśli nie ma dowodów, że badanych zadowoliła gwarancja anonimowości, wyniki takiego badania są bezwartościowe. Ale nawet gdy są takie dowody, wyniki mogą być wątpliwe, jeśli pytania pobudzają świadomość interesu grupowego. Jeśli za pomocą ankiety chcemy poznać na przykład obiektywne warunki pracy pewnej grupy zawodowej, musimy się liczyć ze skłonnością do przeceniania obciążeń i zaniżania dochodów, ponieważ przeczerniony obraz położenia tej grupy daje jej lepszą pozycję w negocjacjach z pracodawcą. Respondenci mogą też ukrywać naganne praktyki we własnej grupie zawodowej, etnicznej, wyznaniowej itp., tak by nie poniosła ona uszczerbku na prestiżu, jakim się cieszy w społeczeństwie. Rywalizacja grup społecznych o udział we władzy, prestiżu i dochodach wyznacza granice trafności, których nie może przekroczyć nawet najlepiej zbudowana ankieta. W niektórych podręcznikach wymaga się także, by kwestionariusz był rzetelny, to znaczy dostarczał odpowiedzi wewnętrznie spójnych. Spójność odpowiedzi radzi się określać za pomocą pytań sprawdzających, tzn. par pytań o podobnej treści, lecz odmiennej formie. Jeśli wielu badanych udziela na nie przeciwstawnych odpowiedzi, kwestionariusz uznaje się za nierzetelny. Wymóg ten trzeba uznać za wątpliwy, ponieważ opinie badanych wcale nie muszą być spójne. W pewnym badaniu opinii nauczycieli o projekcie reformy oświaty okazało się, że większość (50–90%) popiera poszczególne zmiany, ale tylko 17% uznaje, że projekt powinien być wprowadzony w życie. Zamiast oskarżać kwestionariusz o nierzetelność, lepiej uznać, że mamy tu do czynienia z interesującym zjawiskiem społecznym, które domaga się wyjaśnienia. Być może przy ogólnej ocenie projektu doszły do głosu inne czynniki: brak zaufania do kierownictwa resortu oświaty, przewidywanie niepożądanych skutków ubocznych (np. bezrobocia wśród nauczycieli) itp. Pomiar zmiennych nieobserwowalnych Wkraczając na ten zdradliwy teren, ustalmy najpierw nazewnictwo. Kto mówi o mierzeniu zmiennych nieobserwowalnych, dokonuje skrótu myślowego. W ścisłym sensie zmiennej nieobserwowalnej (konstruktu psychologicznego) nie Metody zbierania danych ilościowych 149 można zmierzyć, można ją tylko oszacować. W tym celu trzeba znaleźć pewne zmienne obserwowalne X1, X2, ..., Xn i wykazać, że pewna ich funkcja (najczęściej suma lub średnia) jest dobrym estymatorem zmiennej nieobserwowalnej θ, czyli że T(X1, X2, ..., Xn) → θ. Zbiór okazji pozwalających określić wartości zmiennych X1, X2, ..., Xn w konkretnym przypadku wraz z funkcją T nazywa się narzędziem pomiaru zmiennej nieobserwowalnej. W nazewnictwie wprowadzonym przez Nowaka (1970) estymator T(X1, X2, ..., Xn) nazywa się wskaźnikiem inferencyjnym. Możemy zatem powiedzieć, że wynik w teście inteligencji jest wskaźnikiem inteligencji, wynik w skali autorytaryzmu – wskaźnikiem autorytaryzmu itd. Taki język nie jest wyrazem pedanterii, lecz ostrożności, która zawsze powinna cechować badacza. Wszelkie mierzenie jest zagrożone przez błędy. Nawet w najprostszej obserwacji badacz może przeoczyć zdarzenie lub źle je zarejestrować. Takie błędy można wykryć, wprowadziwszy dodatkowych obserwatorów. Gdy jednak chcemy poznać wartość zmiennej nieobserwowalnej, mnożenie obserwatorów w niczym nie pomoże. Zawsze bowiem pozostaje możliwość, że wybrany przez nas wskaźnik nie wskazuje konstruktu, który ma wskazywać, lub jest obarczony tak dużym błędem, że jego wskazania są bezwartościowe. Pierwszą możliwość rozważa się przy badaniu trafności pomiaru, drugą przy badaniu jego rzetelności. Zajmiemy się tymi pojęciami w dalszej części tego rozdziału. Tu zauważmy tylko, że skoro szacowaniu zmiennej nieobserwowalnej towarzyszą tak poważne wątpliwości (i – dodajmy – realne niebezpieczeństwa, gdy tych szacunków używa się do podejmowania decyzji o ludzkich losach), nie dość podkreślania, że dzieli je przepaść od zwykłego mierzenia zmiennych obserwowalnych. Nie dość podkreślania i dlatego, że w badaniach i praktyce oświatowej nie brak niepoprawnych optymistów, którzy głoszą, że pomiar wiedzy ucznia jest (lub wkrótce się stanie) tak jasny i ścisły, jak pomiar jego wzrostu. Przechodząc do omówienia najważniejszych narzędzi pomiaru wewnętrznych zmiennych nieobserwowalnych, podzielimy je ze względu na to, czy mierzą kompetencję (co ktoś potrafi), czy preferencję (co ktoś woli, do czego ma skłonność). Mierzenie kompetencji odwołuje się do analizy wytworów pracy osoby badanej w sytuacji zadaniowej stworzonej przez badacza. Sytuację tę określają: instrukcja, zadania i wzory poprawnego wykonania. Dokładnie więc wiadomo, gdzie siedzi badany, a gdzie badacz, co mówi badacz do badanego, kiedy może dać mu wskazówkę, a kiedy nie, i jak długo trwa badanie. Wiadomo, jakie zadania badany wykonuje i jak oceniane jest to wykonanie. Badany pracuje w warunkach standardowych, dzięki czemu osiągnięty przezeń wynik jest porównywalny z wynikiem innego badanego, a jeśli wcześniej przeprowadzono standaryzację narzędzia – także z wynikami populacji, do której należy. Ujednoliconą procedurę pobierania próbki określonego zachowania się i przyporządkowywania tej próbce liczby (wyniku surowego) nazywa się – zgodnie z pierwotnym znaczeniem tego słowa8 – testem (test to po angielsku tyle, co próba Pojęcie testu psychologicznego było zrazu (w końcu XIX w.) ograniczone do narzędzi mierzących zdolności umysłowe. 8 150 Rozdział 7. Metody zbierania danych czy sprawdzian). Wprawdzie w psychologii testami nazywa się też inne narzędzia, np. tzw. testy projekcyjne (test plam atramentowych Rorschacha, test apercepcji tematycznej Murraya, testy zdań niedokończonych i wiele innych), ale od razu widać, że nie spełniają one podstawowego kryterium próby: nie składają się z zamkniętych zadań, lecz z bodźców (plam, obrazków, trzonów zdaniowych), na które można reagować na wiele sposobów. Nie mierzą one zatem tego, co człowiek potrafi zrobić, lecz to, do czego jest skłonny, i dlatego należą do rodziny skal psychologicznych, o których dalej. Mierzenie preferencji odwołuje się do analizowania relacji (wypowiedzi sprawozdawczych) wytworzonych przez osobę badaną na żądanie badacza. Na jakiej podstawie z jawnych relacji wolno wnioskować o nieobserwowalnej preferencji – to sprawa kontrowersyjna. Jedni zakładają, że człowiek jest świadomy własnych stanów psychicznych i potrafi wydawać o nich sądy. Zgodnie z tym stanowiskiem skale psychologiczne należałyby do technik introspekcyjnych. Wypełnienie skali byłoby równoważne wywiadowi, w tym sensie że badany relacjonowałby to, co wie o samym sobie, a diagnostyczność relacji byłaby sprawą jej prawdziwości, tj. zgodności z wynikami samoobserwacji. Inni, zwłaszcza Eysenck (1965), zaliczają skale do metod behawioralnych, takich jak testy. Odpowiedź traktuje się tu jak reakcję na bodziec (pozycję), a jej diagnostyczność wiąże nie tyle ze zgodnością z samowiedzą badanego, ile z tym, że ta reakcja obiektywnie różnicuje populację pod względem mierzonej zmiennej. Na przykład twierdzącą odpowiedź na pytanie: „Czy cierpisz na bezsenność?” uważa się za objaw neurotyczności po prostu dlatego, że w populacji osób skądinąd uznanych za neurotyków występuje ona znacznie częściej niż w populacji osób nieneurotycznych. Nie próbując rozstrzygnąć tego sporu, zauważmy tylko, że główną różnicę między skalą a wywiadem stanowi stopień standaryzacji warunków, w których badany wytwarza swój tekst. W przypadku skali zarówno same pytania, jak i ich kolejność są z góry określone, a odpowiedzi ograniczone do prostego „tak”, „raczej tak” itd. Dąży się do tego, by odpowiedzi były udzielane bez głębszego namysłu: często zaleca to wprost instrukcja, a wymusza duża liczba pytań. Dąży się też, by badani nie dociekali, co jest przedmiotem pomiaru: służą temu specjalne pytania dezorientujące. Wskutek tego wynik pomiaru nie ma bezpośredniego sensu dla samego badanego, a skoro tak, to nie może być traktowany jako rekonstrukcja jego samowiedzy. Wynik ten wykracza poza to, co człowiek wie o samym sobie, a jego prawomocność opiera się na procedurze budowania skali, nie zaś na potwierdzeniu ze strony badanego. Z drugiej strony, trudno uznać zbiór odpowiedzi za próbkę zachowania się badanego w realnych sytuacjach. Behawioralny pomiar neurotyzmu wymagałby postawienia badanego w sytuacji zagrożenia lub wyzwania i obserwowania, jak się z nią zmaga. Stanowisko Eysencka sugeruje, że to, co ludzie czują i robią, oraz to, co mówią o swoich uczuciach i czynach, mieści się w tej samej klasie zjawisk, z czym trudno się zgodzić. Bezpieczniej uznać, że zachowania i relacje mają wspólne źródło (psychologiczny „generator”). Wskutek tej wspólnoty pochodzenia odpowiedzi na pozycje skali są czymś więcej niż dowolną relacją o Metody zbierania danych ilościowych 151 fikcyjnym podmiocie, ale czymś mniej niż fotografią minionego zachowania się realnego podmiotu. Testy Testy to narzędzia pomiaru kompetencji motorycznych, percepcyjnych i umysłowych. Wynikiem testowania jest zbiór poprawnych lub niepoprawnych rozwiązań zadań testowych. Dzięki specjalnej procedurze doboru zadań zbiór ten można traktować jako próbkę jawnych dokonań badanego, z której wnioskuje się o jego niejawnej kompetencji. Testy ogólnych zdolności i umiejętności. Prototypem testu jest indywidualny test inteligencji, jednowymiarowy (np. Stanfordzka skala inteligencji Bineta) lub wielowymiarowy (np. Skala inteligencji Wechslera). W nieco niższej cenie są grupowe testy inteligencji (np. polski APIS) oraz testy zdolności umysłowych (np. Test matryc Ravena). Są też indywidualne i grupowe testy szczególnych zdolności, np. matematycznych, plastycznych czy muzycznych. O testach wyczerpująco piszą Anastasi i Urbina (1999). Przegląd testów używanych w szkolnictwie amerykańskim dają Eby i Smutny (1998, rozdz. 4). W badaniach oświatowych często mierzy się ogólne i szczególne zdolności uczniów. Trzeba jednak pamiętać, że: • Taki pomiar wymaga kwalifikacji, które posiada jedynie psycholog. Jeśli chcemy mieć rzetelne wyniki WAIS-R czy APIS, powinniśmy zatrudnić praktykującego psychologa. • Proste w użyciu grupowe testy zdolności umysłowych (np. Test matryc Ravena) nie przez wszystkich są uważane za testy inteligencji. • Wynik testowania zdolności oblicza się na podstawie norm ustalonych w badaniu standaryzacyjnym na próbce reprezentującej określoną populację. Wobec osób niepochodzących z tej populacji normy nie mogą być stosowane. Jest więc błędem posługiwać się w Polsce testem, który został wystandaryzowany na przykład na próbce dzieci amerykańskich. Testy osiągnięć szkolnych. Testy osiągnięć dzieli się na standaryzowane i niestandaryzowane. W pierwszych rozkład wyników w populacji jest znany, w drugich, do których należą narzędzia wytwarzane przez samych nauczycieli – nie. Różnica między testami zdolności a standaryzowanymi testami osiągnięć nie jest ostra, ale uchwytna. Pierwsze mierzą spontaniczne, czyli niećwiczone przejawy kompetencji. Dlatego układa się je z zadań możliwie nowych dla wszystkich badanych. Jeśli ten warunek nie jest spełniony w odniesieniu do pewnej kategorii osób, test uważa się za stronniczy. Testy osiągnięć szkolnych mierzą wyniki zorganizowanego uczenia się, odnoszą się więc do celów kształcenia. Ich związek z programem kształcenia bywa różny. Najsilniej związane z programem są testy koncentrujące się na wiadomościach, słabiej – testy umiejętności szkolnych (basic skills), najsłabiej – testy szczególnych zdolności szkolnych (academic aptitudes), czyli możliwości uczenia się szczególnych umiejętności, np. matematycznych czy muzycznych. W Polsce za sprawą Niemierki (1990) wielkie znaczenie przykłada się do podziału testów osiągnięć wedle tego, do czego odnosi się wynik testowania: do roz- 152 Rozdział 7. Metody zbierania danych kładu wyników w populacji (norm-referenced) czy do ustalonego z góry kryterium dydaktycznego (criterion-referenced). Podział ten ma charakter raczej ideologiczny niż naukowy (testy pierwszego rodzaju są rzekomo złe, a drugiego – dobre). Łatwo jednak zauważyć, że nie ma zasadniczej różnicy między rozkładem wyników a kryterium, ponieważ kryterium (wzór wykonania) nigdy nie jest ustalane niezależnie od rozkładu. Nie ma też zasadniczej różnicy między dwiema interpretacjami wyniku testowania: „Jan opanował 40% wymagań programowych” i „Jan uzyskał wynik lepszy niż 30% jego rówieśników”. W obu przypadkach wynik ma charakter ilościowy: nie mówi, co Jan potrafi, a czego nie, lecz ile potrafi. Jedyna różnica między oboma rodzajami testów tkwi w stosunku do programu kształcenia. Test odniesiony do kryterium jest silniej związany z materiałem nauczania, ponieważ składa się z tych samych lub analogicznych zadań jak te, nad którymi uczniowie biedzili się w klasie. Mówi więc, w jakim stopniu uczeń opanował to, czego go uczono, ile wziął od nauczyciela. Test odniesiony do rozkładu mówi natomiast, ile uczeń wie i potrafi, niezależnie od tego, co jest źródłem tej wiedzy: szkoła, dom rodzinny, wrodzone zdolności itd. Uwolnienie programów kształcenia spod kontroli resortu oświaty ogranicza zastosowanie testów odniesionych do kryterium do wewnątrzszkolnego oceniania osiągnięć. Testy zewnętrzne (okręgowe) muszą być odniesione do rozkładu, ponieważ nie sposób uzgodnić jednego kryterium dla tysięcy szkół. Na koniec warto zauważyć, że osiągnięcia szkolne próbuje się też poznawać i oceniać za pomocą metod jakościowych. Należy do nich angielski rejestr osiągnięć (por. rozdz. 4), często wraz z portfolio (teczką najlepszych prac ucznia). W Polsce to podejście niebezpiecznie degeneruje się w „ocenę opisową”, która zastępuje tradycyjny stopień stereotypową frazą. Skale psychologiczne Termin „skala” jest dwuznaczny. Skalą nazywa się cały przyrząd pomiarowy (niegdyś skalą nazywano zwykłą wagę), ale też uporządkowane opcje odpowiadania (np. nigdy – rzadko – często – zawsze). Wskutek tej dwuznaczności nie zawsze wiadomo, co ma na myśli badacz, gdy mówi: „Stworzyłem skalę poczucia szczęścia” – czy zbudował długi kwestionariusz o ustalonej rzetelności i trafności, czy tylko wymyślił jedno pytanie: „Jak czułeś się w ciągu ostatniego tygodnia?” i dołączył skalę odpowiedzi: „bardzo nieszczęśliwy – nieszczęśliwy – ani szczęśliwy, ani nieszczęśliwy – szczęśliwy – bardzo szczęśliwy”. Ten drugi przypadek będziemy nazywać skalą szacunkową, rezerwując nazwę „skala psychologiczna” dla narzędzi, które mierzą zmienne nieobserwowalne na podstawie odpowiedzi badanego na szereg pozycji. Inwentarze osobowości. Wśród skal królują inwentarze osobowości, a wśród inwentarzy Minnesocki wielowymiarowy inwentarz osobowości (MMPI). Jest to zbiór 550 pozycji: stwierdzeń (np. „Gdy jestem sam, słyszę dziwne głosy”) i opcji odpowiadania („prawda – fałsz – nie potrafię powiedzieć”), standaryzowany w populacjach USA i wielu innych krajów (ale nie w Polsce). Zbiór pozycji dzieli się na 12 skal (m.in. hipochondrii, depresji, histerii) i sporą resztę bez przydziału. Metody zbierania danych ilościowych 153 Wycinając rozmaite podzbiory, stworzono wiele skal pojedynczych cech osobowości (np. Skala objawów lęku Taylor). Popularnym inwentarzem jest także Szesnastoczynnikowy kwestionariusz osobowości Cattella, adaptowany w Polsce przez M. Nowakowską. W badaniach oświatowych najczęściej stosuje się inwentarze Eysencka (zwłaszcza MPI i PEN). W te i inne inwentarze doskonale wprowadza Sanocki (1976). Skale postaw. Postawą nazywa się trwałą skłonność do aprobowania lub dezaprobowania określonego przedmiotu. Przedmiotem postawy może być dowolny element świata społecznego: człowiek, grupa, organizacja, instytucja, a także ich stany i wytwory. W postawie zawiera się ocena i afekt – aprobować obiekt znaczy zarazem uważać go za dobry (słuszny, pożyteczny, piękny itd.) i lubić go. Dawniej sądzono, że postawa kontroluje też sposób postępowania wobec przedmiotu w realnych sytuacjach, ale rzecz okazała się bardziej złożona. Trzeba pamiętać, że termin „postawa” ma sens tylko z przydawką: „postawa wobec uczenia się matematyki”, „postawa wobec religii”. Kto rozprawia o negatywnych albo nihilistycznych postawach współczesnej młodzieży, nie używa terminu w naukowym sensie. Zmierzyć czyjąś postawę wobec czegoś to tyle, co przekształcić zbiór odpowiedzi badanego na pozycje skali w pojedynczy wskaźnik aprobaty dla tego czegoś. Formuła tego przekształcenia jest integralną częścią każdej skali postawy. Tworzy się ją w fazie konstrukcji narzędzia. Historycznie pierwsze skalowanie pochodzi od L. L. Thurstone’a. W tej metodzie najpierw zbiera się jak najwięcej stwierdzeń tak związanych z przedmiotem postawy, że ich uznanie lub odrzucenie świadczy o skłonności do aprobowania lub dezaprobowania przedmiotu. Stwierdzenia te daje się następnie dużej liczbie osób („sędziów”) z prośbą, by je posortowały na 11 grup w zależności od tego, jak silną aprobatę lub dezaprobatę przedmiotu wyraża uznanie każdego z nich. Dla każdego stwierdzenia oblicza się jego „wartość skalową” (medianę szacunków sędziów) oraz miarę niejednoznaczności Q, czyli wielkość zróżnicowania szacunków poszczególnych sędziów (połowę różnicy między trzecim a pierwszym kwartylem rozkładu szacunków). Do skali włącza się stwierdzenia o najmniejszych Q, ale tak, by uwzględnić wszystkie wartości skalowe. Pozycje, czyli stwierdzenia wraz z dwiema opcjami odpowiadania („zgadzam się – nie zgadzam się”), drukuje się w porządku losowym. Formuła przekształcenia odpowiedzi na wskaźnik postawy jest prosta: trzeba wziąć średnią lub medianę z wartości skalowych wybranych pozycji. Można też obliczyć, jak bardzo zróżnicowane są te wartości, i uznać wynik za wskaźnik ukształtowania postawy. Częściej stosuje się skalowanie metodą R. Likerta. Początek jest podobny: trzeba zebrać dużą pulę stwierdzeń. Dodając do każdego stwierdzenia 5 opcji odpowiadania (od „zdecydowanie się zgadzam” do „zdecydowanie się nie zgadzam”), układamy z nich pierwszą wersję kwestionariusza i dajemy do wypełnienia dużej grupie badanych. Przydajemy opcjom arbitralne wagi od 1 do 5, znajdujemy rozkład odpowiedzi na każdą pozycję, wynik jako ważoną sumę odpowiedzi oraz wkład pozycji do wyniku wyrażony współczynnikiem korelacji. Pozycje o silnie skośnych 154 Rozdział 7. Metody zbierania danych rozkładach lub słabo skorelowane z wynikiem zostają odrzucone. Nowa wersja kwestionariusza powinna być sprawdzona w osobnym badaniu pilotażowym. Postawa wydaje się „płytszym” pojęciem niż cecha osobowości, toteż często próbuje się mierzyć postawy za pomocą ankiety. To mniemanie jest fałszywe: konstruowanie skali postawy nie różni się od konstruowania skali cechy osobowości, zresztą pewne cechy osobowości (np. autorytaryzm) definiuje się jako zespół postaw. Błędne jest zatem używanie ankiety do pomiaru postawy. Trzeba pamiętać, że ankieta udostępnia nam zbiór opinii badanego, których nie można dodawać w obrębie jednego kwestionariusza. Powiedzmy, że zadaliśmy trzy pytania o opinię w sprawie reformy oświaty. Jest jasne, że twierdząca odpowiedź na trzy pytania nie musi oznaczać silniejszej aprobaty dla reformy niż twierdząca odpowiedź na dwa – to dopiero trzeba by udowodnić. W odniesieniu do skali postawy taki dowód stanowi procedura jej konstruowania. Więcej o postawach i ich mierzeniu znajdzie czytelnik u Marody (1976). Dyferencjał semantyczny. Dyferencjał semantyczny Osgooda też mierzy postawy wobec obiektu, ale w bardziej złożonej przestrzeni znaczeniowej. Zwykle ma ona trzy wymiary: dobry–zły, silny–słaby i czynny–bierny. Narzędzie składa się z pewnej liczby dwubiegunowych, najczęściej siedmiostopniowych skal szacunkowych. Oto fragment 24-pozycyjnego dyferencjału przeznaczonego do mierzenia afektywnych znaczeń („konotacji”), jakie badany wiąże z określonymi osobami (np. ze swoim wychowawcą): stanowczy przeciętny gładki ustępliwy wybitny szorstki Narzędzie to daje 4 wskaźniki „współrzędnych” osoby będącej przedmiotem opisu w przestrzeni o 4 wymiarach: dobry–zły, silny–słaby, czynny–bierny, atrakcyjny–nieatrakcyjny. Należy zwrócić uwagę, że dyferencjał nie jest dowolnym zbiorem dwubiegunowych skal szacunkowych, lecz narzędziem, które, podobnie jak inne skale psychologiczne, wymaga uprzedniego wyskalowania. Konstruowanie dyferencjału przebiega w kilku krokach. Najpierw tworzy się wstępną pulę przymiotników luźno związanych z przedmiotem. Można je wybrać ze słownika lub z istniejących narzędzi. Można też wyłonić w badaniu pilotażowym, prosząc badanych, by podali wiele określeń przedmiotu interesującej nas postawy (w naszym przykładzie: ludzi). Dodanie do przymiotników ich antonimów przekształca je w pozycje pierwszej wersji narzędzia. W badaniu pilotażowym pewna liczba osób (co najmniej pięciokrotnie większa niż liczba pozycji) stosuje narzędzie do oceny kilkunastu obiektów (w naszym przykładzie było to 15 ról, np. przyjaciel, egzaminator, ksiądz). Trójwymiarową macierz wyników (skale × role × badani) redukuje się do dwuwymiarowej (skale × role) i poddaje analizie głównych składowych z rotacją ortogonalną. Wynik tej analizy pokazuje, ile wymiarów znaczeniowych ujmuje narzędzie (nie zawsze pojawia się trójca Osgooda) i jakie pozycje należą do każdego wymiaru. Usuwając pozycje zbędne lub wieloznaczne, otrzymujemy ostateczną postać dyferencjału: Metody zbierania danych ilościowych 155 zbiór skal i metodę przekształcania odpowiedzi we wskaźniki położenia ocenianego obiektu na wyodrębnionych wymiarach. Reptest. W typowej wersji reptest służy do usytuowania zbioru przedmiotów w przestrzeni, której wymiary określa sam badany. Załóżmy, że interesują nas postawy ucznia wobec kilkunastu konkretnych osób z jego grupy. Najpierw przedstawiamy badanemu troje tych osób z prośbą, by znalazł taką cechę, którą dwie z nich mają, a trzecia nie. Inne trójki prowadzą do wyłonienia innych cech. Cechy uzupełnione przez samego badanego antonimami tworzą skale szacunkowe, na których badany ocenia wszystkie osoby. Dane można analizować pod kątem skal (na ilu i jakich wymiarach badany sytuuje kolegów?) lub pod kątem osób (czym różni się postawa wobec Jana od postawy wobec Piotra?). Metoda nie pozwala porównywać postaw różnych badanych wobec tego samego przedmiotu, więc ma zastosowanie głównie w badaniach indywidualizujących. Metody epizodów. Metody epizodów (vignette) sytuują się między skalami psychologicznymi a metodami projekcyjnymi. Badanemu przedstawia się pewien epizod w formie słownego opisu lub ilustracji graficznej, pozbawiony wieloznaczności czy niejasności. Zadaniem badanego jest odpowiadanie na standardowe pytania, a nie snucie własnej narracji. Odpowiedzi są przekształcane w wynik według wcześniej opracowanej formuły. Narzędzia tego rodzaju są często stosowane w psychologii rozwojowej do badania pojęć dziecka. Oto fragment techniki służącej poznawaniu sądów moralnych (adaptowane z Piageta, 1967): Przeczytam ci kilka opowiadań. Te opowiadania są o dzieciach, o tym, co one robiły w domu, w szkole i podczas wakacji. Po każdym opowiadaniu porozmawiamy o zachowaniu tych dzieci. Zrozumiałeś? To posłuchaj pierwszego opowiadania o dwóch dziewczynkach. Rodzice Ani musieli zaraz po obiedzie wyjść z domu. Ania chce pomóc mamie i postanawia pozmywać naczynia. Podchodzi do zlewu, bierze duży talerz i zaczyna go myć. Ale talerz wyślizguje się z rąk, spada na inne naczynia w zlewie i tłucze 6 kubeczków. Powiedz, co zrobiła Ania. Inna dziewczynka, Paulina, chciała się bawić w sklep ze swoją siostrą. Ale siostra chciała robić coś innego. Paulina jest bardzo niezadowolona. Wchodzi do kuchni i widzi, że na samym brzegu stołu stoi ulubiony kubeczek siostry. Paulina leciutko trąca go łokciem. Kubeczek spada i rozbija się. Powiedz, co zrobiła Paulina. Która dziewczynka była bardziej niegrzeczna: Ania czy Paulina? Po czym to poznałeś? Czyja mama będzie się bardziej gniewać na swoją córeczkę? Dlaczego? Która mama bardziej ukarze swoją córeczkę? Dlaczego? Celem dwóch pierwszych pytań jest sprawdzenie, czy dziecko zrozumiało tekst. Następne sondują pojęcie intencji. Odpowiedzi podlegają kodowaniu według formuły opracowanej na podstawie badania pilotażowego: A: Paulina była bardziej niegrzeczna. Mama będzie się bardziej gniewać na Anię, ale bardziej ukarze Paulinę. B: Paulina była bardziej niegrzeczna. Mama będzie się bardziej gniewać na Paulinę i bardziej ją ukarze. 156 Rozdział 7. Metody zbierania danych C: Paulina była bardziej niegrzeczna lub Ania była bardziej niegrzeczna. Mama będzie się bardziej gniewać na Anię i bardziej ją ukarze. A, B, C są wartościami zmiennej porządkowej „rozumienie roli intencji w ocenie moralnej czynu”. Opisane narzędzie jest przykładem otwartej odmiany metody epizodów, ponieważ pozwala badanemu swobodnie formułować odpowiedzi. Ta swoboda jest jednak pozorna, ponieważ odpowiedzi diagnostyczne są z góry określone. Jeśli badany udziela odpowiedzi „obok” definicji wartości pomiarowych (co uważa się za błąd metody), badacz stara się go sprowadzić na właściwe tory przez przypomnienie treści epizodu i zadawanie uściślających pytań. Dlatego zaliczanie metody epizodów do metod zbierania danych jakościowych jest bezpodstawne. W odmianie zamkniętej swoboda badanego jest jeszcze bardziej ograniczona: ma on bowiem albo wybrać najwłaściwszą odpowiedź spośród dostarczonych opcji, albo uszeregować te opcje od najwłaściwszej do najmniej właściwej. W wielu tradycjach pomiarowych często zaczyna się od wersji otwartej (np. Ocena dojrzałości moralnej Kohlberga), a kończy na zamkniętej (Test kluczowych zagadnień Resta). Metody projekcyjne Metody projekcyjne opierają się na założeniu projekcji, które w sformułowaniu pochodzącym od Freuda głosi, że człowiek wyrzuca z własnej świadomości swoje uczucia i pragnienia, przypisując je zewnętrznym obiektom świata społecznego. Człowiek o silnej skłonności do agresji widziałby więc dookoła siebie więcej agresywnych ludzi i interakcji niż człowiek łagodny i życzliwy innym. Jeśli to założenie jest prawdziwe, to prosząc badanego, by opisał to, co widzi w bodźcu mającym nieokreślone lub niejasne znaczenie, możemy dowiedzieć się tego, czego ujawnić nie chce lub nie potrafi, bo niedostatecznie zna samego siebie (Rembowski, 1975). Podobny mechanizm miałby działać przy rysowaniu (Braun-Gałkowska, 1985; Frydrychowicz, 1984). Projekcja jest przedmiotem stałej krytyki. Można z niej wysnuć przynajmniej dwa wnioski. Po pierwsze, właściwym polem zastosowań metod projekcyjnych jest raczej praktyka kliniczna niż badania naukowe. Gdy trzeba postawić diagnozę osobowości klienta, metody te mogą być cennym uzupełnieniem wiedzy pochodzącej z innych źródeł. Nie możemy jednak na nich polegać, gdy chcemy porównywać cechy osobowości w dużych, anonimowych próbkach. Po drugie, metody, które psychologowie-klinicyści uważają za pomocne w stawianiu diagnozy (Test plam atramentowych Rorschacha, Test apercepcji tematycznej Murraya), wymagają długiego szkolenia i wieloletniej praktyki. Natomiast metody łatwe w użyciu (np. Test kolorów Lüschera, a zwłaszcza metoda niedokończonych zdań) dają wyniki zawodne. Wypada więc stwierdzić, że metod projekcyjnych nie należy stosować poza badaniami indywidualizującymi, a i w tych badaniach należy je powierzyć praktykującym psychologom. W przeważającej liczbie badań pedagogicznych na metody projekcyjne nie ma więc miejsca. Należy to uświadamiać zwłaszcza przygodnym badaczom (np. studentom przygotowującym prace dyplomowe), którzy często żywią irracjonalne przekonanie, że pokazawszy dziecku kilka obrazków, odkryją ta- Metody zbierania danych ilościowych 157 jemnice jego duszy. Ponieważ rzetelność odpowiedzi dziecka jest niska, a ich trafność nieokreślona, o interpretacji wyników badania decydują zwykle stereotypy lub osobiste preferencje badacza. Z nauką nie ma to nic wspólnego. Pomiar behawioralny Pozostaje omówić obszerną klasę metod zbierania danych o preferencjach, które polegają na tym, że pobiera się próbkę zachowania się osoby badanej w specjalnie stworzonej sytuacji. Jeśli chcemy oszacować skłonność badanego do działania na rzecz innej osoby, możemy zbudować skalę psychologiczną altruizmu, ale możemy też postąpić inaczej: prosić go, by wykonywał żmudne zadanie na przemian dla siebie i dla innej osoby. Jeśli w sesjach, które idą na rachunek innej osoby, badany uzyskuje gorsze wyniki, możemy twierdzić, że nie zachowuje się on altruistycznie – przynajmniej w tej sytuacji. Pomiar behawioralny zastosowali też H. Hartshorne i M. May, by stwierdzić, czy badany zdoła się oprzeć pokusie oszukiwania. Takie metody uchodzą za wysoce wiarygodne, ponieważ opierają się na tym, co człowiek rzeczywiście robi, a nie na tym, co mówi, że robi lub chciałby robić. Metody behawioralne wymagają stworzenia specjalnej sytuacji, co bywa kłopotliwe technicznie, a czasem wątpliwe moralnie. Pewna doktorantka, chcąc zmierzyć odporność uczniów na pokusę, zaplanowała coś, co prawnik nazwałby prowokacją. Nauczyciel miałby zarządzić klasówkę, a po zebraniu prac pokazać na tablicy poprawne rozwiązania zadań. W trakcie omawiania rozwiązań miał być wezwany do telefonu. Badaczka założyła, że niektórzy uczniowie wykorzystają nieobecność nauczyciela, by podejść do jego stolika, odszukać swoją klasówkę i poprawić ją. O tym, którzy to zrobią, miała powiedzieć ukryta kamera. Metoda ta została odrzucona przez radę wydziału, ponieważ zakładała, że nauczyciel będzie oszukiwał uczniów, co z pewnością nie mieści się w jego roli społecznej. Co gorsza, są dowody, że każdy akt poddania się pokusie demoralizuje jednostkę, tzn. toruje poddanie się przyszłym pokusom. Mierząc, badaczka szkodziłaby więc uczniom. Pomiar przez pośredników. By uniknąć tych trudności, często stosuje się odmianę metody behawioralnej, która polega na tym, że zamiast tworzyć sytuację i obserwować zachowanie się badanego, badacz odwołuje się do spostrzeżeń pośredników: osób mających wiele okazji, by obserwować badanego w sytuacjach naturalnych. Do tej odmiany można zaliczyć inwentarze zachowania, np. popularny Inwentarz zachowania się dziecka w przedszkolu i szkole Schaefera i Aaronson, który wypełnia nauczyciel. Inwentarz różni się od skal szacunkowych tym, że nie dowierza się tu pojedynczej opinii obserwatora, lecz wykorzystuje wiele spostrzeżeń i buduje wskaźniki w sposób właściwy dla skal psychologicznych. Tu mieszczą się też metody nominacyjne, które odwołują się do przeszłych spostrzeżeń rówieśników, a nie nauczyciela. Uczniowie dostają kwestionariusz z pytaniami typu: „Kto podczas odpowiedzi łatwo rezygnuje ze swego zdania, daje się «zbić z tropu» przez nauczyciela?” i mają wpisać nazwiska koleżanek i kolegów. Jest oczywiste, że pomiar przez pośredników nie jest równoważny pomiarowi behawioralnemu. Na wynik inwentarza zachowania wpływają uprzedzenia nauczyciela oraz skłonność do uzupełniania luk we własnym doświadczeniu. Trudno za- 158 Rozdział 7. Metody zbierania danych łożyć, że nauczyciel mógł zaobserwować i zapamiętać każde zachowanie, o którym mowa w inwentarzu – gdy pamięć nie podsuwa mu odpowiedzi, po prostu domyśla się, co uczeń mógłby zrobić. To prawdopodobnie tłumaczy niezwykle wysokie współczynniki rzetelności takich inwentarzy. Ale jeśli tak, to wynik pomiaru reprezentuje zarazem zachowanie się ucznia i nauczycielską „teorię” tego ucznia. W metodzie nominacyjnej wynik też zależy od indywidualnych skłonności obserwatorów (np. projekcji), choć można je kontrolować przez agregowanie sądów. Zależy też od skłonności całej grupy, których kontrolować nie sposób. Niemniej jeśli interesująca nas zmienna nie pobudza stereotypów i jest zdefiniowana w sposób wysoce konkretny, a wynik jest wyrażony w grubej skali (tj. mającej tylko dwie lub trzy wartości), metoda nominacyjna może dawać wiarygodne wyniki, oszczędzając godzin obserwacji. Socjometria. Nazywa się tak za J. L. Moreno metodę nominacyjną mającą na celu odtworzenie stosunków interpersonalnych w grupie. Najczęściej chodzi o stosunki atrakcyjności (lubienie – nielubienie) i prestiżu (liczenie się – nieliczenie). Socjometria różni się od metod pomiaru postaw interpersonalnych tym, że zmierza do stwierdzenia nie tyle, kogo lubi Piotr, ile kto lubi Piotra; dokładniej – jaką pozycję zajmuje każdy członek grupy pod danym względem, w jakim stosunku pozostaje względem pozostałych. W tym sensie metody socjometryczne należą do pomiaru behawioralnego przez pośredników. Rzeczywiście – zamiast pytać uczniów, z kim chcieliby siedzieć przy jednym stoliku, moglibyśmy stworzyć rzeczywistą sytuację wyboru i obserwować, kto wybierze Jana, Marię itd. Moglibyśmy też obserwować interakcje wszystkich par członków grupy i dojść do wniosku, że Piotr i Ania przyjaźnią się, ale Piotr zabiega też o względy Zosi, której nie lubi Ania itd. Jednak w przypadku licznej grupy jest to niewykonalne. Metoda socjometryczna jest łatwa w stosowaniu i przynosi wiele cennych danych; niestety, trudno je w pełni zanalizować. Najprościej obliczyć wskaźniki pozycji społecznej poszczególnych uczniów i znaleźć „gwiazdy”, odrzuconych i izolowanych. Gorzej z odtworzeniem struktury społecznej, czyli podziału zbiorowości na mniejsze grupy. O szczegółach tej popularnej wśród pedagogów metody piszą Pilkiewicz (1973) i Szmatka (1989). Trafność i rzetelność pomiaru zmiennych nieobserwowalnych Wspomniałem już, że mierzeniu (a właściwie szacowaniu) zmiennej nieobserwowalnej zawsze towarzyszą dwie wątpliwości. Pierwsza dotyczy tego, czy wybrany przez nas wskaźnik inferencyjny rzeczywiście wskazuje zmienną, która nas interesuje. Druga dotyczy tego, czy wskaźnik ma dostatecznie małą wariancję błędu, by móc wierzyć jego wskazaniom. Są to, odpowiednio, pytania o trafność i rzetelność pomiaru. Trafność Trafność wskaźnika jest tym większa, im bardziej wskazuje on to i tylko to, co ma wskazywać. Pytanie o trafność jest ważniejsze i trudniejsze do rozstrzygnięcia niż Trafność i rzetelność pomiaru zmiennych nieobserwowalnych 159 pytanie o rzetelność. Nie wdając się w szczegóły (pisze o nich Brzeziński, 1997), wyróżnimy trzy sposoby odpowiadania na to pytanie. Kryterium. Jeśli wiemy, że ze zmienną nieobserwowalną, którą ma mierzyć nasze narzędzie, jest skorelowana jakaś zmienna obserwowalna, to możemy użyć tej zmiennej jako kryterium trafności narzędzia. Powiedzmy, że zbudowaliśmy test inteligencji społecznej. Jeśli naprawdę mierzy on inteligencję społeczną, to praktykujący psychologowie powinni w nim uzyskiwać wyższe wyniki niż inżynierowie. Nowy test szczególnych zdolności matematycznych uznamy za trafny, jeśli jego wyniki okażą się silnie skorelowane ze średnią cząstkowych stopni z matematyki (teraz lub lepiej w następnej klasie). Często kryterium trafności nowego narzędzia jest inne, już opracowane narzędzie. Można by wtedy zapytać, po co badacz trudził się budowaniem nowego, zamiast wziąć stare. To rozsądne pytanie w obliczu inflacji pojęć psychologicznych i narzędzi pomiaru. Ponieważ powiększa ona niejasność naszej wiedzy, inwencja badaczy powinna mieć jakąś granicę. Jest nią wymóg, by w badaniu trafności nie tylko wykazać, że wyniki nowego narzędzia są skorelowane z wynikami pewnych narzędzi, ale także że nie są skorelowane z wynikami innych narzędzi, tzn. że nowe narzędzie nie powiela pod inną nazwą już istniejących. Nie trzeba dodawać, że w wielu przypadkach znalezienie kryterium jest nadzwyczaj trudne. Jeśli mamy nową skalę lęku, możemy eksperymentalnie wywołać poczucie zagrożenia w jednej grupie, a odprężenia w drugiej i dać ją badanym do wypełnienia. Jeśli w pierwszej grupie wyniki będą znacznie wyższe niż w drugiej, wskazuje to, że nasza skala ma coś wspólnego z lękiem. Gdzie jednak szukać kryterium trafności skali postawy? Dyskusje, co naprawdę mierzy ta a ta skala, mogą się ciągnąć latami. Teoria. Zmienna nieobserwowalna, którą usiłujemy mierzyć, ma – a przynajmniej powinna mieć – swoją interpretację teoretyczną jako pojęcie, czyli, jak się często mówi, „konstrukt”. Znając ją, możemy wstępnie ocenić trafność narzędzia przez analizę treści jego pozycji. Z tego właśnie powodu należy w doniesieniu z badania zacytować kilka typowych pozycji skali. Jeśli teoria mówi, co składa się na pojęcie (np. inteligencji), to jego wskaźnik też powinien się składać ze wskaźników cząstkowych, a empiryczne relacje między nimi powinny być takie, jak zakłada teoria. Szczególnie przekonuje do trafności narzędzia wykazanie, że jego wyniki potwierdzają nieoczywiste przewidywania wyprowadzone z teorii. Załóżmy, że pewna teoria umysłu przewiduje istnienie szczególnej zdolności interpersonalnej, która wpływa na przebieg interakcji kształcących. Jeśli zbudowaliśmy test tej zdolności i daliśmy go do wykonania nauczycielom, możemy zbadać jego trafność przez obliczenie współczynnika korelacji z testem inteligencji (powinna być niska) i postawą uczniów wobec uczenia się (powinna być wysoka). Jak widać, teoria, w której osadzone jest mierzone pojęcie, wskazuje kryteria trafności narzędzia. Z tego punktu widzenia odrębność kryteriów, o których mówiliśmy wcześniej, polegałaby jedynie na ich zdroworozsądkowym charakterze. Treść. Warto zauważyć, że ani zdroworozsądkowe, ani teoretyczne kryterium trafności nie wchodzi w grę, gdy pytamy o trafność większości testów osiągnięć szkolnych, nikt bowiem nie uzyska zgody na wprzęgnięcie systemu oświaty 160 Rozdział 7. Metody zbierania danych w maksymalizację tylko jednego aspektu obecnego lub przyszłego powodzenia życiowego. Droga, na której psychologia dorabia się swoich narzędzi, jest więc pedagogice niedostępna. W obliczu tej trudności pedagodzy proponują takie rozumowanie: wykształcenie można utożsamić z wzorami poprawnego wykonania nieskończonego zbioru zadań. Budowanie testu osiągnięć to pobieranie próbki tych zadań. Trafność testu to sprawa treściowej reprezentatywności tej próbki. Budując test, najpierw zarysowuje się strukturę danej dziedziny wiedzy, a potem układa zadania, dbając, by równomiernie pokryły całe pole treściowe. Wstępną wersję testu daje się ekspertom do oceny i według ich wskazówek przygotowuje się wersję ostateczną. Łatwo jednak zauważyć, że ta procedura może zawieść na całej linii. Po pierwsze, metoda szacowania na oko reprezentatywności próbki zadań jest zawodna. Po drugie, struktura dyscypliny nie jest bynajmniej niewzruszonym faktem, lecz konstrukcją zależną od tradycji naukowej. Wiadomo, że wprowadzenie do szkół „nowej matematyki” opartej na pomysłach bourbakistów odebrało trafność starym testom osiągnięć w matematyce, a dostosowane doń nowe testy okazały się nietrafne w odniesieniu do starego programu nauczania matematyki. Podobnie test reprezentatywny dla historii eksponującej wydarzenia polityczne i militarne będzie niereprezentatywny dla historii eksponującej procesy gospodarcze i społeczne. Po trzecie wreszcie, wcale nie jest pewne, czy wykształcenie może być reprezentowane przez choćby nieskończony zbiór zamkniętych zadań. Wypada stwierdzić, że trafność każdego testu osiągnięć szkolnych (z wyjątkiem testów wiadomości i umiejętności zawodowych) jest problematyczna. Rzetelność Rzetelność jest związana z wielkością błędu losowego, który zawsze towarzyszy szacowaniu wartości zmiennych nieobserwowalnych. Można z absolutną dokładnością podać wynik pomiaru: liczbę (lub proporcję) poprawnie wykonanych przez ucznia zadań testowych, ale nie – poziom zdolności tego ucznia. Wiadomo, że liczba zadań wykonanych przez tę samą osobę w równoważnych wersjach tego samego testu zmienia się w sposób nieprzewidywalny z pomiaru na pomiar, podczas gdy poziom zdolności jest (z definicji) stały, przynajmniej w krótkich okresach. Skoro tak, to każdorazowa liczba wykonanych zadań albo przecenia, albo nie docenia zdolności. W klasycznej teorii pomiaru stworzonej przez H. Gulliksena i zmodyfikowanej przez Lorda i Novicka (1968) tę myśl wyraża prosta formuła: y = t + ε. Symbol y oznacza wynik pojedynczego pomiaru, t – wynik prawdziwy, czyli wielkość zdolności (pojmuje się ją jako wartość oczekiwaną nieskończonej liczby pomiarów tej samej osoby danym narzędziem), ε – błąd losowy. Błąd oscyluje wokół zera w sposób nieprzewidywalny: wynik pomiaru raz jest większy, raz mniejszy, niż powinien być. Nie ma sposobu, by poznać wielkość błędu pojedynczego pomiaru, można jednak założyć, że rozkład błędu w populacji pomiarów jest normalny i oszacować jego zróżnicowanie. Im większe jest to zróżnicowanie (wariancja), z tym większym błędem musimy się liczyć przy szacowaniu zdolności, a z im większym błędem musimy się liczyć, tym mniej rzetelne jest narzędzie. Trafność i rzetelność pomiaru zmiennych nieobserwowalnych 161 Kluczowe dla szacowania wariancji błędu jest twierdzenie, że w populacji badanych wariancję empirycznych wyników pomiaru danym narzędziem można rozłożyć na dwa składniki: wariancję wyniku prawdziwego i wariancję błędu, czyli że σy2 = σt2 + σε2. Można z niego w prosty sposób wyprowadzić dwa wzory: na rzetelność narzędzia i na błąd standardowy pomiaru. Rzetelność ρyy narzędzia Y to udział wariancji wyniku prawdziwego w wariancji wyniku pomiaru: ρyy = σt2 σy2 Jest jasne, że doskonale rzetelny pomiar daje wyniki zróżnicowane dokładnie w tym stopniu, w jakim są zróżnicowane prawdziwe wartości mierzonej zmiennej. Można udowodnić, że ρyy jest też równe populacyjnemu współczynnikowi korelacji między wynikami dwóch równoległych9 wersji narzędzia (stąd jego symbol: greckiej litery „ro” używa się do oznaczenia korelacji; subskrypt informuje, że zachodzi ona między dwoma szeregami wyników Y). Łatwo to zrozumieć, jeśli się zauważy, że współczynnik korelacji mówi o stałości względnych pozycji obiektów w obu pomiarach. Im wyższy jest współczynnik ρ, tym bardziej podobne pozycje zajmują Jan, Piotr i inne osoby badane w obu szeregach uporządkowanych od wyniku najniższego do najwyższego. Rzetelność można więc także pojmować jako stopień odtwarzalności wyniku pomiaru. Z powyższego wzoru wynika, że odchylenie standardowe błędu losowego, czyli tzw. błąd standardowy pomiaru (σε), jest równe: σε = σy 1 − ρ yy Gdy rzetelność narzędzia zbliża się do 1, błąd standardowy zbliża się do 0, co znaczy, że wynik testowania nieznacznie odchyla się od wartości prawdziwej. W przypadku narzędzi o rzetelności bliskiej zera błąd zbliża się do odchylenia standardowego wyniku testowania. Sens tego parametru stanie się jaśniejszy, gdy powiemy, że służy on do obliczania tzw. przedziału ufności dla każdego wyniku pomiaru10. Pamiętamy, że na wynik prawdziwy osoby badanej nakłada się błąd, który ma rozkład normalny. Wiadomo, że w rozkładzie normalnym przedział wyników (tu: błędów) o szerokości jednego odchylenia standardowego w lewo i w prawo od średniej zawiera ok. 68% przypadków. Możemy zatem twierdzić, że z prawdopodobieństwem 0,68 wynik prawdziwy danej osoby leży między y – σε a y + σε. Chcąc się wypowiadać z większą pewnością, musimy rozszerzyć przedział. Prawdopodobieństwo, że wynik prawdziwy jest obarczony błędem od –2σε do + 2σε, wynosi 0,95. Zauważmy, że gdy σε jest bliskie σy (a tak jest, gdy ρyy jest bliskie 0), to 95-procentowy przedział ufności obejmuje prawie cały zakres zmienności wyniku empirycznego: dowiadujemy się więc, że wynik prawdziwy danej osoby leży gdzieś między najniższym a najwyższym wynikiem w populacji, co przecież wiedzieliśmy z góry. 9 Chodzi o takie wersje, które są odrębne (nie wpływają na siebie) i mierzą dokładnie to samo (dla każdej osoby dają tę samą wartość wyniku prawdziwego z tą samą wariancją). 10 Przy założeniu, że rozkład błędów jest normalny wokół danego wyniku i identyczny dla wszystkich wyników. 162 Rozdział 7. Metody zbierania danych Zilustrujmy to przykładem. Uczeń uzyskał 110 punktów w teście inteligencji, którego rzetelność szacuje się na 0,89, a odchylenie standardowe – na _____wyników _ 15. Szacunkowy błąd standardowy pomiaru (se) wynosi 15√1–0,89, czyli 5. Możemy twierdzić z prawdopodobieństwem 0,95, że prawdziwy wynik tego ucznia leży gdzieś między 110 – 2 ∙ 5 a 110 + 2 ∙ 5, czyli między 100 a 120. Jeśli konkuruje z nim inny uczeń z wynikiem 115, nie możemy uznać, że ma on wyższą zdolność, ponieważ jego wynik mieści się w przedziale ufności pierwszego ucznia. Ma to znaczenie, ilekroć wynik jednorazowego testowania jest używany do selekcji uczniów (np. gdy od tego wyniku zależy, czy uczeń zostanie uznany za uzdolnionego i przyjęty na zajęcia o wzbogaconym programie kształcenia). Zdefiniowana powyżej rzetelność to parametr, którego wartość trzeba szacować na podstawie danych z próbki. W praktyce badawczej szacuje się ρyy za pomocą ryy według różnych metod. Test-retest. Narzędzie stosujemy dwukrotnie na tej samej próbce osób w niewielkim odstępie czasu (1–2 tygodnie) i obliczamy współczynnik korelacji ryy (zwany tu współczynnikiem stałości) między wynikami obu pomiarów. Metoda zakłada, że mierzona zmienna jest stała w czasie i że na drugi pomiar nie mają wpływu pamięć i wprawa wynikające z pierwszego pomiaru. Oba założenia są trudne do utrzymania. Wersje równoległe. Mierzymy te same osoby dwiema równoległymi wersjami narzędzia i obliczamy współczynnik korelacji ryy (zwany tu współczynnikiem równoważności). Niestety, niełatwo zrobić wersje równoległe. Dobór losowy pozycji nie wystarczy. Zaleca się raczej układanie zadań w pary o podobnych rozkładach i losowe przydzielanie zadań do wersji. Rzetelność połówkowa. Zamiast tworzyć dwie wersje narzędzia, można podzielić je na dwie połowy. Zazwyczaj dzieli się pozycje według ich numeru na parzyste i nieparzyste, ale lepiej kierować się podobieństwem rozkładów i treści. W tym przypadku współczynnik korelacji nie doszacowuje rzetelności, ponieważ traktuje test tak, jakby był o połowę krótszy. Znany wzór Spearmana-Browna: 2r ryy = ____ 1 +r (r to współczynnik korelacji między połówkami testu), zakłada równoległość połówek, a że tak rzadko bywa, przeszacowuje rzetelność. Ta metoda nie powinna być stosowana, gdy test ma limit czasowy i badani nie podejmują wszystkich zadań (r jest wtedy przesadnie duże). Homogeniczność pozycji. Tu oszacowanie rzetelności opiera się na porównaniu zróżnicowania wyniku testowania z sumą zróżnicowań wyników poszczególnych zadań. Jeśli każde zadanie mierzy co innego, wtedy oba zróżnicowania są zbliżone do siebie. W przeciwnym razie częściej zbiegają się wyniki skrajne (niskie lub wysokie), więc zróżnicowanie wyniku testowania jest większe, niżby to wynikało ze zróżnicowania wyników poszczególnych zadań. Do testów, w których każde zdanie jest dwuwartościową zmienną {wykonane, niewykonane}, stosuje się wzór 20 Kudera-Richardsona (K-R 20): Trafność i rzetelność pomiaru zmiennych nieobserwowalnych 163 k ∑ pi qi k ⋅ 1 − i =1 2 ryyy y = k −1 sy gdzie k to liczba zadań w teście, sy2 to wariancja łącznego wyniku, p to proporcja poprawnych, a q – proporcja niepoprawnych odpowiedzi na każde zadanie (p q jest wariancją rozkładu zmiennej dwuwartościowej). Symbol Σ (sigma) oznacza dodawanie. Wyrażenie stojące za tym symbolem to ogólna postać składnika sumy (w tym wzorze: iloczyn p q). Pod znakiem podaje się pierwszą wartość subskryptu (1), a nad znakiem ostatnią (k). Licznik wzoru jest więc równoważny wyrażeniu: p1 q1 + p2 q2 + ... + pk qk. Można udowodnić, że ryy dany tym wzorem jest równy średniej korelacji przy wszystkich możliwych podziałach testu na połowę. Inną, najpopularniejszą bodaj miarą homogeniczności jest współczynnik α (alfa) Cronbacha, będący rozszerzeniem K-R 20 na narzędzia, których pozycje nie są dychotomiczne, np. na skale zbudowane metodą Likerta. Wtedy sumę iloczynów p q zastępuje suma wariancji poszczególnych zadań: k ∑ si2 k ⋅ 1 − i =1 2 rryyyy = k −1 sy Zgodność. Opisane metody szacowania rzetelności nie mogą być stosowane do testów osiągnięć odniesionych do kryterium. Ponieważ ich wyniki tworzą rozkłady lewoskośne (tj. z przewagą wysokich), α znacznie zaniża ich rzetelność. Zaleca się raczej porównać wyniki dwukrotnej klasyfikacji uczniów zbadanych dwiema równoległymi wersjami testu. Gdy test jest tak unormowany, że dzieli populację na dwie grupy: tych, którzy opanowali materiał, i tych, którzy go nie opanowali, wyniki dwukrotnego testowania tworzą czteropolową tablicę liczebności. Łatwo wtedy obliczyć współczynnik zgodności, czyli procent osób tak samo sklasyfikowanych w obu pomiarach. Takie oszacowanie pomaga podjąć decyzję o dopuszczeniu testu do użytku, ale nie pozwala wyznaczać standardowego błędu pomiaru ani budować przedziałów ufności. Na zakończenie wspomnijmy, że różne metody szacowania rzetelności dają różne szacunki. Najostrożniejsza i najwyżej ceniona jest metoda wersji równoległych. Minimalna wartość oszacowania, przy której można uznać narzędzie, zależy od jego zastosowania. Jeśli narzędzia zamierza się używać do podejmowania decyzji w sprawach losu jednostek, wymaga się rzetelności powyżej 0,90. Narzędzie, które ma dawać informacje o zbiorowościach badanych, powinno mieć rzetelność co najmniej 0,50. Więcej o teoriach pomiaru zmiennych nieobserwowalnych znajdzie czytelnik u Nowakowskiej (1975) i Machowskiego (1993), poniżej zaś – kilka zdań o coraz bardziej popularnej rywalce klasycznej teorii pomiaru. 164 Rozdział 7. Metody zbierania danych Teoria odpowiedzi na pozycję testu (IRT) Główna słabość teorii klasycznej polega na tym, że nie pozwala rozdzielić parametrów osoby i testu, przedmiotem pomiaru czyni bowiem nie dyspozycję w ogóle, np. inteligencję, lecz parametry wykonania danego testu, czyli np. inteligencję-w-teście Wechlera (WAIS). Oznacza to, że wyniki dwóch testów mierzących tę samą dyspozycję są bezpośrednio nieporównywalne. Jest tak za sprawą zadań, które różnią się trudnością, zdolnością różnicowania badanych, podatnością na zgadywanie itp. Gdybyśmy potrafili zmierzyć cechy zadania i włączyć je do równania, które wiąże wykonanie zadania z poziomem dyspozycji badanego, to moglibyśmy „wytrącić” ich wpływ na oszacowanie dyspozycji. Innymi słowy – traktować wszystkie zadania tak, jak gdyby miały identyczną trudność, zdolność różnicowania itp. Najprostszy model, stworzony przez Georga Rascha, uwzględnia jedynie trudność zadania: e(θ – b) _______ P(θ) = 1 + e(θ – b) P(θ) to prawdopodobieństwo poprawnego wykonania określonego zadania przez osobę o określonym poziomie dyspozycji θ, b to trudność tego zadania, a e to stała (ok. 2,718). Dysponując dostatecznie dużą próbką odpowiedzi (najlepiej od tysięcy badanych na dziesiątki zadań), możemy spróbować oszacować parametr b dla każdego zadania i parametr θ dla każdego badanego. Jeśli się to uda, oszacowanie b będzie niezależne od rozkładu θ, a oszacowanie θ – niezależne od zbioru zadań. Ta niezależność umożliwia m.in.: • porównywanie pomiarów tej samej dyspozycji różnymi testami (można np. wnioskować o wieloletnich zmianach średniego poziomu rozumowań matematycznych absolwentów gimnazjum), • tworzenie banku zadań testowych o znanych właściwościach, • budowanie testów (tj. dobieranie zadań z banku) mających pożądaną zdolność różnicowania badanych (czasem chcemy mieć test, który dobrze różnicuje w szerokim przedziale dyspozycji, czasem zaś – w wąskim, np. w okolicy kryterium testu „sprawdzającego”), • budowanie testów, które bronią się przed zarzutem stronniczości, mimo że ujawniają różnice w rozkładach θ w różnych grupach mniejszościowych (np. jeśli w pewnym teście czarni uzyskiwali niższe wyniki niż biali, to teoria klasyczna nie pozwalała rozstrzygnąć, czy było tak dlatego, że czarni mieli niższy poziom dyspozycji, czy że byli dyskryminowani przez formę testu), • dobieranie zadań w trakcie testowania w celu zwiększenia precyzji oszacowania dyspozycji badanego. Konsekwencją przyjęcia IRT w dziedzinie oświaty jest psychologiczna interpretacja osiągnięć szkolnych jako dyspozycji reprezentowanych przez zmienne latentne. Jest to nieobojętne ideologicznie, a także technicznie, bo uzależnia możliwość stabilnych szacunków od tego, jak dobrze dane spełniają różne warunki. Najważ- Trafność i rzetelność pomiaru zmiennych nieobserwowalnych 165 niejszy warunek – jednowymiarowości (wszystkie zadania testu muszą mierzyć jedną i tę samą dyspozycję) – spełniają nieliczne z dotąd stosowanych testów. Samo szacowanie parametrów jest numerycznie trudne, nie zawsze pewne i kosztowne. Ocena dyspozycji ucznia jest tak złożoną funkcją wektora jego odpowiedzi testowych, że trzeba ją przyjąć na wiarę, co zmniejsza społeczną kontrolę nad oświatą. Stosowane modele matematyczne poddaje się częstym rewizjom, co grozi procesami sądowymi ze strony uczniów, którzy uzyskaliby lepszą ocenę, gdyby ich odpowiedzi przetworzono według zrewidowanego modelu. Z pewnością badacze osiągnięć szkolnych w Polsce powinni prowadzić próby testowania według IRT, ale na powszechne zastosowanie tej teorii jest zdecydowanie za wcześnie. Doskonałe wprowadzenie do IRT dają Hambleton, Swaminathan i Rogers (1991). Najnowsze modele przedstawia książka pod redakcją van der Lindena i Hambletona (1997). Rozdział 8 METODY ANALIZY DANYCH Badanie nigdy nie kończy się zebraniem danych. Trzeba je tak przetworzyć, by mówiły o tym, co nas interesuje, rozstrzygały teoretyczny spór lub pomagały ulepszyć praktykę. Morgan (1998) trafnie powiada, że analiza to wszystkie sposoby przekształcania surowych danych w końcowe doniesienie, toteż jakość doniesienia jest najlepszym sprawdzianem jakości analizy. Dane jakościowe Powiada się czasem, że w podejściu jakościowym nie należy odróżniać metod zbierania od metod analizowania danych. To oczywiste nieporozumienie. Prawda, że w tym podejściu łączy się obie czynności w czasie (analiza towarzyszy zbieraniu danych i wpływa na decyzje o dalszym zbieraniu danych ), ale to nie znaczy, że same te czynności utożsamiają się ze sobą. Metoda analizy powinna być dostosowana do zamiaru, który leży u początków badania, a więc zaplanowana na równi z innymi jego elementami. Badacz, który gromadzi góry tekstów, nie myśląc, co będzie z nimi robił, ryzykuje, że większości z nich nie zdoła wykorzystać. Od danych do protokołu Surowe dane jakościowe występują w rozmaitych formach: Notatki terenowe (field notes). Robione w czasie wywiadu lub obserwacji, są zwykle skondensowane (pełne umownych znaków, oderwanych słów i zdań, cytatów, szkiców itp.), więc mało czytelne. Analizować sterty takich notatek byłoby niepodobieństwem. Nagrania. Dzięki rozpowszechnieniu wygodnych w użyciu urządzeń rejestrujących dźwięk i obraz o wysokiej jakości coraz więcej danych ma formę nagrań. Ale skomplikowana aparatura nagraniowa peszy ludzi, a także zmniejsza anonimowość (gdy moja twarz jest na taśmie, nie uspokaja mnie obietnica zniszczenia moich danych osobowych). Ważniejsze jest, że im więcej nagrań, tym więcej pracy Dane jakościowe 167 przy ich analizie. Dlatego jest błędem posługiwać się kamerą wideo, jeśli wystarczyłby magnetofon, i magnetofonem, jeśli wystarczyłyby notatki terenowe. Metryczka. Powielony arkusz podstawowych informacji o wywiadzie lub obserwacji. W przypadku wywiadu zawiera dane demograficzne respondenta (często wpisane przez niego samego), czas i miejsce rozmowy, a także opinie badacza o atmosferze rozmowy oraz o zachowaniu się rozmówcy i jego samego. W przypadku obserwacji metryczka zawiera informacje o terenie, miejscu i czasie obserwacji. Często ma osobne miejsce na wrażenia obserwatora, których nie umiałby on udokumentować (np.: „Miałem wrażenie, że nauczycielka była wściekła, ale świetnie się kontrolowała”). Dobrym zwyczajem jest podpisywanie przez badacza każdej metryczki: składając swój podpis, bierze on odpowiedzialność za autentyczność dostarczonych danych. Dziennik terenowy. Przedstawia badanie z perspektywy badacza: opisuje zdarzenia (w tym przeszkody), sugestie i pomysły interpretacyjne (memos) oraz ich losy (czy okazały się trafne, czy błędne), a także wyniki samoobserwacji: uczucia badacza i jego postawy wobec badanego terenu. W dzienniku zapisuje się wszystkie decyzje dotyczące przebiegu badania (np.: „Od jutra przechodzę do obserwacji selektywnej”, „W pokoju pedagoga szkolnego źle się rozmawia z uczniami: czują się jak na przesłuchaniu. Następną serię wywiadów będę prowadziła w stołówce szkolnej”). Gdy w terenie pracuje kilku badaczy, dziennik zwiększa porównywalność danych (np. pozwala przypisać pewne dane lub brak pewnych danych szczególnym okolicznościom, w jakich przyszło pracować jednemu z nich). Notatki terenowe i nagrania nie nadają się do analizy. Notatki są nieczytelne i niepełne: zawierają raczej drogowskazy do pamięci badacza niż rozwinięte opisy. Analizowanie nagrań byłoby zbyt męczące, a wyniki niesprawdzalne – żeby je skontrolować, trzeba by powtórzyć całą pracę analityka. Dlatego jedne i drugie przekształca się w protokół wywiadu lub obserwacji. Trzeba to zrobić jak najszybciej: badacz powinien usiąść do maszyny, przenośnego komputera lub dyktafonu zaraz po wywiadzie lub obserwacji, a najpóźniej wieczorem tego samego dnia. W przeciwnym razie szczegóły zatrą się w pamięci i badacz będzie się głowił, co może znaczyć jakieś podkreślenie, kto wypowiedział to czy inne zdanie itp. W protokole zaleca się standaryzację notacji. Tekst w cudzysłowie to dokładny cytat, tekst w apostrofach to cytat przybliżony, w nawiasach zwykłych umieszcza się dane o kontekście lub sytuacji, w nawiasach kątowych – wyjaśnienia z punktu widzenia badanych (emic), w ukośnikach – wyjaśnienia z punktu widzenia badacza (etic), poziomą linią oddziela się segmenty wywiadu lub obserwacji itd. Dokładność protokołu zależy od celu badania. W badaniu konwersacji protokół nie tylko oddaje wszystko, co zostało powiedziane, ale także długość przerw (w sekundach), wydłużenie fonemu (wielokropkami), urwanie słowa (tiretem), słyszalne westchnienia (jako „hhhh”), słowa wypowiadane z naciskiem (podkreśleniem) i wypowiadane głośniej (wersalikami), dokładny punkt, w którym jeden z rozmówców wpada w słowo drugiemu (lewym nawiasem kwadratowym), fragmenty słabo słyszalne (nawiasami) itp. W innych przypadkach taka staranność jest niepotrzebna. 168 Rozdział 8. Metody analizy danych W badaniach, które sam prowadziłem, sprawdziła się taka metoda: Obserwator nagrywał lekcję na taśmę magnetofonową i jednocześnie robił notatki. Tego samego dnia przepisywał nagranie, uzupełniając je informacjami z notatek i własnej pamięci. Protokół był selektywny. Jeśli przedmiotem obserwacji były interakcje zadaniowe na lekcji, badacz przepisywał w dosłownym brzmieniu wymianę słowną między nauczycielem i uczniami i dodawał didaskalia w nawiasach okrągłych, a inne rodzaje wypowiedzi oddawał przez omówienia: (1) (N odczytuje listę obecności. Do stolika podchodzą m6, k2, M3 z usprawiedliwieniami w dzienniczkach. N czyta je, rozmawia cicho z uczniami, usprawiedliwia nieobecności. Pozostali rozmawiają głośno, śmieją się) (2) N: Kto przeczyta następny fragment? (3) M3 (stuka k2): k2, k2! (4) N: k2, przeczytaj. On ma rację, ona zrobi to dobrze. (5) (k2 czyta, myli się i potyka) (6) N: Dziękuję k2, wiersz jest dosyć trudny także w warstwie tekstowej. (nieczytelne) Proponuję, abyśmy rozpoczęli analizę. Jak zwykle jesteście gotowi oczywiście do notowania? (7) M0 (z przekąsem): Taaak. (8) N: Na jakie dwie części można podzielić wiersz? (9) (szum w klasie, wszyscy mówią naraz) (10) M3”: Wspomnienia. (11) k5!: Refleksja. (12) N: Świetnie, no właśnie, już macie co zanotować. Każdy akapit albo charakteryzuje epizod (w nawiasach), albo przedstawia wkład jednej postaci do interakcji. „N” to nauczycielka. Nazwiska uczniów zostały zastąpione kryptonimami (np. „K” i „M” oznacza dziewczynkę i chłopca z rodziny o wyższym statusie socjoekonomicznym, „k” i „m” – dziewczynkę i chłopca z rodziny o niższym statusie chłopca, zero przy symbolu płci oznacza, że obserwator nie rozpoznał tożsamości mówiącego). Cudzysłów przy kryptonimie ucznia oznacza, że zgłaszał się do odpowiedzi i został wybrany, wykrzyknik – że „wyrwał się” niepytany, brak znaku – że został wywołany przez nauczycielkę. Tekst po dwukropku przy kryptonimie jest dokładnym cytatem, a znaki przestankowe mają tu konwencjonalne znaczenie (wielokropek oznacza zawieszenie głosu, znak zapytania – tonację pytającą itp.). W nawiasach okrągłych w obrębie akapitu umieszcza się didaskalia (jak mówi postać, co przy tym robi, co się dzieje w tle). W nawiasach kwadratowych znajdują się uwagi obserwatora. Przeciętny protokół z jednej lekcji zawiera 10 tys. znaków, czyli zajmuje ok. 6 stron znormalizowanego maszynopisu. Taki protokół jest gotowy do analizy. Trzeba pamiętać, że protokół, metryczka i dziennik terenowy składają się na jedyną wersją rzeczywistości, do której badacz ma dostęp po zakończeniu zbierania danych (pamięć już się zatarła, podobnie jak taśmy, które są zwykle używane wielokrotnie). Im więcej ograniczeń napotkał proces zbierania danych i im bardziej przetworzone zostały dane w procesie tworzenia protokołu, z tym mniejszym przekonaniem można twierdzić, że wersja ta zawiera istotne struktury badanej rzeczywistości. Największe to bodaj niebezpieczeństwo podejścia jakościowego: Dane jakościowe 169 przeprowadzić pracochłonną analizę tylko po to, by dostać to, co sami wcześniej włożyliśmy w teksty źródłowe. Z tekstów źródłowych (protokołu, metryczki i dzienników terenowych) trzeba teraz wytworzyć inny tekst: teorię badanej rzeczywistości. To przekształcenie – jak pisze Flick (1998) – ma dwa momenty: redukujący (kodowanie danych w celu ich skategoryzowania) i rozbudowujący (analiza sekwencyjna, która kontekstualizuje dane). Omówimy je poniżej. Kodowanie Kodowanie to tyle, co zastępowanie fragmentów tekstu etykietkami, które reprezentują kategorie tekstu. Kategorie te są albo wyprowadzane z tekstu, albo wnoszone z zewnątrz (np. z literatury przedmiotu). W miarę postępu kodowania kategorie podporządkowują sobie coraz większe obszary tekstu, a same obrastają znaczeniami. Kodowanie teoretyczne Kodowanie teoretyczne zostało zdefiniowane przez Glasera i Straussa (1967) w ramach ich programu metodologicznego, który zaleca wydobywanie ugruntowanej (grounded) teorii z danych empirycznych. Kodowanie to nazwa rodziny operacji, które pozwalają rozłożyć dane, nadać im znaczenie i złożyć je w nowy sposób. Te operacje są zarazem wsteczne i postępowe. Wsteczne dlatego, że wprowadziwszy etykietkę, badacz wraca na poziom tekstu źródłowego (albo i w teren), by sprawdzić, czy znaczenie tej etykietki zachowuje się w obliczu innych danych. Robi tak dopóty, dopóki etykietka nie osiągnie znaczeniowego „nasycenia” (tj. dopóki badacz nie jest całkowicie pewny, jaki ma ona sens i ważność). Postępowość analizy polega na tym, że etykietki same podlegają kodowaniu – tworzy się z nich ogólniejsze (i bardziej abstrakcyjne) kategorie dające się zastosować do szerszego zbioru obiektów (ludzi lub zdarzeń). Stawia się też hipotezy o związkach między kategoriami i sprawdza je. W ten sposób wydobywa się teorię z danych. Zauważmy, że o kodowaniu mówi się też przy analizie danych ilościowych. Tam jednak słowo to znaczy co innego. Zakodować ankietę to tyle, co mechanicznie zredukować odpowiedzi badanego do ciągu umownych symboli, które następnie można zliczać. Kodowanie jest mniej mechaniczne, gdy ankieta zawiera pytania otwarte. Żeby zakodować odpowiedzi na takie pytanie, trzeba się najpierw z nimi zapoznać (zazwyczaj z ich próbką). W miarę kodowania kolejnych kwestionariuszy może się okazać, że kod jest zbyt szczegółowy i liczba symboli niepokojąco rośnie, albo przeciwnie – jest zbyt ogólny, co zmusza do utożsamiania ze sobą wyraźnie odmiennych odpowiedzi. W obu przypadkach kod trzeba przebudować i kodowanie zacząć od nowa. Ale nawet takie kodowanie niewiele ma wspólnego z kodowaniem teoretycznym, ponieważ jest zdominowane przez pytanie kwestionariusza. Pytanie determinuje sam tekst (krótkie odpowiedzi) i kod. Dookreślenia wymagają jedynie drugorzędne szczegóły. W kodowaniu teoretycznym tekst jest względnie autonomiczny, a etykietki wprowadzane „od dołu”. Celem kodowania jest zrozumienie całego tekstu przez wyodrębnienie w nim sensownych fragmentów i złożenie ich w sensowną całość. 170 Rozdział 8. Metody analizy danych Kodowanie teoretyczne przebiega w kilku fazach. Kodowanie otwarte. Stosuje się je w początkowej fazie analizy. W zależności od tego, co uznamy za jednostkę tekstu (frazę, zdanie, akapit), kodowanie otwarte jest bardziej lub mniej szczegółowe. Czytamy tekst jednostka po jednostce, pytając, co każda znaczy (np. o czym lub o kim mówi, w jakimi kontekście czasowo-przestrzennym, jakie aspekty porusza, jakie oferuje wyjaśnienia lub uzasadnienia, jaką funkcję pełni w narracji), i wpisujemy nad jednostkami tekstu numery jednostek kodu. Flick (1998, s. 181) daje taki przykład ze swoich badań nad subiektywnym znaczeniem zdrowia. Oto początek wywiadu: No więc ja1 / osobiście2 / wiążę3 / ze zdrowiem4 / całkowitą funkcjonalność5 / organizmu ludzkiego6 / wszystkich7 / procesów biochemicznych8 organizmu6 / włączając w to9 / wszystkie cykle10 / ale też11 / stan umysłowy12 / mojej osoby6 / i człowieka w ogóle13... Ukośnik dzieli tekst na jednostki. Każda liczba w superskrypcie to symbol osobnej jednostki kodu: 1 – Fraza otwierająca 2 – Odniesienie do samego siebie, odróżnienie się od innych 3 – Wiązanie, łączenie elementów 4 – Podjęcie zagadnienia 5 – Wyrażenie techniczne, podręcznikowe, maszyna jako model, odniesienie do normy (kto nie funkcjonuje w pełni, ten jest chory) 6 – Dystansowanie się (w sprzeczności z frazą otwierającą), wyrażenie podręcznikowe, obrona przed zbytnią bliskością wobec kobiety prowadzącej wywiad i samego siebie 7 – Pełne, wyczerpujące, maksymalne, brak zróżnicowania, równowaga 8 – System zamknięty, coś jest na zewnątrz, bierny, sterowany z zewnątrz, mający własną energię 9 – Wyrażenie podręcznikowe 10 – Wyczerpujące, maszyna jako model, krąg reguł, regularność (w przeciwieństwie do chaosu) 11 – Dopełnienie, nowy aspekt (przeciwstawny wymienionemu) 12 – Mechanistyczne, wydźwięk negatywny, nadużyte, statyczne („jaki jest jego stan?”) 13 – Ogólne, abstrakcyjny obraz człowieka, łatwo przeoczyć szczególność. Tak dokładnie analizuje się jedynie początkowe lub niejasne fragmenty tekstu. W zbiorze jednostek kodu mieszają się różne rzeczy: funkcje dyskursywne, domniemania znaczeniowe, wrażenia i oceny. Liczba jednostek może iść w setki. Niektóre łączy się w kategorie na zasadzie podobieństwa, np. jednostki 5, 7, 8, 10 i 13 mogą składać się na kategorię „pojęcie człowieka” (nazwa kategorii może pochodzić ze słownika naukowego albo ze słownika badanego). Inne zostają odrzucone. Równocześnie porządkuje się elementy kategorii, tak by móc ją zdefiniować jako wiązkę wymiarów. Na przykład tu kategoria „pojęcie człowieka” okazuje się mieć dwa wymiary: uniformizm (wyklucza – uznaje odmiany jakościowe) i zamknięcie (wyklucza – uznaje interakcje z otoczeniem). Pojęcie, które ma na myśli badany, można wtedy zdefiniować przez jego wybory: w przykładzie jest ono uniformistyczne i zamknięte, czyli mechanistyczne. Kodowanie osiowe (axial coding). Kategorie będące produktem kodowania otwartego są dookreślane w procesie kodowania osiowego. Polega ono na tworze- Dane jakościowe 171 niu kategorii osiowych (najważniejszych z punktu widzenia pytań badawczych) i określaniu relacji między nimi (np. jest warunkiem, środkiem, następstwem, działaniem) na podstawie składników. Wyłaniająca się sieć relacji podlega stałej weryfikacji. Analiza oscyluje między indukcją (budowaniem pojęć, kategorii i relacji na podstawie tekstów źródłowych) i dedukcją (sprawdzaniem pojęć, kategorii i relacji na innych fragmentach tekstów źródłowych). Kodowanie selektywne. Kodowanie może mieć wiele poziomów, a sieć znaczeń będąca wynikiem n-tego poziomu analizy staje się przedmiotem kodowania na poziomie n + 1. Na poziomie kodowania selektywnego szuka się kategorii najlepiej charakteryzującej badane zjawisko i dającej się ująć w kilku jedynie zdaniach. Taka centralna kategoria wraz z siecią związków między innymi kategoriami tworzy teorię w mocnym sensie tego słowa. Mówi ona: w takich a takich warunkach dzieje się to a to. Taką teorię weryfikuje się na tekstach źródłowych i modyfikuje aż do osiągnięcia stanu „teoretycznego nasycenia”, w którym dalsze zabiegi analityczne nic już do niej nie wnoszą. Jak widać, ojcowie programu budowania teorii ugruntowanej wcale nie zdają się – jak się często pisze – na intuicję i empatię badacza. Zakładają, że we właściwie zebranych danych tkwią struktury realnego świata i że zadaniem analizy jest raczej je wydobyć niż wytworzyć. Nie dowierzają „holistycznej” interpretacji, bo zanadto wpływają na nią potoczne i naukowe stereotypy, i liczą na dość mechaniczne rozkładanie i składanie tekstów źródłowych. Wkład umysłowości badacza w wyłaniającą się teorię można w ten sposób zredukować, ale nie usunąć. Nawet w kodowaniu pojedynczych fraz analityk korzysta z własnych reguł interpretacyjnych. Jego pojęcia i osobiste teorie dochodzą do głosu, gdy łączy i przeciwstawia kategorie: nigdy bowiem nie porównuje się wszystkiego ze wszystkim. Teoria nie tyle więc się wyłania, ile jest budowana z tekstów i zasobów poznawczych analityka. Jej ugruntowanie wcale nie jest niewzruszone. Jednym ze sposobów lepszego ugruntowania teorii jest indukcja analityczna F. Znanieckiego. Jak każda indukcja, polega ona na generowaniu hipotez z danych i sprawdzaniu ich na danych. Ale jej swoistość polega na skupieniu uwagi na wyjątkach, przypadkach wyłamujących się z hipotezy. Najpierw z grubsza definiuje się interesujące zjawisko (np. zażywanie narkotyków), potem formułuje hipotetyczne wyjaśnienie i sprawdza je na konkretnym przypadku podpadającym pod definicję. Jeśli przypadek nie zgadza się z hipotezą, to albo zmienia się definicję zjawiska, tak by móc ten przypadek wyłączyć z analizy, albo przeformułowuje się hipotezę, tak by się zgadzała z tym przypadkiem i wszystkimi poprzednimi. Tak postępuje się do czasu, gdy niezgodne przypadki przestaną się pojawiać (Robinson, 1951). Kodowanie tematyczne Kodowanie tematyczne stosuje się w jakościowych badaniach porównawczych, które odpowiadają na pytanie o związek między środowiskiem społecznym a poglądami na pewien temat. W takim badaniu definiuje się dwie populacje, a przypadki dobiera metodą próbkowania teoretycznego. Dane zwykle pochodzą z wywiadu. Analizę prowadzi się tak, by zapewnić porównywalność wyników. 172 Rozdział 8. Metody analizy danych Punktem wyjścia analizy jest cały przypadek. Opisuje się go za pomocą motta wywiadu (stwierdzenia, które najlepiej oddaje pogląd badanego) oraz obiektywnych danych o badanym i głównych wrażeń badacza. W ten sposób cały przypadek redukuje się do kilkunastowierszowego tekstu. W następnym kroku zestawia się przypadki z jednej populacji, tworząc coś w rodzaju spisu mott (zestawienia wariantów wypowiedzi). Jeśli nowy przypadek wnosi nowy wariant, spis się poszerza. Spis podlega też porządkowaniu. Jeśli okazuje się, że w poglądach badanych powtarza się jakieś motto (np. technologia), to rozbija się je na „submotta” (np. technologia jako urządzenie, sposób życia, nieznana nauka). Porównanie takich spisów, czyli struktur tematycznych wydobytych z wywiadów z przedstawicielami obu populacji, pozwala odpowiedzieć na pytanie badawcze. Analiza treści Analiza treści zmierza do obiektywnego ujawnienia cech tekstu. Poddaje się jej nie tylko protokoły wywiadu, lecz także podręczniki, artykuły prasowe, przemówienia, pamiętniki, audycje radiowe, programy telewizyjne, reklamy itp. Klasycznego przykładu analizy treści dostarczają badania nad wiedzą społeczną ukrytą w podręcznikach szkolnych: o narodach i grupach etnicznych, rolach płciowych, klasach społecznych, wzorach życiowych itp. W ten sposób można też badać orientacje ideologiczne i uprzedzenia rasowe (wykazano na przykład, że czarni zajmowali mniej niż 9% czasu poświęconego na wystąpienia ludzi w wieczornych programach głównych stacji telewizyjnych w USA). Jest oczywiste, że prawomocność takich wniosków zależy od metody próbkowania tekstów. Jeśli próbka tekstów jest niereprezentatywna dla badanego nadawcy (indywidualnego lub zbiorowego), prawomocności wniosków obronić się nie da. Analiza treści zmierza przede wszystkim do redukcji materiału (Cartwright, 1965). Jednostki kodu pochodzą spoza tekstu i często mają charakter ilościowy: liczba pewnych fraz, objętość tekstu, czas (np. czas pokazywania osoby białej, czas pokazywania osoby czarnej, czas pokazywania obu tych osób naraz i czas interakcji między białym i czarnym). Przed rozpoczęciem kodowania definiuje się jednostki analityczne: kodową (najmniejszy element tekstu, który może podpadać pod kategorię) i kontekstową (największy element tekstu, do którego trzeba się odwołać, by ustalić sens jednostki kodowej). Gdy trzeba oszacować stopień pewnej cechy (np. przyjaznego ustosunkowania się do siebie rozmówców programu publicystycznego), można użyć skali szacunkowej. Jeśli celem analizy jest streszczenie tekstu, to pomija się dygresje, dłuższe fragmenty zastępuje parafrazą, a parafrazy podsumowuje. Gdy celem jest zrozumienie niejasnych fragmentów tekstu, szuka się klucza albo w samym tekście, albo poza nim (w biografii autora, w warunkach wytwarzania tekstu, w słowniku lub w teorii). Pewna nauczycielka powiedziała w wywiadzie, że w odróżnieniu od niektórych kolegów nie jest typem wodzireja. Jak to rozumieć? Można zacząć od słownika (wodzirej kieruje tańcami na balu), potem przyjrzeć się rozproszonym po tekście charakterystykom kolegów i dojść do wniosku, że dla badanej nauczycielki typ wodzireja to ktoś, kto gra rolę osoby ekstrawertywnej, pełnej werwy, Dane jakościowe 173 błyskotliwej i pewnej siebie, choć niekoniecznie taki jest. Taki wniosek nazywa się parafrazą wyjaśniającą. Strukturalizująca analiza treści zmierza do ujawnienia formalnych lub treściowych cech tekstu. Cechy formalne to na przykład procent zdań w stronie biernej, zdań bez podmiotu, szczególnych struktur składniowych. Cechy treściowe to motywy (np. porażki: ile razy pojawia się wzmianka o tym, że badanemu coś się nie udało), role (np. ile razy pojawia się zwierzchnik) itp. Szuka się też wymiarów, czyli czegoś w rodzaju skal porządkowych. Jeśli osoba badana mówi: „Jakoś sobie z tym radziłam, ale był to spacer po linie”, możemy zobaczyć, czy w tekście nie występują inne określenia tego rodzaju (np. „Byłam zupełnie pewna, że mam rację”). Taki wymiar (tu „pewność siebie”) można przedstawić w postaci rozkładu częstości wypowiedzi należących do poszczególnych poziomów. Podobnie można zliczać interesujące badacza motywy, role, sytuacje, zdarzenia itp. Analiza treści utrzymuje się na powierzchniowej warstwie tekstu, ale za to daje jednolity układ kategorii, co ułatwia porównywanie przypadków. Zbliża się do podejścia ilościowego, bo kategorie są wnoszone do tekstu z zewnątrz, a interpretacja tekstu jest schematyczna. Opisywana metoda stosuje się także do dokumentów obrazowych, np. filmów fabularnych, które są świadectwami swojego czasu: pokazują, jak społeczeństwo definiuje wartości swojej kultury i jak podchodzi do problemów społecznych. Denzin (1989) radzi: • najpierw potraktować film jako całość, notując wrażenia, pytania i narzucające się wiązki znaczeń, • sformułować pytania badawcze i wydzielić kluczowe sceny, • przeprowadzić „ustrukturalizowaną mikroanalizę” pojedynczych scen i sekwencji, tak by dojść do szczegółowych opisów epizodów, • wrócić na poziom całego filmu i odpowiedzieć na pytanie badawcze (np. zinterpretować film jako obraz konsekwencji alkoholizmu głowy rodziny z perspektywy feminizmu), • zestawić tę interpretację z interpretacjami innych widzów (np. krytyków filmowych) i wyjaśnić rozbieżności przez odniesienie ich do swoistych doświadczeń widzów. Szczegółowy przegląd zagadnień i metod badań środków masowego komunikowania daje Priest (1996). Analiza sekwencyjna Większość tekstów ma swoją postać (gestalt), co znaczy, że sens każdego wypowiedzenia wywodzi się z wypowiedzeń, które go otaczają, i z warunków komunikacyjnych, w których jest wytwarzane. Kodowanie, które wyodrębnia fragmenty tekstu i tworzy z nich nowe wzorce, niweczy integralność tekstu jako konstrukcji liniowej i czasowej. Analizy sekwencyjne mają temu zaradzić. Nazwa pochodzi stąd, że respektują one kolejność, w jakiej tekst rozwija temat. To, co już zostało powiedziane, rodzi oczekiwania co do dalszego ciągu. Dalszy ciąg tekstu może je albo potwierdzać, albo obalać. Idzie o badanie takich ciągłości i przełomów. 174 Rozdział 8. Metody analizy danych W literaturze można znaleźć kilka odmian tej metody. Analiza konwersacji. Analiza konwersacji wyrasta z etnometodologii. Przedmiotem zainteresowania badacza nie jest tu osoba, lecz codzienna interakcja jako zjawisko społeczno-językowe. Treść interakcji ma mniejsze znaczenie niż jej „logika”: reguły, za pomocą których ludzie nadają porządek i sens temu, co ich otacza i co sami robią (przykładem jest sterowanie kolejnością wypowiadania się). Jakkolwiek wiele codziennych interakcji robi wrażenie przypadkowych, zwolennicy tej orientacji utrzymują, że są one ściśle zdeterminowane: każda interakcja wytwarza swój własny kontekst regulacyjny, który sprawia, że musi się ona potoczyć i zakończyć tak a tak. Analizę konwersacji zalicza się do metod sekwencyjnych, ponieważ zrozumieć, co w interakcji ważne, można dopiero wtedy, gdy uchwyci się ten kontekst. Pionierskie analizy H. Garfinkela dotyczyły konwersacji codziennych. Obecnie chętniej analizuje się konwersacje przebiegające w ramach szczególnej instytucji społecznej (np. lekarz–pacjent, doradca–klient). Zauważmy, że sekwencyjność tej analizy nie polega na sięganiu do wcześniejszych fragmentów tekstu, by wyjaśnić późniejsze, lecz na rekonstrukcji porządku wymiany w konkretnej sytuacji. Załóżmy, że interesuje nas otwarcie interakcji doradca–klient. Analiza polega na wyszukiwaniu w protokołach obserwacji stwierdzeń w rodzaju: „Co panią do nas sprowadza?”, które oznaczają zwrot od luźnej konwersacji do jej szczególnej formy. Kolekcja takich zwrotów w postaci szczegółowych zapisów pozwala ujawnić rolę danego elementu w wytwarzaniu porządku interakcji i problemy organizacji interakcji, które ten element usiłuje rozwiązać. Jak widać, badacza interesuje to, jak funkcjonuje maszyna konwersacyjna, a nie – jakie są subiektywne znaczenia lub intencje uczestników konwersacji. Analiza dyskursu. Tę odmianę rozwija się na gruncie teorii modeli kulturowych. Celem analizy jest ujawnienie, jak uczestnicy dyskursu konstruują swoje wersje zdarzeń (spostrzeżenia, wspomnienia) w procesie porozumiewania się i jak te wersje, jako zjawiska dyskursywne, konstytuują rzeczywistość społeczną (Edwards i Potter, 1992). Jednym z wątków analizy jest poszukiwanie „repertuarów interpretacyjnych”, które służą do takich konstrukcji. Są to niezwerbalizowane pojęcia, które skłaniają ludzi do formowania swoich wersji w określony sposób. Na przykład w pewnym doniesieniu pokazano, że stanowiska w dyskusji o losach Maorysów dały się wyjaśnić za pomocą ukrytego pojęcia kultury („kultura jako dziedzictwo” i „kultura jako terapia”). Takim rekonstrukcjom można poddawać codzienne rozmowy, protokoły z wywiadów zbiorowych, debat parlamentarnych, doniesień prasowych (np. w sprawie reformy oświaty) itp. Szczególnie obiecujące wydają się analizy dyskursu szkolnego. Już zwykłe zestawienie sposobów, jakimi nauczyciel komunikuje swoją wersję świata uczniom, i warunków, w jakich stają się one zjawiskami dyskursywnymi, mogłoby wyprowadzić pedagogikę poza normatywne schematy (np. osławione ogniwa lekcji). Jeszcze ciekawsze byłyby analizy dyskursu pedagogicznego (np. referatów czy publikacji naukowych). Jak to się dzieje, że pewna (czyjaś) wersja świata wchodzi w obieg, a inna nie? Jakie repertuary interpretacyjne rządzą krytyką? Gdyby autorzy, którzy rozprawiają o „rzeczywistości wychowawczej”, spojrzeli na swój Dane jakościowe 175 przedmiot jak na twór dyskursywny, w którym i oni mają swój udział, udałoby się zneutralizować niejeden zastarzały stereotyp. Analiza narracji. Narracje, jak pamiętamy, pochodzą z wywiadu narracyjnego. Jak analizować takie opasłe protokoły? Schütze (cyt. za Flick, 1998) radzi: Najpierw usuń fragmenty nienarracyjne (np. wzmianki o przeczytanych książkach) i podziel tekst na formalne sekcje. Wyodrębnij ograniczone w czasie „struktury procesów życiowych” na podstawie takich łączników narracyjnych, jak „a potem” lub pauza, i zrób z nich strukturalny spis treści. W trzecim kroku dokonaj abstrakcji, tj. przedstaw życie badanego w postaci w czasowego następstwa struktur procesualnych aż do struktury współczesnej. Teraz włącz fragmenty nienarracyjne. Jeśli porównasz wiele zanalizowanych w ten sposób przypadków, możesz wykryć powiązania między strukturami procesualnymi (np. między strukturą procesu kształcenia się a strukturą wychowywania własnych dzieci). Inny autor proponuje bardziej naturalne podejście: Najpierw zrób szkic biografii narratora (chronologiczny spis znaczących zdarzeń życiowych), potem podziel tekst na sekcje i opatrz je tytułami, utwórz sekwencje tematyczne, dodaj ilustrujące je cytaty, wreszcie dobierz stwierdzenie, które chwyta jądro biografii (np.: „Moje życie to pasmo walki z poczuciem niższości”). Pozostaje sklasyfikować przypadki ze względu na typy procesów (sekwencji tematycznych) i powiązać tę klasyfikację ze środowiskami życiowymi badanych. Opisane metody analizy łączy założenie, że spontaniczna narracja jest prawdziwą rekapitulacją przeszłych zdarzeń i doświadczeń, a zadaniem badacza jest wydobyć jej obiektywne struktury, czyli powiedzieć o życiu badanego więcej, niż wie on sam. To założenie jest wielce wątpliwe, co potwierdza fakt, że nie spełniły się, jak dotąd, nadzieje na stworzenie ogólnej teorii struktur czy procesów życiowych. Narracja jest konstrukcją subiektywną, ale i społeczną: czerpie wzorce z lamusa kultury. Dlatego coraz częściej powiada się, że celem analizy jest ujawnić zasady tej konstrukcji, a nie odtworzyć to, co się faktycznie działo. Szczególnie płodna wydaje się heurystyka, która zaleca szukać związków między faktami (np. kluczowymi decyzjami życiowymi, takimi jak wybór studiów, wybór kariery zawodowej, wybór partnera życiowego) a różnymi interpretacjami tych faktów, jakie się pojawiają w tekście, czyli różnymi kostiumami, w jakie stroi się badany. Wydobywanie regularności Jakkolwiek nie wszystkie badania jakościowe o charakterze teoretycznym zmierzają do sprawdzania jawnie postawionych hipotez, to wszystkie usiłują wydobyć regularności ukryte w danych. Jedynie w badaniach praktycznych można się zadowolić zwykłym streszczeniem tego, co badacz usłyszał lub zobaczył: że większość rozmówców była zadowolona z wprowadzonej zmiany, że niezadowoleni podnosili takie a takie obiekcje, że staranność pracy wzrosła itp. Regularność to kwestia współwystępowania: coś z czymś idzie w parze albo się wyklucza. Ariès (1995, s. 170n) zauważył (choć nie dostarczył zestawień liczbowych), że od XVI w. pojawianiu się w ikonografii scen rodzinnych z udziałem dzieci towarzyszy wycofanie się rodziny z pleneru w zacisze domu mieszkalnego, i wysnuł stąd 176 Rozdział 8. Metody analizy danych wniosek, że odkrycie dzieciństwa jest związane z intensyfikacją życia rodzinnego. Tego rodzaju zestawienia są nieodłącznym elementem analizy danych jakościowych. Ilekroć łączymy ze sobą dwie jednostki kodu (A1, A2) w kategorię A, a dwie inne jednostki (B1, B2) w kategorię B, formułujemy niejawny sąd o współwystępowaniu (np. A1 idzie w parze z A2, a wyklucza się z B1). Nazwa „kodowanie” skrywa ten drugi aspekt analizy, dlatego lepiej odróżniać kodowanie jako segmentację i oznaczanie danych od mniej lub bardziej systematycznego zestawiania (porównywania) jednostek kodu w celu wykrycia regularności. Każdy sąd o współwystępowaniu opiera się albo na konwencji znaczeniowej, albo na fakcie empirycznym. W pierwszym przypadku łączymy ze sobą bliskoznaczne jednostki kodu. Załóżmy, że analizując protokół obserwacji lekcji, kodujemy jedno zachowanie nauczycielki jako „krzyczy na uczniów” (A1), inne jako „stawia do kąta” (A2), jeszcze inne jako „krytykuje wytwór ucznia” (A3). Przystępując do scalania tych jednostek kodu, możemy dojść do wniosku, że ich wspólnym mianownikiem znaczeniowym jest coś, co można nazwać przejawami negatywnego ustosunkowania się do ucznia, i połączyć je w nadrzędną kategorię. Łatwość takiego łączenie wiedzie jednak na manowce: badacz coraz śmielej narzuca danym własne konwencje znaczeniowe i w rezultacie opowiada własną historię, zamiast zdawać sprawę ze złożoności tekstów źródłowych. Jest to bodaj najważniejszy powód nieufności wobec doniesień z badań jakościowych. Jedyny ratunek przed tą pułapką to empiryczne ugruntowanie sądów o współwystępowaniu. W powyższym przykładzie polegałoby ono na sprawdzeniu, czy te trzy jednostki kodu rzeczywiście współwystępują ze sobą w obrębie przypadku (tj. części jednej lekcji lub kilku lekcji prowadzonych przez tę samą nauczycielkę). Intuicyjne oszacowanie współwystępowania jest zawodne. Przekonuje o tym badanie, w którym pokazano badanym dane z rzekomego 50-dniowego eksperymentu wywoływania kondensacji pary wodnej w atmosferze („sadzenia” chmur). Każdy dzień eksperymentu opisano dwoma symbolami: czy posadzono chmury, czy nie, i czy padał deszcz, czy nie. Mimo że symbole były dobrane losowo, badani utrzymywali, że oba zdarzenia współwystępują ze sobą – pewnie dlatego, że ludzie lepiej zauważają (i zapamiętują) przypadki zgodne z ich oczekiwaniem niż niezgodne. Dlatego nawet w analizie jakościowej trzeba liczyć, w ilu przypadkach pojawia się spodziewana konfiguracja jednostek kodowych. Możliwy wynik takiego rachunku przedstawia poniższa tabela. Konfiguracja A1 A2 A3 A1 A2 a3 A1 a2 a3 a1 A2 A3 a1 a2 A3 a1 a2 a3 Liczba przypadków 2 5 1 2 9 1 Duża litera oznacza obecność, a mała brak danej jednostki kodu. Pierwszy wiersz tabeli informuje więc, że w dwóch przypadkach występują wszystkie trzy jednost- Dane jakościowe 177 ki kodu, następny – że w pięciu przypadkach występują jednostki: „krzyczy na uczniów” i „stawia do kąta”, ale brak jednostki „krytykuje wytwór ucznia” itd. Analizę takich danych można prowadzić według Boolowskiej zasady minimalizacji. Polega ona na porównywaniu par niepustych konfiguracji ze względu na występowanie wybranej cechy i eliminowaniu cech, które w jednej konfiguracji występują, a w drugiej nie (takie cechy są bowiem ewidentnie niezwiązane z wybraną cechą). Weźmy trzy konfiguracje, w których występuje A3, i utwórzmy z nich wszystkie możliwe pary. W jednej parze powtarza się A2, w drugiej a1, a trzecia nie ma wspólnych elementów. Możemy zatem napisać: A3 = a1 + A2 (plus oznacza tu sumę logiczną: nauczycielka krytykuje prace uczniów, gdy nie krzyczy lub gdy stawia do kąta). Podobna analiza dla a3 daje równanie a3 = A1 + a2 (nauczycielka nie krytykuje uczniów, gdy krzyczy lub gdy nie stawia do kąta). Wynika stąd, że krytykowanie i krzyk wykluczają się wzajemnie, natomiast krytykowanie i stawianie do kąta idą ze sobą w parze. Dokładniejsza analiza powinna uwzględniać liczbę przypadków, w których zanotowano poszczególne konfiguracje. Jest to w pełni uzasadnione: im rzadziej pojawia się pewna konfiguracja, tym większe podejrzenie, że wzięła się z błędu obserwatora lub przypadkowego zbiegu okoliczności, z którym zawsze trzeba się liczyć. Rzut oka na tabelę wystarcza, by zobaczyć, że pierwsze dwie jednostki kodu idą w parze: zgodnie pojawiają się lub nie pojawiają w 17 przypadkach na 20, a tylko w 3 przypadkach jedna występuje bez drugiej. Ale trzecia jednostka idzie osobno, a nawet zdaje się wykluczać z pierwszą. Nie ma więc empirycznych podstaw do włączenia trzeciej jednostki kodu do tej samej kategorii, w której są dwie pierwsze. Empiryczna analiza współwystępowania przynosi owoce, gdy obala – jak w powyższym przykładzie – intuicje znaczeniowe badacza i zmusza go do zastanowienia się nad sensem nieoczekiwanej regularności. Być może w tym tekście krytykowanie wytworu jest składnikiem klimatu wytężonej pracy, w którym zbędne jest dyscyplinowanie uczniów krzykiem czy podobnie ekspresyjnymi środkami. Jest to przykład hipotezy ad hoc, która może ukierunkować dalszą pracę nad wydobywaniem regularności z danych. Systematyczne stosowanie analizy współwystępowania jednostek kodu jest właściwą drogą do tworzenia empirycznie ugruntowanych typologii. W ten właśnie sposób, dysponując 8 przypadkami nauczycielek szczebla początkowego (każdy był reprezentowany przez protokoły obserwacji 15 lekcji), wykryłem cztery typy praktyki oświatowej. Typ wymagający – nauczycielka autorytatywnie żąda od uczniów zdyscyplinowanego wysiłku w celu przyswojenia treści przewidzianej przez program, organizuje system nacisków skłaniających do wytężonej pracy (np. często stawia stopnie, w tym negatywne, które trzeba poprawiać, wprowadza współzawodnictwo), życie społeczne klasy podporządkowuje nauczaniu, jest chłodna, w kontaktach z uczniami zachowuje dystans i unika osobistych akcentów. Typ napastliwy – na zakłócenia toku lekcji reaguje krzykiem i groźbami, długimi reprymendami lub teatralnymi oznakami cierpienia i zniechęcenia, skąpo udziela wskazówek, często odmawia pomocy, jest oszczędna w pochwałach, a chętna do sarkazmu, ma pretensje, że uczniowie źle się zachowują względem siebie, ale często sama doprowadza do zadrażnień między nimi, jest chłodna lub kapryśna. 178 Rozdział 8. Metody analizy danych Typ pobudzający – rutynowe ćwiczenia przeplata budzącymi zainteresowanie zagadkami, stosuje urozmaicone formy pracy (w tym pracę zespołową), wymaga samodzielności, ale często też naprowadza i koryguje rozumowanie ucznia, w ocenianiu toleruje formalne usterki, szukając raczej oznak zrozumienia materiału, wystrzega się napastliwej, uogólniającej krytyki, jest ciepła. Typ chroniący – wczuwa się w trudności uczniów i próbuje zapobiec stresowi lub go złagodzić, unika stawiania ucznia w trudnej sytuacji, rzadko pyta „na stopień”, a oceniając, koncentruje się raczej na staranności wykończenia niż na oryginalności czy głębokości rozumienia, dostrzega i chwali wysiłek, łagodzi konflikty między uczniami, rzadko okazuje oburzenie z powodu wykroczeń, częściej „tłumaczy”, uwydatniając psychologiczne skutki złego czynu. Dopiero gdy badacz dysponuje niearbitralnymi i bogatymi w znaczenia kategoriami, może je zamykać w przestrzeni znaczeniowej. W omawianym przykładzie cztery typy dają się zinterpretować jako punkty w dwuwymiarowej przestrzeni „pedagogii szkolnej”: Wymiar sposobu Bezosobowy Osobowy Wymiar celu dydaktyczny wychowawczy wymagający napastliwy pobudzający chroniący Widać na przykład, że pedagogia wymagań to dążenie do celów dydaktycznych bez wczuwania się w przeżycia dziecka, a pedagogia ochrony to dążenie do celów wychowawczych (uspołecznienia) z uwzględnianiem przeżyć dziecka. Przejdźmy teraz do sądów o współwystępowaniu, które nie opierają się na konwencji znaczeniowej, np. o tym, że kryzys finansowy współwystępuje z załamaniem się harmonii rodzinnej. Takie sądy w jeszcze większym stopniu muszą opierać się na empirycznej analizie regularności. Często badacz uzasadnia je zestawieniem danych (np. cytatów z pamiętników, wypowiedzi uczniów, epizodów interakcyjnych), które przemawiają za wnioskiem. Jest to podejście nienaukowe, ponieważ milczy o danych, które przeczą hipotezie lub się z nią nie wiążą. W ten sposób można udowodnić wszystko. By uniknąć takiego zarzutu, Ritchie i Spencer (1995) opracowały specjalną procedurę analizowania danych jakościowych. Składa się ona z pięciu kroków. Krok pierwszy to ogólne zapoznanie się z całym materiałem. Krok drugi to stworzenie struktury tematycznej, czyli listy zagadnień (np. w badaniu zmian standardu życiowego rodzin są to pytania o bieżący dochód i jego źródła, o wydatki skreślone, zredukowane, utrzymane i zwiększone oraz o opinie, jak te zmiany wpływają na życie rodzinne). Krok trzeci to indeksowanie danych. Indeksowaniem nazywają autorki oznaczanie fragmentów odpowiadających zagadnieniom ujętym w strukturze tematycznej. Krok czwarty to tabelaryczne zestawienia danych. Każdemu tematowi odpowiada jedna tabela. Wiersze tabeli reprezentują przypadki (np. zbadane rodziny), a kolumny – poszczególne jednostki indeksu odpowiadającego tematowi (tematowi „wydatki” odpowiadają kolumny „dobra utrzymane”, „dobra zredukowane”, „okresy kontrolowania wydatków” itd.). W kratkach tabeli umiesz- Dane jakościowe 179 cza się teksty: streszczenia wypowiedzi badanych, czasem cytaty. Ponieważ przypadki umieszcza się w tabelach w stałej kolejności, zbiór n-tych wierszy z poszczególnych tabel reprezentuje n-te studium przypadku. W ostatnim kroku znajduje się odpowiedzi na pytania badawcze. Służy temu systematyczne przeszukiwanie zawartości kolumn, ale też skoki intuicji i wyobraźni. Pytania badawcze mogą dotyczyć pojęć, które ma badana zbiorowość (np. co się składa na pojęcie stopy życiowej: wielkość dochodu, rzeczy, na które ich stać lub na które ich nie stać, możliwość wybierania, bezpieczeństwo finansowe, mozół wiązania końca z końcem, majątek, oczekiwania, szacunek do siebie, zadowolenie z życia itd.), znaczeniowych wymiarów zjawisk, typologii (na podstawie krzyżowania wymiarów) czy związków (np. między poglądami rodzin a cechami ich położenia społecznego). Procedura Ritchie i Spencer jest próbą usystematyzowania analizy danych jakościowych na podobieństwo analiz ilościowych. Temat odpowiada zmiennej, jednostki indeksu – wartościom zmiennej, czyli wyczerpującej liście pojęciowo i pomiarowo rozłącznych stanów rzeczy. W kratkach tabeli wystarczy wówczas zaznaczyć obecność lub nieobecność tej wartości w każdym przypadku. Taka tabela prowadzi bezpośrednio do sądów o współwystępowaniu, czyli do ujawnienia regularności w danych. Niestety, propozycja autorek, jak i wiele jej podobnych, grzeszy pomieszaniem indeksów-opisów i indeksów-tytułów. Rzecz w tym, że opis zastępuje materiał, tytuł natomiast tylko go zapowiada. Załóżmy, że w wywiadzie znajdujemy taki passus (o dzieciach): Matka: Kiedyś zabierali do szkoły jabłko, banana czy coś w tym rodzaju. Albo dawałam im pieniądze, żeby sobie coś kupili w sklepiku szkolnym. Teraz już tak nie jest. Temat, do którego odnosi się ten fragment, mógłby brzmieć: „wpływ spadku dochodu na dzieci”, a sam fragment mógłby być reprezentowany indeksem opisowym „ograniczenie konsumpcji w szkole”. Proste przejrzenie zer i jedynek w odpowiednich kolumnach prowadziłoby do sądów w rodzaju: „Rodziny o niższym statusie socjoekonomicznym rzadziej decydują się ograniczyć dziecięcą konsumpcję w szkole niż rodziny o wyższym statusie”. Inaczej jest, gdy tematem staje się „wpływ kryzysu na życie rodzinne”, a indeksem „wpływ na dzieci”. W tak zatytułowanej kolumnie zbiera się wtedy najróżniejsze teksty: że nie dostają kieszonkowego, że wyjeżdżają na krótsze wakacje, że wstydzą się niemodnego ubioru, że bardziej pomagają przy zajęciach domowych itd. Takie zestawienie porządkuje dane, ale w żadnym stopniu nie pomaga wydobyć z nich regularności, toteż musi być prędzej czy później rozbite na bardziej jednorodne kolumny. Opisane podejście ujawnia istotne podobieństwa między analizą danych jakościowych i ilościowych. W obu przypadkach strukturalizuje się dane z myślą o pożądanych czy przeczuwanych regularnościach, choć w pierwszym strukturalizacja nigdy nie jest ostateczna. Jeśli spodziewana regularność się nie ujawnia, dane jakościowe zawsze można poddać gruntownej restrukturalizacji (tj. inaczej zdefiniować tematy i indeksy). Z danymi ilościowymi zrobić tego nie można, ponie- 180 Rozdział 8. Metody analizy danych waż ich struktura jest wyznaczona przez zastosowane narzędzia pomiaru. W obu przypadkach operuje się też liczbami, choć w pierwszym są to zwykle rachunki elementarne i często niejawne. Zobaczmy to na przykładzie. Szukając związków między pozycją osób zatrudnionych w młodzieżowym ośrodku szkoleniowym a sposobem nazywania przez nich młodzieży niepełnosprawnej, Ritchie i Spencer (1995) proponują taką tabelę: Używane etykietki osoba niesprawna Z1 Z5 Z8 osoba z handicapem Z2 Z3 Z6 P6 osoba z niesprawnością P1 P2 P3 P4 D2 osoba ze szczególnymi potrzebami D1 D5 D8 Z4 Z7 P5 osoba pokrzywdzona D2 D4 D6 W tabeli sklasyfikowano osoby (Z – zarządcy ośrodka, P – członkowie personelu ośrodka, D – doradcy do spraw zatrudnienia) według tego, jak nazywały swoich podopiecznych. Choć w tej tabeli nie ma liczb, można ją zrozumieć tylko na podstawie porównań ilościowych (np. „pokrzywdzonymi” nazywa niepełnosprawnych połowa doradców i ani jeden zarządca). Znacznie więc lepiej nadać jej jawnie liczbową formę: Używane etykietki Pozycja Zarządcy Personel Doradcy osoba niesprawna 3+ osoba z handicapem 3+ 1 0– osoba z niesprawnością 0– 4+ 1 osoba ze szczególnymi potrzeosoba pobami krzywdzona 2 0– 1 3 4+ Tabela ta zachowuje wszystkie informacje poprzedniej (z wyjątkiem nieistotnej tu tożsamości przypadków), a jest znacznie bardziej czytelna. Więcej – pozwala użyć rachunku prawdopodobieństwa do wykrycia dużych odchyleń liczebności zaobserwowanych od liczebności, których można by się spodziewać, gdyby danymi w całości rządził przypadek. Plus w kratce oznacza, że jest w niej istotnie więcej osób, a minus – mniej osób, niż można by oczekiwać. Tabela ujawnia związek między pozycją respondentów a ich poglądami i pozwala go precyzyjnie określić: zarządcy definiują młodzież przez niesprawność lub handicap, personel ośrodka traktuje niesprawność jako przypadłość, a nie piętno, doradcy zaś koncentrują się raczej na skutkach niepełnosprawności, wymagających przeciwdziałania. Tabela pokazuje też granice tego uogólnienia (liczby przypadków, które się z niego wyła- Dane jakościowe 181 mują). Lepsze to niż werbalna lub graficzna retoryka, która z reguły przecenia jego siłę. Wreszcie tabela ujawnia kategorię definicyjną, której nie różnicuje pozycja respondentów („osoba o szczególnych potrzebach”) i tym samym rodzi nowe, być może płodne pytanie analityczne. Komputer w badaniach jakościowych Kojarzony powszechnie z rachunkami, komputer coraz szerzej wkracza do badań jakościowych. Lekki komputer przenośny służy jako notatnik: możemy w nim prowadzić dziennik i redagować notatki terenowe: wprowadzać je, poprawiać, uzupełniać, opatrywać komentarzami. W edytorze tekstu sporządza się też protokół z nagrań. Mając wszystkie teksty w pamięci komputera, nie tylko nie musimy ich szukać po szufladach, ale też możemy je analizować szybciej i rzetelniej. Komputer znacznie ułatwia kodowanie tekstu, docieranie do już zakodowanych fragmentów i zmienianie kodu w czasie pracy. Przy analizie treści komputer jest nieoceniony w zliczaniu częstości słów lub fraz, a także pozycji słów lub fraz w tekście względem siebie. Ponadto komputer pomaga empirycznie kategoryzować dane (wiązać ze sobą jednostki kodu) i znajdować związki między kategoriami (sprawdzać hipotezy). Unaocznia strukturę danych w postaci tabel lub dendrytów, dzięki czemu łatwiej ją uchwycić. Jeśli jest włączony do sieci, ułatwia porozumiewanie się badaczy pracujących nad tym samym projektem. Niezliczone decyzje, jakie podejmuje się w trakcie badania, zostają zarejestrowane i mogą być łatwo odtworzone. Dzięki temu cały proces badawczy staje się bardziej przejrzysty, poddaje się replikacji, a przez to jest bardziej wiarygodny. No i oczywiście komputer pomaga pisać oraz ilustrować końcowe doniesienie. Użyteczny jest nawet komputer bez specjalnego oprogramowania. Już najprostszy edytor tekstu rewolucjonizuje pisanie, o czym wie każdy, kto wcześniej wystukiwał swoje teksty na maszynie. Edytor pozwalający wyszukiwać i indeksować słowa to często wszystko, czego nam trzeba. Na rynku są też specjalne programy do analizy jakościowej. Ponieważ nie są tanie, warto się z nimi dobrze zapoznać przed zakupem. Podstawowym kryterium wyboru jest możliwość uruchomienia programu na komputerze, którym dysponujemy. Trzeba więc sprawdzić, jakiego sprzętu wymaga (procesor, wielkość RAM, ilość miejsca na dysku, jakość karty graficznej i monitora) i w jakim środowisku pracuje (system operacyjny, aplikacje współpracujące). Każdy program ma funkcje analityczne, z których można korzystać od razu: dzielenie tekstu na fragmenty, oznaczanie ich jednostkami kodu, zliczanie jednostek i przeglądanie fragmentów opatrzonych tą samą jednostką. Do bardziej złożonych (np. określanie relacji między jednostkami kodu a kategoriami lub między kategoriami) użytkownik będzie dorastał w miarę pracy nad tekstami źródłowymi. Przykładami programów są ATLAS/ti T. Muhra, AQUAD G. Hubera i NUDIST T. i L. Richardsów. Ci ostatni (Richards i Richards 1995) wychodzą z założenia, że badacz, który gromadzi materiał jakościowy, musi prędzej czy później 182 Rozdział 8. Metody analizy danych zacząć go porządkować, żeby nie stracić nad nim kontroli. To porządkowanie zwykle polega na tym, że wyróżnia się fragmenty protokołów i umieszcza się je w katalogu tematycznym (np. w szufladce „definicje dobrego sąsiedztwa”). Przywraca to panowanie nad danymi w tym sensie, że badacz wie, co zawierają jego dane, i w każdej chwili może zapoznać się z zawartością poszczególnych tematów. Ale, zauważają autorzy, zaciera świadomość, że takie porządkowanie nie jest niewinnym zabiegiem technicznym, lecz decyzją teoretyczną. Dlatego ich NUDIST zawiera dwie bazy danych: surowych materiałów i hierarchicznie uporządkowanych kategorii. To, co się zwykle nazywa kodowaniem, autorzy proponują pojmować jako łączenie tekstu źródłowego z kategoriami za pomocą odsyłaczy. Ponieważ baza kategorii przypomina indeks rzeczowy w książce, proponują nazywać takie łączenie indeksowaniem. Kategorie nie są uporządkowane alfabetycznie, lecz logicznie (w postaci dendrytu). Pełna nazwa kategorii obejmuje nazwy wszystkich kategorii nadrzędnych wobec niej (np. „wartości\ interakcje\sąsiedztwo\dobre sąsiedztwo”). Każda kategoria zawiera odsyłacze do fragmentów oryginalnych danych, np. protokołów obserwacji lub wywiadów, dziennika terenowego, artykułów prasowych. Oprócz nazwy kategoria ma swoją definicję, a proces kategoryzowania – swoją historię (w każdym wierzchołku dendrytu mieści się informacja, kiedy stworzono poniższe rozróżnienie, czy i jak je modyfikowano). Jak widać, autorzy włożyli wiele wysiłku, by zapobiec oderwaniu interpretacji (kategorii) od danych (tekstu), co może grozić przy pospiesznym kodowaniu. Trzeba pamiętać, że gdy zaczynamy operować jedynie etykietkami, możemy ostatecznie nadać im znaczenia całkiem obce tekstowi, z którego je wywiedliśmy. NUDIST pozwala szybko wyświetlić tekst źródłowy i sprawdzić, czy stosujemy kategorię konsekwentnie (w tym samym znaczeniu) i czy modyfikacje znaczeniowe (potrzebne, gdy wiążemy ze sobą różne kategorie) mają wystarczającą podstawę w tekście. Dane ilościowe Dane ilościowe analizuje się metodami statystyki. Przed analizą statystyczną stoją dwa cele: syntetyczne przedstawienie zbioru danych i ustalenie prawomocności wnioskowania z próbki o populacji. Stosownie do tego statystyka dzieli się na dwie części: opisową i indukcyjną. Przygotowanie danych do analizy Dane ilościowe to zbiór wartości zmiennych obserwowalnych, które przyjmują poszczególne obiekty z próbki. Analizę danych rozpoczynamy od ich zestawienia w jednej tabeli. Wiersze tabeli odpowiadają przypadkom (np. uczniom), a kolumny zmiennym (płci, odpowiedziom na kolejne pytania ankiety itp.). Poniżej fragment takiego zestawienia: Dane ilościowe 183 Zadania testu Nr 1 2 3 4 5 ... NN UJ BG DT LW AZ ... Płeć K M K K M ... Grupa E K E E K ... Lata 4 1 4 4 3 ... Z1 4 4 4 4 4 ... Z2 2 0 1 0 0 ... Z3 3 5 3 3 3 ... Z4 4 4 4 4 4 ... Z5 2 0 2 . 0 ... Z6 0 2 0 0 0 ... Dane pochodzą z badania porównawczego, w którym sprawdzano hipotezę, że sześciolatki przygotowywane do nauki szkolnej metodą dobrego startu (Bogdanowicz, 1989) wykazują w I klasie wyższy poziom umiejętności pisania niż dzieci przygotowywane w sposób tradycyjny. Kolejne kolumny przedstawiają: numer badanego, jego inicjały, płeć, grupę (eksperymentalna lub kontrolna), liczbę lat spędzonych w przedszkolu oraz wyniki wykonania testu pisania. Kropka zamiast liczby oznacza brak danych – dziewczynka LW opuściła, pewnie przez nieuwagę, zadanie 5. Jak widać, wszystkie dane wpisujemy do zestawienia w formie nieprzetworzonej, by nie stracić żadnej informacji. Na wszelkie zabiegi scalające (np. grupowanie badanych lub tworzenie nowych zmiennych) przyjdzie czas później. Błędem jest więc obliczenie „na piechotę” łącznego wyniku badania testem czy skalą i wpisanie go w jednej kolumnie. Jeśli to zrobimy, nie będziemy w stanie zobaczyć, jak dzieci radziły sobie z poszczególnymi zadaniami, ani odpowiedzieć na wiele innych interesujących pytań, np. o siłę związku między parami zadań. Dlatego każde zadanie powinno tworzyć jedną zmienną, czyli jedną kolumnę w zestawieniu. Czasem jedno zadanie testu trzeba opisać za pomocą kilku zmiennych. W naszym przykładzie pierwsze zadanie polegało na wskazaniu 4 samogłosek w zbiorze 10 rozsypanych liter. W zestawieniu wykonanie tego zadania opisują dwie zmienne: liczba podkreślonych samogłosek (Z1) i liczba podkreślonych spółgłosek (Z2), a nie jedna zmienna (np. tylko Z1 lub różnica Z1 – Z2). Gdybyśmy wpisali tylko liczbę trafnie zidentyfikowanych samogłosek, nie wiedzielibyśmy, czy dziecko nie podkreśliło wszystkich liter. Gdybyśmy wpisali tylko wartość różnicy, nie wiedzielibyśmy, co się za nią kryje: mała liczba trafień czy duża liczba błędów. Trzeba też kilku zmiennych (zerojedynkowych), by zapisać jedną pozycję ankiety, która dopuszcza więcej niż jedną odpowiedź. Jeszcze gorszym błędem jest obniżanie poziomu pomiaru. Zdarza się, że badacz najpierw pracowicie testuje inteligencję uczniów w skali przedziałowej, po czym dzieli rozkład wyników i wprowadza do zestawienia wartości w skali porządkowej, np. {inteligencja niższa, średnia i wyższa}. Czasem trzeba to zrobić (np. gdy chcemy sprawdzić hipotezę o odmiennym układzie współczynników korelacji między zmiennymi w tak utworzonych grupach), ale wtedy wystarczy wprowadzić do zestawienia nową, trójwartościową zmienną, zachowując oryginalną. Poprawnie wykonane zestawienie zawiera wszystkie dane, które zebraliśmy: np. mówi, że dziewczynka UJ, należąca do grupy eksperymentalnej i chodząca przez 184 Rozdział 8. Metody analizy danych 4 lata do przedszkola, znalazła wszystkie 4 samogłoski, ale ponadto zaliczyła do samogłosek 2 spółgłoski itd. Odtąd protokoły, arkusze odpowiedzi, wypełnione kwestionariusze itp. można zamknąć w szafie i pracować wyłącznie na zestawieniu. Zaczynamy od obliczenia zmiennych złożonych (wskaźników), które tworzą nowe kolumny zestawienia. Wynik testowania osiągnięć to zwykle suma albo lepiej: procent poprawnie wykonanych zadań. Wynik badania skalą psychologiczną to suma albo lepiej: średnia wartości skalowych odpowiedzi na poszczególne pozycje. Często stosuje się też wyniki względne. Jeśli obserwujemy interakcje między dziećmi, to operowanie surowymi liczbami może doprowadzić do całkowicie fałszywych wyników. Załóżmy, że interesuje nas częstość aktów typu: „Zachęca do rozpoczęcia lub zmiany wspólnego działania”. W ustalonym interwale Jaś wykonał 5 takich aktów, a Małgosia 3. Jeśli jednak Jaś wykonał w tym czasie 7 innych aktów, a Małgosia tylko 3, to względny wskaźnik inicjatywy Jasia (5/12) jest mniejszy niż względny wskaźnik Małgosi (3/6). Podobnie wskaźnikiem pozycji społecznej ucznia w klasie nie może być sama liczba otrzymanych wyborów, lecz liczba podzielona przez liczbę możliwych wyborów. Ponieważ mianownik zależy od liczebności oddziału klasowego, iloraz przestaje być od niej zależny. Względnego wskaźnika pozycji można zatem używać do porównań międzyoddziałowych. Można też tworzyć zmienne różnicowe1. W pewnym badaniu, chcąc zmierzyć siłę gotowości do działania na rzecz innej osoby, prosiłem badanych, by wykonywali żmudną pracę na przemian na swój rachunek i na rachunek innej osoby. Wskaźnikiem była różnica między wynikiem pracy w sesjach „dla innego” i w sesjach „dla siebie”. Budując zmienne złożone, powinniśmy wybierać formuły matematycznie najprostsze, dbać o przejrzystą interpretację (np. ważenie wyników poszczególnych zadań przez współczynniki trudności z reguły zaciemnia sens wyniku), a przede wszystkim o porównywalność. Jeśli badanie wymagało zebrania wielu różnych danych o wielu osobach, zestawienie może mieć setki wierszy i kolumn. Trudno sobie wyobrazić analizowanie takich zestawień za pomocą ołówka i kalkulatora. Na szczęście dzięki powszechnej dostępności komputerów osobistych badacz nie musi tego robić. Wystarczy, że wprowadzi zestawienie danych do pamięci komputera, uruchomi program statystyczny (np. SPSS-PC) i będzie wiedział, jakich zażądać analiz i jak interpretować ich wyniki. Przy zakładaniu pliku danych można popełnić wiele mechanicznych błędów, dlatego przed analizą trzeba sprawdzić poprawność wprowadzonych danych. Nigdy dość przypominania, że komputerowe nośniki informacji są zawodne i dlatego pliki trzeba regularnie kopiować na dyskietkach lub taśmach. Szybkość obliczeń za pomocą komputera często skłania badacza do beztroskiego żądania najrozmaitszych analiz, wskutek czego zostaje on zasypany górą wydruków, nad którą przestaje panować. Znacznie lepiej z góry zaplanować kroki analizy, zaczynając od szczegółowego badania zmiennych. Z mojego doświadczenia wynika, że analizę komputerową dobrze jest prowadzić równolegle z pisaniem pierwszej Trzeba jednak pamiętać, że rzetelność wyniku różnicowego może być znacznie mniejsza niż rzetelności obu składników, jeśli są one ze sobą dodatnio skorelowane (Ferguson i Takane, 1999, s. 498). 1 Dane ilościowe 185 (szczegółowej) wersji doniesienia: wtedy wyraźnie widać, co i kiedy należy obliczyć, jaką wersję analizy wybrać, co sprawdzić, by się upewnić co do sensu wyniku itp. Przewodnikiem analizy danych jest projekt badawczy. Jak pamiętamy, określa on operacje, które trzeba wykonać na danych, by sprawdzić hipotezę lub odpowiedzieć na pytanie. Operacje te projektuje i sprawdza wyspecjalizowana część matematyki, zwana statystyką. Znajomość metod analizy statystycznej była i będzie niezbędnym elementem kwalifikacji badawczych. Dziś jednak badacz nie musi się już przedzierać przez formuły matematyczne i uczyć wzorów rachunkowych: w tym wyręczy go program komputerowy. Musi natomiast wiedzieć, jakie metody statystyczne trzeba zastosować do zebranych danych, by osiągnąć cel badania, i przestrzegać fundamentalnej zasady: „przy stosowaniu każdej techniki statystycznej należy zdawać sobie sprawę z założeń przez nią przyjmowanych” (Blalock, 1975, s. 32). Statystyka opisowa W celu statystycznego przedstawienia zmiennej trzeba określić jej rozkład liczebności, wartość (tendencję) centralną i zróżnicowanie. Dla dwóch zmiennych możemy ponadto określić ich współzmienność. Rozkład liczebności Rozkład liczebności mówi, ile osób przypada na każdą wartość zmiennej. Jeśli zmienna jest nominalna, wystarczy policzyć przypadki w każdej kategorii i sporządzić takie na przykład zestawienie: Jak na Panią/Pana wpływa praca z dziećmi? Opcja odpowiedzi Odmładza Raczej odmładza Raczej męczy Męczy Razem Liczba 34 58 36 4 132 Procent 26 44 27 3 100 Zamieniając liczebności na procenty, dostajemy rozkład procentowy, który ułatwia uchwycenie stosunków między liczebnościami. Gdy liczba przypadków w podstawie procentowania jest mała, lepiej stosować proporcje (zamiast 26% – 0,26). Jeśli zmienna jest ciągła (lub dyskretna, ale wielowartościowa), trzeba ją najpierw podzielić na mniejszą liczbę przedziałów. Wszystkie przedziały powinny mieć tę samą szerokość, a ich liczba powinna się zawierać między 6 a 15. Rozkład najlepiej przedstawić graficznie, np. w postaci wieloboku liczebności. Wielobok na rys. 8.1 przedstawia rozkład wyników testowania osiągnięć szkolnych z matematyki na 477-osobowej próbce uczniów klasy VIII. Wyniki surowe (liczba poprawnie wykonanych zadań) ułożyły się w przedziale od 3 do 18. Liczba wierzchołków wieloboku zależy od szerokości przedziału. Łatwo stwierdzić, że przedział trzypunktowy wyznacza 5 wierzchołków, a przedział dwupunktowy 8 wierzchołków. Wybieramy drugi wariant i definiujemy przedziały: 3–4, 5–6 itd. 186 Rozdział 8. Metody analizy danych 140 120 Liczebność 100 80 60 40 20 0 1,5 3,5 5,5 7,5 9,5 11,5 13,5 15,5 17,5 19,5 Wynik testowania Rysunek 8.1. Wielobok liczebności wyników testowania osiągnięć szkolnych w matematyce Gdy zmienna jest ciągła, dbamy, by krańce sąsiadujących przedziałów nie pokrywały się ze sobą (zatem 3–4,9; 5–6,9 itd., a nie 3–5, 5–7 itd.). Teraz odczytujemy kolejne wartości pomiaru i stawiamy kreskę w odpowiednim przedziale. Zliczając kreski, dowiadujemy się, że w pierwszym przedziale znalazły się 4 osoby, w drugim 27 itd. Przystępujemy do rysowania wieloboku. Na osi poziomej oznaczamy środki przedziałów, czyli średnie z dokładnych granic przedziału, np. dla pierwszego środek wynosi (2,5 + 4,5) / 2, czyli 3,5. Na osi pionowej odkładamy liczebności przedziałów. Dodajemy dwa przedziały o zerowej liczebności z prawego i lewego skraju, łączymy wierzchołki odcinkami – i rozkład gotowy. Kto chciałby się dowiedzieć o innych formach prezentacji rozkładu danych, może zajrzeć do Freunda (1968) lub Blalocka (1975). Najważniejsze to zrozumieć, że rozkład jest w środku (pod krzywą) wypełniony przypadkami jak stodoła sianem pod jesień. To właśnie ilustrują słupki w tle naszego wieloboku. Znaczy to, że pole pod krzywą obejmuje wszystkie zbadane osoby. Jeśli zrobiliśmy rozkład procentowy, to wartość przedziału na osi pionowej jest miarą prawdopodobieństwa tego przedziału, a pole pod krzywą równa się sumie tych prawdopodobieństw, czyli 100%. Wielobok dostarcza ważnych informacji o rozkładzie: jaki zakres ma mierzona zmienna (to całkiem inne pytanie niż ile zadań miał test), czy rozkład nie wykazuje większych nieregularności (puste przedziały, wyciągnięty ogon ) i jaki ma kształt. Interesuje nas zwłaszcza, czy jest zbliżony do krzywej w kształcie dzwonu (nasz jest zbyt wysmukły), a przynajmniej czy jest symetryczny (nasz jest). Dane ilościowe 187 Każdy rozkład zmiennej można nie tylko narysować, lecz także opisać za pomocą kilku miar liczbowych. Najważniejsze to miary wartości centralnej i miary zróżnicowania. Miary wartości centralnej Wartość (tendencja) centralna to typowa wartość, jaką przyjmuje zmienna w próbce. Miara tej tendencji powinna być dostosowana do poziomu zmiennej. Zmienna nominalna. Wartość centralną możemy wyrazić tylko w jeden sposób: za pomocą modalnej. Modalna to wartość, która najczęściej występuje w próbce. W rozkładzie odpowiedzi na pytania ankiety jest to wartość „raczej odmładza”, w rozkładzie wyników testowania osiągnięć z matematyki: 11. Zmienna porządkowa. Oprócz modalnej możemy się posłużyć medianą. Jest to wartość zmiennej, która dzieli rozkład na połowę. By obliczyć medianę, trzeba najpierw uporządkować przypadki od najmniejszej do największej wartości zmiennej. Jeśli liczba osób jest nieparzysta, medianą jest wartość, którą ma osoba środkowa, jeśli parzysta – mediana jest średnią z wartości, które mają dwie środkowe osoby. Załóżmy, że zbadaliśmy 5 uczniów skalą bezradności umysłowej Sędka i dostaliśmy takie wyniki: 1,5; 2,2; 2,6; 3,5; 4,5. Mediana ma wartość 2,6. Gdyby uczniów było sześciu: 1,2; 1,5; 2,2; 2,6; 3,5; 4,8, mediana miałaby wartość (2,2 + 2,6) / 2, czyli 2,4. W rozkładzie wyników testowania osiągnięć mediana równa się 12. Znaczy to, że pole pod krzywą na lewo od 12 równa się polu na prawo od 12. Można też szukać wartości, które dzielą próbkę na więcej niż dwie równe części. Czasem chcemy ją podzielić na przykład na cztery części, z których każda zawiera 25% przypadków. Trzy wartości zmiennej, które są do tego potrzebne, nazywa się kwartylami. Drugi kwartyl to oczywiście mediana. Zmienna przedziałowa. Oprócz modalnej i mediany możemy użyć średniej arytmetycznej. Jest to suma wartości podzielona przez liczbę wartości. Oznacza się ją symbolem zmiennej z kreseczką na górze (x‒), a w populacji – literą μ. Średnia ma takie samo miano jak sama zmienna (np. sek., kg, liczba wykonanych zadań). W powyższej próbce 6 uczniów średni wynik w skali bezradności wynosi 2,63. Średni wynik testowania osiągnięć z matematyki wynosi 11,39. Zauważmy, że w obu przykładach średnia nie pokrywa się z medianą, czyli nie dzieli próbki na połowę. Świadczy to, że oba rozkłady są skośne. Jeśli wartość średniej jest większa niż wartość mediany, mówimy, że rozkład jest skośny w prawo (ma wydłużony prawy ogon). W odwrotnym wypadku rozkład nazywa się skośnym w lewo. Miary zróżnicowania Zróżnicowanie informuje o rozproszeniu danych wokół wartości centralnej. I tu obowiązuje zasada dostosowania do poziomu zmiennej. Zmienna nominalna. Właściwą miarą zróżnicowania jest entropia: k H = −∑ pi ⋅ log 2 pi i =1 gdzie k oznacza liczbę wartości, a pi – proporcję przypadków, którym przysługuje wartość i. Im większe H, tym większe zróżnicowanie. 188 Rozdział 8. Metody analizy danych Zmienna porządkowa. Zróżnicowanie wyraża entropia oraz odchylenie ćwiartkowe: (Q3 – Q1) / 2, gdzie Q3 to trzeci, a Q1 to pierwszy kwartyl. Zmienna przedziałowa. Oprócz entropii i odchylenia ćwiartkowego mamy do dyspozycji odchylenie standardowe (oznacza się je jako s w próbce i σ w populacji). Podobnie jak średnia, odchylenie standardowe dziedziczy miano po zmiennej. Załóżmy, że zbadaliśmy dochody pracowników dwóch firm zatrudniających po 5 osób i stwierdziliśmy, że w pierwszej roczne dochody wynosiły (w tys. zł): 7,2; 14,4; 16,8; 21,6; 24,0, a w drugiej: 4,8; 13,1; 17,0; 18,6; 30,5. Jak łatwo sprawdzić, średni dochód w obu firmach jest identyczny: x‒ = 16,8 tys. zł. Mimo to oba rozkłady są wyraźnie odmienne: w drugiej firmie dochody są bardziej zróżnicowane niż w pierwszej. To zróżnicowanie ma coś wspólnego z odległościami poszczególnych wartości od średniej. W pierwszej firmie wynoszą one –9,6; –2,4; 0,0; 4,8; 7,2, w drugiej –12,0; –3,7; 0,2; 1,8; 13,7. Widać, że bezwzględne różnice są znacznie większe w drugiej firmie. Przyjęło się pomijać znak różnicy przez podniesienie jej do kwadratu. Średnia sumy kwadratów różnic nazywa się wariancją. W tym wypadku w mianowniku kładziemy nie n, lecz n – 1. Pierwiastek kwadratowy z wariancji to odchylenie standardowe. Podobnie jak średnia, odchylenie standardowe dziedziczy miano po zmiennej. W naszym przykładzie jest ono znacznie większe w drugiej firmie (9,34 tys. zł) niż w pierwszej (6,57 tys. zł). Kwadraty różnic Suma kwadratów Średni kwadrat (wariancja) n n ∑(x ( xi − x ) 2 i =1 92,16 5,76 0,00 23,04 51,84 144,00 13,69 0,04 3,24 187,69 i − x) 2 ∑(x i =1 172,80 348,66 i − x )2 n −1 43,20 87,17 Pierwiastek (odchylenie standardowe) n ∑(x i =1 i − x )2 n −1 6,57 9,34 Wygodniejszy jest inny (równoważny) wzór: n n∑ x − ∑ xi i =1 i =1 n ⋅ ( n − 1) n s= 2 2 i Zamiast obliczać i sumować kwadraty różnic, wystarczy zsumować kwadraty wartości (tj. x12 + x22+ ... + x32), pomnożyć je przez n, odjąć kwadrat sumy wartości, podzielić przez n (n–1) i wyciągnąć pierwiastek. Średnia i odchylenie standardowe to dwie miary, które mówią bardzo wiele (czasem nawet, jak zobaczymy, wszystko) o rozkładzie zmiennej przedziałowej, są też niezbędne we wnioskowaniu statystycznym. Dlatego trzeba się trzymać zasady, że ilekroć podajemy średnią jakiejś zmiennej, tylekroć podajemy też jej odchylenie standardowe. Nasz rozkład wyników testowania osiągnięć z matematyki charakteryzujemy więc przez podanie średniej (11,4) i odchylenia standardowego (3,2). Dane ilościowe 189 Ostatnia grupa miar opisowych, które tu rozważymy, dotyczy związku dwóch zmiennych. Miary współzmienności Miary współzmienności opisują stopień, w jakim związane są ze sobą dwie zmienne. Zmienne nominalne. Gdy zmienne mają poziom nominalny, badamy związek za pomocą tabeli kontyngencji (współwystępowania). Załóżmy, że chcemy się dowiedzieć, czy istnieje związek między odpowiedziami nauczycielek na dwa pytania ankiety. Zaczynamy od zbudowania takiej oto tabeli. Jaki stosunek ma Pani mąż do Pani pracy? Jest dumny Nie interei stara mi się suje się moją pomagać pracą Jak wpły 10 (5,6) Odmładza wa na PaRaczej odmładza 8 (11,7) nią praca Raczej męczy 8 (8,7) z dziećmi? Razem 26 10 (5,6) 8 (11,7) 8 (8,7) 18 Uważa, że tracę czas i zdrowie Razem 10 (5,6) 8 (11,7) 8 (8,7) 13 27 20 16 60 W każdej kratce znajduje się liczba osób, które odpowiedziały w sposób opisany w odpowiednim wierszu i kolumnie (np. w pierwszej kratce znalazło się 10 nauczycielek, które uznały, że praca z dziećmi je odmładza, a mąż jest dumny z ich pracy). Na oko trudno coś orzec o związku między tymi pytaniami. Spróbujmy więc obliczyć współczynnik siły związku. Do zmiennych nominalnych najczęściej używa się współczynnika kontyngencji C: 2 χ2 C= 2 χχ 2 + n gdzie n to liczba wszystkich przypadków. Żeby go obliczyć, trzeba znać wartość χ2 (chi kwadrat). Ta często używana statystyka zdaje sprawę z odchyleń liczebności obserwowanych (o) od liczebności oczekiwanych (e) przy założeniu niezależności rozkładów prawdopodobieństw obu zmiennych. Weźmy pod uwagę pierwszą kratkę. Prawdopodobieństwo odpowiedzi: „Praca z dziećmi mnie odmładza” wynosi 13/60, czyli 0,22, a odpowiedzi: „Mąż jest dumny z mojej pracy” 26/60, czyli 0,43. Jeśli te prawdopodobieństwa są niezależne, to prawdopodobieństwo wystąpienia obu odpowiedzi w jednym przypadku jest równe ich iloczynowi, czyli 0,09, co przekłada się na liczebność 5,6 osób (tabela podaje w nawiasach liczebności oczekiwane). Ale w pierwszej kratce jest 10 osób, czyli o 4,4 więcej, niż oczekiwaliśmy. Im większe są takie nadmiary i niedobory w kratkach, tym bardziej wątpliwe jest założenie o niezależności obu zmiennych i tym większa jest wartość χ2. Dzieląc kwadraty różnic między liczebnościami obserwowanymi i oczekiwanymi przez liczebności oczekiwane i sumując ilorazy ze wszystkich kratek (jest ich nk, czyli liczba wierszy n razy liczba kolumn k, otrzymujemy: 190 Rozdział 8. Metody analizy danych nk nk χχ2 = ∑ 2 i =1 (oi − ei )2 ei Czytelnik zechce sprawdzić, że dla naszej tabeli χ2 = 9,57, więc C = 0,37. Jest to spora wielkość, więc niejeden badacz doniósłby z satysfakcją, że im bardziej pozytywna jest postawa męża nauczycielki wobec jej pracy, tym lepsze jest jej samopoczucie w szkole. Ale czyniąc tak, popełniłby poważny błąd. Statystyka χ2 jest całkowicie niewrażliwa na porządek wartości zmiennych. Możemy dowolnie przestawiać wiersze lub kolumny tablicy, a wartość χ2 będzie taka sama. Widać, że na ogólnie wysoką wartość χ2 zapracowały głównie dwie kratki i że nadmiary nie układają się wcale wzdłuż przekątnej. Wniosek z tego taki, że obie zmienne są wprawdzie statystycznie zależne, ale kształt tego związku jest nieinterpretowalny. Taki wniosek jest, oczywiście, bezużyteczny. Zmienne porządkowe. Najczęściej stosowanymi miarami siły związku jest τ (tau) Kendalla i γ (gamma) Kruskala. Sposób ich obliczania podają wszystkie podręczniki statystyki (np. Ferguson i Takane, 1999, rozdz. 21). Zmienne przedziałowe. Chcąc obliczyć siłę związku między dwiema zmiennymi przedziałowymi, najczęściej korzystamy ze współczynnika korelacji Pearsona. By zrozumieć pojęcie korelacji, zacznijmy od sporządzenia wykresu korelacyjnego. Załóżmy, że 10-osobową próbkę uczniów zbadaliśmy dwoma narzędziami: testem inteligencji i testem osiągnięć szkolnych. Załóżmy też, że każda zmienna jest przedziałowa i ma tylko 5 wartości. Zbadanych uczniów (symbolizowanych kropkami) możemy rozmieścić w układzie współrzędnych stosownie do ich wyników w obu testach. Uczeń oznaczony na rys. 8.2 literą A uzyskał wynik 2 w teście inteligencji i 3 w teście osiągnięć. W punkcie 3; 3 znalazło się dwóch uczniów. Rzut oka na nasz wykres przekonuje, że obie zmienne są ze sobą związane (wyższym wartościom na osi poziomej towarzyszą wyższe wartości na osi pionowej). By uchwycić ogólną prawidłowość, możemy wykreślić linię prostą, która byłaby najlepiej dopasowana do wszystkich 10 punktów. Przyjęło się uważać, że linia jest najlepiej dopasowana, gdy suma kwadratów pionowych odległości każdego przypadku od linii (na wykresie zaznaczono linią przerywaną jedną z 10 takich odległości) jest najmniejsza z możliwych. Taką linię nazywamy linią regresji. Ponieważ odległości podnosimy do kwadratu, nie jest ważne, czy uczeń znajduje się nad, czy pod linią. Jak widać, nasza linia regresji jest rosnąca, co odpowiada wrażeniu, że im wyższa inteligencja, tym wyższe osiągnięcia. Nasz wykres pokazuje jednak, że związek obu zmiennych nie jest doskonały: zwłaszcza uczniowie B i C wyłamują się z ogólnej prawidłowości. Dobrze by było móc wyrazić siłę związku za pomocą pojedynczego miernika liczbowego. Czytelnik domyśla się już, że możemy w tym celu wykorzystać sumę kwadratów odległości poszczególnych przypadków od linii regresji, czyli wielkość Σ(yi – yi’)2, w której yi’ oznacza punkt na linii regresji odpowiadający wartości xi. Im większa jest ta wartość, czyli im bardziej są rozproszone przypadki wokół linii regresji, tym siła związku słabsza. Żeby się pozbyć miana, dzielimy sumę kwadratów odległości od linii regresji przez sumę kwadratów odległości od średniej, czyli: Dane ilościowe 191 C 5 4,5 Osiągnięcia 4 3,5 3 A 2,5 2 1,5 B 1 0,5 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 Intel i gencja Rysunek 8.2. Związek dwóch zmiennych n ∑( y i − y' )2 ∑( y − y )2 i =1 n i =1 i Zauważmy, że w tym ułamku mianownik jest częścią wzoru znanej już miary: wariancji zmiennej y. Ułamek daje więc porównanie zróżnicowania wartości zmiennej wokół linii regresji z całym zróżnicowaniem wartości tej zmiennej. Im ułamek większy, tym związek słabszy. Zauważmy też, że licznik przyjmuje wartość najmniejszą z możliwych (co wynika z pojęcia linii regresji), a więc musi być mniejszy lub równy mianownikowi. Wartość ułamka waha się zatem od zera (związek doskonały) do 1 (brak związku). Ponieważ chcemy mieć miarę siły, a nie „bezsiły” związku, zdefiniujemy statystykę r jako: n r = ± 1− ∑( y i =1 n i ∑( y i =1 i − y' )2 − y) 2 . Nosi ona miano współczynnika korelacji Pearsona. Znak przy współczynniku zależy od nachylenia linii regresji. Gdy linia regresji jest rosnąca (jak w naszym przykładzie), znak jest dodatni. Mówimy wtedy, że korelacja jest dodatnia (im większa wartość X, tym większa wartość Y). Gdy linia regresji jest malejąca, mówimy, że korelacja jest ujemna (im większa wartość X, tym mniejsza wartość Y). Podsumowując: r jest liczbą niemianowaną, wahającą się od –1 do + 1. Jej wielkość bezwzględna informuje o sile związku, a znak o kierunku związku. Dodajmy, że w praktyce nie oblicza się r ze wzoru definicyjnego, lecz z równoważnego mu: 192 Rozdział 8. Metody analizy danych r= n ⋅ ∑ xy xy − ∑ x ⋅ ∑ y n ⋅ ∑ x 2 − (∑ x ) ⋅ n ⋅ ∑ y 2 − (∑ y ) 2 2 . Wszystkie sumy obejmują przypadki od 1 do n. Czytelnik może zastosować ten wzór do naszego przykładu i przekonać się, że r = 0,50. Współczynnik korelacji r jest bodaj najczęściej stosowanym miernikiem siły związku dwóch zmiennych przedziałowych lub stosunkowych. W dobie komputerów osobistych otrzymuje się go za naciśnięciem kilku klawiszy, co zaciera świadomość, jaki ma sens i zakres zastosowań. Przypomnijmy więc kilka zasad posługiwania się tym współczynnikiem. • Współczynnik r może być stosowany jedynie do opisu związków między zmiennymi przedziałowymi. Dla zmiennych niższego poziomu opracowano inne statystyki. • Współczynnik r trafnie opisuje jedynie związki liniowe. Jeśli związek jest nieliniowy, tzn. jeśli do punktów wykresu korelacyjnego lepiej pasuje jakaś krzywa (np. parabola) niż prosta, to r zaniży jego siłę (w skrajnym przypadku do zera). Krzywoliniowość związku łatwo wykryć, przyglądając się wykresowi korelacyjnemu. Jeśli ją wykryliśmy, należy użyć miary η2 (eta kwadrat) (Blalock, 1975, s. 297n). Inne możliwości to próbować przywrócić liniowość przez transformację zmiennej (Brzeziński i Stachowski, 1981, s. 182n) lub dopasować do danych wielomian (Oktaba, 1980). • Współczynnik r jest wrażliwy na skośność rozkładów zmiennych. Często kilka przypadków ulokowanych daleko na ogonach obu rozkładów może wytworzyć r o pokaźnej wartości. Badacz, który nie sporządził wykresu korelacyjnego, naraża się na ogłaszanie odkryć pozornych: wystarczy bowiem wyłączyć te przypadki z rachunków, by r zbliżył się do zera. • Skala współczynników r nie jest liniowa i dlatego nie można ich bezpośrednio porównywać ze sobą. Nie jest więc tak, że r = 0,40 oznacza związek o połowę słabszy niż r = 0,80. Do porównań należy używać kwadratów r. Podniesione do kwadratu r to miernik tak ważny, że zasłużył na osobną nazwę: współczynnik determinacji. Współczynnik determinacji r2 informuje o proporcji (albo procencie, jeśli r2 pomnożyć przez 100%) zróżnicowania jednej zmiennej, które można przypisać zróżnicowaniu drugiej zmiennej. Pierwszy współczynnik (16%) jest zatem cztery razy mniejszy niż drugi (64%). • Współczynników r nie można też sumować i uśredniać. Jeśli chcemy obliczyć średnią z kilku współczynników, musimy je najpierw przekształcić na wartości z Fishera według wzoru: 1 1+ r z = ⋅ln ln 2 1− r w którym ln oznacza logarytm naturalny, a e podstawę tego logarytmu. Po obliczeniu średniej z wartości z możemy wrócić do r według wzoru: r= e2 z − 1 e2 z + 1 Dane ilościowe 193 Zamiast średniej prościej i lepiej używać mediany. • Współczynnik r i żadna inna miara siły związku nie upoważniają do interpretacji przyczynowej. Z tego, że r w naszym przykładzie wyniósł 0,50, nie można wnioskować, że osiągnięcia szkolne (albo, jak pisał pewien autor, że 25% osiągnięć szkolnych) to skutek inteligencji. Po pierwsze, korelacja to relacja symetryczna: jeśli A jest skorelowana z B, to B jest w tym samym stopniu skorelowane z A. Po drugie, związki przyczynowo-skutkowe można wykrywać tylko w badaniach eksperymentalnych. W badaniach przeglądowych, które najczęściej dostarczają danych do rachowania korelacji, można wykrywać jedynie współwystępowanie wartości zmiennych. Wartości te mogą współwystępować ze sobą, mimo że jedna nie jest przyczyną drugiej. W literaturze przytacza się wiele zabawnych przykładów wysokich współczynników korelacji między zmiennymi, które z pewnością nie są związane przyczynowo. W takich wypadkach wysokie r jest albo artefaktem (tzn. bierze się z przekształceń, którym poddano surowe dane), albo świadectwem istnienia wspólnej przyczyny obu zmiennych. • Jeśli podejrzewamy, że korelacja jest pozorna, domyślamy się, co może być jej przyczyną, i potrafimy tę domniemaną przyczynę zmierzyć, możemy włączyć ją do rachunków jako zmienną kontrolowaną. Dla trzech zmiennych X, Y i Z możemy obliczyć współczynnik korelacji między X i Y przy kontroli Z, który nosi nazwę współczynnika korelacji cząstkowej (Blalock, 1975, rozdz. 19). Jeśli korelacja między X i Y powstaje za pośrednictwem Z, to kontrolowanie Z powinno ją usunąć. Zauważmy, że w przypadku zmiennych porządkowych lub nominalnych ta droga kontrolowania zmiennych ubocznych jest niedostępna. Jeśli podejrzewamy, że związek między dwiema zmiennymi (np. płcią respondenta a jego stosunkiem do kary fizycznej w wychowaniu potomstwa) może wytwarzać trzecia zmienna (np. poziom wykształcenia), trzeba zbudować osobną tablicę dla każdej wartości zmiennej wykształcenia. Jeśli w tablicach cząstkowych związek między płcią a stosunkiem do karania znika, nasze podejrzenie uznajemy za potwierdzone. W przeciwnym razie mamy prawo stwierdzić, że niezależnie od poziomu wykształcenia kobiety stosują kary fizyczne wobec swoich dzieci częściej niż mężczyźni. Analiza czynnikowa Macierz korelacji wielu zmiennych może być punktem wyjścia do wielu interesujących analiz zmierzających do wykrycia wzorca leżącego u podłoża obserwowalnych związków. Jedną z nich jest analiza czynnikowa. Wyodrębnia ona z macierzy korelacji pewną liczbę czynników wspólnych lub głównych składowych. Oto przykład. Dzieci z klas I i II w liczbie 87 wykonały 12 zadań mierzących dostępność pojęcia niezmiennika, czyli świadomość, że mimo różnych przekształceń, zbiór lub przedmiot zachowuje podstawowe cechy, np. liczebność, masę i ciężar. Na przykład jedną z dwóch identycznych kulek plasteliny badacz przekształcał na oczach dziecka w placuszek, po czym pytał, czy placuszek jest tak samo ciężki, jak kulka. W innym zadaniu badacz dzielił jedną kulkę na 5 małych i pytał, czy wszystkie kulki razem są tak samo ciężkie, jak duża kulka. 194 Rozdział 8. Metody analizy danych Wyniki poddano analizie czynnikowej. Wyłoniła ona dwa czynniki. Poniższa tabela (zwana rotowaną macierzą czynnikową) podaje współczynniki korelacji (zwane ładunkami czynnikowymi) między każdym zadaniem a każdym czynnikiem. W ostatniej kolumnie znajdują się proporcje wariancji każdego zadania „wyjaśnione” (lepiej: odtworzone) przez oba czynniki łącznie. I II h2 Masa placuszka z plasteliny Masa płynu przelanego do szerszego naczynia Masa kiełbaski z plasteliny Ciężar placuszka z plasteliny Ciężar 5 kuleczek z plasteliny Liczba jajek i kieliszków Liczba żetonów Masa płynu rozlanego do 5 szklaneczek Masa pszenicy przesypanej do węższego naczynia Masa pszenicy rozsypanej do 3 szklaneczek Powierzchnia 6 kwadratów ułożonych w trójkąt Powierzchnia 6 kwadratów ułożonych w szereg 0,86 0,86 0,84 0,63 0,11 0,42 0,43 0,16 0,65 0,65 0,56 0,53 0,14 0,36 0,36 0,21 0,85 0,81 0,76 0,59 0,63 0,43 0,59 0,70 0,76 0,87 0,83 0,51 0,74 0,83 0,77 0,38 0,82 0,60 0,65 0,77 Procent odtworzonej wariancji 37,3 33,8 71,1 Zadanie Jak widać, zbiór 10 zadań rozpada się na 3 części. Pierwsze 4 zadania należą do czynnika I, 4 następne do II, a 4 ostatnie w tym samym stopniu do obu czynników. Przyjrzenie się zadaniom prowadzi do wniosku, że czynnik I reprezentuje niezmienniczość względem przekształceń ciągłych, a II – względem przekształceń dyskretnych. Potwierdza to fakt, że zadania z pszenicą, której przesypywanie można równie dobrze traktować jako ciągłe, co dyskretne, są jednakowo silnie skorelowane z oboma czynnikami. W podobny sposób można badać strukturę testów i skal psychologicznych. Załóżmy, że chcemy mierzyć siłę pozytywnego ustosunkowania się ucznia do szkoły i w tym celu wymyślamy różne pytania sondujące, naszym zdaniem, tę postawę (np. „Jak często marzysz, że szkoła została zamknięta wskutek awarii? Często – Czasem – Rzadko –Nigdy”). Próbną wersję skali złożoną z, powiedzmy, 30 pozycji dajemy do wypełnienia nie mniej niż 150 uczniom i obliczamy macierz współczynników korelacji każdej pozycji z każdą. Jeśli wszystkie pozycje mają coś wspólnego z postawą wobec szkoły, to powinny być ze sobą dodatnio skorelowane i wystarczy jedna zmienna wyższego rzędu (główna składowa), by w przybliżeniu odtworzyć całą macierz. W przeciwnym razie zbiór pozycji rozpadnie się na dwa lub więcej podzbiorów z własnymi składowymi. Badacz musi wtedy rozstrzygnąć, czy zachować tylko jeden podzbiór pozycji, najbliższy jego intencji, czy więcej. Analiza składowych jest nieocenioną metodą badania trafności skal psychologicznych, ponieważ o tym, które pozycje „idą razem” (a zatem wskazują to samo), a które „osobno”, rozstrzyga na podstawie odpowiedzi uczniów, a nie mniemań autora. Dane ilościowe 195 Nie należy natomiast używać analizy czynnikowej do ustrukturalizowania kwestionariusza zastosowanego w badaniu. Często badacz buduje kwestionariusz „na nosa” i od razu stosuje go we właściwym badaniu. Na odpowiedziach badanych wykonuje analizę głównych składowych, oblicza wyniki czynnikowe (szacunkowe wartości każdej składowej dla każdej osoby) i analizuje je tak, jak każdą inną zmienną losową. Jest to postępowanie błędne – mimo że pod względem budowy narzędzie jest kwestionariuszem ankiety, dane traktuje się tak, jakby pochodziły ze skali psychologicznej. Minimalnym warunkiem wykorzystania struktury czynnikowej kwestionariusza jest sprawdzenie, czy jest ona stabilna (tzn. czy w niezależnej próbce kwestionariusz rozpadnie się na podobne części). Trzeba się też głęboko zastanowić, czy składowe mają wyraźną i zgodną z zamiarem badawczym interpretację. Często są one trudne do zinterpretowania, zwłaszcza gdy pulę pytań dobraliśmy bezmyślnie. Ilekroć w badaniu wystarczy ankieta, trzeba się jej trzymać i samemu przekształcać odpowiedzi w potrzebne zmienne, zamiast ślepo polegać na rozwiązaniach czynnikowych. Statystyka indukcyjna W naukach społecznych statystyka indukcyjna jest wykorzystywana do dwóch celów: szacowania parametrów i testowania hipotez statystycznych. W obu przypadkach podstawową rolę odgrywa pojęcie rozkładu normalnego. Jest to funkcja matematyczna, która poszczególnym wartościom zmiennej losowej przyporządkowuje wielkości (gęstości) prawdopodobieństwa. Rys. 8.3 przedstawia środkowy fragment tej funkcji (z obu skrajów dąży ona bowiem w granicy do zera) i jej formułę. Kształt funkcji określają dwa parametry zmiennej losowej: średnia (μ) y 0,4 0,3 –(x – μ)2 2 1 ____ f(x) = __ e 2σ σ√2π 0,2 0,1 -3 -2 -1 Rysunek 8.3. Rozkład normalny 1 2 3 x 196 Rozdział 8. Metody analizy danych i odchylenie standardowe (σ). Rysunek przedstawia funkcję zmiennej losowej X, której średnia wynosi 0, a odchylenie standardowe 1. O takiej zmiennej mówimy, że jest standaryzowana. Każdą zmienną można sprowadzić do postaci standaryzowanej przez proste przekształcenie: x–μ x’ = σ Zauważmy, że omawiana funkcja przypomina kształtem i znaczeniem wielobok liczebności, który rysowaliśmy w poprzednim podrozdziale. Gdy na osi pionowej wykresu odłożyć procenty, wielobok przyporządkowuje poszczególnym wartościom pomiaru ich prawdopodobieństwa, np. pozwala stwierdzić, że prawdopodobieństwo uzyskania wyniku w przedziale 5–6 wynosi 0,06, w tym przedziale znalazło się bowiem 27 spośród 447 uczniów. W rozkładzie normalnym takie sądy nie wymagają materiału empirycznego, lecz jedynie obliczenia powierzchni odpowiedniego fragmentu pola pod krzywą (powierzchnia całego pola jest, oczywiście, równa 1). Wiadomo na przykład, że prawdopodobieństwo wyniku między –1 a 1 wynosi 0,683, a prawdopodobieństwo wyniku powyżej 2: 0,023. Na rys. 8.3 odpowiadają im powierzchnie zakreskowanych pól. Wartości te najprościej odczytać z tablicy rozkładu normalnego, która znajduje się w każdym podręczniku statystyki. Podobieństwo funkcji normalnej do naszego wieloboku liczebności nie jest przypadkowe: funkcja ta została wymyślona przez wielkiego matematyka C. F. Gaussa jako matematyczna symulacja wielu (choć oczywiście nie wszystkich) rozkładów empirycznych. Wkrótce okazało się, że jest czymś więcej: udowodniono mianowicie, że jeśli zmienna losowa jest sumą n zmiennych, to jej rozkład dąży do normalnego, gdy n dąży do nieskończoności. Twierdzenie to, zwane centralnym twierdzeniem granicznym, pozwala zrozumieć, dlaczego wiele zmiennych w przyrodzie i świecie społecznym ma rozkłady zbliżone do normalnego: są to zmienne wyznaczone przez łączne działanie wielu prostszych zmiennych. Tak jest na przykład z wartością inteligencji człowieka: determinują ją wyposażenie genetyczne, warunki, w których przebiegał rozwój, procesy uczenia się i czynniki działające w sytuacji pomiarowej. W jeszcze wyższym stopniu dotyczy to zmiennej, która pojawia się w każdym modelu statystycznym: zmiennej błędu. Zauważmy, że na błąd składa się mnóstwo drobnych oddziaływań: stałe różnice indywidualne, chwilowe wahania uwagi czy nastroju badanego, a także większa lub mniejsza nierzetelność narzędzia pomiarowego. Centralne twierdzenie graniczne uprawnia do założenia, że sumaryczna zmienna błędu ma rozkład normalny, i to niezależnie od rozkładu zmiennej zależnej. Zaraz zobaczymy, jak można to wykorzystać. Estymacja parametrów Celem wielu badań jest wypowiadanie się o populacji na podstawie próbki losowej. Wypowiadanie się o populacji to tyle co określanie parametrów mierzonych zmiennych: głównie średniej (μ), wariancji (σ2), wskaźnika struktury (π), czyli proporcji (odsetka) obiektów mających pewną cechę, oraz współczynnika korelacji liniowej (ρ). Dokładne wartości tych parametrów są oczywiście nieznane; mo- Dane ilościowe 197 żemy je jedynie ocenić (oszacować) na podstawie pewnych wielkości obliczonych z próbki. Te wielkości nazywa się estymatorami. Statystycy starają się tak zdefiniować estymator, by: • był nieobciążony, tj. by prawdziwa wartość parametru była środkiem zgrupowania możliwych wartości estymatora, • był zgodny, tj. by w miarę zbliżania się wielkości próbki do wielkości populacji (czyli n do N) oszacowanie dążyło do prawdziwej wartości parametru, • miał małą wariancję, tj. by możliwe wartości estymatora niezbyt odchylały się od prawdziwej wartości parametru. Ponieważ budowa estymatorów zależy od tego, jak została wylosowana próbka, rozpatrzymy kolejno trzy podstawowe schematy losowania (zob. rozdz. 6). Losowanie nieograniczone indywidualne. W pewnej skończonej populacji ciągła zmienna losowa X tworzy rozkład nieznanego kształtu o nieznanej średniej i nieznanej wariancji. Naszym zadaniem jest poznać tę średnią. Statystyk powiada, że nieobciążonym estymatorem średniej w populacji jest średnia arytmetyczna próbki (x‒ → μ), losujemy więc próbkę o wielkości n, mierzymy zmienną X i obliczamy jej średnią x‒1. Czy możemy uznać, że x‒1 = μ? Żeby się upewnić, losujemy nową próbkę o wielkości n i stwierdzamy, że tym razem średnia wynosi x‒2. Gdybyśmy wielokrotnie powtarzali to badanie i narysowali rozkład liczebności średnich z kolejnych próbek, to okazałoby się, że zgodnie z centralnym twierdzeniem granicznym zbliża się on do rozkładu normalnego o średniej μ i wariancji: D2 ( x ) = σσ 2 N − n n ⋅ N gdzie N oznacza wielkość populacji, a n to wielkość próbki. W ten sposób dowiedzieliśmy się, że w dużych (przekraczających 30 przypadków) próbkach losowych musimy się liczyć z błędem rozkładającym się normalnie wokół szacowanej średniej – tym szerzej, im większe jest zróżnicowanie zmiennej X w populacji i im mniejsza jest próbka. Stwierdzenie to jest doniosłe, ponieważ pozwala znaleźć prawdopodobieństwo tego, że średnia z próbki odchyla się od średniej w populacji o określoną wielkość. Rzut oka na rysunek krzywej normalnej wystarczy, by zrozumieć, że 68,3% wszystkich średnich różni się od średniej w populacji o jedno odchylenie standardowe D(x‒), czyli że z prawdopodobieństwem 0,683 –D(x‒) < x‒ – μ < D(x‒), skąd natychmiast wynika, że x‒ – D(x‒) < μ < x‒ + D(x‒). Nierówności te mówią, że średnia w populacji leży gdzieś między x‒ – D(x‒) i x‒ + D(x‒). Ta sama krzywa normalna powie nam, że 95,4% średnich różni się od średniej w populacji o dwa odchylenia standardowe. Możemy zatem z prawdopodobieństwem 0,954 twierdzić, że średnia w populacji jest większa od x‒ – 2D(x‒) i mniejsza od x‒ + 2D(x‒). Tak wyznaczony przedział nazywa się przedziałem ufności, a związane z nim prawdopodobieństwo – stopniem ufności. Jest jasne, że im wyższy jest stopień ufności, tym szerszy przedział. Zastosujmy tę metodę do wyników badania osiągnięć z matematyki opisanych w poprzednim podrozdziale. Załóżmy, że próbka o wielkości 477 osób została 198 Rozdział 8. Metody analizy danych wylosowana z populacji 6 tys. ósmoklasistów jednej dzielnicy Warszawy. Średni wynik w próbce wyniósł x‒ = 11,39, a odchylenie standardowe s = 3,2. Chcemy się dowiedzieć, w jakim przedziale leży średni wynik w populacji. Nie znamy wariancji zmiennej w populacji (σ2), ale możemy ją oszacować za pomocą s2. Wariancja estymatora równa się (3,2)2 / 477 ∙ (6000 – 477) / 6000, czyli 0,020, a błąd standardowy estymatora równa się 0,14. Pozwala to twierdzić, że z prawdopodobieństwem 0,683 wartość średniej w populacji znajduje się między 11,39 – 0,14 a 11,39 + 0,14, czyli gdzieś między 11,25 a 11,53. Gdybyśmy chcieli zwiększyć stopień ufności do 0,95, musielibyśmy podwoić błąd standardowy. Bylibyśmy wtedy prawie pewni, że średnia w populacji jest większa niż 11,11 i mniejsza niż 11,67. Zauważmy, że podejmując się estymacji średniej w populacji, szukaliśmy błędu oszacowania przy ustalonej wielkości próbki. Nic jednak nie stoi na przeszkodzie, by szukać wielkości próbki przy ustalonym błędzie, innymi słowy – szukać odpowiedzi na pytanie, jak duża powinna być próbka, by błąd standardowy oszacowania nie przekraczał ustalonej wielkości. Wyobraźmy sobie, że sponsor naszego badania osiągnięć żąda oszacowania z dokładnością 0,10, a nie 0,14. Podstawmy wartości do powyższego wzoru: 3,22 ∙ _______ 6000 – n 0,12 = ___ n 6000 Jak łatwo obliczyć, równanie to spełnia n = 875. Żeby zadowolić sponsora, musielibyśmy więc dolosować prawie 400 nowych uczniów. W podobny sposób przebiega estymacja wszelkich parametrów. Trzeba znaleźć dobry (tj. nieobciążony i zgodny) estymator, obliczyć jego błąd standardowy i wyznaczyć przedział, w którym znajduje się szacowana wielkość. Jeśli dysponujemy ustaloną, nieprzekraczalną sumą pieniędzy na badanie, wielkość próbki jest też ustalona i wtedy musimy pogodzić się z błędem o wyliczonej wielkości. Jeśli natomiast musimy oszacować parametr z ustaloną dokładnością bez względu na koszty badania, to musimy najpierw pobrać próbkę wstępną, by oszacować parametry figurujące we wzorze na wariancję estymatora, a następnie obliczyć ostateczną wielkość próbki. W wielu badaniach praktycznych szacowaniu podlega nie średnia, lecz wskaźnik struktury, czyli odsetek przypadków mających pewną własność. Jeśli próbka powstała w wyniku losowania nieograniczonego indywidualnego bezzwrotnego, można dowieść, że nieobciążonym estymatorem wskaźnika struktury w populacji jest częstość względna występowania obiektów z wyróżnioną wartością zmiennej w próbce (p → π). Estymator ten ma wariancję (w przybliżeniu wynikającym z oszacowania parametru π przez p): d 2 ( p) = p(1 − p ) N − n ⋅ n −1 N gdzie p oznacza proporcję obiektów mających daną własność. Powiedzmy, że władze pewnej gminy przeprowadziły ankietę na 100-osobowej próbce pobranej losowo z populacji liczącej 2400 uczniów i stwierdziły, że 31 uczniów wyraziło zainteresowa- Dane ilościowe 199 nie nauką języka niemieckiego. Na tej podstawie utrzymują, że w całej gminie takich uczniów jest ok. 775. Jak duży może być błąd tego oszacowania, zależy od wariancji estymatora. W naszym przykładzie wynosi ona 0,31 ∙ (1 – 0,31) / 99 ∙ 2400 / 2500, czyli 0,0021. Pierwiastek kwadratowy z tej wartości (0,046) to błąd standardowy oszacowania parametru (4,6 punktu procentowego). Łatwo zbudować 68-procentowy przedział ufności, odejmując i dodając błąd do oszacowania wskaźnika struktury. Władze gminy mogą zatem twierdzić z prawdopodobieństwem 68%, że prawdziwa wartość π znajduje się między 26% a 36%, czyli że zainteresowanych nauką niemieckiego jest nie mniej niż 660 i nie więcej niż 890 uczniów. Często jest to szacunek dostatecznie precyzyjny, by podjąć decyzję, ilu nauczycieli niemieckiego zatrudnić w gminnych szkołach. Jeśli nie, trzeba powiększyć próbę. O ile? Znając wariancję estymatora, wystarczy przyrównać doń pożądaną wartość błędu szacunku i obliczyć niezbędną wielkość próbki. W omawianym wypadku jest ona dana wzorem: p(1 − p ) + d 2 n=N⋅ p(1 − p ) + N ⋅ d 2 Załóżmy, że władze chcą, by średni błąd nie przekraczał 3 punktów procentowych, czyli by d2 = 0,0009. Łatwo obliczyć, że zapewnia to próbka licząca 218 osób. Ponieważ zbadano już 100 uczniów, trzeba dolosować i zbadać jeszcze 118. Jak widać, precyzja oszacowania ma wysoką cenę. Losowanie warstwowe. Jeśli losuje się pojedyncze obiekty w wariancie proporcjonalnym, to nieobciążonym estymatorem średniej w populacji jest ważona średnia ze średnich warstwowych: L ∑w h h =1 ⋅ xh → μµ gdzie x‒h oznacza średnią arytmetyczną w warstwie h, a wh proporcję obiektów w warstwie h. Wariancja tego estymatora wynosi: L d 2 ( x ) = ∑ wh ⋅ 2 h =1 sh2 N h − nh ⋅ nh Nh gdzie s to szacunek wariancji zmiennej X w warstwie h, a nh to liczebność warstwy h w próbce. Nieobciążonym estymatorem wskaźnika struktury jest ważona suma częstości względnych: 2 h L ∑w h =1 h ⋅ ph → π gdzie ph oznacza częstość względną wyróżnionych obiektów w warstwie h. Wariancja tego estymatora wynosi w przybliżeniu: L d 2 ( p ) = ∑ wh ⋅ h =1 2 ph (1 − ph ) N h − nh ⋅ nh Nh 200 Rozdział 8. Metody analizy danych Można udowodnić, że przy dużych różnicach między wielkością warstwy a wielkością próbki losowanie warstwowe daje mniejsze wariancje estymatorów μ i π niż losowanie nieograniczone, co znaczy, że tę samą dokładność oszacowania można osiągnąć na mniejszej próbce. Zysk ten jest tym większy, im bardziej są zróżnicowane szacowane średnie czy wskaźniki struktury w warstwach, czyli im silniejszy jest związek kryterium podziału na warstwy z mierzoną zmienną. Losowanie grupowe. Rozważymy najpierw przypadek, w którym badanie obejmuje wszystkie obiekty wchodzące w skład grupy (losowanie jednostopniowe). Załóżmy, że z populacji o znanej liczbie obiektów (NT) podzielonej na M grup wylosowano m grup, każda o liczebności nk. W celu oszacowania średniej w populacji możemy użyć nieco obciążonego, ale zgodnego estymatora: nk m ∑∑ xkj kj k =1 j =1 m ∑n k =1 → μµ k W liczniku znajduje się suma wszystkich pomiarów, a w mianowniku łączna liczba zbadanych obiektów. Wariancja tego estymatora jest dana przybliżonym wzorem: M 2 D (x) = μ ∑N r =1 2 r μr − µμ‒ ) 2 (µ M −1 ⋅ M2 M −m ⋅ N T2 M ⋅ m W analizie wariancji (o której za chwilę) pierwszy ułamek nazywa się średnim kwadratem odchyleń międzygrupowych. Ponieważ jego wartość w populacji nie jest znana, trzeba go oszacować na próbce. W tym celu dla każdej grupy trzeba obliczyć średnią arytmetyczną i odjąć ją od oszacowanej średniej w populacji. Różnice te, po podniesieniu do kwadratu i pomnożeniu przez kwadrat liczebność grupy, sumuje się po wszystkich grupach i dzieli przez m – 1. Łatwo stwierdzić, że błąd oszacowania średniej w populacji jest tym większy, im bardziej różnią się od siebie średnie w grupach. Zgodnym estymatorem wskaźnika struktury jest wyrażenie: m ∑K k ∑N k k =1 m k =1 →π gdzie Kk to liczba obiektów z wyróżnioną cechą w grupie k. Przy dużych m wariancja tego estymatora jest w przybliżeniu równa: M D2 ( p) = ∑ N (π r =1 r rr − ππ) 2 ( M − 1) ⋅ m ⋅ N 2 ⋅ M −m M Dane ilościowe 201 Jak poprzednio, zróżnicowanie międzygrupowe musi być oszacowane za pomocą – danych z próbki. Symbol N oznacza średnią liczbę obiektów w grupie. Rozważmy teraz wyniki losowania dwustopniowego. Załóżmy, że chcąc poznać liczbę komputerów w polskich szkołach, wylosowaliśmy m = 3 powiaty spośród wszystkich M = 373 powiatów, a z każdego powiatu nk szkół. Akcja liczenia komputerów w tych szkołach dała następujące wyniki: Powiat k=1 k=2 k=3 Liczba szkół w powiecie (Nk) 100 20 50 Liczba wylosowanych szkół (nk) 10 2 5 Średnia liczba komputerów w szkołach (x‒) 1,4 0,5 0,8 Wariancja liczby komputerów w szkołach (sk2) 1,38 0,50 1,20 W celu oszacowania średniej liczby komputerów w populacji szkół możemy użyć nieco obciążonego, ale zgodnego estymatora: m ∑N k =1 m k ∑N k =1 xk → μµ k Najpierw obliczamy sumę: 100 ∙ 1,4 + 20 ∙ 0,5 + 50 ∙ 0,8 = 190. Dzieląc ten wynik przez 170, dowiadujemy się, że w populacji szkół na jedną szkołę przypada średnio 1,12 komputera. Pawłowski (1972, s. 142) podaje następujący wzór na wariancję tego estymatora: M 2 D (x) = 1 2 ⋅ ∑ (μµ r =1 rr 2 − µμ‒) ⋅ N r2 ⋅ M 1 σ r2 ⋅ N r2 N r − nr M −m + ⋅ ⋅ 2 ∑ M Nr m ⋅ M ⋅ N r =1 nr M −1 m⋅ N ‒ N to średnia liczba szkół w powiecie (ok. 52). Parametry populacyjne trzeba tu zastąpić wielkościami z próbki. Pierwszy składnik, który odnosi się do różnic między powiatami, to suma kwadratów odchyleń średnich x‒k od średniej ogólnej mnożonych przez kwadraty liczby szkół w wylosowanych powiatach. Sumę tę (1194) trzeba podzielić przez liczbę składników pomniejszoną o 1 (2), po czym podzielić przez liczbę wylosowanych powiatów (3) i kwadrat średniej liczby szkół w powiecie (2704), wreszcie pomnożyć przez 0,99. By oszacować drugi składnik, odpowiadający różnicom wewnątrz powiatów, trzeba wariancje wewnątrzpowiatowe zastąpić wariancjami z próby. Sumę (1872) dzielimy przez (mN‒)2. Dodając oba składniki (0,073 + 0,077), otrzymujemy wariancję estymatora średniej (0,150). Pierwiastek z tej wartości (0,387) to błąd standardowy oszacowania. Możemy go użyć do zbudowania przedziału ufności. Estymatory innych parametrów wyczerpująco opisują Hansen i in. (1956). Estymatory stosunkowe. Estymatory stosunkowe wykorzystują do oszacowania parametru stosunek między zmiennymi (Pawłowski, 1972). Chcąc oszacować 202 Rozdział 8. Metody analizy danych średnią zmiennej X, możemy sobie pomóc inną zmienną Z, jeśli tylko Z jest silnie związana z X, a jej średnia w populacji jest znana. Możemy założyć, że stosunek obu średnich w populacji w przybliżeniu odpowiada stosunkowi obu średnich w próbce: µμx x ≈ µμz z Stąd zamiast estymować x‒ → μx, możemy wziąć: µμz → μµxx z Inaczej mówiąc: jeśli próbka nie doszacowuje średniej X w populacji lub przeszacowuje ją, to możemy zbudować czynnik korygujący i zastosować go do estymatora tej średniej. Pozwala to zwiększyć dokładność estymacji bez zwiększania wielkości próbki. Ten estymator jest wprawdzie obciążony (obciążenie to szybko maleje wraz ze wzrostem wielkości próbki), ale zgodny. Wariancja estymatora (dokładniej: wariancja powiększona o kwadrat obciążenia) oszacowana z próbki wynosi: x⋅ 2 z xi − i ⋅ x ∑ z ⋅ N −n, 2 d (x ) = i =1 n ⋅ (n − 1) N n przy założeniu, że z populacji o wielkości N wylosowano w sposób nieograniczony, indywidualny i bezzwrotny próbkę o wielkości n. Załóżmy, że chcemy oszacować średnią pewnego testu osiągnięć szkolnych w populacji 5 tys. uczniów. Pobraliśmy z niej 20-osobową próbkę uczniów i prosiliśmy ich o wykonanie testu. Wiemy, że test jest związany z wykształceniem rodziców ucznia i wiemy, że w populacji średnia wykształcenia rodziców (w latach nauki) wynosi 11,6. Zebraliśmy więc dane o wykształceniu rodziców. Oto 20 par wartości. Pierwsza to wynik testu, druga to zaokrąglona średnia wykształcenia rodziców ucznia: (9 10), (12 10), (15 12), (15 12), (21 15), (24 10), (18 12), (6 7), (9 17), (9 10), (30 17), (24 17), (21 15), (15 15), (9 10), (6 7), (9 10), (12 10), (27 20), (27 20). Łatwo obliczyć, że: Zmienna Test (X) Wykształcenie (Z) Średnia 15,90 12,80 Wariancja 15,54 57,88 Postępując drogą naszkicowaną w poprzednim podrozdziale, uznalibyśmy, że średni wynik testu w populacji pokrywa się ze średnim wynikiem w próbce, czyli że μx ≈ 15,90. Wariancja tego oszacowania wynosi 57,88 / 20 ∙ (5000 – 20) / 5000 = 2,88. Wyciągając pierwiastek z tej wartości otrzymujemy błąd standardowy oszacowania (1,70 w skali wyniku testowego). Jeśli do tego samego celu wykorzystamy zmienną Z, to μx ≈ 15,90 ∙ 11,6 / 12,80 = 14,41. Żeby obliczyć wariancję tego oszacowania, musimy najpierw obliczyć sumę Dane ilościowe 203 kwadratów odchyleń (437,11). Dzieląc ją przez 19 i 20 oraz mnożąc przez 0,996, otrzymujemy 1,15. Błąd standardowy wynosi 1,07 – o ponad 1/3 mniej niż poprzednio. Przy ustalonej liczebności próbki możemy zatem dokładniej oszacować średnią, a przy ustalonym błędzie możemy użyć mniejszej próbki. Zysk ten, dodajmy, zależy od wielkości współczynnika korelacji między X i Z (w powyższym przykładzie osiągnął on nierealistyczną wielkość 0,76). Jeśli jest niski (dokładniej: niższy niż połowa stosunku współczynnika zmienności Z do współczynnika zmienności X), to wprowadzenie zmiennej z pogarsza dokładność oszacowania. Na zakończenie rozważań o estymacji parametrów zauważmy, że wariancja estymatora nie wyczerpuje wszystkich błędów oszacowania, ponieważ odnosi się jedynie do błędu wynikającego stąd, że wypowiadamy się o populacji na podstawie próbki. Innym źródłem rozbieżności między oszacowaniem a prawdziwą wartością parametru są błędy samego pomiaru zmiennej. Na błędy te składają się nierzetelność narzędzia pomiaru oraz zwykłe pomyłki badacza podczas zbierania i zapisywania danych. Wskutek tego faktyczny wynik osoby jest sumą wyniku prawdziwego, błędu losowego i błędu nielosowego ε. Błąd ε może być skorelowany z prawdziwą wartością zmiennej i nie musi się znosić do zera. Dobrym przykładem może być błąd, do którego dochodzi, gdy mierzymy dochód osoby lub rodziny za pomocą wywiadu: jak wykazano, im większe są prawdziwe dochody, tym większa jest też skłonność do zaniżania ujawnianego dochodu. Estymator X jest wówczas obciążony (sugeruje, że średni dochód jest niższy niż w rzeczywistości), a jego wariancja jest powiększona w zależności od wariancji błędu pomiaru i współczynnika korelacji między błędem pomiaru i prawdziwą wartością zmiennej. Czasem podejmuje się próbę oszacowania nielosowych błędów pomiaru. W tym celu z próbki losuje się mniejszą próbkę (ale liczącą kilkadziesiąt obiektów) i powtarza na niej pomiar z taką starannością, by można go było uznać za bezbłędny. Odejmując nowy wynik od wyniku, który każda osoba w podpróbce uzyskała poprzednio, otrzymujemy zbiór błędów pomiaru ε. Średnia tych błędów jest wówczas oszacowaniem obciążenia estymatora, a wariancja i współczynnik korelacji z wynikiem prawdziwym pozwalają skorygować ocenę dokładności oszacowania interesującego nas parametru. Sprawdzanie hipotez statystycznych W wielu doniesieniach badawczych statystyka indukcyjna przypomina rytuał: podawszy trzy wartości, np. χ2, df i p, autor oświadcza, że wyniki są „istotne”. Musi się w tym słowie kryć moc wielka i tajemnicza zarazem, skoro nawet poradniki metodologiczne wyjaśniają je w najdziwaczniejszy sposób. W jednym z nich czytamy: „Testy statystyczne pozwalają orzec, na ile stwierdzone w badaniu zależności są rezultatem przypadku, w jakim stopniu zaś prawidłowością realnie występującą”. Ale testy statystyczne to zbiór operacji matematycznych na zebranych danych. Jak mogą dostarczyć informacji o realności (czyli zgodności z rzeczywistością) wyników badania? Czy mamy wierzyć, że komputer wie lepiej od nas, jak się rzeczy mają w realnym świecie? Inny podręcznik: „hipoteza (...) będzie utrzymana tylko wtedy, gdy stosowny test istotności wykaże, że 204 Rozdział 8. Metody analizy danych gdyby badanie powtarzać tysiące razy, podobne rezultaty pojawiłyby się przynajmniej 95 razy na każde 100 powtórzeń”. To wyjaśnienie zakłada, że komputer nie tylko wie, jaki jest świat, ale też potrafi przewidzieć, co się stanie w przyszłości. Zacznijmy od przykładu. W celu sprawdzenia hipotezy, że zmienna X wpływa na Y, przeprowadziliśmy eksperyment. Zmienna niezależna X miała dwie wartości x1 i x2, którym losowo przydzielono dwie grupy badanych o liczebności n1 i n2. Hipoteza przewidywała, że w warunkach x1 reakcja Y będzie silniejsza niż w warunkach x2. Musimy porównać wartości Y w obu grupach. Rzecz jasna, Y przyjmuje różne wartości u poszczególnych osób w każdej grupie, więc trzeba porównać rozkłady Y. Wiemy, że jedną z miar rozkładu jest średnia arytmetyczna. Obliczamy więc y‒1 i y‒2. Okazuje się, że zgodnie z hipotezą y‒1 > y‒2. Ale na tym nie koniec. Ponieważ w obu grupach wartości Y są zróżnicowane wskutek tego, że grupy te składają się z różnych osób, różnica między średnimi może wynikać z przypadkowych różnic w składzie grup, a nie z oddziaływania eksperymentalnego. Jak się przekonać, że tak nie jest? Rozumowanie, które oferuje statystyka indukcyjna, jest następujące. Załóżmy, że zmienna niezależna (oddziaływania eksperymentalne) nie miała żadnego wpływu na Y, czyli że różnica między średnimi powstała wyłącznie wskutek przypadku działającego w trakcie losowego doboru osób do grup porównawczych. Takie założenie nazywa się statystyczną hipotezą zerową2. Trzeba teraz oszacować prawdopodobieństwo pojawienia się takiej lub większej różnicy między średnimi, gdyby hipoteza zerowa była prawdziwa. To prawdopodobieństwo oznacza się literą p. Im p mniejsze, tym odrzucenie hipotezy zerowej bardziej uzasadnione. Żeby zapobiec naciąganiu tego kryterium, badacz już w fazie planowania eksperymentu deklaruje progową wartość prawdopodobieństwa p: zazwyczaj 0,05. Tę wartość oznacza się literą α i nazywa poziomem istotności statystycznej. Jeśli p okazuje się mniejsze od α, hipoteza zerowa zostaje odrzucona, w przeciwnym razie – utrzymana3. Badanie istotności statystycznej wyniku to zatem wystawianie go na próbę. – Twierdzę, że wynik jest dziełem przypadku – powiada oskarżyciel. – Przekonajcie mnie, że jest inaczej. Biegli obliczają prawdopodobieństwo przypadkowego uzyskania takiego (lub jeszcze lepszego) wyniku. – Proszę! – zwraca się obrońca do oskarżyciela. – Gdyby zmienna niezależna nie wywierała żadnego wpływu, inkryminowany wynik pojawiałby się rzadziej niż 5 razy na 100 losowań. Chyba nie będzie się pan upierał, że właśnie nam zdarzył się tak mało prawdopodobny wypadek? Zresztą nasz kodeks mówi wyraźnie: jeśli p < α, wątpliwości oskarżyciela należy odrzucić. Wypowiedź obrońcy ujawnia głębszy sens poziomu istotności α: jest to najmniejsze prawdopodobieństwo popełnienia błędu odrzucenia prawdziwej hipotezy zerowej, które jesteśmy gotowi zaakceptować. W istocie oskarżyciel mógłby 2 Czytelnik zechce pamiętać, że hipoteza zerowa jest fikcją statystyczną i nie ma nic wspólnego z pojęciem hipotezy, którym się dotąd posługiwaliśmy (hipoteza jako wywnioskowane z teorii przewidywanie, które jest sprawdzane w badaniu). 3 Mówiąc „utrzymana”, nie twierdzimy, że hipoteza zerowa jest prawdziwa (w istocie niepodobna udowodnić, że coś nie istnieje), lecz tylko że nie ma podstaw do jej odrzucenia. Dane ilościowe 205 się nadal upierać, że testowany wynik jest dziełem przypadku, i wytykać obrońcy, że przecząc temu, naraża się na popełnienie błędu. Ale cytując konwencję „Jeśli p < α ...”, obrońca przypomina: „W badaniach naukowych godzimy się z ryzykiem błędu, jeśli tylko jego prawdopodobieństwo jest mniejsze od α”. Czytelnik może zapytać, dlaczego nauka jest tak tolerancyjna: godzi się z błędem, który pojawia się mniej niż 5 razy ma 100 prób. Czy nie można by przyjąć bezpieczniejszej konwencji, np. mniej niż 1 raz na 1000 prób? Niestety, zmniejszając prawdopodobieństwo popełnienia błędu odrzucenia hipotezy prawdziwej, zwiększamy prawdopodobieństwo popełnienia innego błędu – utrzymania hipotezy fałszywej. Łatwo to zrozumieć na przykładzie przewodu sądowego. Jak wiadomo, w sądzie przyjmuje się domniemanie niewinności, czyli hipotezę zerową „Oskarżony jest niewinny”. Im więcej niezbitych dowodów potrzebuje sąd, by odrzucić tę hipotezę, tym więcej winnych uniknie kary. Jeśli wzdragamy się przed łatwym odrzuceniem hipotezy zerowej, zwiększamy prawdopodobieństwo, że utrzymamy ją nawet wtedy, gdy będzie fałszywa. Widzimy więc, że w procesie wnioskowania statystycznego grożą nam nie jeden, lecz dwa błędy: • błąd I rodzaju o prawdopodobieństwie α: odrzucenie prawdziwej hipotezy zerowej, • błąd II rodzaju o prawdopodobieństwie β: utrzymanie fałszywej hipotezy zerowej, przy czym im mniejsze α, tym większe β4. W praktyce badawczej w ustalaniu obu progów bierze się pod uwagę koszty błędów. Możemy zaryzykować większą wartość α, gdy na przykład sprawdzamy skuteczność pewnej metody nauczania, która nie wymaga kosztownych inwestycji. Gdy jednak ich wymaga, łatwość odrzucenia hipotezy zerowej narażałaby zamawiającego badanie na nieusprawiedliwione ryzyko wyrzucenia pieniędzy w błoto, więc poziom α musi być bardziej rygorystyczny. Istotność badamy za pomocą testu statystycznego. Testy dzielą się na parametryczne i nieparametryczne. Różnica polega na tym, że pierwsze wymagają spełnienia założeń co do rozkładów zmiennych w populacji. Wszystkie są wyczerpująco opisane w dostępnych podręcznikach statystyki, więc nie będziemy się zajmować ani teorią statystyczną, która leży u ich podłoża, ani algorytmami obliczeniowymi. Zadbamy raczej o zrozumienie, jak działają. Wiemy, że wyniki badania mogą należeć do jednej z dwóch grup. Mogą to być: • różnice między rozkładami zmiennej zależnej w różnych grupach lub w różnych warunkach eksperymentalnych, • zależności stochastyczne rozkładów dwóch lub więcej zmiennych. Elementarne podręczniki analizy danych do wyników z pierwszej grupy zalecają test t Studenta, a do drugiego test istotności współczynnika korelacji czy innych miar współwystępowania. Ten zwyczaj ma niedobre następstwa: daje czytelnikowi poczucie, że wie wszystko, czego będzie potrzebował, i daje do zrozumienia, że Związek ten zależy od mocy testu statystycznego (np. test t jest mocniejszy niż test serii Walda-Wolfowitza), wielkości testowanego efektu i przede wszystkim od liczebności próbki. 4 206 Rozdział 8. Metody analizy danych inne metody są bardzo trudne, co zniechęca go do doskonalenia swojego warsztatu. W rezultacie wiele informacji tkwiących w danych nigdy nie wychodzi na jaw, a wielu odkryciom brakuje uzasadnienia. Dlatego tu omówimy dwie potężniejsze metody: analizę wariancji i analizę regresji. Analiza wariancji Test t pozwala oszacować istotność różnicy między średnimi zmiennej w dwóch grupach porównawczych. Analiza wariancji (w skrócie ANOVA) pozwala zrobić to dla wielu grup i wielu zmiennych łącznie. Została opracowana przez R. Fishera do analizy wyników złożonych eksperymentów agrotechnicznych. Dziś stosuje się ją we wszelkich badaniach, jeśli tylko spełniają kilka warunków: osoby zostały dobrane lub przydzielone do grup porównawczych w sposób losowy, zmienna ma poziom przedziałowy, jej rozkład w populacjach eksperymentalnych jest normalny, a wariancje są równe. Analiza wariancji jest jednak „krzepką” metodą, co znaczy, że niewielkie odstępstwa od tych warunków nie przekreślają wartości testu5. neutralny obraźliwy Średni efekt filmu Napastnik 54,9 (10) 58,0 (10) 56,5 Ofiara 41,7 (10) 78,0 (10) 59,9 Średni efekt komentarza 48,3 68,0 Treść filmu Komentarz Przyjrzymy się analizie wariancji dla danych z eksperymentu dwuczynnikowego w schemacie grup niezależnych, który omawialiśmy w rozdz. 3. Powyższa tabela zawiera średnie arytmetyczne agresywnego zachowania się w czterech grupach, a w nawiasach liczby badanych: Istotą analizy jest podzielenie całkowitego zróżnicowania wyników na części odpowiadające różnym źródłom zróżnicowania. Pamiętamy, że oszacowaniem zróżnicowania (wariancji) jest suma kwadratów odchyleń poszczególnych wartości od ich średniej podzielona przez liczbę tych wartości pomniejszoną o 1. Mając zbiór 40 wyników o średniej 58,2, możemy obliczyć ich wariancję przez znalezienie sumy kwadratów odchyleń każdego wyniku od średniej (22993,5) i podzielenie jej przez 39. W tej wariancji mieści się zróżnicowanie średnich w grupach porównawczych. Zauważmy: dwie średnie brzegowe czynnika „komentarz” można potraktować jak dowolne dwa wyniki surowe i w zwykły sposób obliczyć ich wariancję. W tym celu trzeba znaleźć sumę kwadratów odchyleń średnich brzegowych (48,3 i 68,0) od średniej globalnej (58,2). Ponieważ na każdą średnią złożyło się 20 osób, sumę (194,045) mnożymy przez 20. Wynik (3880,9) to suma kwadratów odchyleń średnich pierwszego czynnika i zarazem wariancja tych średnich (skoro są dwie wartości, to sumę kwadratów trzeba podzielić przez 1). Taką wariancję będziemy nazywać międzygrupową. Jest oczywiste, że można ją obliczyć dla dowolnej liczby średnich. O tych i innych warunkach oraz sposobach sprawdzania, czy są spełnione, wyczerpująco piszą Brzeziński i Stachowski (1981, rozdz. 3). 5 Dane ilościowe 207 Innym źródłem zróżnicowania wyników są różnice między osobami wewnątrz każdej grupy porównawczej. Te różnice są dziełem przypadku działającego w fazie dobierania osób do grup, a więc stanowią błąd próbkowania. Żeby obliczyć wariancję błędu, musimy znaleźć sumy kwadratów odchyleń od lokalnej średniej w każdej z czterech grup i dodać je do siebie. Rezultat (16241,4) trzeba podzielić przez liczebność grupy pomniejszoną o 1 i wziętą tyle razy, ile jest grup (9 ∙ 4 = 36). W ten sposób otrzymujemy wielkość wariancji wewnątrzgrupowej (451,2). Test istotności opiera się na porównaniu dwóch wariancji: międzygrupowej i wewnątrzgrupowej. • Jeśli hipoteza zerowa jest prawdziwa, to rozkłady zmiennej zależnej we wszystkich grupach porównawczych pochodzą z tej samej populacji. Wszystkie różnice między średnimi są wtedy wynikiem przypadku. Wariancja międzygrupowa jest oszacowaniem tego samego błędu, który szacuje wariancja wewnątrzgrupowa, zatem obie wariancje niewiele różnią się od siebie. • Jeśli hipoteza zerowa jest fałszywa, to wariancja międzygrupowa jest sumą wariancji błędu i wariancji wynikającej z oddziaływań eksperymentalnych. Znaczy to, że wariancja międzygrupowa jest większa niż wariancja wewnątrzgrupowa. Fisher zaproponował porównanie ilorazowe: F= wariancja międzygrupowa wariancja wewnątrzgrupowa (błędu) i znalazł rozkład tego ilorazu. Dzięki temu obliczywszy wielkość F dla wyniku badania, możemy stwierdzić, jakie jest prawdopodobieństwo p przypadkowego uzyskania takiej i większej wielkości F. Jeśli p jest mniejsze od wybranej wielkości α (np. p < 0,05), odrzucamy hipotezę zerową, czyli uznajemy, że różnice między średnimi są statystycznie istotne. W naszym eksperymencie F = 3880,9 / 451,2, czyli 8,60. W rozkładzie F o stopniach swobody odpowiadających dzielnikowi licznika (1) i mianownika (36) wielkości tej odpowiada p = 0,006. Ponieważ p < 0,05, różnice między badanymi, którzy słyszeli komentarz neutralny, i badanymi, którzy słyszeli komentarz obraźliwy, uznajemy za istotne. To postępowanie stosuje się do wszystkich efektów złożonego schematu badań: głównych i interakcyjnych. Obliczenia zbiera się w sumarycznej tabeli ANOVA: Źródło wariancji SS Efekt główny komentarza 3880,9 Efekt główny filmu 115,6 Interakcja komentarza i filmu 2755,6 Błąd 16241,4 Razem 22993,5 df MS F 1 1 1 36 39 3880,9 115,6 2755,6 451,2 589,6 8,60 0,26 6,11 p 0,006 0,616 0,018 Tabela wylicza wszystkie źródła wariancji wyników i gromadzi elementy potrzebne do oszacowania tych wariancji. W kolumnie SS znajdują się sumy kwadratów (sums of squares), w kolumnie df – dzielniki tych sum (nazywa się je stopniami swobody, po angielsku degrees of freedom). Kolumna MS (mean square) zawiera 208 Rozdział 8. Metody analizy danych ilorazy SS / df, czyli oszacowania wariancji. W kolumnie F mamy wartości testu dla trzech efektów eksperymentalnych, a w kolumnie p odpowiadające im prawdopodobieństwa błędu I rodzaju. Efekt główny komentarza i efekt interakcyjny okazują się istotne, nieistotny natomiast jest efekt główny filmu. Sumaryczna tabela zaprasza do dalszych analiz. Wykrywszy istotną interakcję, powinniśmy zbadać istotność efektów prostych. Postępowanie jest identyczne, jak poprzednio. Musimy obliczyć wariancję międzygrupową jednego czynnika (dla każdej wartości drugiego czynnika z osobna), po czym porównać ją z wariancją błędu. Źródło wariancji Efekt prosty komentarza przy filmie ukazującym napastnika Efekt prosty komentarza przy filmie ukazującym ofiarę Błąd SS df MS F p 48,1 1 48,1 0,11 0,786 6588,5 16241,4 1 36 6588,5 451,2 14,60 0,001 Jak przypuszczaliśmy, istotny jest tylko drugi efekt. Gdy eksperyment jest wykonany w schemacie porównań wewnątrzosobniczych, podejście to trzeba zmodyfikować – o czym badacze często zapominają. Jeśli badany wykonuje kilka lub kilkanaście prób w każdym z warunków eksperymentalnych, to aby wytrącić efekty ćwiczenia, do analizy bierze się wynik zagregowany – zwykle w postaci średniej albo (chcąc zmniejszyć wpływ skrajnych wyników) mediany. Test istotności zapewnia specjalny wariant ANOVA: wielozmiennowa analiza wariancji (MANOVA) powtarzanych pomiarów. Najważniejsza różnica dotyczy oszacowania wariancji błędu. Ponieważ te same osoby są badane we wszystkich warunkach eksperymentalnych, różnice między osobami odbijają się na średnich grupowych w jednakowym stopniu, zatem wariancja tych średnich nie zawiera wariancji błędu (w istocie różnice indywidualne są tu systematyczne i zostały z góry wyeliminowane z wariancji międzygrupowej). Dlatego wariancją błędu jest tu interakcja zmiennej niezależnej z osobami. Każdą osobę można traktować jak jedną wartość zmiennej „osoby badane”. Jeśli w kolejnych warunkach eksperymentalnych x1, x2, ..., xk wyniki Jana rosną, a Piotra maleją, mamy interakcję. Im więcej jest takich nierównoległości w danych, tym większa wariancja błędu. Wariancja efektu tej interakcji jest zawsze mniejsza niż wariancja wewnątrzgrupowa, gdyby więc ktoś analizował dane eksperymentu w schemacie porównań międzyosobniczych tak jak dane eksperymentu na niezależnych grupach, to przeszacowałby błąd i byłby skłonny utrzymać hipotezę zerową mimo jej fałszywości. Komputerowe pakiety programów statystycznych podają przy okazji wartość ε (epsilon) Huynh-Feldta, która jest poprawką na tzw. niesferyczność danych. Przez ε trzeba pomnożyć pierwotne liczby stopni swobody dla licznika i mianownika F i dopiero potem odszukać p. Im ε jest bliższy 1, tym mniejszą zmianę powoduje ta poprawka. Gdy eksperyment ma schemat mieszany (część czynników należy do schematu niezależnych grup, a część do porównań międzyosobniczych, wykonuje się jedną analizę wariancji, budując F-y z odpowiednimi mianownikami. Dane ilościowe 209 W badaniach z reguły mierzy się więcej niż jedną zmienną zależną. Załóżmy, że prowadzimy eksperyment na dwóch grupach uczniów i mierzymy wykonanie pięciu zadań. Jeśli zastosujemy test t do każdego zadania z osobna, może się okazać, że różnica jest istotna tylko dla dwóch. Czy to wystarczy do odrzucenia hipotezy, że obie grupy są identyczne pod względem wykonania tych zadań? Zmienne zależne bywają ze sobą skorelowane. W pewnym układzie tych korelacji dwie różnice istotne na poziomie 0,05 można z powodzeniem przypisać błędowi. W innym wszystkie mogą być nieistotne przy α = 0,05, a mimo to ich łączne pojawienie się w takich wielkościach może być mało prawdopodobne przy założeniu hipotezy zerowej. Wielozmiennowa ANOVA, czyli MANOVA, pozwoli oszacować łączną istotność różnic. Testy nieparametryczne Testy nieparametryczne nie wymagają spełnienia założeń o naturze rozkładów zmiennych w populacji. Dla zmiennych nominalnych opracowano m.in. test dwumianowy, test znaków i test różnicy między proporcjami. Istotność miar współwystępowania bada test χ2, który porównuje liczebności empiryczne z liczebnościami oczekiwanymi w ustalonych klasach. Warto przypomnieć, że do tabel 2 × 2 lepiej stosować test dokładny Fishera, który obywa się bez przybliżeń i poprawek na nieciągłość. Dla zmiennych porządkowych opracowano test serii, test U (nazywany czasem Manna-Whitney’a, a czasem Wilcoxona) i wiele innych. Przystępnie omawia je Blalock (1975). Bock (1975, s. 15) opisuje nieparametryczne testowanie istotności efektu eksperymentalnego. Postępowanie jest proste i intuicyjnie zrozumiałe: ze wszystkich n1 + n2 pomiarów zmiennej zależnej tworzymy wszystkie możliwe podziały na dwie grupy o liczebnościach n1 + n2. Dla każdego podziału obliczamy różnicę między średnimi w obu grupach. Tak obliczone różnice szeregujemy od najmniejszej do największej. W tym szeregu znajdujemy różnicę, którą faktycznie uzyskaliśmy w eksperymencie. Jeśli leży ona na którymś ze skrajów szeregu, mamy podstawy, by sądzić, że wzięła się z oddziaływania eksperymentalnego, a nie z przypadkowego zbiegu indywidualnych cech osób w jednej grupie. Przyjęło się uważać, że różnica leży na skraju, jeśli jest mniejsza od 2,5 centyla (tzn. gdy mniej niż 2,5% wszystkich różnic jest od niej mniejszych) lub większa od 97,5 centyla. Wadą tej metody jest czasochłonność. Przy dwóch grupach liczba możliwych podziałów wynosi: n1 + n2 n1 Jeśli obie grupy są równoliczne, zmniejsza się ona do: 1 2n ⋅ 2 n ale i tak przy n1 = n2= 10 wynosi ponad 92 tys. Przeciętnemu komputerowi PC obliczenia mogą zająć całą dobę. 210 Rozdział 8. Metody analizy danych Analiza regresji W wielu badaniach hipoteza lub pytanie nie dotyczy różnic między średnimi zmiennej zależnej w pewnej liczbie grup, lecz związków między pewną liczbą zmiennych. Jest tak w badaniu eksploracyjnym, które ma dać wskazówki, od czego zależy pewna zmienna, lub w badaniu praktycznym, które ma umożliwić przewidywanie wartości pewnej zmiennej. Tym celom służy analiza regresji liniowej. Pamiętamy, że linia regresji to taka prosta, która jest najlepiej dopasowana do przypadków na wykresie korelacyjnym. Taką prostą opisuje znane ze szkoły równanie: Y = a + bX. Współczynnik a to punkt przecięcia prostej z osią Y, a b jest miarą (tangensem) nachylenia prostej do osi X. Równanie pozwala przewidywać wartości zmiennej losowej (czyli zależnej) Y na podstawie ustalonych wartości zmiennej X (nazywanej zmienną niezależną lub predyktorem). Równanie można traktować jak receptę, która mówi: by znaleźć y, weź x, pomnóż przez b i dodaj a. Oczywiście przewidywane wartości Y różnią się od rzeczywistych. Wielkość tych odchyleń ma związek z wielkością współczynnika korelacji między obiema zmiennymi: im korelacja silniejsza, tym przewidywanie dokładniejsze. W praktyce badawczej nigdy bodaj nie ograniczamy się do jednego predyktora. Załóżmy, że zmierzyliśmy w próbce pierwszoklasistów następujące zmienne: • suma lat nauki matki i ojca (wskaźnik wykształcenia rodziców), • wynik serii prób piagetowskich (wskaźnik rozwoju umysłowego), • wynik testu Nickel-Dime Flavella (wskaźnik rozwoju społecznego), • wynik serii dylematów moralnych (wskaźnik rozwoju moralnego). Chcemy wiedzieć, jak silnie są związane te zmienne ze średnią cząstkowych stopni szkolnych (wskaźnikiem osiągnięć). Przyjmując, że związki te są liniowe, możemy się posłużyć współczynnikiem korelacji Pearsona. Macierz tych współczynników wygląda tak: Zmienna Wykształcenie Rozwój umysłowy Rozwój społeczny Rozwój moralny Stopnie Wykształcenie Rozwój umysłowy Rozwój społeczny 0,40 0,43 0,26 0,21 0,22 0,13 0,17 0,34 0,28 0,21 Trudno stąd wyciągnąć jakieś wnioski, ponieważ na wielkość współczynnika między parą zmiennych wpływają inne zmienne. Gdy posłużymy się analizą regresji, obraz staje się jaśniejszy. Jak poprzednio, budujemy równanie liniowe, tyle że z wieloma predyktorami: Y’ = a + b1 X1 + b2 X2 + b3 X3 + ... + bk Xk. Analiza regresji pozwala oszacować współczynniki a i b. Dla naszych danych wyniki są podane w powyższej tabeli. Liczby w drugiej kolumnie to współczynniki a i b. Gdybyśmy chcieli przewidywać stopnie na podstawie naszych predyktorów, to najlepsze przewidywanie zapewniłoby równanie: Y’ = 2,309 + 0,155 ED + 0,277 RU + 0,105 RS + 0,030 RM. Współczynniki b mówią niewiele, ponieważ zależą od jednostek pomiaru (np. pierwszy predyktor Dane ilościowe Zmienna Stała Wykształcenie Rozwój umysłowy Rozwój społeczny Rozwój moralny 211 Symbol a, b β (beta) t p a ED RU RS RM 2,309 0,155 0,277 0,105 0,030 0,313 0,312 0,108 0,043 5,42 3,13 2,91 1,04 0,42 0,000 0,003 0,005 0,303 0,677 R = 0,545; R2 = 0,297; F(4; 75) = 7,89; p < 0,001 mierzy się w latach, drugi w liczbie poprawnie wykonanych zadań). Łatwo jednak sprowadzić wszystkie predyktory do wspólnej skali: wystarczy je wystandaryzować. Pamiętamy, że w tym celu trzeba wynik każdej osoby odjąć od średniej w próbce i podzielić przez odchylenie standardowe. Dzięki temu każda zmienna ma odtąd średnią 0 i odchylenie standardowe 1. Jeśli na takich zmiennych wykonamy analizę regresji, zamiast b otrzymamy wagi β. Zawiera je trzecia kolumna. Wielkość β informuje, o ile odchyleń standardowych zmieni się Y w następstwie zmiany X o jedno odchylenie standardowe, niezależnie od wartości pozostałych zmiennych. By to lepiej zrozumieć, wróćmy do równania regresji. Wyrażenie po prawej stronie definiuje nową zmienną Y’. Gdybyśmy obliczyli jej wartości dla każdego dziecka, moglibyśmy też obliczyć współczynnik korelacji między Y’ a oryginalną Y. Nazywa się go współczynnikiem korelacji wielokrotnej i oznacza symbolem R. Kwadrat tej wartości to współczynnik determinacji wielokrotnej (R2). Informuje on o proporcji (albo procencie, jeśli R2 pomnożyć przez 100%) zróżnicowania Y, które można przypisać łącznemu zróżnicowaniu predyktorów. Ponieważ u nas R2 = 0,297, możemy stwierdzić, że cztery predyktory łącznie są w stanie „wyjaśnić” (lepiej: odtworzyć) nie więcej niż 30% zróżnicowania stopni. O wkładzie pojedynczego predyktora w przewidywanie informuje jego β. Jeśli β jest bliska zera, predyktor wnosi do przewidywania bardzo mało (jak wynik pomiaru rozwoju moralnego) i można go usunąć z równania. Rzeczywiście: R2 bez zmiennej RM jest mniejszy zaledwie o 0,3 punktu procentowego. Przejdźmy teraz do zagadnienia istotności. Czwarta kolumna tabeli podaje wartości testu statystycznego t, który sprawdza hipotezę zerową, że a = 0 lub że bi = 0. Jak widać, przy α = 0,01 hipotezę można odrzucić tylko dla dwóch pierwszych predyktorów. Osobno bada się istotność R2, czyli prawdopodobieństwo, że R2 w 80-osobowej próbce losowej osiągnie wielkość 0,297 lub większą, mimo że w populacji równa się 0. Jak widać, jest ono bardzo małe, toteż R2 uznajemy za statystycznie istotne. Wyniki upoważniają nas do wniosku, że osiągnięcia szkolne pierwszoklasisty w podobnym stopniu zależą od wykształcenia rodziców i stopnia rozwoju umysłowego dziecka, nie zależą natomiast od poziomu jego kompetencji społecznych i moralnych. Rozważania o analizie regresji zakończymy kilkoma uzupełniającymi uwagami. Poziom zmiennych. Klasyczna wersja analizy regresji wymaga, by wszystkie zmienne były przedziałowe6. Często jednak chcielibyśmy wiedzieć, co wnosi do Ponadto by w populacji zmienna Y tworzyła rozkład normalny o tym samym odchyleniu standardowym dla każdej wartości X z osobna. 6 212 Rozdział 8. Metody analizy danych równania zmienna niższego poziomu. Brzeziński (1997, rozdz. 13) radzi, jak postępować w takich przypadkach. Inny sposób to użycie specjalnego wariantu regresji z optymalnym skalowaniem zmiennej. Wprowadzenie do regresji zmiennej porządkowej o wartościach arbitralnie oznaczonych kolejnymi liczbami naturalnymi jest błędem podważającym wszystkie wyniki analizy. Liniowość. Analiza regresji liniowej nie może być stosowana, jeśli związki między zmiennymi są nieliniowe. Jak ominąć tę trudność, radzi Blalock (1975, s. 393). Można też użyć specjalnego programu regresji nieliniowej, który znajduje się w komputerowych pakietach statystycznych. Interakcje. Klasyczna wersja analizy regresji nie uwzględnia możliwości, że pary, trójki itd. predyktorów mogą wnosić do równania interakcję. Taka interakcja jest nowym predyktorem. Jak włączyć ją do równania regresji, pokazuje Brzeziński (1997, rozdz. 13). Zmienne redundantne. Pewne predyktory mogą być redundantne, tzn. mogą różnicować wartości zmiennej zależnej tylko dlatego, że są silnie skorelowane z innymi zmiennymi niezależnymi („świecą światłem odbitym”). Trzeba je znaleźć i usunąć z równania. Robi się to za pomocą krokowej (stepwise) analizy regresji. Podobnie jest w przypadku analizy dyskryminacyjnej lub korelacji kanonicznej: zmienne redundantne usuwa analiza zstępująca (step-down). Przewidywanie a wielkość R2. Gdy budujemy równanie regresji z myślą o zastosowaniu go w praktyce (np. do przewidywania powodzenia w nauce lub w pracy), wielkość R2 jest znacznie ważniejsza niż istotność statystyczna. Jeśli R2 jest małe, należy się spodziewać dużych różnic między wartościami przewidywanymi a rzeczywistymi. Można udowodnić, że odchylenie standardowe tych różnic w populacji, czyli błąd standardowy przewidywania, równa się: ——–– σpred = σy √1 – ρ2 gdzie σy jest odchyleniem standardowym zmiennej zależnej, a ρ to współczynnik korelacji wielokrotnej. Jest to ważny wzór, ponieważ pozwala zdecydować, czy zbiór predyktorów w ogóle nadaje się do przewidywania Y. Zauważmy, że gdy R2 (tj. oszacowanie ρ z próbki) jest bliskie 0, to błąd przewidywania jest bliski odchyleniu standardowemu Y. Jest to równoważne „przewidywaniu” polegającemu na przypisaniu każdemu badanemu tej samej prognozy równej y‒. W miarę jak R2 rośnie, różnice maleją i przy R2 = 1 ich odchylenie standardowe jest równe 0, co znaczy, że wartości przewidywane dokładnie pokrywają się z rzeczywistymi. Wiele lat temu grupa badaczy zainteresowanych bardziej racjonalnymi metodami rekrutacji na studia doniosła z dumą, że cztery predyktory: wynik egzaminu wstępnego, oceny na świadectwie maturalnym, wynik testowania inteligencji i tzw. wskaźnik biograficzno-środowiskowy wysoko korelują z wynikami studiowania na I i II roku w jednej z akademii medycznych (R = 0,70). Żeby wykorzystać to równanie do selekcji kandydatów, trzeba je najpierw sprawdzić na niezależnej próbce, ponieważ nie tylko nie ma żadnej gwarancji, że obliczone wagi będą zawsze takie same, ale też jest bardziej prawdopodobne, że będą malały, niż że będą Dane ilościowe 213 rosły. To zjawisko, zwane kurczeniem się R, jest tym wyraźniejsze, im mniejsza była pierwsza próbka. Uważa się, że względnie stabilne szacunki R można uzyskać dopiero wtedy, gdy na każdy predyktor przypada 30–300 osób. Ale nawet gdyby R okazało się stabilne, to i tak łatwo obliczyć, że trafność przewidywania byłaby tylko o 30% większa niż trafność przewidywania, że wszystkim kandydatom będzie się wiodło średnio. Ten sam wzór informuje, że zmniejszenie błędu przewidywania o połowę jest możliwe dopiero wtedy, gdy współczynnik korelacji przekracza wartość 0,86, co zdarza się niezmiernie rzadko. Oczywiście nie po to bada się kandydatów, by móc przewidzieć wyniki studiowania, lecz po to, by przewidzieć, czy sobie poradzą na studiach, czy nie. Zamiast analizy regresji lepiej zastosować analizę dyskryminacyjną pozwalającą przewidywać, w której z tych dwóch klas znajdzie się kandydat. Mierniki wielkości efektu Badacze często zapominają, że wartość testu statystycznego nie jest miarą wielkości wyniku. Nie jest dlatego, że t, F czy χ2 zależą od liczebności próbki: przy tej samej wielkości różnicy między grupami t rośnie w miarę wzrostu wielkości grup. Żeby orzec, jak duży jest wynik, potrzebujemy innych mierników. Ich ważność wzrasta, gdy wynik ma znaczenie praktyczne. Kiedy sprawdzamy jakieś wyrafinowane przewidywanie teoretyczne, liczy się nawet słaby wynik, jeśli tylko istotnie różni się od zera. Ale gdy wynik ma być zastosowany w praktyce, sama istotność daje niewiele. W pewnym doniesieniu przeczytałem o związku między postawą promodernizacyjną nauczyciela a wielkością dochodu w jego rodzinie. Na dowód przytoczono współczynnik korelacji: r = 0,12. Cóż z tego, że ten współczynnik jest istotny na poziomie 0,05, skoro wiąże zaledwie 1,4% zróżnicowania obu zmiennych? Gdybyśmy chcieli przewidywać postawę na podstawie dochodu, zredukowalibyśmy błąd przewidywania zaledwie o 1%. Choć istotny statystycznie, wynik jest nieistotny dla praktyki. Jeśli posługujemy się testem t, możemy zmierzyć wielkość różnicy za pomocą ω2 (omega kwadrat) Haysa: t2 ω2 = t2 + n1 + n2 – 1 Miernik ten mówi, jaką część zróżnicowania zmiennej zależnej wyjaśnia zmienna niezależna. W przypadku jednoczynnikowej analizy wariancji proponuje się inne oszacowania. Najprostsze to η2 (eta kwadrat): η2 = SSmiędzygrupowa ∙ 100% SSrazem W wieloczynnikowych analizach wariancji wielkość efektów szacuje się za pomocą cząstkowej η2. W mianowniku znajduje się wówczas SSrazem pomniejszona o SS-y odpowiadające pozostałym efektom. Na przykład dla efektu głównego komentarza η2 = 3880,9 / (22993,5 – 115,6 – 2755,6), czyli 0,193 lub 19,3%. Szerzej pisze o tym Brzeziński (1985). 214 Rozdział 8. Metody analizy danych Gdy obliczamy współczynniki korelacji Pearsona, wielkość związku szacuje r2, czyli współczynnik determinacji. O wielkości efektu w analizie regresji najlepiej informuje R2. Trudniej oszacować wielkość efektu pojedynczego predyktora. Blalock (1975, s. 19) proponuje obliczać współczynnik korelacji cząstkowej (tzn. współczynnik korelacji między danym predyktorem a tą częścią zmiennej zależnej, której nie wyjaśniły pozostałe predyktory). Kwadrat tego współczynnika informuje, jaki procent zróżnicowania zmiennej zależnej wyjaśnia dany predyktor, gdy pozostałe predyktory wyjaśniły już całe zróżnicowanie, jakie mogły wyjaśnić. Ten sam autor omawia też cząstkowy współczynnik korelacji wielokrotnej, który pozwala stwierdzić, jaką część zróżnicowania zmiennej zależnej wyjaśnia podzbiór predyktorów, gdy inne predyktory (np. silne, a mało interesujące) zrobiły już swoje (s. 392). Proponuje się też badać zmiany R2 po włączeniu lub wyłączeniu danego predyktora z równania regresji. Jeśli jednak predyktory są ze sobą skorelowane (a zwykle są), to zmiany te zależą od kolejności, w jakiej wprowadzamy predyktory. Wróćmy do przykładu z przewidywaniem stopni pierwszoklasistów. Jeśli najpierw zrobimy analizę regresji tylko z RU, a potem dodamy RS, to R2 wzrośnie z 18,8% do 19,9%, z czego by wynikało, że RU determinuje 18,8%, a RS 1,1% wariancji stopni szkolnych. Ale gdy odwrócimy tę kolejność, to R2 wzrośnie od 6,4% do 19,9%, z czego by wynikało, że RU determinuje 13,5%, a RS 6,4%. Cząstkowe współczynniki determinacji są niezależne od kolejności i wynoszą dla RU 14,4%, dla RS 1,4%. Rozdział 9 DONIESIENIE NAUKOWE Komunikowanie wyników badania innym członkom wspólnoty naukowej jest integralną częścią postępowania badawczego. Tekst takiego komunikatu będziemy nazywać doniesieniem naukowym. Jest nim referat, rozprawa dyplomowa (np. doktorska) czy artykuł w czasopiśmie naukowym. Doniesienie ma swoistą kompozycję i język. Kompozycja Na Zachodzie, a zwłaszcza w USA, wypracowano szczegółowe standardy doniesień naukowych (np. American Psychological Association, 1994). W Polsce panuje pod tym względem większa dowolność, choć wiele renomowanych czasopism naukowych wprowadza własne standardy, których powinien się trzymać każdy, kto chce tam ogłosić swoje doniesienie. Badacz, zwłaszcza początkujący, postąpi rozsądnie, komponując doniesienie w konwencjonalny sposób, ponieważ nadaje on publikacji zwięzłość i przejrzystość, a zarazem chroni przed pominięciem ważnych wątków. Na typowe doniesienie składają się: tytuł, streszczenie, wprowadzenie, opis metody i wyników, interpretacja, przypisy, spis wykorzystanych źródeł i aneks. Omówimy je kolejno. Tytuł Tytuł doniesienia powinien być zarazem krótki i treściwy. Niełatwo to osiągnąć. Z reguły tytuły krótkie (np. osławione „Problemy...” lub jeszcze gorsze „Niektóre problemy...”) niedostatecznie informują, o czym mówi doniesienie, długie zaś (np. „Porównanie osiągnięć szkolnych z języka polskiego i matematyki uczniów klas maturalnych ze szkół średnich różnego typu”) wyglądają niezgrabnie. Zdarzają się też tytuły długie i niezgrabne, a mimo to niejasne (co zapowiada tytuł „Ocena opisowa w klasie pierwszej szkoły podstawowej w ujęciu nauczycieli nauczania początkowego województwa elbląskiego” – czy to, co nauczyciele sądzą o tej ocenie, czy jak ją stosują?). 216 Rozdział 9. Doniesienie naukowe Dobrze jest zacząć od wersji tytułu, która wyczerpująco informuje o treści doniesienia, po czym skracać ją przez usuwanie zbędnych słów. Na przykład w drugim z cytowanych tytułów można bez żadnej szkody usunąć słowa „porównanie”, „szkolnych” i „średnich”. Tytuł powinien informować o zmiennych i populacjach, ale już nie o definicjach operacyjnych i próbach, dlatego nie należy w nim umieszczać nazw własnych (np. w trzecim tytule „województwo elbląskie” jest najzupełniej zbędne). Można nadać tytułowi formę pytania (np. „Obojętny przechodzień – dlaczego nie pomaga?” lub „Jak nauczyciele normują test osiągnięć szkolnych?”) – nie gorzej informuje o szczegółach badania, a ponadto przyciąga czytelnika obietnicą odpowiedzi. Zdecydowanie trzeba natomiast unikać tytułów perswazyjnych (np.: „Czy jest wyjście z «egzaminacyjnego piekła»?” lub potworków w rodzaju: „O lepsze przygotowanie nauczycieli do pracy z dziećmi niedostosowanymi społecznie”). Każą się one domyślać drugorzędnej publicystyki i skutecznie odstraszają czytelnika poszukującego danych empirycznych. Streszczenie W większości doniesień wymagane jest streszczenie (abstract), które zamieszcza się na początku, a nie na końcu. Ograniczone najwyżej do 300 słów, streszczenie jest wyzwaniem i dla autora, i dla tekstu. Dla autora, ponieważ trzeba wielkiej dyscypliny, by wybrać z doniesienia to, co najważniejsze. Dla tekstu, bo nawet najzręczniejszy autor nie zdoła streścić wielowątkowych, niespójnych i zdroworozsądkowych rozważań. Oto przykład wyjątkowo nieporadnego streszczenia. Czego można się z niego dowiedzieć? Artykuł przedstawia projekt antyrasistowskiego kursu doskonalenia zawodowego dla nauczycieli, który może być wdrożony w kontekście realiów życia nauczycieli i warunków ich pracy. Program tego rodzaju może dostarczyć okazji do uwrażliwienia nauczycieli na rasowe konstrukcje rzeczywistości we własnym życiu, w szkole itp. oraz dać podstawy do nauczania przeciwko rasizmowi. Artykuł jest podzielony na dwie części. Część pierwsza odnosi się do historycznego i teoretycznego podłoża programu. Część druga omawia sam program. Pierwsze zdanie parafrazuje tytuł doniesienia („Antyrasistowskie doskonalenie zawodowe nauczycieli: uwagi o rasie, klasie i płci”) i zapewnia – jakżeby inaczej – że opisywany produkt może znaleźć zastosowanie. Drugie rozwija te zapewnienia. Potem uwaga przenosi się na strukturę samego doniesienia. Informacja, że składa się dwóch części, wnosi niewiele, zwłaszcza że następne zdania po prostu powielają tytuły tych części. Na takie streszczenie szkoda czasu i atramentu. A oto inny przykład (adaptowany z: Kaja, 1988): Zbadano 152 sześciolatków; 76 przeżyło rozwód rodziców, a 76 pochodziło z rodzin pełnych i zgodnych. Dzieci znajdujące się w sytuacji porozwodowej częściej uzyskiwały niskie wyniki w nowym kwestionariuszu samooceny niż dzieci z rodzin pełnych, wykazywały też niższy poziom uspołecznienia w CBI Schaefera i Aaronson, bardziej negatywną postawę wobec ojców w Rysunku rodziny Frydrychowicz oraz nieco wyższe Kompozycja 217 pragnienie dóbr materialnych w Teście pragnień. Obie grupy nie różniły się pod względem procesów instrumentalnych, mierzonych Sprawdzianem osiągnięć rozwojowych. Wyniki świadczą, że rozwód rodziców może sprzyjać formowaniu się u dzieci osobowości nastawionej na obronę siebie. To streszczenie krótko, ale wyczerpująco informuje o próbie, metodach i wynikach badania, a w ostatnim zdaniu także o głównym wniosku teoretycznym. Zainteresowany czytelnik został doskonale przygotowany do studiowania szczegółów doniesienia. Wprowadzenie Wprowadzenie ma przygotować czytelnika do lektury głównej części doniesienia. Zwykle składa się z trzech niewyodrębnionych części: • pierwsza zarysowuje pole problemowe, • druga przedstawia wybrane twierdzenia teoretyczne i wyniki wcześniejszych badań, • trzecia wyprowadza z nich pytania lub hipotezy własnego badania. Nagminnym błędem jest brak wyraźnego związku między tymi częściami. Pierwszą wypełnia sieć skojarzeń i dygresji, często trącących górnolotną publicystyką. Druga informuje, co i przez kogo zostało powiedziane na mętnie określony temat. Trzecia mogłaby być pierwszą, bo pytanie lub hipoteza pojawia się w niej nagle i bez uzasadnienia. Wspomniany błąd wzmacnia pokutująca tu i ówdzie zasada, by we wprowadzeniu „omówić” znaczenia głównych terminów występujących w doniesieniu. Pół biedy, gdy autor odwołuje się do literatury w sprawach oczywistych („Zdaniem A. Guryckiej na warunki materialne rodziny składają się zarobki jej członków... Według E. Trempały na warunki materialne rodziny składają się najczęściej bieżące dochody...”). Gorzej, gdy naukowy kontekst badania zastępuje się ciągiem przypadkowo zestawionych cytatów. Jeśli w tytule doniesienia występuje „osobowość”, autor wertuje słowniki, encyklopedie i wprowadzenia do monografii naukowych, a potem zasypuje czytelnika wyrwanymi z kontekstu definicjami. Leniwszy poprzestaje na kilkuzdaniowych wzmiankach o poglądach Allporta, Freuda, Eriksona, Junga itd. aż do Skinnera – wszystkich z jednego podręcznika. Autor książki z „pojęciem” w tytule wprowadza czytelnika w swoje badania zestawieniem różnych definicji pojęcia: cytuje więc marksistę A. Smirnowa, który pojęciem nazywa „odbicie ogólnych i istotnych właściwości przedmiotów i zjawisk rzeczywistości”, logika J. Kmitę, nazywającego pojęciem „znaczenie jakiegoś terminu” itd. Kilka stron takich nieprzystających do siebie definicji zamyka zwykle jedna z dwóch konkluzji: albo że są zbieżne i razem wyczerpują znaczenie definiowanego terminu, albo że są rozbieżne i trudno rozstrzygnąć, która jest najtrafniejsza. Tak wprowadzony czytelnik ciągle nie wie, w jakim znaczeniu będzie występował kluczowy termin w dalszej części doniesienia, w jakie relacje wejdzie z innymi terminami i jakie dopuści operacjonalizacje. W ferworze referowania cudzych poglądów i wniosków nie wolno zapominać o wyróżnieniu cudzysłowem cytatów, czyli dosłownie przytoczonych fragmentów 218 Rozdział 9. Doniesienie naukowe cudzego dzieła – w przeciwnym razie może być oskarżony o naruszenie prawa autorskiego. Krótkie cytaty, np. zdanie czy fragment zdania, można włączyć w tekst, dłuższe, kilkuzdaniowe, lepiej ująć w osobny akapit. Metoda Ta część doniesienia informuje, jak przeprowadzono badanie. Powinna być tak szczegółowa, by czytelnik mógł ocenić prawomocność wniosków, a nawet powtórzyć badanie. Składają się na nią opisy: • próbki, • schematu badania i metod zbierania danych, • procedury. Przyjęło się zaczynać od opisu badanych osób (kim byli, ilu ich było i jak zostali dobrani) lub badanych miejsc. Tu podaje się też skład (strukturę) próbki pod względem wieku, płci, wykształcenia i innych zmiennych, które mogą pomóc czytelnikowi w wyrobieniu sobie zdania o trafności zewnętrznej badania. Następnie opisuje się schemat badania i metody zbierania danych. Jeśli autor zastosował powszechnie znaną metodę, wystarczy ją nazwać, jeśli jednak posłużył się własną (np. skalą postaw), powinien ją przedstawić: z ilu pozycji i czynników się składa, jak brzmią centralne pozycje (dzięki temu czytelnik wyrobi sobie zdanie o jej trafności), jakie są opcje odpowiadania, jak oblicza się wynik. Trzeba też podać wyniki badania trafności i rzetelności skali. Samo przekonanie badacza, że jego skala mierzy taką a taką postawę, nie wystarczy. Wreszcie opisuje się procedurę, czyli przebieg badania. To zadanie bywa traktowane w sposób niedopuszczalnie pobieżny. Od badacza wymaga się, by opowiedział w porządku chronologicznym, co i jak robił, nie przemilczając nieoczekiwanych trudności, jakie napotkał. Lepiej tu zgrzeszyć nadmiarem niż niedostatkiem szczegółów. Zasada ta dotyczy zwłaszcza doniesień z eksperymentów. Jeśli autor nie opisze, w jakim otoczeniu wykonywał badanie, jakim oddziaływaniom poddawał osoby w poszczególnych grupach, jak długo one trwały itd. – referowanie wyników traci sens. Niestety, autorzy doniesień z wielotygodniowych eksperymentów dydaktycznych najpierw oszczędzają papier, pisząc lakonicznie, że na przykład w grupie eksperymentalnej nauczano historii metodą problemową, a w grupie kontrolnej podającą, po czym marnują papier na całostronicowe zestawienia różnych miar osiągnięć, postaw itp. Jasne jest, że metodę problemową można rozumieć i stosować na wiele sposobów, toteż czytelnik nie wie, jak zdefiniowano zmienną niezależną. Musi też wątpić, czy referowane różnice można przypisać tej zmiennej, skoro nic nie wie o sposobach kontrolowania zmiennych ubocznych i zabezpieczenia się przed artefaktami. Równie rażącym błędem jest pominięcie informacji o przebiegu zbierania danych. W wielu doniesieniach poprzestaje się na nazwaniu zastosowanych metod. W jednym z nich – poświęconym przyczynom i skutkom konfliktów między dyrektorem szkoły a nauczycielem – czytamy, że dane zebrano za pomocą obserwacji i wywiadu. Obserwacja była „ciągła” (polegała „na celowym wynajdywaniu Kompozycja 219 konfliktów między dyrektorem a nauczycielami na przestrzeni dłuższego czasu”) i „czasowa” (polegała na „wykonywaniu planowych spostrzeżeń danego konfliktu w określonym z góry krótkim odcinku czasu”). Podobnie lakoniczny jest opis wywiadu: prowadzono go z „wybranymi osobami, które mogły udzielić informacji o konfliktach”. Nie wiemy, kto prowadził obserwację, w jakim okresie, jak to robił. Nie wiemy, kto prowadził wywiady, z kim, ile ich było itd. Doniesienie jest bezwartościowe i można się dziwić, że wydrukowało je recenzowane czasopismo naukowe. Wyniki Kompozycja tej części doniesienia różni się w zależności od typu danych, które zbieramy w badaniu. Gdy dane mają charakter jakościowy, prezentacja wyników splata się z ich interpretacją. W przypadku danych ilościowych jest inaczej: najpierw przedstawia się wyniki, potem wyciąga z nich wnioski. Wyniki jakościowe Badacze posługujący się danymi jakościowymi nie wypracowali standardowej kompozycji doniesienia naukowego, toteż opublikowane doniesienia są wielce zróżnicowane. Na jednym biegunie mamy abstrakcyjny wykład teorii, na drugim osobistą narrację. Doniesienie pierwszego rodzaju rozwija teorię, przedstawiając jej centralne i peryferyczne kategorie, warianty kategorii oraz związki między kategoriami (uwarunkowania i konsekwencje). Często zawiera schematyczne ilustracje struktury teorii. Dane (wypowiedzi, spostrzeżenia) cytuje się obficie, ale w sposób podporządkowany wykładowi kategorii teoretycznych, głównym celem jest tu bowiem nie tyle zapoznanie czytelnika z bogactwem szczegółów, ile ugruntowanie kategorii w empirii. W innych doniesieniach na pierwszy plan wysuwa się materiał empiryczny. Nie jest on, jak w podejściu ilościowym, zbiorem faktów wypreparowanych z kontekstu, lecz opisem konkretnych zdarzeń pojawiających się w określonej kolejności w określonej scenerii. Tak rozumiany materiał empiryczny przekazuje się czytelnikowi w formie opowiadania, czyli narracji. Ma ona kilka odmian. Narracja realistyczna przypomina dziewiętnastowieczną epikę: rozwija się w perspektywie czasowej narratora. Sam narrator pozostaje w ukryciu: opisuje zdarzenia obiektywnie, tak jakby były niezależne od sposobu ich poznawania, obficie dokumentując je cytatami z protokołów obserwacji i wywiadów. Najważniejsze jest jednak nie samo opowiadanie, lecz nadrzędna, scalająca je interpretacja, ku której narrator wiedzie czytelnika. Interpretacja ta znacznie wykracza poza punkty widzenia osób biorących udział w badaniu, ponieważ ujmuje ich doświadczenia w pojęciach naukowych. Wskutek tego wygląda jak dzieło umysłu wszechwiedzącego. Narracja udramatyzowana przedstawia zdarzenia w perspektywie czasowej badanego terenu (np. przebieg konfliktu między nauczycielem a dyrektorem, interakcje ucznia i nauczyciela w toku lekcji, zachowania nauczycieli na kursie do- 220 Rozdział 9. Doniesienie naukowe skonalenia zawodowego). Zdarzenia są osadzone w szczegółowych, plastycznych opisach miejsc i ludzi. Idzie o to, by czytelnik mógł sam doświadczyć badanego świata, toteż interpretacje są szkicowe i zostawiają dużo miejsca jego wyobraźni. Narracja osobista. Tu zdarzenia rozwijają się w perspektywie czasowej samego badacza, będącego zarazem narratorem. Narrator w pierwszej osobie przedstawia zdarzenia tak, jak ich doświadczał w terenie, opisuje swoją rolę w badaniu, napotkane trudności, popełnione błędy, olśnienia. Narracja nie jest podporządkowana jednej interpretacji, lecz raczej uwydatnia przeplatanie się fazy zbierania danych i fazy teoretyzowania. Ten rodzaj narracji bywa krytykowany. Przedmiotem doniesienia jest badany teren i jego to obraz ma się wyłaniać z osobistych opisów, a nie – jak to ujął jeden z krytyków – historia moich uniesień i mdłości wśród tubylców. Potrzeba dzielenia się własnymi doświadczeniami jest jednak tak wielka, że powstają doniesienia o samym przebiegu badania. Klasyczna książka tego rodzaju to Sociologists at work pod redakcją P. Hammonda (1964). Niedawno wydano zbiór podobnych doniesień z badań oświatowych (Walford, 1991). Najwyraźniej znajdują one czytelników. Jakikolwiek rodzaj narracji zastosujemy, warto przestrzegać zasady celowości: przekazać wszystkie wiadomości i tylko te wiadomości, które są potrzebne do zrozumienia zdarzeń i procesów w badanym terenie. Jedno z doniesień, traktujące o pewnej fundamentalistycznej szkole chrześcijańskiej w Ameryce (Peshkin, 1986, s. 33), zaczyna się tak: Uderzająco czysty korytarz baptystycznej Akademii Betania jest dumą dyrektora McGrawa. Przewiewne i przestronne izby klas podstawowych wyglądają jak wszędzie, zapchane przedmiotami i rysunkami. Kontrastują z nimi izby klas średnich. Ich surowość trochę tylko ożywiają tablice ścienne, na których przyszpilono rysunki i budujące maksymy wymagane przez kierownictwo szkoły. Sala gimnastyczna ze sceną przyklejoną do jednej ściany służy też za aulę. Naprzeciw sceny znajduje się mała kuchnia. By kupić drugie śniadanie, dzieci ustawiają się w kolejce wzdłuż ściany, odbierają swoje tace z jedzeniem i udają się do jadalni... Jak widać, autor ani nie opisuje tu wszystkiego, co zobaczył, ani nie przekazuje wprost swoich wrażeń i opinii, lecz pomaga czytelnikowi w samodzielnym uchwyceniu swoistości badanego miejsca. Odejście od zasady celowości owocuje typowymi błędami. Takim błędem jest zastępowanie danych empirycznych własnymi opiniami i ocenami. Gdyby autor cytowanego doniesienia napisał: „Wnętrza baptystycznej Akademii Betania są schludne i oszczędne; każdym szczegółem głoszą zasady, o których nie wolno zapomnieć, i granice, których nie wolno przekroczyć...” – nie mielibyśmy pojęcia, jakie szczegóły ma na myśli. W wielu doniesieniach opinie i oceny są jeszcze bardziej obcesowe. „Uczniowie z zapałem brali udział w lekcji” – pisze autorka, nie informując ani słowem, jakie obserwacje pozwoliły jej dojść do tego wniosku. „Na ognisku Janek zachowywał się agresywnie” – dzieli się autor swoimi wrażeniami, zamiast napisać, co Janek robił: popychał kolegów, pluł na nich, przezywał, a może krytykował ich występy? W pewnym doniesieniu znalazła się opinia: „Pani od historii ma zwyczaj zbywać wątpliwości uczniów”. Recenzent Kompozycja 221 chciał wiedzieć, ile razy badaczka widziała nauczycielkę zbywającą uczniów. Ani razu – odpowiedziała autorka. – Wiem to od uczniów. Błąd przeciwny to zasypanie czytelnika masą szczegółów rejestrowanych przez badacza dzień po dniu. Doniesienie przypomina dziennik terenowy: we czwartek rozmowa z nauczycielką historii, w piątek obserwacja interesującej interakcji między trzema uczniami z zerówki, w poniedziałek szkoła nieczynna z powodu dezynsekcji itd. Czytelnik gubi się w natłoku nazwisk, wypowiedzi i opisów i zaczyna podejrzewać, że więcej strawy myślowej, a na pewno więcej przyjemności mogłaby mu dać dobra nowela z życia szkoły. Można powiedzieć, że prezentacja wyników jakościowych to ciąg udokumentowanych sądów potrzebnych do weryfikacji hipotezy lub odpowiedzi na pytanie badawcze. Dokumentowanie polega na przytaczaniu fragmentów notatek terenowych, protokołów wywiadów, archiwaliów itp. – zarówno tych, które świadczą na korzyść tezy autora, jak i tych, które są z nią niezgodne. Ilość miejsca poświęconego takim niewygodnym danym jest ważną przesłanką oceny wiarygodności całego doniesienia. Trzeba pamiętać, że doniesienie z badania jakościowego jest czymś więcej niż bezosobowym przedstawieniem zmiennych i ich związków – jest autorską wersją badanego świata. Wchodzi ona w obieg naukowy, gdy stanie się wersją czytelnika. Dlatego autor powinien nie tyle powiadomić czytelnika, jak się rzeczy mają, ile wprowadzić we własną wersję, tzn. pozyskać jego wrażliwość, pobudzić wyobraźnię. Doniesienie naukowe staje się w pewnym sensie przekazem perswazyjnym albo lepiej: zbliża się do literatury pięknej. Doświadczeni autorzy radzą, by wyobrazić sobie potencjalnego czytelnika i pisać dla niego. Inaczej pisze się dla osoby, która uczestniczyła w badaniu, inaczej dla profesjonalisty, który jednak o badaniu dowiaduje się po raz pierwszy, jeszcze inaczej dla zainteresowanego laika. Ilekroć zdarza mi się kierować jakościowymi badaniami studentów, radzę im, by pisali nie dla mnie czy recenzentów, lecz dla swojego przyjaciela. Nie wszyscy potrafią oderwać się od stereotypu pracy magisterskiej, ale ci, którym się to udaje, piszą wysoce komunikatywne doniesienia. Wyniki ilościowe W najprostszym przypadku – takim jak opisany na początku rozdz. 3 eksperyment studentki, który weryfikował teorię modelowania agresji – na strukturę tej części doniesienia składają się cztery akapity. • W pierwszym podajemy cel i zarys analizy: Chcąc stwierdzić, czy dzieci, które obejrzały film zawierający sceny grozy i okrucieństwa, będą zachowywać się bardziej agresywnie niż dzieci, które obejrzały pogodny film o zbliżonej tematyce, obliczyłam średnie arytmetyczne i odchylenia standardowe liczby agresywnych zachowań zarejestrowanych przez obserwatorów w obu grupach, a istotność statystyczną różnicy między średnimi zbadałam za pomocą analizy wariancji. • W drugim przedstawiamy wartości opisowych miar zmiennej zależnej: Liczby zachowań agresywnych w obu grupach tworzyły rozkłady nie odbiegające od normalnego (Test Kołmogorowa-Smirnowa wykazał, że prawdopodobieństwo, iż po- 222 Rozdział 9. Doniesienie naukowe chodzą z populacji o rozkładzie normalnym, wynosi p = 0,99 dla pierwszej i p = 0,53 dla drugiej grupy). Średnie i odchylenia standardowe tych liczb przedstawia tabela 1. Tabela 1. Średnie liczby aktów agresywnych w grupach porównawczych (w nawiasie odchylenia standardowe) Płeć Rodzaj filmu agresywny nieagresywny Dziewczynki Chłopcy 3,20 (1,48) 4,25 (1,71) 1,40 (0,55) 1,00 (1,16) Średni efekt filmu 3,67 (1,58) 1,22 (0,83) Średni efekt płci 2,30 (1,42) 2,63 (2,20) • W trzecim przedstawiamy wyniki testu istotności statystycznej : Dwuczynnikowa ANOVA wykazała, że główny efekt grupy jest statystycznie istotny: F(1;14) = 17,44, p < 0,01. Efekty płci oraz interakcji grupy i płci okazały się nieistotne. • W czwartym formułujemy wynik: U dzieci, które obejrzały film zawierający sceny grozy i okrucieństwa, zaobserwowano istotnie więcej aktów agresji niż u dzieci, które obejrzały film pozbawiony takich scen, i to niezależnie od płci dzieci. Tę prostą strukturę można wielokrotnie powtarzać, jeśli referujemy wyniki złożonych przedsięwzięć badawczych. Można też rozbudowywać jej części składowe. Jeśli opisywane zmienne mają rozkłady różniące się od normalnego (o czym powie test Kołmogorowa–Smirnowa), trzeba napisać, pod jakim względem się różnią (tj. podać wartość kurtozy, czyli „spiczastości” rozkładu, i asymetrii, czyli skośności), a nawet zamieścić wielobok liczebności. Ilekroć obliczamy miarę tendencji centralnej, powinniśmy też obliczyć miarę zróżnicowania indywidualnych wyników. Odchylenie standardowe zmiennej przedziałowej to miara równie ważna jak średnia – bez niej bowiem nie można użyć wyników badania do metaanalizy, o której mówiliśmy w rozdz. 1. Przedstawiając wyniki badania istotności efektów, trzeba zawsze podać nazwę lub symbol testu (np. t, F, χ2), liczbę stopni swobody, wartość testu i wynik porównania p z α. W pracach popularnonaukowych i w syntetycznych monografiach można nie obciążać tekstu symbolami i liczbami, które mało kogo zainteresują, i podać jedynie ostatni wynik (np. p < 0,05) lub napisać: „ta różnica jest istotna statystycznie”. Błędem jest natomiast podawanie wartości testu bez stopni swobody. Goła informacja: F = 4,51 lub t = 2,03 nie ma żadnego znaczenia. Razi podawanie dokładnych wartości p (czasem po prostu przepisanych z wydruku komputerowego, z kropkami zamiast przecinków, np. „p = 0.0034” albo jeszcze gorzej „p = 0.0000”). Trzeba pamiętać, że wartość p ma sens tylko jako przesłanka decyzji o odrzuceniu hipotezy zerowej. Przy ustalonym poziomie istotności (np. α = 0,05) p < 0,05 mówi wszystko, co czytelnik chce wiedzieć. Wreszcie nie ma żadnego uzasadnienia dla rozpisywania się o hipotezach zerowych, informowania, czy wynik testu mieści się w obszarze krytycznym, czy poza nim itp. Czytelnik zaznajomiony ze statystyką indukcyjną nie potrzebuje takich szczegółów, a niezaznajomiony nie zdoła z nich skorzystać. Kompozycja 223 Do opisu związków między zmiennymi trzeba podejść z wielką starannością. Zdarza się, że wskutek niedbalstwa autora lub bezmyślnej oszczędności wydawcy czytelnik dowiaduje się, że zmienna niezależna wpływa na zależną, ale nie dowiaduje się, w jakim kierunku. Nieocenioną pomocą służą tu tabele i wykresy. Tabele Tabela jest najlepszą formą prezentacji złożonych wyników. Dobrze pomyślana tabela może zastąpić wiele stron tekstu. Ale czasem bywa odwrotnie: kilka wierszy tekstu może zastąpić obszerną tabelę. W pewnym doniesieniu z badania, w którym sprawdzano hipotezę o związku nowego testu osiągnięć matematycznych z inteligencją, wyniki przedstawiono w postaci tabeli 3 × 3. W każdej kratce umieszczono liczebność oraz (nie wiadomo po co) jej udział procentowy w całej próbie. Wraz z nagłówkiem, bokiem oraz wierszem i kolumną wartości brzegowych cała tabela składała się z 25 pól i zawierała 32 liczby. Kilka prostych zdań mogło ją nie tylko zastąpić, ale i dostarczyć znacznie więcej informacji o wyniku badania: Wyniki testu osiągnięć i wyniki testu inteligencji utworzyły rozkłady zbliżone do normalnego. Średnia pierwszej zmiennej wyniosła 65,0, a odchylenie standardowe 17,1. Średnia drugiej zmiennej wyniosła 110,1, a odchylenie standardowe 14,8. Związek między zmiennymi jest liniowy, a jego siłę wyraża współczynnik korelacji r równy 0,49. Decydując się na tabelę, powinniśmy unikać całostronicowych zestawień, ponieważ nikt (łącznie z autorem) nie zdoła ich przestudiować. Zadaniem tabeli nie jest udokumentowanie pracowitości badacza, lecz dostarczenie czytelnikowi przesłanek do wnioskowania na temat hipotezy czy pytania badawczego. Oto kilka wskazówek, jak można nadać zestawieniom tabelarycznym większą przejrzystość: • Podziel jedną dużą tabelę na kilka mniejszych, tak by każda dostarczała po jednej przesłance do końcowego wnioskowania. • Zamieszczaj w tabeli dane o możliwie największym stopniu przetworzenia. Zamiast rozkładów procentowych zmiennej zależnej w poszczególnych grupach porównawczych w większości przypadków wystarczy podać miary tendencji centralnej (np. średnie arytmetyczne) i miary zróżnicowania (np. odchylenia standardowe). • Unikaj zamieszczania w tabeli tych samych danych w różnych postaciach. Tabela, której fragment pokazuje górna część rys. 9.1, zbiera dane o planach oświatowych młodzieży z kilku środowisk. Dane procentowe są niezbędne do porównywania ze sobą kilku rozkładów, ale czemu służą liczebności? Chyba tylko udowodnieniu, że autor potrafi dzielić liczby całkowite. Zauważmy przy okazji, że podawanie odsetek z dokładnością do dwóch cyfr po przecinku jest (w tym przypadku) nieuzasadnione. Generalnie liczba cyfr znaczących w odsetkach nie powinna być większa niż liczba cyfr w podstawie procentowania. Do opisania części kilkusetelementowej próby wystarczą więc odsetki z jedną cyfrą po przecinku. Poprawny wygląd tabeli przedstawia dolna część rysunku. Nagłówek tabeli informuje o liczebnościach prób, czyli o podstawie odsetek w poszczególnych kolumnach. Czytelnik, który chciałby wiedzieć, ilu uczniów 224 Rozdział 9. Doniesienie naukowe ze wsi chciałoby pójść do technikum, może pomnożyć wartość z odpowiedniej kratki tabeli (18,3) przez liczebność w nagłówku (552); dzieląc iloczyn przez sto i zaokrąglając wynik, dostanie 101. Podawanie liczebności w nagłówku nie tylko ułatwia studiowanie tabeli, ale jest niezbędne, ilekroć zmniejszają się one wskutek luk w surowych danych. Tabela 1. Aspiracje oświatowe młodzieży z różnych środowisk Wykształcenie Środowisko Wieś Małe miasto ... Liczba Procent Liczba Procent ... 27 153 101 ... 177 4,89 27,72 18,30 ... 32,07 5 178 46 ... 87 1,35 47,98 12,40 ... 23,45 ... ... ... ... ... Zasadnicza szkoła zawodowa Liceum ogólnokształcące Technikum ... Jeszcze nie wiem Tabela 1 Szkoły pogimnazjalne, do których chcą iść gimnazjaliści z różnych środowisk Wieś (n = 552) Małe miasto (n = 371) ... Zasadnicza szkoła zawodowa Liceum ogólnokształcące Technikum ... Jeszcze nie wiem 4,9 27,7 18,3 ... 32,1 1,4 47,0 12,4 ... 23,5 ... ... ... ... ... Razem 100 100 ... Wykształcenie Środowisko Rysunek 9.1. Dwie postaci tej samej tabeli • Nadaj każdej tabeli numer i tytuł. Jak wszędzie, tak i tu tytuł powinien pomagać czytelnikowi w zrozumieniu tekstu i dlatego lepszy jest tytuł dolnej tabeli z rys. 9.1 niż z górnej, nawet jeśli termin „aspiracje oświatowe” został wcześniej zdefiniowany w doniesieniu. Tytuł powinien też informować, jakiego rodzaju dane znajdują się w tabeli: liczebności, procenty, średnie, współczynniki korelacji itp., tak by czytelnik nie musiał się tego domyślać. • Umieść pod tabelą słowny komentarz, który wyjaśniłby, jeśli trzeba, sens liczb lub innych symboli w tabeli i zwrócił uwagę na najważniejsze wyniki, w tym na anomalie (np. bardzo wysokie odchylenie standardowe w jakiejś kratce). Nigdy natomiast nie „opowiadaj” tabeli w stylu: „Jak widać, dziewczynki, które obejrzały film agresywny, przejawiły średnio 3,20 aktów agresywnych, natomiast dziewczynki, które obejrzały film nieagresywny – tylko 1,40 aktów ...”. Wykresy Tabele dostarczają informacji, a wykresy łączą je w całość. Spójrzmy na tabelę na rys. 9.2. Przedstawia ona wyniki badania porównawczego na dwóch nielosowych Kompozycja 225 próbkach nauczycieli i rodziców. Zmiennymi zależnymi były szacunki ważności czterech kategorii atrybucyjnych w wyjaśnianiu uczniowskich sukcesów i porażek. Dane zebrano za pomocą kwestionariusza składającego się z dwóch pytań: „Jaką rolę w dostawaniu przez niego/nią dobrych stopni odgrywa to, że...” i „Jaką rolę w dostawaniu przez niego/nią złych stopni odgrywa to, że...”. Do pytań dołączono 22 wyjaśnienia (np.: „pochodzi z rodziny mającej dobre warunki mieszkaniowe i materialne”). Badani mieli ustosunkować się do każdego wyjaśnienia na 4-stopniowej skali: od „decydującą” do „żadną”. Tabelę trudno by nazwać przejrzystą. Wykres prezentuje się znacznie lepiej. Od razu widać, że w opinii wszystkich badanych najważniejszym czynnikiem sukcesów i porażek szkolnych są zdolności, a najmniej ważnym praca szkoły. Widać też, gdzie opinie nauczycieli i rodziców zbiegają się, a gdzie są rozbieżne. Są trzy rodzaje wykresów: punktowy, liniowy i słupkowy (rys. 9.3). Wykres punktowy najbardziej przypomina znany z matematyki układ współrzędnych. Kategoria ucznia Odnoszący sukcesy Ponoszący porażki Kategoria atrybucji Zdolności Motywacja Dom Szkoła Zdolności Motywacja Dom Szkoła Nauczyciele (n = 40) Średnia 3,23 3,19 3,13 2,80 3,05 2,77 2,74 2,31 Odchylenie st. 0,30 0,40 0,59 0,38 0,58 0,48 0,78 0,46 Rodzice (n = 40) Średnia 2,95 2,71 2,77 2,68 3,28 2,64 2,15 2,55 3,4 Średnia ważność 3,2 Nauczyciele Rodzice 3 2,8 2,6 2,4 2,2 2 Zdol- Moty- Dom SzkoZdolności ności wacja Dom ła Zdol- Moty- Dom SzkoMotywacja Szkoła ności wacja ła Rysunek 9.2. Wyniki badania w postaci tabeli i wykresu Odchylenie st. 0,36 0,26 0,30 0,17 0,72 0,50 0,74 0,36 226 Rozdział 9. Doniesienie naukowe 40 30 30 30 20 20 10 10 20 10 0 0 0 2 3 4 2 5 3 E1 4 E2 K PUNKTOWYLINIOWY SŁUPKOWY Rysunek 9.3. Trzy rodzaje wykresów Liczba samobójstw na milion mieszkańców Obie osie: pozioma (odciętych) i pionowa (rzędnych) są osiami liczbowymi, tzn. każdemu ich punktowi odpowiada jedna liczba rzeczywista. Taki wykres przedstawia zbiór obiektów, z których każdy jest scharakteryzowany przez wartości dwóch zmiennych. Jeśli na przykład w oddziale klasowym obliczyliśmy dla każdego ucznia średnią stopni ze wszystkich przedmiotów i zmierzyliśmy jego status socjometryczny, to wyniki badania możemy przedstawić właśnie na wykresie punktowym. Każdy punkt na wykresie to jeden uczeń, a dwie współrzędne punktu to stopnie tego ucznia (współrzędna X) i status socjometryczny (współrzędna Y). Wykresy punktowe dobrze nadają się do opisu obiektów zbiorowych. Rys. 9.4 ukazuje jeden z wyników historycznego badania E. Durkheima nad stopą samobójstw w krajach o różnym składzie wyznaniowym. Każdy punkt na wykresie reprezentuje jedną prowincję tego samego kraju. Od razu widać związek między • Śląsk 260 220 - 100 60 - nde nbu rgi • Hanower • He sja 180 140 - • Schleswig • Saksonia • Bra 300 - • Pru sy W ia • Prusy Zach. dren • Westfalia • Na •• Poznańskie Ho hen zoll a • Pomorze sch. ern || 28–3240–50 | | 68–89 90–100 Procentowy udział protestantów w populacji Rysunek 9.4. Stopa samobójstw w prowincjach Prus w latach 1883–90. Na podstawie: E. Durkheim, Le suicide. Etude de sociologie. Paris 1960 (oryginał z 1897) Kompozycja 227 odsetkiem protestantów a stopą samobójstw, a także prowincje, które się wyłamują z tej prawidłowości (Śląsk). Jeśli obiekty z wykresu punktowego pogrupujemy w przedziały na osi X, a średnie lub mediany drugiej zmiennej w każdej grupie odłożymy na osi Y, otrzymamy wykres liniowy. Wykres liniowy z rys. 9.3 ilustruje najczęstszy bodaj przypadek, w którym zmienną niezależną są wyniki pomiaru pewną skalą psychologiczną (tu: samooceny). Skalę podzielono na trzy rozłączne i dopełniające się przedziały i rozmieszczono w nich badanych, uzyskując w ten sposób trzy grupy. W każdej grupie z osobna obliczono średnią zmiennej zależnej (tu: subiektywnego prawdopodobieństwa sukcesu w zadaniu). Na wykresie każdy punkt reprezentuje jedną grupę. Współrzędna X to środek przedziału zmiennej niezależnej. Współrzędna Y to średnia zmiennej zależnej w przedziale. Sąsiadujące ze sobą punkty wolno połączyć odcinkami prostej, ponieważ przestrzeń pomiędzy dwiema grupami „coś znaczy”, np. między grupami osób o niskiej i średniej samoocenie można umieścić grupę z samooceną pośrednią. Wykres udostępnia wartość zmiennej zależnej w takiej nowej grupie przez interpolację. Wykresy liniowe nadają się do ilustrowania związku między dwiema zmiennymi w kilku grupach porównawczych – każda taka grupa jest wtedy reprezentowana przez osobną krzywą. Gdyby się na przykład okazało, że związek między samooceną a oszacowaniami prawdopodobieństwa sukcesu ma inny kształt u dziewczynek niż u chłopców, na wykresie należałoby umieścić dwie krzywe wyraźnie różniące się od siebie grubością lub znakami graficznymi na ich krańcach i w legendzie przyporządkować je obu grupom. Grupowanie stwarza okazję do podejrzanych manipulacji na danych (np. wybierania krańców przedziałów tak, by zwiększyć różnice między grupami pod względem zmiennej zależnej). Dlatego nie wystarczy napisać, że utworzono trzy przedziały. Chcąc oddalić wszelkie podejrzenia, trzeba podać zasadę, według której je utworzono (według równych liczebności, czyli po kwantylach, czy według równych przedziałów), oraz liczebności grup. W omawianym przykładzie odpowiedni fragment doniesienia mógłby brzmieć: „Skalę samooceny podzielono na trzy równe przedziały o szerokości 0,7 p. Znalazło się w nich kolejno 21, 43 i 22 badanych”. Na wykresie należy zaznaczyć środek przedziału, w którym leży każda grupa, podać jego wartość i skróconą nazwę grupy (np. „2,3 niższa”). Na wykresie słupkowym oś odciętych nie jest w ogóle osią liczbową, lecz jedynie graficzną podstawą słupków reprezentujących poszczególne grupy. Położenie słupków względem siebie jest najzupełniej dowolne (np. nic nie stoi na przeszkodzie, by grupę kontrolną K z rys. 9.3 przesunąć na pierwsze miejsce od lewej), a przestrzeń między nimi nic nie znaczy. Wysokość słupka jest proporcjonalna do średniej, którą przyjmuje zmienna zależna w danej grupie. Gdy na wykresie przedstawia się udział kilku grup w pewnej całości (np. procentowy wkład różnych grup rodziców do budżetu szkoły), zamiast wysokości lepiej użyć wycinków koła. Podczas przygotowywania wykresów warto pamiętać, że: • Wykresy zajmują dużo miejsca i podwyższają koszt publikacji, toteż nie należy ich nadużywać. Nie należy sięgać do wykresu przy prezentacji danych pomoc- 228 Rozdział 9. Doniesienie naukowe • • • • • niczych (np. struktury próbki). Zwykle zbędne jest ilustrowanie wykresem wyników jednego pomiaru w dwóch czy trzech grupach porównawczych: czytelnik może bez trudu uchwycić stosunki między kilkoma liczbami i bez takiej pomocy. Forma graficzna wykresu nie powinna być bardziej złożona niż jego treść. Dzięki graficznym programom komputerowym można dziś bez trudu tworzyć wykresy trójwymiarowe, kolorowe, ze specjalnymi symbolami (np. sylwetkami dzieci) zamiast konwencjonalnych słupków itp. Nadużywanie tych możliwości w doniesieniu naukowym (np. przedstawianie wykresu liniowego w postaci trójwymiarowej wstęgi lub warstwy) jest dowodem złego smaku. Rodzaj wykresu nie jest obojętny wobec jego treści. Najczęstszym błędem jest używanie wykresu liniowego zamiast słupkowego. Gdybyśmy zilustrowali wykresem liniowym różnice między grupami dziewczynek i chłopców, to punkty leżące między skrajami odcinka nie odpowiadałyby żadnym zbiorowościom. Wykresu liniowego nie należy też używać, gdy porównujemy ze sobą jedynie grupy skrajne: bezpodstawnie sugeruje on bowiem, że w grupie środkowej zmienna zależna przyjmuje pośrednią wartość. Osie wykresu nie muszą zaczynać się od zera. Jeśli zakres zmiennej zależnej wynosi na przykład 0,5–0,9, to rozpoczęcie osi Y od zera sprawi, że na wykresie będzie mnóstwo pustego miejsca, a różnice między grupami staną się mniej wyraźne. Wykres powinien dać się zrozumieć niezależnie od tekstu. Pomagają w tym: przemyślany podpis (odpowiednik tytułu tabeli), opisy obu osi i legenda (na rys. 9.4 legendę zastępują nazwy prowincji na wykresie). Wykres nie zastępuje tabeli i statystycznej analizy istotności związku. Na wykresie nie widać dokładnych wartości zmiennych, a co ważniejsze – nie ma informacji o zróżnicowaniu wyników. Niejeden związek wyraźnie widoczny na wykresie rozwiewa się, gdyż różnice między grupami okazują się mniejsze niż różnice między osobami, które tworzą te grupy. Interpretacja Prezentacja wyników badania („co wyszło?”) i interpretacja tych wyników („o czym to świadczy?”) to dwie odmienne czynności. W doniesieniach z badań jakościowych ta odmienność jest zaznaczona stylistycznie, a czasem i graficznie. W jednym z doniesień (Konarzewski, 1999) cytuję następującą wymianę słowną między nauczycielką i jej uczennicą Moniką: Nauczycielka (czyta treść zadania): Rozwinąć zdanie pojedyncze w zdanie złożone współrzędnie. Monika (nie pytana, z miejsca): Interesuje mnie akcja powieści i jej bohaterowie. Nauczycielka: No tak. Tak robiliście, a to jest zdanie pojedyncze. Cytat ten (złożony mniejszą czcionką) opatruję jednozdaniową interpretacją wydrukowaną czcionką zwykłej wielkości: „Wzmianka o powszechności błędu zmniejsza jego ciężar”. Widać, że oba fragmenty tekstu zasadniczo różnią się od siebie. Pierwszy relacjonuje fakty: co powiedziano na pewnej lekcji. Drugi informuje, o czym – zdaniem badacza – fakty te świadczą: sugeruje, że intencją nauczy- Kompozycja 229 cielki było ochronić samoocenę lub pozycję Moniki, która błędnie odpowiedziała na pytanie. Ponieważ badacz może się mylić w interpretacji, ale nie w relacjonowaniu tego, co widział, wplecenie obu fragmentów w jednolitą narrację trzeba uznać za niepoprawne. W badaniach ilościowych zasada ta ulega wzmocnieniu: najpierw referuje się wyniki, potem (często w odrębnej części) podaje ich interpretację. Interpretacja polega na: • odniesieniu wyników do hipotezy lub pytania i wyciągnięciu wniosków, które popierają, kwestionują lub modyfikują twierdzenia teorii, ukazują nowe perspektywy teoretyczne czy wreszcie rekomendują lub odrzucają rozwiązanie praktyczne, • ocenie prawomocności wniosków. W doniesieniu z badań weryfikujących teorię interpretacja polega na określeniu relacji między wynikiem a hipotezą, a zatem i teorią, z której ją wyprowadzono. Jeśli wynik potwierdza hipotezę, wystarczy sformułować stosowny wniosek i przejść do oceny jego prawomocności. Uzyskanie wyniku, który jest statystycznie istotny, ale odwrotny do przewidywanego, często pobudza badacza do gorączkowego wymyślania ubocznych okoliczności, które miałyby tłumaczyć, dlaczego wynik nie jest taki, jak trzeba, czyli do prób unieważnienia go. To zły zwyczaj. Wyraża się w nim postawa z gruntu nienaukowa: że z góry wiadomo, jak się rzeczy mają. Skoro liczy się tylko jeden, oczekiwany wynik, prowadzenie badań traci sens. Dlatego wynik przeciwny do oczekiwanego należy traktować jako wyzwanie do przemyślenia teoretycznych podstaw hipotezy. Jeśli zostanie podjęte, pozorna porażka może podsunąć pomysły teoretyczne i hipotezy, które otworzą nowy rozdział poznania naukowego. Najmniej wygodna jest pozycja autora, który nie uzyskał wyników istotnych statystycznie. Może to znaczyć, że w zbadanej rzeczywistości nie ma przewidywanych związków, albo są, tylko źle ich szukano. W wielu wypadkach nie można, niestety, rozstrzygnąć, które z tych wyjaśnień jest trafniejsze. Dlatego badacz powinien poprzestać na konkluzji, że badanie nie dostarczyło podstaw do przyjęcia hipotezy. Zarówno powątpiewanie o teorii, jak i zapewnianie, że badanie ujawniłoby oczekiwany związek, gdyby tylko próba była większa, test lepiej dobrany, badani bardziej zaangażowani itp., trzeba uznać za błędne. Osobne miejsce trzeba poświęcić teoretycznym lub metodologicznym implikacjom nieoczekiwanych wyników pobocznych – jest bowiem możliwe, że są one ścieżką do interesującego odkrycia. Należy jednak pamiętać, że związkom ujawnionym „przy okazji” nie przysługuje ten sam poziom pewności, co związkom opisanym w hipotezie, i że muszą być one potwierdzone w nowym, specjalnie w tym celu zaplanowanym badaniu. Jeśli badanie miało charakter eksploracyjny, interpretacja polega na ukazaniu perspektyw teoretycznych, które otwierają wyniki, a nawet naszkicowaniu nowej teorii. Weryfikacja tej teorii wymaga przeprowadzenia niezależnych badań weryfikacyjnych. Wyniki badania praktycznego interpretuje się w odniesieniu do potrzeb badanej praktyki. Trzeba pamiętać, że praktyka jest zawsze bardziej złożona niż ta jej 230 Rozdział 9. Doniesienie naukowe część, którą uchwyciliśmy w badaniu, dlatego przed rekomendowaniem określonego rozwiązania trzeba się zastanowić: • Czy wynik jest dostatecznie mocny? Błędem jest utożsamianie istotności statystycznej wyniku z istotnością praktyczną. Wynik istotny w pierwszym znaczeniu może być nieistotny w drugim, jeśli różnice między grupami lub współczynniki determinacji są niewielkie. • Czy w istniejącej praktyce są zasoby niezbędne do powodzenia rekomendowanych rozwiązań? Sukces eksperymentu metodycznego mógł się wziąć stąd, że brali w nim udział nauczyciele o szczególnych kwalifikacjach lub że zastosowano specjalne wyposażenie. Czy można znaleźć (lub wykształcić) takich nauczycieli w przeciętnej szkole? Czy można zakupić wyposażenie? • Jakich zmian należałoby dokonać w dziedzinie prawa, organizacji i finansowania praktyki, by rekomendowane rozwiązanie wprowadzić w życie? • Jaki byłby koszt wprowadzenia wszystkich tych zmian w planowanej skali? • Jakie skutki uboczne pociągnęłyby za sobą wszystkie te zmiany? Czy nie spowodowałyby lawiny zakłóceń i trudności, które przysłoniłyby korzyści z wprowadzenia rekomendowanego rozwiązania? Doniesienia pedagogiczne często grzeszą przeciw tym zasadom. Wystarczy, że badacz zbierze garść danych, które zdają się przemawiać za pewnym rozwiązaniem, a już gromko domaga się przebudowy praktyki oświatowej w skali całego kraju. Trudno nie zauważyć, że obniża to autorytet rekomendacji naukowych. Ostatnim ogniwem interpretacji jest ocena prawomocności wniosków. Zazwyczaj przypomina ono dyskusję z wyimaginowanym krytykiem. Badacz podnosi różne zarzuty przeciw swoim wnioskom – jedne uznaje, inne odpiera. Jeśli próba była niereprezentatywna, trafność zewnętrzna sytuacji eksperymentalnej – wątpliwa, przebieg badania zakłócony przez zewnętrzne okoliczności, pomiary mało rzetelne, wyniki kapryśne (np. efekt ujawnił się w jednej zmiennej zależnej, a w drugiej, na pozór równoważnej, nie) itd. – trzeba o tym szczerze napisać. Mocnym świadectwem prawomocności wniosków jest zgodność wyników z wynikami wcześniejszych badań. Interpretację często kończy stereotypowe zdanie: „Ostateczne potwierdzenie tych wniosków wymaga dalszych badań”. Należy się go wystrzegać, chyba że towarzyszą mu konkretne sugestie, w jakim schemacie przeprowadzić nowe badanie, jak udoskonalić pomiary itp. Przypisy i spis literatury W życiu codziennym bezustannie operujemy sądami pochodzącymi z nieznanego źródła. W życiu naukowym jest inaczej: każdy sąd nosi swoją metrykę, dzięki czemu zawsze wiemy, skąd to wiemy. Dlatego w doniesieniu naukowym obowiązuje zasada podawania źródła przytaczanych sądów. Załóżmy, że autor pisze: „W klasach początkowych dzieci rzadko zadają nauczycielowi pytania”. Zasada podawania źródła wymaga, by poinformował on czytelnika, skąd pochodzi ten sąd: • Jeśli jest to powszechnie uznany fakt lub wniosek autora z własnych, przypadkowych obserwacji, wystarczy poprzedzić go odpowiednim frazą: „Powszechnie wiadomo, że...” lub: „Jak wynika z moich obserwacji...”. Kompozycja 231 • Jeśli sąd jest wnioskiem z badania zreferowanego w doniesieniu, z którym autor zapoznał się osobiście, trzeba podać podstawowe informacje o tym doniesieniu, tak by czytelnik mógł je odszukać. Są to przynajmniej: inicjał imienia i nazwisko autora, tytuł, nazwa wydawnictwa i data wydania. • Jeśli sąd jest wnioskiem z badania znanego autorowi z drugiej ręki (z monografii lub podręcznika), trzeba podać nazwisko autora oryginalnego doniesienia i źródło, z którego korzystał autor. Zwyczaj odsyłania do oryginalnego źródła jest godny potępienia z dwóch powodów. Po pierwsze, stwarza fałszywe wrażenie erudycji autora, zwłaszcza gdy źródła są trudno dostępne lub obcojęzyczne. Strojenie się w nie swoje piórka często kończy się kompromitacją. Pewien autor powołując się ze swadą na poglądy D. Hume’a, odesłał czytelnika do źródła „Soczinienia w dwoch tomach. Moskwa 1965”, czym zdradził, że jego kontakt z wielkim filozofem angielskim ograniczył się do kilku wzmianek w popularnej książce Odkrycie „ja” I. Kona. Podobnie kompromituje się autor, gdy w tytułach jego obcojęzycznych źródeł roi się od błędów ortograficznych. Drugi powód podawania tylko tych źródeł, które się miało w ręku, to ten, że jeśli źródło mylnie lub stronniczo informuje o oryginalnym doniesieniu, błędy nie idą na karb autora. Podawanie źródła w tekście (np. „I. Kon w książce Odkrycie «ja», wydanej przez PIW w 1987 r. cytuje D. Hume’a, który twierdzi, że...”) byłoby bardzo niewygodne, toteż wymyślono przypisy i odsyłacze. W literaturze naukowej stosuje się dwa standardy przypisów: europejski lub amerykański. Standard europejski W standardzie europejskim w miejscu tekstu, gdzie powinna się znaleźć informacja o źródle, umieszcza się odsyłacz (najczęściej cyfrę, rzadziej gwiazdkę lub inny symbol graficzny), pełną zaś informację – w przypisie, który znajduje się u dołu strony lub na końcu doniesienia. To drugie rozwiązanie jest znacznie mniej wygodne i nie należy go stosować. Każdy przypis jest poprzedzony numerem lub symbolem graficznym odsyłacza, dzięki czemu nie ma obawy o pomyłkę. W polskim piśmiennictwie naukowym nie ma jednego standardu przypisu, toteż autor ma tu pewną swobodę. Powinien jednak przyjąć formę najbardziej przejrzystą i oszczędną, a co najważniejsze – trzymać się jej w całym doniesieniu. Oto przykład przypisów stosowanych w Wydawnictwie Naukowym PWN. Cyfra w tekście głównym (tu: 3): W klasach początkowych dzieci rzadko zadają nauczycielowi pytania3. odsyła do przypisu na dole strony: 3 E. Putkiewicz, Proces komunikowania się na lekcji. Warszawa 1990, WSiP. Jak widać, na przypis składają się: inicjał imienia – kropka – nazwisko – przecinek – tytuł wyróżniony pochyłym drukiem (kursywą) – kropka – miejsce wydania – rok wydania – przecinek – nazwa wydawcy – kropka. Trzeba zwrócić uwagę, że tytuł nie jest wzięty w cudzysłów i zawsze kończy się kropką, nazwa wydawcy jest oddzielona przecinkiem od miejsca i roku wydania, a cały przypis jest zamknięty kropką. 232 Rozdział 9. Doniesienie naukowe W omawianym standardzie obowiązują ponadto różne zasady szczegółowe. • Jeśli autor powołuje się na polski przekład obcojęzycznej książki, jest dobrym obyczajem podawać w pierwszym przypisie nazwisko tłumacza: 5 D. Riesman, Samotny tłum. Przeł. J. Strzelecki. Warszawa 1971, PWN. • Jeśli w tekście głównym znajduje się cytat, to w przypisie należy podać stronę źródła, z której został wzięty: 15 E. Putkiewicz, Proces komunikowania się na lekcji. Warszawa 1990, WSiP, s. 51. • Jeśli źródłem jest artykuł w czasopiśmie, to przypis wygląda tak: A. Dumaret, Poziom umysłowy dzieci z rodzin o niskim statusie społeczno-zawodowym wychowywanych w trzech różnych środowiskach. „Psychologia Wychowawcza” 1988, 4, 408–417, s. 409. 7 Tytuł czasopisma jest wzięty w cudzysłów, a liczby po tytule oznaczają rok, numer i strony, na których znajduje się cały artykuł. Nie stosuje się ukośników (np. 1988/4), skrótów „nr”, „str.” itp. Ostatni fragment powyższego przypisu („s. 409”) świadczy o tym, że odsyłacz stoi przy cytacie. • Jeśli źródłem jest artykuł znajdujący się w pracy zbiorowej, przypis wygląda tak: Z. Melosik, Pragmatyzm i edukacja w Stanach Zjednoczonych. W: J. Rutkowiak (red.) Odmiany myślenia o edukacji. Kraków 1995, IMPULS. 20 Nigdy nie należy pomijać w takich przypadkach nazwiska autora i tytułu artykułu, skąd pochodzi sąd omawiany w tekście. Dwa ostatnie przypisy w postaci: 7 A. Dumaret „Psychologia Wychowawcza” 1988, 4, 408–417, s. 409. J. Rutkowiak (red.), Odmiany myślenia o edukacji. Kraków 1995, IMPULS. 20 są rażąco błędne. • Jeśli autor w różnych miejscach tekstu powołuje się na to samo źródło, pełną informację bibliograficzną podaje się tylko w pierwszym przypisie. Następne mają formę skróconą: 2 J. Piaget, dz. cyt., s. 12. albo gdy autor wcześniej powoływał się na kilka dzieł tego samego autora: 2 J. Piaget, Dokąd zmierza..., s. 12. Konwencja ta jest bardzo niewygodna w książkach, ponieważ zmusza czytelnika, który by chciał w środku lektury zajrzeć do źródła, do mozolnego przeszukiwania wcześniejszych przypisów. Przy kilku sąsiadujących ze sobą odsyłaczach do tego samego źródła drugi i następne przypisy skracają się jeszcze bardziej: 13 Tamże, s. 123. „Tamże” oznacza źródło wymienione w poprzednim przypisie. Takim przypisem trzeba opatrzyć każdy cytat, ale już nie każdy sąd referowanego dzieła. Zamiast kilku kolejnych „Tamże”, odsyłających do jednej czy dwóch sąsiadujących ze sobą stron, wystarczy jedno: „Tamże, s. 123–124” lub: „Tamże, s. 123n”. Litera „n” oznacza: „i następne”. Niestaranne operowanie skróconym przypisem prowadzi do błędnych odwołań. W standardzie europejskim zazwyczaj nie zamieszcza się alfabetycznego zestawienia źródeł na końcu pracy, ponieważ powielałoby przypisy. Zmniejsza to koszty druku, ale bardzo utrudnia życie czytelnikowi, który chciałby sobie szybko Kompozycja 233 wyrobić opinię o tym, czy doniesienie uwzględnia klasyczną i najnowszą literaturę przedmiotu. Standard amerykański W standardzie amerykańskim w miejscu tekstu, gdzie powinna się znaleźć informacja o źródle, umieszcza się odsyłacz mający szczególną postać. Składa się on z nazwiska autora (bez inicjału imienia) i roku wydania tekstu wziętych w nawias, np. (Kowalski, 1993). Jeśli nazwisko autora pojawia się w tekście, w nawias bierze się tylko rok wydania, np. „Podobne wyniki uzyskał Kowalski (1993)”. Jeśli źródło ma wielu autorów, w odsyłaczu podaje się nazwisko pierwszego i skrót „i in.”, np. (Kowalski i in., 1993). Jeśli dwaj cytowani autorzy mają to samo nazwisko, w odsyłaczu dodaje się inicjał imienia. Jeśli wykorzystuje się kilka tekstów tego samego autora wydanych w tym samym roku, to do roku wydania dodaje się literę (np. Kowalski, 1993a). Odsyłacz stojący przy cytacie podaje ponadto numer strony oryginału, z której wzięto cytat, np. (Kowalski, 1993, s. 15). Każdy odsyłacz kieruje do alfabetycznego zestawienia źródeł na końcu doniesienia. Zestawienie lepiej zatytułować „Literatura cytowana” (references) lub krócej „Literatura” zamiast „Bibliografia”, ponieważ to drugie słowo jest zarezerwowane dla kompletnych spisów piśmiennictwa spełniającego pewne kryterium (np. bibliografia narodowa, dziedzinowa lub osobowa). W zestawieniu literatury cytowanej nie oddziela się książek od artykułów. Źródło w zestawieniu jest opisane inaczej niż w przypisie. By ułatwić czytelnikowi szybkie odszukanie źródła na podstawie odsyłacza, opis zaczyna się od nazwiska autora, inicjału imienia i roku wydania: Putkiewicz, E. (1990). Proces komunikowania się na lekcji. Warszawa: WSiP. Przeszukiwanie zestawienia ułatwia wysunięcie pierwszego wiersza, zamiast zwyczajowego wcięcia. Kursywą składa się tytuł książki lub czasopisma, ale nie tytuł rozdziału w pracy zbiorowej ani tytuł artykułu: Dumaret A. (1988). Poziom umysłowy dzieci z rodzin o niskim statusie społeczno-zawodowym wychowywanych w trzech różnych środowiskach. Psychologia Wychowawcza, 4, 408–417. Standard amerykański jest wygodny w doniesieniach odwołujących się do wielu artykułów i książek. Na jednej stronie można bez trudu zmieścić odsyłacze do kilkunastu źródeł. W standardzie europejskim przypisy zajęłyby większą część strony. Czytelnik dostaje też kompletne zestawienie wykorzystanych w doniesieniu źródeł. Aneks Ta część doniesienia występuje głównie w pracach dyplomowych i monografiach. W aneksie zamieszcza się w pełnym brzmieniu instrukcje wprowadzające oddziaływania eksperymentalne, materiał bodźcowy, arkusze obserwacji, kwestionariusze itp. Jeśli zamieszcza się także zbiorcze zestawienie surowych danych, trzeba pamiętać o usunięciu nazwisk badanych osób i innych nazw własnych pozwalających rozpoznać teren badania. 234 Rozdział 9. Doniesienie naukowe Język Język doniesienia powinien być prosty i komunikatywny. Należy unikać długich, wielokrotnie złożonych zdań, w których łatwo gubi się myśl, a często i poprawność gramatyczna. Początkujący autorzy powinni pamiętać, że czytelność tekstu znacznie zwiększa podzielenie go na akapity. Akapit to kilka zdań zaczynających się od wciętego wiersza. Każdy akapit rozwija jedną myśl. Nowy akapit sygnalizuje czytelnikowi zmianę tematu. Akapity nie powinny być zbyt długie, ale – poza wyjątkowymi wypadkami – powinny zawierać więcej niż jedno zdanie. Wielką przeszkodą w lekturze bywa słownictwo. Ważne dla tematu terminy specjalistyczne trzeba wprowadzać za pomocą jawnej definicji (np.: „Dysleksją nazywamy uporczywe trudności w rozpoznawaniu słów i rozumieniu pisanego tekstu, których nie można przypisać obniżonej inteligencji, defektom sensorycznym i neurologicznym, niekorzystnym warunkom środowiskowym oraz brakowi okazji do nauczenia się czytania”). Zakładanie, że czytelnik używa terminu w tym samym znaczeniu co autor lub że się domyśli znaczenia z kontekstu, to prosta droga do groźnych nieporozumień. Wielu autorów z lenistwa albo z chęci zaimponowania czytelnikowi szpikuje swoje doniesienia wyrazami obcymi. Pół biedy, gdy autor używa obcych słów, które mają dokładne odpowiedniki w języku polskim – np. pisze: „uczniowie kontestują”, zamiast: „sprzeciwiają się”, „perspektywa temporalna”, zamiast „czasowa” itp. Czytelnik niepewny znaczenia obcego wyrazu ma do dyspozycji słownik wyrazów obcych. Gorzej, gdy czytelnik może podejrzewać, że obcy wyraz jest używany przez autora w znaczeniu szczególnym, niepokrywającym się ze znaczeniem polskiego odpowiednika. Tak jest z wieloma terminami modnymi ostatnio w pedagogice. Czy ewaluacja znaczy tyle samo, co ocenianie, a jeśli nie, to na czym polega różnica? Czy kompetencja to upełnomocnienie, czy raczej biegłość w czymś, a jeśli to drugie, to czy kompetencja znaczy tyle, co umiejętność, czy nie? Czy akredytacja to tyle, co uprawnienie (np. dziennikarza do relacjonowania jakiegoś oficjalnego wydarzenia), a jeśli tak, to co może znaczyć wyrażenie „akredytacja studiów”? Skrajnym wyrazem tej maniery są zwykłe zapożyczenia. Zdarza się na przykład, że autor pisze o „curriculum kształcenia uczniów zdolnych”, informując w przypisie, że nie będzie używać zadomowionego „programu kształcenia”, ponieważ nieprecyzyjnie oddaje jego myśl. Nie próbuje jednak jawnie zdefiniować nowego słowa ani wyłożyć różnic znaczeniowych między curriculum a programem, toteż tylko powiększa zamęt terminologiczny. Gdy czytelnik sam musi sobie odpowiadać na pytania o znaczenia słów i wyrażeń, to w zależności od tych odpowiedzi poszczególne zdania tekstu tracą albo zmieniają znaczenie. Znaczeniowo otwarty, mieniący się i pulsujący tekst staje się raczej zadaniem hermeneutycznym niż doniesieniem naukowym. Niejednokrotnie nawet sam autor nie potrafi ściśle odpowiedzieć na pytania o sens używanych przez siebie terminów. Ujawnia to istotną słabość nauk o wychowaniu. To, co zrazu wygląda na nową myśl, często okazuje się jedynie nową Język 235 terminologią. Nowe słowa, frazy i zdania są przedmiotem gorliwego naśladowania, a im bardziej stają się powszechne, tym rzadziej skłaniają do refleksji nad swoim znaczeniem. „Tak się teraz mówi” – krótko odpowiada autor zagadnięty o sens swojego zdania. Szukanie polskich odpowiedników obcojęzycznych terminów jest godne pochwały, już choćby dlatego że musi mu towarzyszyć namysł nad sensem teoretycznym słów. Autor, który przestudiowawszy anglojęzyczne doniesienia o zjawisku zwanym priming, pisze we własnym doniesieniu o bodźcach primingowych, ogranicza krąg czytelników do znawców tej literatury, a przy tym psuje polszczyznę. Na szczęście ktoś przemyślał sens tego terminu i wpadł na zgrabny odpowiednik „torowanie”. Jeszcze lepsze, bo bliższe oryginałowi jest „poprzedzanie”. Torowanie czy poprzedzanie nie tylko poddają się polskim regułom fleksyjnym i słowotwórczym, ale także pomagają czytelnikowi uchwycić i zapamiętać nowe pojęcie psychologiczne dzięki swoim potocznym znaczeniom. Polskie odpowiedniki obcych terminów specjalistycznych powinny być zarazem wygodne i trafne, dlatego ich wymyślanie jest sztuką. Niewygodne są obszerne peryfrazy (omówienia), jak próba oddania oryginalnego terminu advance organizer D. Ausubela jako „czynnik poprzedzający organizujący materiał”, ale wygodniejsze „wstępne uporządkowanie” jest zupełnie nietrafne. Ważne jest, by polskie odpowiedniki nie budziły skojarzeń niezgodnych z oryginałem. Jednemu z autorów zdarzyło się pójść za daleko w tłumaczeniu nazw dwóch typów testów osiągnięć szkolnych: norm-referenced i criterion-referenced. W języku angielskim terminy te są wyraźnie przeciwstawne ze względu na to, co jest punktem odniesienia dla oceny indywidualnego wyniku: rozkład wyników w populacji (statystyczna norma) czy ustalony wzór wykonania (kryterium). Polskie odpowiedniki: „testy różnicujące” i „testy sprawdzające” nie tylko nie nawiązują do tego rozróżnienia, ale, co gorsza, sugerują zupełnie inne, niezbyt zrozumiałe przeciwstawienie. Najgorzej jest, gdy w powodzi obcych słów ginie sens zdania. Co ma na myśli autor, gdy pisze, że „chce uchwycić dynamikę zmian transsubiektywnych”? Czy chce zbadać siły (ang. dynamics) wywołujące zmiany, czy opisać kierunek i tempo zmian? Co może znaczyć przymiotnik „transsubiektywny” – coś, co znajduje się ponad, poza, a może między jednostkami? Jeśli w tekście jest wiele takich zagadek, czytelnik przestaje zwracać uwagę na poszczególne zdania i próbuje intuicyjnie uchwycić myśl autora, co rzadko kończy się sukcesem. Autorowi, którego wysiłek idzie na marne, pozostaje wierzyć, że czytelnicy nie dorośli do poziomu jego tekstu. Takie sposoby pisania i czytania szybko się upowszechniają. Autorzy coraz częściej wytwarzają łańcuchy z cudzoziemska brzmiących słów, za którymi nie kryje się żadna zgoła myśl. Czytelnicy coraz częściej prześlizgują po nich, a sztuka czytania statarycznego zanika. Tekst przestaje być komunikatem, ma raczej zdobić autora. Wskutek tego kultura komunikowania się w społeczności naukowej ulega erozji, a sama dyscyplina podupada. Na Zachodzie dużą wagę przywiązuje się do „politycznej poprawności” języka naukowego. Od autora wymaga się, by unikał słów i zwrotów, które pobudzają stereotypy, np. związane z rolami płciowymi czy stosunkami etnicznymi. Jeśli autor 236 Rozdział 9. Doniesienie naukowe pisze o nauczycielu, nie może napisać „jego praca”, ponieważ budziłoby to stereotyp męskiej dominacji. Polityczna poprawność wymaga wyrażenia: „jego lub jej praca” lub rodzajowo neutralnego: „ich praca”. W języku polskim taka zasada jest nie do przyjęcia, bo musiałaby też objąć rzeczowniki („nauczyciel lub nauczycielka”). Można jednak zganić autora doniesienia o edukacji początkowej, który pisze o nauczycielach, zamiast nauczycielkach. Można też wymagać, by autor unikał słów negatywnie konotujących pewne zbiorowości. Zamiast „kaleka” lepiej napisać „niepełnosprawny”, choć z pewnością nie „sprawny inaczej”, bo miejsce tego określenia jest raczej w kabarecie. Język doniesienia nie powinien zanadto eksponować postaci autora. Nie bez powodu utarło się pisać doniesienia stylem bezosobowym: raczej „Rodziców proszono o wypełnienie kwestionariusza” niż: „Poprosiłem rodziców o wypełnienie kwestionariusza”. Trzeba się jednak wystrzegać sztuczności. Tam, gdzie autor wyraża osobiste stanowisko, np. w zdaniu: „Proponuję inną klasyfikację”, różne próby ominięcia „ja” („Proponujemy inną klasyfikację”, „Autor proponuje inną klasyfikację” lub „Proponuje się inną klasyfikację”) wydają się nadęte. Autor nie powinien się chwalić, pisząc na przykład, że „dobór metod pomiaru został głęboko przemyślany” – takie oceny lepiej pozostawić recenzentom. Nie powinien też w doniesieniu badawczym używać aluzji, ironii czy persyflażu. Ponieważ czytelnik nie jest nastawiony na takie figury stylistyczne, często bierze je w dosłownym znaczeniu i odbiera myśl autora na opak. Lepiej zostawić je żurnalistyce. LITERATURA CYTOWANA Ajdukiewicz K. (1965). Logika pragmatyczna. Warszawa: PWN. Allen K. E., Hart B. M., Buel J. S., Harris F. R. i Wolf M. M. (1964). Effects of social reinforcement on isolate behavior of a nursery school child. Child Development, 35, 511–518. American Psychological Association (1994). Publication manual (wyd. 4). Washington: APA. Anastasi A. i Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych. Ariès Ph. (1995). Historia dzieciństwa. Dziecko i rodzina w dawnych czasach. Przeł. M. Ochab. Gdańsk: Marabut. Ary D., Jacobs L. Ch. i Razavieh A. (1996). Introduction to research in education (wyd. 5). Fort Worth: Harcourt Brace. Benedict R. (1966). Wzory kultury. Przeł. J. Prokopiuk. Warszawa: PWN. Blalock H. M. (1975). Statystyka dla socjologów. Warszawa: PWN. Bock R. D. (1975). Multivariate statistical methods in behavioral research. New York: McGraw-Hill. Bogdanowicz M. (1989). Metoda dobrego startu w pracy z dzieckiem od 5 do 10 lat. Warszawa: WSiP. Borenstein M. i Cohen J. (1989). Statistical power analysis. Hillsdale: Lawrence Erlbaum. Bruner J. S. (1990). Życie jako narracja. Kwartalnik Pedagogiczny, 4, 3–17. Brzeziński (1985). Ocena efektu eksperymentalnego w układach eksperymentalnych analizy wariancji. W: E. Paszkiewicz i T. Szustrowa (red.), Materiały do nauczania psychologii (seria III, t. 4). Warszawa: PWN. Brzeziński J. (1997). Metodologia badań psychologicznych. Warszawa: PWN. Brzeziński J., Stachowski R. (1981). Zastosowanie analizy wariancji w eksperymentalnych badaniach psychologicznych. Warszawa: PWN. Burgess R. G., Pole Ch. J., Evans K. i Priestley Ch. (1995). Four studies from one or one study from four? Multi-site case study research. W: A. Bryman, R. G. Burgess (red.), Analyzing qualitative data. London: Routledge. Campbell D. T. i Stanley J. C. (1966). Experimental and quasi-experimental designs for research. Chicago: Rand McNally. Cartwright D. P. (1965). Zastosowania analizy treści. W: S. Nowak (red.), Metody badań socjologicznych. Warszawa: PWN. Clauss G., Ebner H. (1972). Podstawy statystyki dla psychologów, pedagogów i socjologów. Warszawa: PZWS. Craik F. I. M. i Tulving E. (1975). Depth of processing and the retention of words in episodic memory. Journal of Experimental Psychology: General, 104, 268–294. Cronbach L. (1982). Designing evaluations of educational and social programs. San Francisco: Jossey-Bass. Cronbach L. and Associates (1980). Toward reform and program evaluation: Aims, methods, and institutional arrangements. San Francisco: Jossey-Bass. Czyżewski M. i Rokuszewska-Pawełek A. (1989). Analiza autobiografii Rudolpha Hössa. W: A. Sułek, K. Nowak i A. Wyka (red.), Poza granicami socjologii ankietowej. Warszawa: PWN. Denzin N. K. (1989). The research act (wyd. 3). Englewood Cliffs: Prentice Hall. 238 Denzin H. K. i Lincoln Y. S. (red.) (1994). Handbook of qualitative research. Thousand Oaks: Sage. Dewey J. (1988). Jak myślimy? Przeł. Z. Bastgenówna. Warszawa: PWN. Eby J. W. i Smutny J. F. (1998). Jak kształcić uzdolnienia dzieci i młodzieży. Przeł. K. Konarzewski. Warszawa: WSiP. Edwards D., Potter J. (1992). Discursive psychology. London: Sage. Eysenck H. J. (1965). Sens i nonsens w psychologii. Warszawa: PWN. Ferguson G. A. i Takane Y. (1999). Analiza statystyczna w psychologii i pedagogice. Przeł. M. Zagrodzki. Warszawa: PWN. Flick U. (1998). An introduction to qualitative research. London: Sage. Forgas J. P. (1979). Social episodes. The study of interaction routines. London: Academic Press. Freund J. E. (1968). Podstawy nowoczesnej statystyki. Warszawa: PWE. Frydrychowicz A. (1984). Rysunek rodziny. Poznań: Wyd. UAM. Glass G. V., McGaw B. i Smith M. L. (1981). Meta-analysis in social research. Beverly Hills: Sage. Groeben N. (1990). Subjective theories and the explanation of human action. W: G. R. Semin, K. J. Gergen (red.) Everyday understanding: Social and scientific implications. London: Sage. Guba E., Lincoln Y. (1981). Effective evaluation. San Francisco: Jossey-Bass. Hambleton R. K., Swaminathan H. i Rogers H. J. (1991). Fundamentals of Item Response Theory. Newbury Park: Sage. Hammond P. (red.) (1964). Sociologists at work. New York: Basic Books. Hansen M. H, Hurwitz W. N. i Madow W. G. (1956). Sample survey methods and theory. New York: Wiley. Hartmann D. P. (1969). Influence of symbolically modelled instrumental aggression and pain cues on aggressive behavior. Journal of Personality and Social Psychology, 11, 280– 288. Hyde J. S., Fennema E. i Lamon S. J. (1990). Gender differences in mathematics performance: A meta-analysis. Psychological Bulletin, 107, 139–155. Jessor R., Chase J. A. i Donovan J. E. (1980). Psychosocial correlates of marijuana use and problem drinking in a national sample of adolescents. American Journal of Public Health, 70, 604–613. Kaja B. (1988). Osobowość dziecka w wieku przedszkolnym w sytuacji porozwodowej. Psychologia Wychowawcza, 4, 418–425. Karpiński J. (1985). Przyczynowość w badaniach socjologicznych. Warszawa: PWN. Kayser M. i Wagemann P.-A. (1998). Uczyliśmy w szkole waldorfskiej. O historii i praktyce pewnej pedagogicznej utopii. Przeł. M. S. Szymański. Warszawa: WSiP. Kazdin A. i Kopel S. (1975). On resolving ambiguities of the multiple baseline design: Problems and recommendations. Behavior Therapy, 6, 601–608. Kirk J. L. i Miller M. (1986). Reliability and validity in qualitative reseach. Beverly Hills: Sage. Kmita J. (1973). Wykłady z logiki i metodologii nauk. Warszawa, PWN. Kodeks etyczno-zawodowy psychologa (1992). Warszawa: PTP. Konarzewski K. (1985). Pojęcie niezmiennika w myśleniu dziecka. Przegląd Psychologiczny, 28(3), 759–772. Konarzewski K. (1995a). Problemy i schematy. Pierwszy rok nauki szkolnej dziecka. Warszawa: Żak. Konarzewski K. (1995b). Czy pedagogika wybić się może na naukowość? W: J. Rutkowiak (red.), Odmiany myślenia o edukacji. Kraków: Impuls. 239 Konarzewski K. (1999). Nie zawsze zgoda buduje, a niezgoda rujnuje. Studia Psychologiczne, 37, 199–229. Korporowicz L. (red.) (1997). Ewaluacja w edukacji. Warszawa: Oficyna Naukowa. Kruszewski K. (1987). Zmiana i wiadomość. Perspektywa dydaktyki ogólnej. Warszawa: PWN. Kuhn Th. (1968). Struktura rewolucji naukowych. Przeł. S. Amsterdamski. Warszawa: PWN. Labov W. (1969). The logic of nonstandard English. Georgetown Monographs on Language and Linguistics, 22, 1–31. Latané B. i Darley J. M. (1970). The unresponsive bystander: Why doesn’t he help? New York: Appleton-Century-Crofts. Linden van der W. J. i Hambleton R. K. (red.) (1997). Handbook of modern Item Response Theory. New York: Springer. Lord F. M. (1962) Estimating norms by item-sampling. Educational and Psychological Measurement, 22, 259–267. Lord, F. M. i Novick, M. R. (1968). Statistical theories of mental test scores. Reading: Addison-Wesley. Lyotard J.-F. (1984). The postmodern condition: A report on knowledge. Manchester: Manchester University Press. Machowski A. (1993). Rzetelność testów psychologicznych. Dwa ujęcia modelowe. Warszawa: PWN. Marody M. (1976). Sens teoretyczny a sens empiryczny pojęcia postawy. Warszawa: PWN. McClelland D. C. (1961). The achieving society. Princeton: Van Nostrand. McLaren P. (1986). Schooling as a ritual performance. Towards a political economy of educational symbols and gestures. London: Routledge and Kegan Paul. Mehan H. (1978). Structuring school structure. Harvard Educational Review, 48(1), 32–64. Mikołajczyk M. i Skarżyńska K. (1976). Artefakty w eksperymentach psychologicznych. Przyczyny i zapobieganie. Przegląd Psychologiczny, 2, 239–274. Miles M. B. i Huberman A. M. (2000). Analiza danych jakościowych. Przeł. S. Zabielski. Białystok: Trans Humana. Mizerek H. (red.) (1997). Ewaluacja w szkole. Olsztyn: Wyd. MG. Morgan D. L. (1998). The focus group guidebook. Thousand Oaks: Sage. Nagel E. (1970). Struktura nauki. Zagadnienia logiki wyjaśnień naukowych. Warszawa: PWN. Nalaskowski A. (1999). Obserwacja a badania ankietowe nad młodzieżą. Edukacja, 1, 52–57. Newcomb Th., Turner R. H., Converse Ph. R. (1970). Psychologia społeczna. Studium interakcji ludzkich. Warszawa: PWN. Niemierko B. (1990). Pomiar sprawdzający w dydaktyce. Teoria i zastosowania. Warszawa: PWN. Nowak S. (1970). Metodologia badań socjologicznych. Warszawa: PWN. Nowakowska M. (1975). Psychologia ilościowa z elementami naukometrii. Warszawa: PWN. Oktaba W. (1980). Metody statystyki matematycznej w doświadczalnictwie (wyd. 3). Warszawa: PWN. Pawłowski Z. (1972). Wstęp do statystycznej metody reprezentacyjnej. Warszawa: PWN. Peshkin A. (1986). God’s choice: The total world of a fundamentalist Christian school. Chicago: University of Chicago Press. Piaget J. (1966). Narodziny inteligencji dziecka. Przeł. M. Przetacznikowa. Warszawa: PWN. Piaget J. (1967). Rozwój ocen moralnych dziecka. Przeł. T. Kołakowska. Warszawa: PWN. Pilch T. (1995). Zasady badań pedagogicznych. Warszawa: Wyd. Żak. Pilkiewicz M. (1973). Techniki socjometryczne. Wprowadzenie do badań. W: L. Wołoszynowa (red.), Materiały do nauczania psychologii (seria 3, t. 2). Warszawa: PWN. 240 Popper K. (1977). Logika odkrycia naukowego. Przeł. U. Niklas. Warszawa: PWN. Popkewitz T. S. (1984). Paradigm and ideology in educational research. The social functions of the intellectual. London: The Falmer Press. Priest S. H. (1996). Doing media research. An introduction. Thousand Oaks: Sage. Rembowski J. (1975). Metoda projekcyjna w psychologii dzieci i młodzieży. Warszawa: PWN. Reykowski J. (1966). Funkcjonowanie osobowości w warunkach stresu psychologicznego. Warszawa: PWN. Richards L. i Richards T. (1995). From filling cabinet to computer. W: A. Bryman, R. G. Burgess (red.), Analyzing qualitative data. London: Routledge. Ritchie J. i Spencer L. (1995). Qualitative data analysis for applied policy research. W: A. Bryman, R. G. Burgess (red.), Analyzing qualitative data. London: Routledge. Robinson W. S. (1951). The logical structure of analytic induction. American Sociological Review, 16, 812–818. Rollins H. A., McCandless B. R. i Thompson M. (1974). Project success environment: An extended application of contingency management in inner-city schools. Journal of Educational Psychology, 66, 167–178. Sanocki W. (1976). Kwestionariusze osobowości w psychologii. Warszawa: PWN. Schmidt F. L. (1995). Co naprawdę oznaczają dane? Wyniki badawcze, metaanaliza i wiedza kumulatywna w psychologii. Czasopismo Psychologiczne, 1 (1–2), 19–31. Scriven M. (1980). The logic of evaluation. Iverness: Edgpress. Shaughnessy J. J. i Zechmeister E. B. (1994). Research methods in psychology (wyd. 3). New York: McGraw-Hill. Sędek G. (1995). Bezradność intelektualna w szkole. Warszawa: Instytut Psychologii PAN. Siegel S. i Castellan N. S. (1988). Nonparametric statistics for the behavioral sciences. New York: McGraw-Hill. Spradley J. P. (1979). The ethnographic interview. New York: Holt, Rinehart and Winston. Stake R. (1980). Program evaluation. Particular responsive evaluation. W: W. Dockrell, D. Hamilton (red.), Rethinking educational research. London: Hodder & Stoughton. Szmatka J. (1989). Małe struktury społeczne. Warszawa: PWN. Walenta K. (1971). Podstawowe pojęcia teorii pomiaru. W: J. Kozielecki (red.), Problemy psychologii matematycznej. Warszawa: PWN. Walford G. (red.) (1991). Doing educational research. London: Routledge. Willis P. (1980). Learning to labour: How working class kids get working class jobs. Hampshire: Gower Publishing. Wolcott H. F. (1990) On seeking and rejecting validity in qualitative research. W: W. Eisner, A. Peshkin (red.), Qualitative inquiry in education: The continuing debate. New York: Teachers College Press. Wolcott H. F. (1997). Ethnographic research in education. W: R. M. Jaeger (red.) Complementary methods for research in education. Washington: AERA. Wood P. (1996). Researching the art of teaching: Ethnography for educational use. London: Routledge. Wragg E. C. (1995). An introduction to classroom observation. London: Routledge. Wyka A. (1990). Ku nowym wzorcom badań społecznych w Polsce. Cechy badań jakościowych w ostatnich latach. Kultura i Społeczeństwo, 1, 17–29. Zaczyński W. (1995). Praca badawcza nauczyciela. Warszawa: WSiP. Zakrzewska M. (1994). Analiza czynnikowa w budowaniu i sprawdzaniu modeli psychologicznych. Poznań: Wyd. UAM.